首页 正文阅读

GPT-5.5 发布,详细解读

emer 2026-04-25
15 0

昨天 4 月 24 日凌晨。
OpenAI 发布 GPT-5.5,是 GPT-5 系列迄今最大更新。

GPT-5.5 发布,详细解读 - 第 1 张图
本次核心变化:用更少的 token。

干更难的活在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 达到了最高智能水平,成本是同级别竞品的一半。

GPT-5.5 发布,详细解读 - 第 2 张图
GPT-5.5 这个模型,目前已向 ChatGPT 付费用户开放

对于更高级别的 GPT-5.5 Pro,则向 Pro、Business、Enterprise 用户开放

API 即将上线,价格大幅上涨,为 $5/$30 (每百万Token),是 5.4 价格的 2 倍

GPT-5.5 发布,详细解读 - 第 3 张图
能力总览:

OpenAI 拿出了一张 9 项核心指标的对比表,横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

GPT-5.5 发布,详细解读 - 第 4 张图
在 Artificial Analysis Intelligence Index(第三方,10 项 eval 加权平均)上,GPT-5.5 在同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型(注意:考虑到 5.5 是 5.4 价格的2倍,所以总价还是更贵了)

GPT-5.5 发布,详细解读 - 第 5 张图
Terminal-Bench 2.0复杂命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真实 GitHub issue 解决:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%,但 Anthropic 承认部分问题存在记忆化

Expert-SWE内部长周期编码任务,中位人类完成时间 20 小时:73.1%,vs GPT-5.4 的 68.5%

GPT-5.5 发布,详细解读 - 第 6 张图
在 Codex 里,GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K

知识工作:
coding 之外,GPT-5.5 在日常电脑操作和知识工作上的提升同样明显

GDPval44 个职业知识工作测试,胜出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型独立操作真实电脑环境:78.7%,vs GPT-5.4 的 75.0%

Tau2-bench Telecom复杂客服工作流,无 prompt 调优:98.0%,vs GPT-5.4 的 92.8%
—————————分割线————————

GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确。

GPT-5.5 发布,详细解读 - 第 7 张图
OpenAI 内部用例:
OpenAI 公司超过 85% 的员工每周都在用 Codex,覆盖工程、财务、市场、公关、数据科学、产品管理

公关团队分析了 6 个月的演讲邀请数据,建了打分和风险框架,低风险请求自动处理,高风险请求交人审核

财务团队审了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成

GTM 团队自动生成周报,每周省 5-10 小时
———————分割线———————

科学研究:
GeneBench 是 OpenAI 新推出的 eval,测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 达到 33.2%

BixBench(真实生物信息学和数据分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%

GPT-5.5 发布,详细解读 - 第 8 张图
Ramsey 数新证明)
GPT-5.5 的内部版本配合自定义工具链,发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象,研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证

GPT-5.5 发布,详细解读 - 第 9 张图
——————分割线——————

网络安全:
GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High(生物/化学能力同为 High)。没有达到 Critical 级别

CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%

CTF 挑战任务内部扩展版:88.1%,vs GPT-5.4 的 83.7%

滴滴,滴滴—————分割线————滴滴滴滴

与此同时,GPT-5.5 也发布同时推出了一个新项目:生物安全漏洞赏金
规则是这样,OpenAI 准备了 5 个生物安全问题,参与者需要找到一条「通用越狱 prompt」,在 Codex Desktop 的干净对话里,一次性通过全部 5 个问题,且不触发审核,就算越狱成功。

emer

emer

每天发现网络新鲜事

61304 文章
13 分类
8549.2k+ 访问

搜索

Zoomed Image