GPT-5.5 发布，详细解读

昨天 4 月 24 日凌晨。
OpenAI 发布 GPT-5.5，是 GPT-5 系列迄今最大更新。

GPT-5.5 发布，详细解读 - 第 1 张图
本次核心变化：用更少的 token。

干更难的活在 Artificial Analysis 的 Coding Agent Index 上，GPT-5.5 达到了最高智能水平，成本是同级别竞品的一半。

GPT-5.5 发布，详细解读 - 第 2 张图
GPT-5.5 这个模型，目前已向 ChatGPT 付费用户开放

对于更高级别的 GPT-5.5 Pro，则向 Pro、Business、Enterprise 用户开放

API 即将上线，价格大幅上涨，为 $5/$30 (每百万Token)，是 5.4 价格的 2 倍

GPT-5.5 发布，详细解读 - 第 3 张图
能力总览：

OpenAI 拿出了一张 9 项核心指标的对比表，横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

GPT-5.5 发布，详细解读 - 第 4 张图
在 Artificial Analysis Intelligence Index（第三方，10 项 eval 加权平均）上，GPT-5.5 在同等输出 token 量下智能得分最高，token 总消耗明显低于其他模型（注意：考虑到 5.5 是 5.4 价格的2倍，所以总价还是更贵了）

GPT-5.5 发布，详细解读 - 第 5 张图
Terminal-Bench 2.0复杂命令行工作流：82.7%，vs GPT-5.4 的 75.1%，vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真实 GitHub issue 解决：58.6%，vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%，但 Anthropic 承认部分问题存在记忆化

Expert-SWE内部长周期编码任务，中位人类完成时间 20 小时：73.1%，vs GPT-5.4 的 68.5%

GPT-5.5 发布，详细解读 - 第 6 张图
在 Codex 里，GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K

知识工作：
coding 之外，GPT-5.5 在日常电脑操作和知识工作上的提升同样明显

GDPval44 个职业知识工作测试，胜出或平手率 84.9%，vs GPT-5.4 的 83.0%，vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型独立操作真实电脑环境：78.7%，vs GPT-5.4 的 75.0%

Tau2-bench Telecom复杂客服工作流，无 prompt 调优：98.0%，vs GPT-5.4 的 92.8%
—————————分割线————————

GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确。

GPT-5.5 发布，详细解读 - 第 7 张图
OpenAI 内部用例：
OpenAI 公司超过 85% 的员工每周都在用 Codex，覆盖工程、财务、市场、公关、数据科学、产品管理

公关团队分析了 6 个月的演讲邀请数据，建了打分和风险框架，低风险请求自动处理，高风险请求交人审核

财务团队审了 24,771 份 K-1 税表，共 71,637 页，比去年提前两周完成

GTM 团队自动生成周报，每周省 5-10 小时
———————分割线———————

科学研究：
GeneBench 是 OpenAI 新推出的 eval，测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%，GPT-5.4 是 19.0%，GPT-5.5 Pro 达到 33.2%

BixBench（真实生物信息学和数据分析 benchmark）：GPT-5.5 得分 80.5%，GPT-5.4 是 74.0%

GPT-5.5 发布，详细解读 - 第 8 张图
Ramsey 数新证明）
GPT-5.5 的内部版本配合自定义工具链，发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象，研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证

GPT-5.5 发布，详细解读 - 第 9 张图
——————分割线——————

网络安全：
GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High（生物/化学能力同为 High）。没有达到 Critical 级别

CyberGym81.8%，vs GPT-5.4 的 79.0%，vs Claude Opus 4.7 的 73.1%

CTF 挑战任务内部扩展版：88.1%，vs GPT-5.4 的 83.7%

滴滴，滴滴—————分割线————滴滴滴滴

与此同时，GPT-5.5 也发布同时推出了一个新项目：生物安全漏洞赏金
规则是这样，OpenAI 准备了 5 个生物安全问题，参与者需要找到一条「通用越狱 prompt」，在 Codex Desktop 的干净对话里，一次性通过全部 5 个问题，且不触发审核，就算越狱成功。

GPT-5.5 发布，详细解读

emer

搜索

最新文章

热门文章