GPT-5.5 发布,详细解读
昨天 4 月 24 日凌晨。
OpenAI 发布 GPT-5.5,是 GPT-5 系列迄今最大更新。

本次核心变化:用更少的 token。
干更难的活在 Artificial Analysis 的 Coding Agent Index 上,GPT-5.5 达到了最高智能水平,成本是同级别竞品的一半。

GPT-5.5 这个模型,目前已向 ChatGPT 付费用户开放
对于更高级别的 GPT-5.5 Pro,则向 Pro、Business、Enterprise 用户开放
API 即将上线,价格大幅上涨,为 $5/$30 (每百万Token),是 5.4 价格的 2 倍

能力总览:
OpenAI 拿出了一张 9 项核心指标的对比表,横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

在 Artificial Analysis Intelligence Index(第三方,10 项 eval 加权平均)上,GPT-5.5 在同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型(注意:考虑到 5.5 是 5.4 价格的2倍,所以总价还是更贵了)

Terminal-Bench 2.0复杂命令行工作流:82.7%,vs GPT-5.4 的 75.1%,vs Claude Opus 4.7 的 69.4%
SWE-Bench Pro真实 GitHub issue 解决:58.6%,vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%,但 Anthropic 承认部分问题存在记忆化
Expert-SWE内部长周期编码任务,中位人类完成时间 20 小时:73.1%,vs GPT-5.4 的 68.5%

在 Codex 里,GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K
知识工作:
coding 之外,GPT-5.5 在日常电脑操作和知识工作上的提升同样明显
GDPval44 个职业知识工作测试,胜出或平手率 84.9%,vs GPT-5.4 的 83.0%,vs Claude Opus 4.7 的 80.3%
OSWorld-Verified模型独立操作真实电脑环境:78.7%,vs GPT-5.4 的 75.0%
Tau2-bench Telecom复杂客服工作流,无 prompt 调优:98.0%,vs GPT-5.4 的 92.8%
—————————分割线————————
GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确。

OpenAI 内部用例:
OpenAI 公司超过 85% 的员工每周都在用 Codex,覆盖工程、财务、市场、公关、数据科学、产品管理
公关团队分析了 6 个月的演讲邀请数据,建了打分和风险框架,低风险请求自动处理,高风险请求交人审核
财务团队审了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成
GTM 团队自动生成周报,每周省 5-10 小时
———————分割线———————
科学研究:
GeneBench 是 OpenAI 新推出的 eval,测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%,GPT-5.5 Pro 达到 33.2%
BixBench(真实生物信息学和数据分析 benchmark):GPT-5.5 得分 80.5%,GPT-5.4 是 74.0%

Ramsey 数新证明)
GPT-5.5 的内部版本配合自定义工具链,发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象,研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证

——————分割线——————
网络安全:
GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High(生物/化学能力同为 High)。没有达到 Critical 级别
CyberGym81.8%,vs GPT-5.4 的 79.0%,vs Claude Opus 4.7 的 73.1%
CTF 挑战任务内部扩展版:88.1%,vs GPT-5.4 的 83.7%
滴滴,滴滴—————分割线————滴滴滴滴
与此同时,GPT-5.5 也发布同时推出了一个新项目:生物安全漏洞赏金
规则是这样,OpenAI 准备了 5 个生物安全问题,参与者需要找到一条「通用越狱 prompt」,在 Codex Desktop 的干净对话里,一次性通过全部 5 个问题,且不触发审核,就算越狱成功。