产品解读

GPT-5.5 — 完全重训练 · OpenAI 转型推理公司

代号 Spud · Terminal-Bench 82.7% SOTA · MRCR v2 长上下文 74% · 定价翻倍 · 自 GPT-4.5 以来首次完全重新预训练

2026-04-25 10 篇信源 读完约 10 分钟

GPT-5.5 — 完全重训练 · OpenAI 转型推理公司

GPT-5.5 在 9/10 项编码相关 benchmark 上超越 GPT-5.4,Terminal-Bench 拿下当前 SOTA。

一句话定位

不是 GPT-5.4 的微调版,而是自 GPT-4.5 以来首次完全重新预训练的基础模型。

代号 Spud,GPT-5.5 融合了 GPT 系列的生成能力与 o1 的结构化推理框架,于 2026 年 3 月 24 日完成预训练,是 OpenAI 进入 AGI 冲刺阶段前最后一次大规模基础模型重构[1]

Benchmark · 9/10 超越 GPT-5.4

长上下文跳跃 37pp,Terminal-Bench SOTA。

82.7%
Terminal-Bench · +7.6pp vs GPT-5.4
74.0%
长上下文召回 · +37.4pp(36.6→74.0)
+23%
事实准确率 · System Card 子集测试
更省
Token 用量 · 官方称显著减少
评测项GPT-5.5GPT-5.4变化
Terminal-Bench82.7%75.1%+7.6pp
ARC-AGI-2+11.7pp
MCP Atlas+8.1pp
长上下文召回(MRCR v2)74.0%36.6%+37.4pp
GDPval84.9%
事实准确率(System Card)+23%基准声明级,子集测试
Token 效率(官方)显著减少基准未给精确比例
数据来自 OpenAI System Card 与 Terminal-Bench。长上下文召回为 MRCR v2 指标。

竞品对比

与同期旗舰横向对比。

与同期旗舰模型横向对比[5][8][10]

评测项GPT-5.5Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench82.769.468.5
SWE-Bench Pro58.664.3 *
BrowseComp Pro90.185.9
长上下文(MRCR v2)74.032.2
写作偏好(盲测)29%47%24%
Intelligence Index605757
* OpenAI 方面指出,Anthropic 在 SWE-Bench Pro 上的部分题目存在记忆化嫌疑,结果有争议。写作偏好数据来自 Artificial Analysis 盲测。

API 定价

定价翻倍,官方称 token 效率可部分对冲。

GPT-5.5 定价相比 GPT-5.4 翻倍,但官方强调 token 效率提升可部分抵消成本增量[1]

模型输入 /1M tokens输出 /1M tokens备注
GPT-5.5$5$30GPT-5.4 的 2x
GPT-5.5 Pro$30$180深度推理版
GPT-5.4(参考)$2.5$15

Codex 集成

GPT-5.5 是 Codex 默认推荐模型。

GPT-5.5 是 OpenAI Codex 的默认推荐模型[7][9]

Altman 的表态

三句话定义转型方向。

To a significant degree, we have to become an AI inference company now.

— Sam Altman,GPT-5.5 发布会

the last major milestone before AGI

— Sam Altman,对 GPT-5.5 的定位

the completion of a specific phase of intelligence development

— Sam Altman,关于 GPT-5 系列

Altman "OpenAI 必须成为推理公司" 的表述暗示公司商业模式正在从模型授权向推理服务转型——高效服务模型、以量取胜,比继续堆参数更关键。

业界反响

学界看好,开发者抱怨定价。

Ethan Mollick(沃顿商学院)[6]:"very big deal…rapid improvement is not finished"——认为 GPT-5.5 标志着 AI 能力快速提升的势头并未放缓。

纽约银行 CIO:"impressive hallucination resistance"(抗幻觉能力印象深刻)——对金融场景合规应用具有实质价值。

开发者社区:普遍反馈模型更快更精简,倾向小范围可执行修改而非大段重写,Codex 集成体验明显改善。

主要争议:定价翻倍是核心抱怨,部分开发者表示会维持使用 GPT-5.4 或等待 Batch API 折扣窗口[8]

怎么用

四种接入入口。

入口说明状态
ChatGPTPlus / Pro / Business / Enterprise 直接使用已上线
Codex默认推荐模型已上线
API"very soon"(正式上线日期待定)即将
模型 IDgpt-5.5 / gpt-5.5-2026-04-23

Editor's Take

首个完全重训练的 GPT-5 系列模型,意味着 GPT-5 的能力天花板被重新设定。此前 5.1/5.2/5.3/5.4 的迭代均基于同一基础模型进行微调,而 5.5 从预训练起点开始,释放的信号是 OpenAI 认为有足够新数据和架构改进值得重新训练。

长上下文 37pp 的跳跃(36.6%→74.0%)是这次发布最被低估的数字。对企业级应用(合同逐条分析、大型代码库审计、多轮研究综述)而言,这不是锦上添花,而是从"勉强可用"到"真正可部署"的质变。

Altman "OpenAI 必须成为推理公司" 的表态,可能比任何模型参数更值得关注——它预示 OpenAI 的重心正从"做最强模型"转向"高效部署模型"。但 SWE-Bench Pro 上以 58.6% 输给 Claude Opus 4.7(64.3%,争议未解)说明真正通用的编程能力仍有差距,营销叙事与技术事实需要区分。

定价翻倍是一个市场信号:顶级推理能力不再低价竞争。对平台开发者而言,多模型路由(对话用 GPT-5.4,长上下文/复杂任务用 GPT-5.5)将成为控制成本的标配策略。

References

定价相比 5.4 翻倍:$5 输入 / $30 输出 per 1M token,Pro 版本再翻 6 倍。

参考文献。

  1. OpenAI Blog — openai.com/index/introducing-gpt-5-5/
  2. System Card — deploymentsafety.openai.com/gpt-5-5
  3. CNBC — Sam Altman 访谈引述(发布会引语)
  4. The Decoder — the-decoder.com/openai-unveils-gpt-5-5
  5. VentureBeat — GPT-5.5 narrowly beats Anthropic(SWE-Bench Pro 争议)
  6. Ethan Mollick — oneusefulthing.org/p/sign-of-the-future-gpt-55
  7. NVIDIA Blog — blogs.nvidia.com/blog/openai-codex-gpt-5-5-ai-agents/
  8. LLM Stats — llm-stats.com/blog/research/gpt-5-5-vs-gpt-5-4
  9. 9to5Mac — Codex + ChatGPT 集成报道
  10. Artificial Analysis — artificialanalysis.ai(Intelligence Index · 写作偏好盲测)