GPT-5.5 是 OpenAI 于 2026 年 4 月 23 日发布的最强模型,内部代号为 “Spud”。它是自 GPT-4.5 以来首个完整重新训练的基础模型,此前所有 GPT-5 版本都属于在同一基础模型上的后训练迭代。GPT-5.5 采用原生全模态架构,支持 100 万 token 上下文窗口,并在发布时领跑 14 项基准测试。
核心特性
- 重建基础模型:这是自 GPT-4.5 以来首次对基础模型进行完整重训,带来的是底层能力提升,而不是仅靠后训练获得的渐进改进,覆盖推理、编程和知识任务。
- 原生全模态:统一参数体系同时处理文本、图像、音频和视频,无需额外的独立编码模块,即可完成跨模态推理。
- 幻觉率降低 60%:相比 GPT-5.4,幻觉率降低约 60%;在等价 Codex 任务中输出 token 数量约减少 40%,同时提升可靠性和成本效率。
- 前沿基准表现:在 SWE-bench Verified 上达到 88.7%,MMLU 92.4%,GPQA Diamond 93.6%,ARC-AGI-2 85.0%,相比 GPT-5.4 提升 11.7 个百分点。
适用场景
- 复杂软件工程任务:凭借 88.7% 的 SWE-bench Verified 成绩和强大的工具调用能力,GPT-5.5 非常适合端到端编程任务,包括调试、重构和多文件修改。
- 多模态工作流:原生全模态架构使其特别适合跨文本、图像、音频和视频的任务,例如分析会议录音、处理带图表的文档,或构建多媒体应用。
- 研究与分析:GPQA Diamond 93.6% 和 MMLU 92.4% 的成绩,使它非常适合博士级科学问题、复杂推理和知识密集型研究任务。
能力与限制
| 能力维度 | 说明 |
|---|
| 推理能力 | GPQA Diamond 93.6%,ARC-AGI-2 85.0%,默认采用中等推理强度 |
| 编程能力 | SWE-bench Verified 88.7%;在 Codex 任务中相比 GPT-5.4 减少约 40% 输出 token |
| 多模态能力 | 原生全模态:文本、图像、音频和视频统一于同一架构 |
| 响应速度 | 默认采用中等推理强度,也可针对低延迟场景进行配置 |
| 上下文窗口 | 1,050,000 tokens(超过 272K 输入部分按 2 倍价格计费) |
| 最大输出 | 128,000 tokens |
| 工具调用 | 支持完整函数调用、工具搜索、托管工具、提示缓存和压缩上下文 |
| 多语言能力 | 广泛支持主流语言 |
已知限制
- 相比开源替代模型成本明显更高,输入价格约为 DeepSeek V4 Pro 的 6 倍。
- 虽然在标准 SWE-Bench Verified 上领先,但在更难的 SWE-Bench Pro 基准上落后于 Claude Opus 4.7。
- 对于超过 272K token 的长上下文输入,输入价格会翻倍,显著提高整体成本。
积分消耗
| 模型名称 | 输入 (Credits/Token) | Cache Write (Credits/Token) | Cache Read (Credits/Token) | 输出 (Credits/Token) | 网页搜索(Credits/次) | 计费说明 |
|---|
| GPT-5.5 | 5.00 | 5.00 | 0.50 | 30.00 | 10,000 | 超过 272K 输入按 2 倍、输出按 1.5 倍计费 |