跳到主要内容

gpt-5-5

概述

GPT-5.5 是 OpenAI 于 2026 年 4 月 23 日发布的最强模型,内部代号为 “Spud”。它是自 GPT-4.5 以来首个完整重新训练的基础模型,此前所有 GPT-5 版本都属于在同一基础模型上的后训练迭代。GPT-5.5 采用原生全模态架构,支持 100 万 token 上下文窗口,并在发布时领跑 14 项基准测试。

核心特性

  • 重建基础模型:这是自 GPT-4.5 以来首次对基础模型进行完整重训,带来的是底层能力提升,而不是仅靠后训练获得的渐进改进,覆盖推理、编程和知识任务。
  • 原生全模态:统一参数体系同时处理文本、图像、音频和视频,无需额外的独立编码模块,即可完成跨模态推理。
  • 幻觉率降低 60%:相比 GPT-5.4,幻觉率降低约 60%;在等价 Codex 任务中输出 token 数量约减少 40%,同时提升可靠性和成本效率。
  • 前沿基准表现:在 SWE-bench Verified 上达到 88.7%,MMLU 92.4%,GPQA Diamond 93.6%,ARC-AGI-2 85.0%,相比 GPT-5.4 提升 11.7 个百分点。

适用场景

  • 复杂软件工程任务:凭借 88.7% 的 SWE-bench Verified 成绩和强大的工具调用能力,GPT-5.5 非常适合端到端编程任务,包括调试、重构和多文件修改。
  • 多模态工作流:原生全模态架构使其特别适合跨文本、图像、音频和视频的任务,例如分析会议录音、处理带图表的文档,或构建多媒体应用。
  • 研究与分析:GPQA Diamond 93.6% 和 MMLU 92.4% 的成绩,使它非常适合博士级科学问题、复杂推理和知识密集型研究任务。

能力与限制

能力维度说明
推理能力GPQA Diamond 93.6%,ARC-AGI-2 85.0%,默认采用中等推理强度
编程能力SWE-bench Verified 88.7%;在 Codex 任务中相比 GPT-5.4 减少约 40% 输出 token
多模态能力原生全模态:文本、图像、音频和视频统一于同一架构
响应速度默认采用中等推理强度,也可针对低延迟场景进行配置
上下文窗口1,050,000 tokens(超过 272K 输入部分按 2 倍价格计费)
最大输出128,000 tokens
工具调用支持完整函数调用、工具搜索、托管工具、提示缓存和压缩上下文
多语言能力广泛支持主流语言

已知限制

  • 相比开源替代模型成本明显更高,输入价格约为 DeepSeek V4 Pro 的 6 倍。
  • 虽然在标准 SWE-Bench Verified 上领先,但在更难的 SWE-Bench Pro 基准上落后于 Claude Opus 4.7。
  • 对于超过 272K token 的长上下文输入,输入价格会翻倍,显著提高整体成本。

积分消耗

模型名称输入 (Credits/Token)Cache Write (Credits/Token)Cache Read (Credits/Token)输出 (Credits/Token)网页搜索(Credits/次)计费说明
GPT-5.55.005.000.5030.0010,000超过 272K 输入按 2 倍、输出按 1.5 倍计费