GPT-5.5 Instant 是 OpenAI 于 2026 年 5 月 5 日发布的模型,作为 GPT-5.3 Instant 的后继版本推出。它与 GPT-5.5 Thinking 和 Pro 共享同一底层架构,采用原生全模态模型来端到端处理文本、图像、音频和视频,但针对低延迟和日常对话场景进行了优化。
核心特性
- 幻觉率进一步降低:在医学、法律、金融等高风险提示场景下,相比 GPT-5.3 Instant 减少 52.5% 的幻觉性陈述;在用户标记的事实错误场景中,错误陈述减少 37.3%。
- 原生全模态:以单一统一架构处理文本、图像、音频和视频,而不是将多个独立模型拼接在一起。图像理解和 STEM 问题回答能力进一步增强。
- 输出更简洁:相比 GPT-5.3 Instant,在表达相同信息时平均减少约 30.2% 的字数和 29.2% 的行数,格式更紧凑,也减少了不必要的冗长表达。
- 个性化记忆:对于符合条件的 Plus 和 Pro 用户,可引用历史对话、文件和 Gmail 内容,提供更个性化的响应。
适用场景
- 日常知识工作:适合信息检索、操作说明、技术写作和翻译等场景,兼顾自然表达与低延迟响应。
- 多模态分析:具备较强的图像和文档理解能力,适合分析上传文件、截图、图表及其他视觉内容。
- 高风险事实问答:相比此前的 Instant 系列,在医学、法律、金融等场景下具备更可靠的事实性表现。
能力与限制
| 能力维度 | 说明 |
|---|
| 推理能力 | AIME 2025 为 81.2%,相比 GPT-5.3 Instant 的 65.4% 有明显提升,并与 GPT-5.5 Thinking 共享同一架构 |
| 编程能力 | 能够胜任日常编程任务;复杂代理式编程任务更推荐使用 GPT-5.5 Thinking |
| 多模态能力 | 支持文本、图像、音频和视频输入,采用原生全模态架构 |
| 响应速度 | 低延迟设计,在能力提升的同时保持与 GPT-5.4 相当的单 token 延迟 |
| 上下文窗口 | 1M tokens(922K 输入 + 128K 输出),输入超过 272K 后会有长上下文附加计费 |
| 最大输出 | 128K tokens |
| 工具调用 | 支持网页搜索、文件分析以及跨工具自动切换 |
| 多语言能力 | 翻译质量进一步提升,并广泛支持主流语言 |
已知限制
- Instant 档位以速度优先于推理深度,因此复杂多步推理和代理式工作流更适合使用 GPT-5.5 Thinking 或 Pro。
- 在 MMMU-Pro 多模态得分(76)和 AIME 数学得分(81.2)上,仍低于完整的 GPT-5.5 Thinking 模型。
- 模型迭代节奏较快,围绕该模型调优的提示词和自定义 GPT 工作流,可能需要定期重新调整。
- 知识截止时间为 2025 年 12 月;如需更新信息,可借助网页搜索能力补足。
积分消耗
| 模型名称 | 输入 (Credits/Token) | Cache Write (Credits/Token) | Cache Read (Credits/Token) | 输出 (Credits/Token) | 网页搜索(Credits/次) | 计费说明 |
|---|
| GPT-5.5 Instant | 5.00 | 5.00 | 0.50 | 30.00 | 10,000 | 长上下文(输入超过 272K)时,输入按 2 倍、输出按 1.5 倍计费 |