GPT-5.4
GPT-5.4 是 OpenAI 于 2026 年 3 月 5 日发布的旗舰级前沿模型。它是首个将推理(Reasoning)、编程(源自 GPT-5.3-Codex)和计算机操作(Computer Use)统一到单一架构中的主流模型。该模型支持高达 1,050,000 token 的上下文窗口以及 128,000 token 的最大输出,是 OpenAI 迄今为止功能最强、用途最广的模型。
核心特性
- 统一架构:将推理、编程和计算机操作集成于一体,开发者无需在特定模型间切换。
- 可配置推理强度:提供五个离散的推理等级(none, low, medium, high, xhigh),允许开发者根据任务需求灵活控制思考深度与查询成本。
- 计算机操作 API:新增的 Computer Use API 使模型能够识别屏幕、移动光标、点击元素、输入文本,并与桌面应用程序进行交互。
- 工具搜索(Tool Search):采用延迟加载机制,仅在需要时获取工具定义,在保持准确性的同时将总 token 消耗降低了 47%。
- 百万级上下文窗口:支持高达 1,050,000 token 的上下文(922K 输入 + 128K 输出),支持在单次请求中分析整个代码库或庞大的文档集。
适用场景
- 智能编程助手:在 SWE-Bench Pro 测试中得分 57.7%,非常适合处理复杂的多步编程任务和自主代码修复。
- 桌面自动化与 RPA:OSWorld 评分为 75%,超过了人类专家 72.4% 的基准线,适用于浏览器导航、表单填写和桌面应用控制。
- 知识密集型工作:GDPval 评分为 83%,每项声明的事实错误比 GPT-5.2 少 33%,是研究分析、文档处理和专业问答的理想选择。
- 长文本分析:100万 token 的上下文窗口完美契合法律文件审查、大规模代码审计以及跨文档的相关性分析。
能力与限制
| 能力维度 | 详细说明 |
|---|
| 推理能力 | SWE-Bench Pro 57.7%,SWE-Bench Verified 约 80%,GPQA Diamond 高分,支持五级可调推理。 |
| 创作能力 | 卓越的长文本和代码生成能力,支持 128K 最大输出,可生成整个项目。 |
| 多模态能力 | 支持文本和图像输入,文本输出;MMMU Pro 评分为 81.2%。 |
| 响应速度 | 作为旗舰模型,推理速度中等;xhigh 推理模式延迟较高,none 模式接近实时响应。 |
| 上下文窗口 | 标准为 272K token;最高可扩展至 1,050,000 token(需显式配置)。 |
| 最大输出 | 128,000 token |
| 知识截止日期 | 2025 年 8 月 31 日 |
积分与定价
| 模型名称 | 输入 (Credits/Token) | 输出 (Credits/Token) |
|---|
| GPT-5.4 | 2.50 | 15.00 |