跳到主要内容

GPT-5.4

概述

GPT-5.4 是 OpenAI 于 2026 年 3 月 5 日发布的旗舰级前沿模型。它是首个将推理(Reasoning)、编程(源自 GPT-5.3-Codex)和计算机操作(Computer Use)统一到单一架构中的主流模型。该模型支持高达 1,050,000 token 的上下文窗口以及 128,000 token 的最大输出,是 OpenAI 迄今为止功能最强、用途最广的模型。

核心特性

  • 统一架构:将推理、编程和计算机操作集成于一体,开发者无需在特定模型间切换。
  • 可配置推理强度:提供五个离散的推理等级(none, low, medium, high, xhigh),允许开发者根据任务需求灵活控制思考深度与查询成本。
  • 计算机操作 API:新增的 Computer Use API 使模型能够识别屏幕、移动光标、点击元素、输入文本,并与桌面应用程序进行交互。
  • 工具搜索(Tool Search):采用延迟加载机制,仅在需要时获取工具定义,在保持准确性的同时将总 token 消耗降低了 47%。
  • 百万级上下文窗口:支持高达 1,050,000 token 的上下文(922K 输入 + 128K 输出),支持在单次请求中分析整个代码库或庞大的文档集。

适用场景

  • 智能编程助手:在 SWE-Bench Pro 测试中得分 57.7%,非常适合处理复杂的多步编程任务和自主代码修复。
  • 桌面自动化与 RPA:OSWorld 评分为 75%,超过了人类专家 72.4% 的基准线,适用于浏览器导航、表单填写和桌面应用控制。
  • 知识密集型工作:GDPval 评分为 83%,每项声明的事实错误比 GPT-5.2 少 33%,是研究分析、文档处理和专业问答的理想选择。
  • 长文本分析:100万 token 的上下文窗口完美契合法律文件审查、大规模代码审计以及跨文档的相关性分析。

能力与限制

能力维度详细说明
推理能力SWE-Bench Pro 57.7%,SWE-Bench Verified 约 80%,GPQA Diamond 高分,支持五级可调推理。
创作能力卓越的长文本和代码生成能力,支持 128K 最大输出,可生成整个项目。
多模态能力支持文本和图像输入,文本输出;MMMU Pro 评分为 81.2%。
响应速度作为旗舰模型,推理速度中等;xhigh 推理模式延迟较高,none 模式接近实时响应。
上下文窗口标准为 272K token;最高可扩展至 1,050,000 token(需显式配置)。
最大输出128,000 token
知识截止日期2025 年 8 月 31 日

积分与定价

模型名称输入 (Credits/Token)输出 (Credits/Token)
GPT-5.42.5015.00