Claude Opus 4.7
概述
Claude Opus 4.7 于 2026 年 4 月 16 日发布,是 Anthropic 在 Claude 4 系列中公开可用能力最强的 AI 模型。它在编程、Agent 工作流和视觉理解方面实现了显著跃升,在软件工程和多步骤工具调用任务上达到业内领先表现。
核心特性
- 顶级编程表现:在 SWE-bench Verified 上达到 87.6%,在 SWE-bench Pro 上达到 64.3%,相比 Opus 4.6 分别提升接近 7 分和 10.9 分。
- 100 万 Token 上下文窗口:完整支持 100 万 token 上下文,且按标准价格计费,没有长上下文溢价,适合分析完整代码库和超长文档。
- 高分辨率视觉能力:支持最长边 2,576 像素的图像输入(约 375 万像素),分辨率超过此前 Claude 模型的 3 倍,并提升了对化学结构和技术图表的理解能力。
- Task Budgets:新增特性,可为完整 Agent 循环提供大致 token 预算估计,覆盖思考、工具调用、工具结果和最终输出。
- xhigh Effort Level:新增介于 high 和 max 之间的 effort 级别,更细致地控制质量、速度与成本之间的平衡。这也是 Claude Code 订阅用户的默认等级。
- 生产级网络安全防护:内置安全保护机制,先在 Opus 上经过测试,再推广到 Mythos 级模型。
适用场景
- 自主软件工程:能够严谨且稳定地处理复杂、长时间运行的编程任务,并在汇报前主动设计验证方式。适合大型重构、Bug 修复和功能开发。
- 多步骤 Agent 工作流:擅长编排工具调用、API 交互和决策循环,指令遵循能力强,适合生产环境下的 Agent 部署。
- 视觉文档分析:3.3 倍分辨率升级使其更适合读取技术图纸、图表、截图、化学结构和复杂视觉文档。
- 长上下文研究:凭借 100 万 token 上下文和 128K 最大输出,适合跨整套代码仓库、法律文档库或科研论文集合进行综合分析。
能力与限制
| 能力维度 | 说明 |
|---|---|
| 推理能力 | GPQA Diamond 达到 94.2%,具备强大的分析与科学推理能力,并支持自适应思考。 |
| 编程能力 | SWE-bench Verified 87.6%,SWE-bench Pro 64.3%,Terminal-Bench 69.4%。 |
| Agent 能力 | MCP-Atlas scaled tool use 77.3%,Finance Agent v1.1 64.4%,多步骤执行能力严谨。 |
| 计算机操作 | OSWorld-Verified 78.0%,具备较强的桌面与浏览器交互能力。 |
| 多模态能力 | 支持文本和图像输入,视觉分辨率最高约 375 万像素。CharXiv 82.1%(使用工具时 91.0%)。 |
| 上下文窗口 | 1,000,000 tokens 输入。 |
| 最大输出 | 标准为 128,000 tokens;通过带 beta header 的 Message Batches API 可达 300,000 tokens。 |
| 工具调用 | 支持完整函数调用、代码执行、MCP、自适应思考和 task budgets。 |
| 多语言能力 | 在主要世界语言上具备较强的多语言表现。 |
已知限制
- Claude Mythos Preview 的整体能力仍更强,在大多数基准测试上领先 Opus 4.7,包括 SWE-bench Pro(77.8% vs 64.3%)和 SWE-bench Verified(93.9% vs 87.6%)。
- 新 tokenizer 对相同输入文本最多会产生 35% 更多 token,因此虽然单 token 定价不变,单次请求的实际成本可能上升。
- 仅支持图像输入,不原生支持音频或视频输入。
- 如果没有工具集成,则不具备实时或联网能力。
积分消耗
| 模型名称 | 输入 (Credits/Token) | Cache Write (Credits/Token) | Cache Read (Credits/Token) | 输出 (Credits/Token) | 网页搜索(Credits/次) | 计费说明 |
|---|---|---|---|---|---|---|
| Claude Opus 4.7 | 5.00 | 6.25 | 0.50 | 25.00 | 10,000 | - |