GLM-5.1
GLM-5.1 是由 Z.ai 开发的开源旗舰 AI 模型。Z.ai 前身为智谱 AI,源自清华大学,也是首家公开上市的基础模型公司。GLM-5.1 于 2026 年 4 月 7 日发布,是在 GLM-5 基础上的一次后训练升级,采用 7540 亿参数的 Mixture-of-Experts 架构,每个 token 激活约 400 亿参数,重点面向 Agent 工程与长周期自主软件开发场景。
核心特性
- Agent 编程能力:在 SWE-Bench Pro 上达到 58.4%,截至 2026 年 4 月排名第 1,超过 GPT-5.4 和 Claude Opus 4.6。
- 8 小时自主执行:可围绕单个任务连续自主工作长达 8 小时,完成覆盖规划、执行、测试、修复和优化的完整循环,涉及数百次迭代与数千次工具调用。
- MIT 许可开放权重:已在 Hugging Face 上以 MIT 许可协议发布,支持不受限制的商业使用、修改和微调。
- 原生 Ascend 训练:完全基于华为 Ascend 910B 芯片和 MindSpore 框架训练,实现对美国产硬件的完全独立。
适用场景
- 长周期软件工程:适合需要持续自主执行的复杂多步骤编码任务,例如大型系统构建、维护与长流程工程任务。
- Agent 工具编排:具备较强的函数调用、MCP 集成和结构化输出能力,适合需要与外部工具和 API 交互的 AI Agent。
- 高性价比前沿性能:在较低成本下提供较强的编码表现,适合追求前沿能力但需要控制预算的场景。
能力与限制
| 能力维度 | 说明 |
|---|
| 推理能力 | AIME 2026:95.3%,GPQA-Diamond:86.2%,在规划与迭代调试场景中具备较强的系统级推理能力 |
| 编程能力 | SWE-Bench Pro 58.4%,CyberGym 68.7%,BrowseComp 68.0%,MCP-Atlas 71.8% |
| 多模态能力 | 仅支持文本,不支持图像、音频或视频输入;视觉场景可使用单独的 GLM-5V-Turbo 变体 |
| 响应速度 | 暂无独立公开测速结果,预计与同规模 MoE 模型相近 |
| 上下文窗口 | 200K tokens |
| 最大输出 | 128K tokens |
| 工具调用 | 支持函数调用、结构化输出、上下文缓存、MCP 集成与思考模式 |
| 多语言能力 | 具备较强的多语言支持,尤其在中文与英文场景中表现稳定 |
已知限制
- 仅支持文本输入,不具备原生多模态能力;视觉任务需依赖独立的 GLM-5V-Turbo 模型。
- 数学与科学基准成绩仍落后于部分顶级专有模型,因此在纯量化研究任务上不一定是最优选择。
- 在更广泛的编码综合评测(如 Terminal-Bench 2.0 + NL2Repo)中,Claude Opus 4.6 仍然领先。
- 由于参数规模达到 754B,自托管需要较高的计算资源。
积分消耗
| 模型名称 | 输入 (Credits/Token) | Cache Write (Credits/Token) | Cache Read (Credits/Token) | 输出 (Credits/Token) | 网页搜索(Credits/次) | 计费说明 |
|---|
| GLM-5.1 | 1.40 | 1.40 | 0.26 | 4.40 | - | - |