跳到主要内容

GLM-5.1

概述

GLM-5.1 是由 Z.ai 开发的开源旗舰 AI 模型。Z.ai 前身为智谱 AI,源自清华大学,也是首家公开上市的基础模型公司。GLM-5.1 于 2026 年 4 月 7 日发布,是在 GLM-5 基础上的一次后训练升级,采用 7540 亿参数的 Mixture-of-Experts 架构,每个 token 激活约 400 亿参数,重点面向 Agent 工程与长周期自主软件开发场景。

核心特性

  • Agent 编程能力:在 SWE-Bench Pro 上达到 58.4%,截至 2026 年 4 月排名第 1,超过 GPT-5.4 和 Claude Opus 4.6。
  • 8 小时自主执行:可围绕单个任务连续自主工作长达 8 小时,完成覆盖规划、执行、测试、修复和优化的完整循环,涉及数百次迭代与数千次工具调用。
  • MIT 许可开放权重:已在 Hugging Face 上以 MIT 许可协议发布,支持不受限制的商业使用、修改和微调。
  • 原生 Ascend 训练:完全基于华为 Ascend 910B 芯片和 MindSpore 框架训练,实现对美国产硬件的完全独立。

适用场景

  • 长周期软件工程:适合需要持续自主执行的复杂多步骤编码任务,例如大型系统构建、维护与长流程工程任务。
  • Agent 工具编排:具备较强的函数调用、MCP 集成和结构化输出能力,适合需要与外部工具和 API 交互的 AI Agent。
  • 高性价比前沿性能:在较低成本下提供较强的编码表现,适合追求前沿能力但需要控制预算的场景。

能力与限制

能力维度说明
推理能力AIME 2026:95.3%,GPQA-Diamond:86.2%,在规划与迭代调试场景中具备较强的系统级推理能力
编程能力SWE-Bench Pro 58.4%,CyberGym 68.7%,BrowseComp 68.0%,MCP-Atlas 71.8%
多模态能力仅支持文本,不支持图像、音频或视频输入;视觉场景可使用单独的 GLM-5V-Turbo 变体
响应速度暂无独立公开测速结果,预计与同规模 MoE 模型相近
上下文窗口200K tokens
最大输出128K tokens
工具调用支持函数调用、结构化输出、上下文缓存、MCP 集成与思考模式
多语言能力具备较强的多语言支持,尤其在中文与英文场景中表现稳定

已知限制

  • 仅支持文本输入,不具备原生多模态能力;视觉任务需依赖独立的 GLM-5V-Turbo 模型。
  • 数学与科学基准成绩仍落后于部分顶级专有模型,因此在纯量化研究任务上不一定是最优选择。
  • 在更广泛的编码综合评测(如 Terminal-Bench 2.0 + NL2Repo)中,Claude Opus 4.6 仍然领先。
  • 由于参数规模达到 754B,自托管需要较高的计算资源。

积分消耗

模型名称输入 (Credits/Token)Cache Write (Credits/Token)Cache Read (Credits/Token)输出 (Credits/Token)网页搜索(Credits/次)计费说明
GLM-5.11.401.400.264.40--