跳到主要内容

GLM-5.2

概述

GLM-5.2 是由 Z.AI 开发的 GLM 系列文本基础模型，于 2026 年 6 月 16 日发布。该模型面向长周期代码和工程任务，支持 1M tokens 上下文窗口、128K 最大输出，并提供 reasoning_effort 参数用于调整推理深度。

核心特性

1M 上下文窗口：支持最高 1M tokens 上下文，适合项目级代码库、长文档和多步骤工程工作流。
长周期代码能力：Z.AI 报告其 Terminal-Bench 2.1 得分为 81.0，SWE-bench Pro 得分为 62.1，重点面向项目级代码理解和持续任务执行。
可配置推理深度：支持 deep-thinking 模式，以及 GLM-5.2 专用的 reasoning_effort 参数；复杂任务可使用 high 和 max 推理等级。
Agent 与工具集成：支持函数调用、流式工具调用、结构化输出、上下文缓存，以及基于 MCP 的工具和数据源集成。

适用场景

项目级代码库工作：适合代码审查、重构、迁移或扩展仓库，需要模型保持架构、模块边界、API 合约和工程约定的场景。
长周期工程任务：适合多文件实现、依赖感知重构、SDK 适配、调试循环，以及测试、修复、验证一体化流程。
工具调用型 Agent 工作流：适合 Coding Agent、内部自动化、MCP 连接工作流，以及需要可靠工具调用和流式工具参数的结构化输出系统。

能力与限制

能力维度	说明
推理能力	支持 deep-thinking 模式和 `reasoning_effort`；Z.AI 将其定位于复杂工程、调试和长链路推理工作流
创意写作	支持通过 chat completion API 进行通用文本生成，但官方 GLM-5.2 材料更强调代码和工程场景
编程能力	Z.AI 报告 Terminal-Bench 2.1 得分为 81.0，SWE-bench Pro 得分为 62.1，重点面向长周期 Coding Agent 场景
多模态能力	文本输入和文本输出；视觉和多模态工作流由 GLM-5V-Turbo 等独立 Z.AI 模型处理
响应速度	官方文档未公布延迟或 tokens-per-second 数据；支持流式响应和流式工具调用
上下文窗口	1M tokens
最大输出	128K tokens
工具调用	函数调用、流式工具调用、结构化输出、上下文缓存和 MCP 集成
多语言能力	适合中文和英文开发者工作流；官方文档未公布 GLM-5.2 语言覆盖基准

已知限制

该模型为文本模型；图像、视频和 GUI 理解任务需要使用 GLM-5V-Turbo 等独立视觉语言模型。
超长上下文和 128K 输出可能增加延迟和成本；建议按需限制 max_tokens，并在适用场景使用上下文缓存。

积分消耗

模型名称	输入 (Credits/Token)	Cache Write (Credits/Token)	Cache Read (Credits/Token)	输出 (Credits/Token)	网页搜索（Credits/次）	计费说明
GLM-5.2	`1.40`	`1.40`	`0.28`	`4.40`	`-`	-

价格说明

文档价格为 B.AI 平台模型标准参考价，仅供基础计费说明使用。B.AI 可能会通过充值赠送及账户权益等方式，为用户提供更低的实际使用成本。具体价格、赠送积分及账户权益请以平台页面展示及最终账单为准。

概述
核心特性
适用场景
能力与限制
- 已知限制
积分消耗