跳到主要内容

Kimi K2.6

概述

Kimi K2.6 是 Moonshot AI 于 2026 年 4 月 20 日发布的开放权重多模态模型,也是 K2 和 K2.5 之后,九个月内推出的第三个 K2 系列模型。该模型采用 1 万亿参数的 Mixture-of-Experts 架构,每个 token 激活约 320 亿参数,结合了原生多模态输入、先进的 Agent swarm 编排能力,以及较强的编程表现。

核心特性

  • 原生多模态架构:通过自研 MoonViT 视觉编码器支持文本、图像和视频输入。K2.6 新增视频输入能力,支持 mp4、mov、avi 和 webm 格式。
  • Agent Swarm 编排:单个任务最多支持 300 个并发子 Agent 和 4,000 个协同步骤,工具调用成功率达到 96.6%,高于 K2.5 的 91%。
  • 编程能力:SWE-Bench Pro 58.6%,SWE-bench Verified 80.2%,LiveCodeBench v6 89.6%,Terminal-Bench 2.0 66.7%。
  • 修改版 MIT 许可:开放权重已发布在 Hugging Face 上,当月活低于 1 亿或月营收低于 2,000 万美元时,可免费用于商业场景。

适用场景

  • 端到端编码与 UI 生成:适合将文本提示和视觉输入转化为可落地的界面,以及轻量级全栈工作流,覆盖 Python、Rust 和 Go 等语言。
  • 多 Agent 系统:300 Agent 并发能力和 4,000 步协同上限,使其适合需要长上下文稳定性的复杂自主工作流。
  • 高性价比多模态处理:在较低成本下提供多模态与 Agent 工作流能力,适合对成本敏感的高频任务场景。

能力与限制

能力维度说明
推理能力AIME 2026:96.4%,GPQA-Diamond:90.5%,HLE with tools:54.0%
编程能力SWE-Bench Pro 58.6%,SWE-bench Verified 80.2%,LiveCodeBench v6 89.6%,Terminal-Bench 2.0 66.7%
多模态能力通过 MoonViT 视觉编码器支持文本、图像(png、jpeg、webp、gif)和视频(mp4、mov、avi、webm)输入
响应速度面向 Agent 工作流做了吞吐优化,具体 tokens/s 表现会随部署环境变化
上下文窗口262K tokens
最大输出16K tokens,扩展模式下最高可达 98K
工具调用工具调用成功率 96.6%,单次会话支持 4,000+ 次工具调用和多 Agent 交接
多语言能力160K 词表针对代码和非英语文本做了优化;SWE-bench Multilingual 76.7%

已知限制

  • 在部分视觉基准上,多模态表现仍弱于顶级专有模型,例如 MMMU-Pro 和 MathVision。
  • API 不支持通过 URL 直接传入图片,只支持 base64 编码内容或文件上传。
  • 图片分辨率上限为 4K,视频分辨率上限为 2K,整个请求体需控制在 100MB 以内。
  • 在纯数学推理任务上,AIME 2026 和 GPQA-Diamond 等基准仍落后于部分更高端的专有模型。
  • 262K 上下文窗口小于部分提供 1M+ tokens 的专有替代方案。
  • 独立评测认为其相较 K2.5 的日常任务提升有限,在某些垂直领域任务上仍存在短板。

积分消耗

模型名称输入 (Credits/Token)Cache Write (Credits/Token)Cache Read (Credits/Token)输出 (Credits/Token)网页搜索(Credits/次)计费说明
Kimi K2.60.950.950.164.00--