DeepSeek V4 Flash
DeepSeek-V4-Flash 是 DeepSeek 于 2026 年 4 月 24 日与 V4-Pro 同步发布的高效率开源大语言模型,采用 MIT License。该模型总参数量为 284B,但每次前向仅激活 13B 参数,以仅为 V4-Pro 约 1/3.1 的成本提供接近旗舰模型的性能,是当前极具性价比的模型之一。
核心特性
- 超高效率架构:总参数量 284B,每次前向仅激活 13B 参数,模型下载体积约 160GB,相比前沿模型对硬件要求更低,同时保持出色性能。
- 100 万 Token 上下文窗口:与 V4-Pro 一样支持 100 万上下文和 384K 最大输出,基于相同的 CSA/HCA 混合注意力机制,具备高效的长上下文推理能力。
- 接近 Pro 的性能与更低成本:在 SWE-bench Verified 上达到 79.0%,仅比 V4-Pro 的 80.6% 低 1.6 个百分点,而输入/输出价格仅为 0.28 / 0.56 Credits。
- Flash-Max 推理模式:在提供更大的思考预算(384K+ 上下文)时,V4-Flash-Max 可在复杂任务上逼近 V4-Pro 的推理能力。
适用场景
- 高并发 API 场景:以每输入 token 仅 0.28 Credits 的成本,非常适合文本量大、对单次调用成本敏感的应用。
- 自托管部署:160GB 模型体积和 13B 激活参数使其更适合本地部署或单节点 GPU 场景,不像更大的前沿模型那样依赖重型基础设施。
- Agent 工具调用链路:强工具调用和编程能力,加上更低延迟,使其非常适合多步 Agent 工作流。
能力与限制
| 能力维度 | 说明 |
|---|
| 推理能力 | 具备接近 Claude Sonnet 4.6 水平的智能表现(Artificial Analysis Index 得分 47) |
| 编程能力 | SWE-bench Verified 79.0%;编程类基准平均 64.4 |
| 多模态能力 | 当前仅支持文本,不支持图像、音频或视频 |
| 响应速度 | 13B 激活参数配合高效注意力机制,适合高吞吐场景 |
| 上下文窗口 | 1,000,000 tokens |
| 最大输出 | 384,000 tokens |
| 工具调用 | 支持函数调用,具备较强 Agent 任务执行能力 |
| 多语言能力 | 广泛支持多语言,其中英文表现最强 |
已知限制
- 当前仅支持文本,不具备多模态能力。
- 由于参数规模更小,在纯知识型任务和最复杂的 Agent 工作流上仍弱于 V4-Pro 与顶级闭源模型。
- 若要接近 Pro 级推理效果,可能需要启用 Flash-Max 模式并提供更大思考预算,这会带来更高延迟和成本。
积分消耗
| 模型名称 | 输入 (Credits/Token) | Cache Write (Credits/Token) | Cache Read (Credits/Token) | 输出 (Credits/Token) | 网页搜索(Credits/次) | 计费说明 |
|---|
| DeepSeek V4 Flash | 0.28 | 0.28 | 0.0056 | 0.56 | - | - |