跳到主要内容

DeepSeek V4 Flash

概述

DeepSeek-V4-Flash 是 DeepSeek 于 2026 年 4 月 24 日与 V4-Pro 同步发布的高效率开源大语言模型,采用 MIT License。该模型总参数量为 284B,但每次前向仅激活 13B 参数,以仅为 V4-Pro 约 1/3.1 的成本提供接近旗舰模型的性能,是当前极具性价比的模型之一。

核心特性

  • 超高效率架构:总参数量 284B,每次前向仅激活 13B 参数,模型下载体积约 160GB,相比前沿模型对硬件要求更低,同时保持出色性能。
  • 100 万 Token 上下文窗口:与 V4-Pro 一样支持 100 万上下文和 384K 最大输出,基于相同的 CSA/HCA 混合注意力机制,具备高效的长上下文推理能力。
  • 接近 Pro 的性能与更低成本:在 SWE-bench Verified 上达到 79.0%,仅比 V4-Pro 的 80.6% 低 1.6 个百分点,而输入/输出价格仅为 0.28 / 0.56 Credits。
  • Flash-Max 推理模式:在提供更大的思考预算(384K+ 上下文)时,V4-Flash-Max 可在复杂任务上逼近 V4-Pro 的推理能力。

适用场景

  • 高并发 API 场景:以每输入 token 仅 0.28 Credits 的成本,非常适合文本量大、对单次调用成本敏感的应用。
  • 自托管部署:160GB 模型体积和 13B 激活参数使其更适合本地部署或单节点 GPU 场景,不像更大的前沿模型那样依赖重型基础设施。
  • Agent 工具调用链路:强工具调用和编程能力,加上更低延迟,使其非常适合多步 Agent 工作流。

能力与限制

能力维度说明
推理能力具备接近 Claude Sonnet 4.6 水平的智能表现(Artificial Analysis Index 得分 47)
编程能力SWE-bench Verified 79.0%;编程类基准平均 64.4
多模态能力当前仅支持文本,不支持图像、音频或视频
响应速度13B 激活参数配合高效注意力机制,适合高吞吐场景
上下文窗口1,000,000 tokens
最大输出384,000 tokens
工具调用支持函数调用,具备较强 Agent 任务执行能力
多语言能力广泛支持多语言,其中英文表现最强

已知限制

  • 当前仅支持文本,不具备多模态能力。
  • 由于参数规模更小,在纯知识型任务和最复杂的 Agent 工作流上仍弱于 V4-Pro 与顶级闭源模型。
  • 若要接近 Pro 级推理效果,可能需要启用 Flash-Max 模式并提供更大思考预算,这会带来更高延迟和成本。

积分消耗

模型名称输入 (Credits/Token)Cache Write (Credits/Token)Cache Read (Credits/Token)输出 (Credits/Token)网页搜索(Credits/次)计费说明
DeepSeek V4 Flash0.280.280.00560.56--