DeepSeek V4 Flash

概述

DeepSeek-V4-Flash 是 DeepSeek 于 2026 年 4 月 24 日与 V4-Pro 同步发布的高效率开源大语言模型，采用 MIT License。该模型总参数量为 284B，但每次前向仅激活 13B 参数，以仅为 V4-Pro 约 1/3.1 的成本提供接近旗舰模型的性能，是当前极具性价比的模型之一。

核心特性

超高效率架构：总参数量 284B，每次前向仅激活 13B 参数，模型下载体积约 160GB，相比前沿模型对硬件要求更低，同时保持出色性能。
100 万 Token 上下文窗口：与 V4-Pro 一样支持 100 万上下文和 384K 最大输出，基于相同的 CSA/HCA 混合注意力机制，具备高效的长上下文推理能力。
接近 Pro 的性能与更低成本：在 SWE-bench Verified 上达到 79.0%，仅比 V4-Pro 的 80.6% 低 1.6 个百分点，而输入/输出价格仅为 0.28 / 0.56 Credits。
Flash-Max 推理模式：在提供更大的思考预算（384K+ 上下文）时，V4-Flash-Max 可在复杂任务上逼近 V4-Pro 的推理能力。

适用场景

高并发 API 场景：以每输入 token 仅 0.28 Credits 的成本，非常适合文本量大、对单次调用成本敏感的应用。
自托管部署：160GB 模型体积和 13B 激活参数使其更适合本地部署或单节点 GPU 场景，不像更大的前沿模型那样依赖重型基础设施。
Agent 工具调用链路：强工具调用和编程能力，加上更低延迟，使其非常适合多步 Agent 工作流。

能力与限制

能力维度	说明
推理能力	具备接近 Claude Sonnet 4.6 水平的智能表现（Artificial Analysis Index 得分 47）
编程能力	SWE-bench Verified 79.0%；编程类基准平均 64.4
多模态能力	当前仅支持文本，不支持图像、音频或视频
响应速度	13B 激活参数配合高效注意力机制，适合高吞吐场景
上下文窗口	1,000,000 tokens
最大输出	384,000 tokens
工具调用	支持函数调用，具备较强 Agent 任务执行能力
多语言能力	广泛支持多语言，其中英文表现最强

已知限制

当前仅支持文本，不具备多模态能力。
由于参数规模更小，在纯知识型任务和最复杂的 Agent 工作流上仍弱于 V4-Pro 与顶级闭源模型。
若要接近 Pro 级推理效果，可能需要启用 Flash-Max 模式并提供更大思考预算，这会带来更高延迟和成本。

积分消耗

模型名称	输入 (Credits/Token)	Cache Write (Credits/Token)	Cache Read (Credits/Token)	输出 (Credits/Token)	网页搜索（Credits/次）	计费说明
DeepSeek V4 Flash	`0.28`	`0.28`	`0.0056`	`0.56`	`-`	-

价格说明

文档价格为 B.AI 平台模型标准参考价，仅供基础计费说明使用。B.AI 可能会通过充值赠送及账户权益等方式，为用户提供更低的实际使用成本。具体价格、赠送积分及账户权益请以平台页面展示及最终账单为准。

DeepSeek V4 Flash

概述​

核心特性​

适用场景​

能力与限制​

已知限制​

积分消耗​

概述

核心特性

适用场景

能力与限制

已知限制

积分消耗