DeepSeek-V4 正式上线:1M 上下文标配,Flash 输入 0.2 元/百万 token

DeepSeek 今日正式发布 V4 系列模型预览版,同步开源。两个版本——V4-Pro 和 V4-Flash——均支持 1M 上下文长度,并在 Agent 能力上进行了专项优化。

V4-Pro 与顶级闭源模型评测对比

两个版本,两个定位

V4-Pro 是性能旗舰。在数学、STEM、竞赛型代码的评测中,V4-Pro 超越了当前所有已公开评测的开源模型,成绩追及顶级闭源模型。DeepSeek 内部员工已在日常 Agentic Coding 中使用 V4-Pro,据反馈使用体验优于 Claude Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式。在世界知识测评中,V4-Pro 大幅领先其他开源模型,仅稍逊于 Gemini Pro 3.1。

V4-Flash 是经济型选择。推理能力接近 V4-Pro,但在世界知识储备上稍逊。由于模型参数和激活更小,API 响应更快、价格更低。在简单 Agent 任务上与 V4-Pro 表现接近,高难度任务上仍有差距。

定价:便宜到离谱

API 定价

V4-Flash 的输入价格(缓存命中)低至每百万 token 0.2 元,缓存未命中 1 元,输出 2 元。作为参考,GPT-4o 的输入价格大约是 Flash 的 15-20 倍。V4-Pro 的输出价格为 24 元/百万 token,考虑到其性能水平,这个定价对整个 API 市场有很强的杀伤力。

官方备注中提到,Pro 版本目前受限于高端算力,服务吞吐有限,预计下半年昇腾 950 超节点批量上市后价格会大幅下调。

结构创新:DSA 稀疏注意力

DeepSeek-V4 开创了一种全新的注意力机制——在 token 维度进行压缩,结合 DSA(DeepSeek Sparse Attention),实现了超长上下文能力,同时大幅降低计算和显存需求。

DSA 注意力机制与 V3.2 的对比

从图中可以看出,V4 在长上下文下的计算量和显存占用增长远低于 V3.2,这正是 1M 上下文能成为全系标配的技术基础。

Agent 能力专项优化

V4 针对主流 Agent 产品进行了适配和优化,包括 Claude Code、OpenClaw、OpenCode、CodeBuddy 等。在代码任务、文档生成任务等方面表现均有提升。

两个版本均支持非思考模式与思考模式,思考模式支持 reasoning_effort 参数(high/max)。对于复杂 Agent 场景,建议使用思考模式并设置强度为 max。

API 调用

API 已同步上线,兼容 OpenAI ChatCompletions 和 Anthropic 接口。调用方式:

  • model 参数改为 deepseek-v4-prodeepseek-v4-flash
  • base_url 不变
  • 支持思考模式,reasoning_effort 参数可设置思考强度

旧模型名 deepseek-chatdeepseek-reasoner 将于 2026 年 7 月 24 日停止使用。

开源地址:

来源: DeepSeek 官方公众号

相关推荐