DeepSeek-V4 正式上线：1M 上下文标配，Flash 输入 0.2 元/百万 token

4/24/2026Agent AI 大模型 DeepSeek

DeepSeek 今日正式发布 V4 系列模型预览版，同步开源。两个版本——V4-Pro 和 V4-Flash——均支持 1M 上下文长度，并在 Agent 能力上进行了专项优化。

V4-Pro 与顶级闭源模型评测对比

两个版本，两个定位

V4-Pro 是性能旗舰。在数学、STEM、竞赛型代码的评测中，V4-Pro 超越了当前所有已公开评测的开源模型，成绩追及顶级闭源模型。DeepSeek 内部员工已在日常 Agentic Coding 中使用 V4-Pro，据反馈使用体验优于 Claude Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式。在世界知识测评中，V4-Pro 大幅领先其他开源模型，仅稍逊于 Gemini Pro 3.1。

V4-Flash 是经济型选择。推理能力接近 V4-Pro，但在世界知识储备上稍逊。由于模型参数和激活更小，API 响应更快、价格更低。在简单 Agent 任务上与 V4-Pro 表现接近，高难度任务上仍有差距。

定价：便宜到离谱

API 定价

V4-Flash 的输入价格（缓存命中）低至每百万 token 0.2 元，缓存未命中 1 元，输出 2 元。作为参考，GPT-4o 的输入价格大约是 Flash 的 15-20 倍。V4-Pro 的输出价格为 24 元/百万 token，考虑到其性能水平，这个定价对整个 API 市场有很强的杀伤力。

官方备注中提到，Pro 版本目前受限于高端算力，服务吞吐有限，预计下半年昇腾 950 超节点批量上市后价格会大幅下调。

结构创新：DSA 稀疏注意力

DeepSeek-V4 开创了一种全新的注意力机制——在 token 维度进行压缩，结合 DSA（DeepSeek Sparse Attention），实现了超长上下文能力，同时大幅降低计算和显存需求。

DSA 注意力机制与 V3.2 的对比

从图中可以看出，V4 在长上下文下的计算量和显存占用增长远低于 V3.2，这正是 1M 上下文能成为全系标配的技术基础。

Agent 能力专项优化

V4 针对主流 Agent 产品进行了适配和优化，包括 Claude Code、OpenClaw、OpenCode、CodeBuddy 等。在代码任务、文档生成任务等方面表现均有提升。

两个版本均支持非思考模式与思考模式，思考模式支持 reasoning_effort 参数（high/max）。对于复杂 Agent 场景，建议使用思考模式并设置强度为 max。

API 调用

API 已同步上线，兼容 OpenAI ChatCompletions 和 Anthropic 接口。调用方式：

model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash
base_url 不变
支持思考模式，reasoning_effort 参数可设置思考强度

旧模型名 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日停止使用。

开源地址：

HuggingFace: https://huggingface.co/collections/deepseek-ai/deepseek-v4
ModelScope: https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
技术报告: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

来源: DeepSeek 官方公众号