掀开DeepSeek-V4的技术账本|编程|算子|上下文|优化器|deepseek

掀开DeepSeek-V4的技术账本

2026-04-29 14:13:18　来源: 观察者网

上海举报

分享至

【文/观察者网心智观察所】

4月24日，DeepSeek正式发布并开源DeepSeek-V4系列预览版本，这是其继V3.2之后的新一代旗舰模型体系。这很可能意味着，从今年夏天开始，大模型赛道上最热闹的话题不再是谁的参数更大，而是谁能更聪明地花算力。

就在各家厂商还在为128K上下文窗口较劲的时候，DeepSeek悄悄把赛道拉到了一百万token。

DeepSeek-V4系列包含两款模型：V4-Pro（1.6万亿总参数，每次推理激活490亿）和V4-Flash（2840亿总参数，每次推理激活130亿），两者均原生支持一百万token上下文。更关键的是，在这个极端长度下，V4-Pro的推理计算量仅为上一代V3.2的27%，KV缓存占用仅为10%。换句话说，DeepSeek没有靠堆算力硬扛长上下文，而是用架构创新把成本打下来了。

心智观察所仔细阅读了这份长达58页的技术报告，发现该报告藏着的不仅是几个新模块的名字，而是一整套关于效率、开源与硬件生态的战略思考。

注意力机制的手术刀：CSA与HCA的精妙配合

DeepSeek-V4为什么能在百万token上做到如此低的计算开销？得先搞清楚传统注意力机制的痛点在哪里。标准的Transformer注意力，每个token都要和前面所有token做一次计算。上下文从8K扩到1M，计算量不是翻一百多倍那么简单，而是平方级增长。这道数学题摆在那里，任何模型都绕不过去。

DeepSeek的解法是设计了两种压缩注意力机制，然后让它们交替上场：

第一种叫压缩稀疏注意力（CSA），它先把每4个token的KV缓存合并成1个压缩条目，然后用一个闪电索引器快速筛选出最相关的少量压缩块，每个查询token只需要和这些精挑细选的块做注意力计算；

第二种叫重度压缩注意力（HCA），它的压缩率高达128倍，把大量token的信息浓缩成极少的条目，虽然信息粒度粗了，但胜在覆盖范围广，能捕捉全局性的语义线索。

这两种机制的分工非常清晰，CSA负责精准定位关键细节，HCA负责把握全局脉络。一个像是拿着放大镜找线索的侦探，一个像是站在山顶俯瞰全景的指挥官。两者交错部署在模型的各层中，形成互补。

效率提升的数字相当惊人。如果以主流的BF16 GQA8配置作为行业通用基准，V4系列在百万token场景下的KV缓存占用量只有这个基准的约2%。这不是百分比级别的优化，而是数量级上的变化。对于需要处理长文档、多文件分析、长链路Agent任务的应用场景来说，这意味着原本不可能的事情变成了工程上可落地的日常。

残差连接和优化器也动了大手术

架构层面的创新不止于注意力机制。DeepSeek-V4还对模型中两个看似不起眼但极其重要的基础组件做了升级。

首先是残差连接。传统Transformer中，每一层的输出会和输入做一个简单的加法，这就是残差连接。它的好处是让深层网络更容易训练，但问题也在于它太简单了，表达能力有限。此前的超连接（Hyper-Connections）研究尝试扩展残差通道的宽度来增强表达力，但在多层堆叠时总会出现数值爆炸的问题。

DeepSeek-V4采用的流形约束超连接（mHC）找到了一个优雅的解决方案：把残差映射矩阵约束在一个叫做双随机矩阵的数学流形上。通俗地说，就是给信号传播加了一个安全阀，确保信号在层间传递时既不会被无限放大，也不会被意外抵消，从根源上保证了训练的稳定性。

还有就是是优化器。V4系列的大部分参数不再使用业界标配的AdamW，而是换成了Muon优化器。Muon的核心操作是对梯度矩阵做近似正交化，通过一种叫Newton-Schulz迭代的数学方法让梯度的奇异值趋近于1。直观理解就是，传统优化器给每个参数独立调整步长，而Muon会考虑参数矩阵整体的结构信息来决定更新方向。实测效果是收敛更快、训练更稳，尤其在万亿参数规模的MoE模型训练中优势明显。

省下来的不只是电费

对于大模型的商业化落地，推理成本往往比训练成本更关键。一个模型训练一次就行，但推理要执行千千万万次。DeepSeek-V4在推理效率上的优化，直接影响的是每一次API调用的成本。

除了CSA和HCA在注意力层面带来的计算量骤降，V4还在精度体系上做了精细文章。MoE专家权重采用FP4量化感知训练，索引器的QK路径全程以FP4计算，KV缓存则采用混合精度存储：位置编码维度保留BF16确保精度，其余维度压缩至FP8。这种对不同部件精度敏感性的分别处理，说明团队对模型内部的信息流有相当深入的理解，而不是简单粗暴地全局降精度。

在MoE层的通信优化方面，V4提出了一套细粒度的专家波次调度方案。传统做法中，通信和计算是串行的，专家并行的效率被通信延迟严重拖累。V4的方案把专家分成多个小波次，每个波次内通信和计算高度并行，实测加速比达到1.5到1.73倍，在强化学习推理等极端场景下甚至接近2倍。这套方案已经作为MegaMoE开源发布。

更值得关注的是磁盘KV缓存的设计。在RAG和多轮对话等大量复用相同前缀的场景中，V4可以把压缩后的KV条目存储到磁盘上。当新请求命中已有前缀时，直接从磁盘读取缓存，跳过整个前缀的预填充阶段。这对商业部署的意义非常直接：用户侧首token延迟大幅降低，服务成本随之下降。

编程与Agent：开源模型首次与闭源巨头正面交锋

基准测试的数字有时候会让人审美疲劳，但DeepSeek-V4在编程能力和Agent能力上的表现，确实值得单独拿出来说。

在Codeforces竞技编程评测上，V4-Pro-Max拿到了3206的评分，超过了GPT-5.4的3168和Claude Opus 4.6的3052。这是开源模型在竞技编程领域第一次正面超越所有顶级闭源模型（如下图）。

Codeforces的评测方式是针对近几个月的全新赛题进行限时解题，数据污染的可能性很低，这个成绩含金量相当高。在LiveCodeBench-v6上，V4-Pro-Max也以93.5%的Pass@1居于首位。

Agent能力方面，V4-Pro在SWE-Verified上达到80.6%的解决率，与Claude Opus 4.6的80.8%几乎不分伯仲。在覆盖大量工具和MCP服务的Toolathlon评测中，V4-Pro以51.8分排名第一，说明它的工具调用能力不是在特定框架下调出来的，而是具备真实的泛化性。

在形式化数学推理这个被视为AI智能天花板的领域，V4通过结合非形式化推理与形式化验证的混合管线，在Putnam 2025全部120题上实现了满分。这个结果在数学界引起了不小的反响。

不过，报告也坦诚地呈现了差距所在。在SimpleQA等知识密集型任务上，V4-Pro-Max的57.9%仍然落后于Gemini-3.1-Pro的75.6%；在长上下文检索（MRCR）上，V4-Pro也落后于Claude Opus 4.6（如下图）。这些差距的存在反而增加了报告的可信度。

V4在后训练阶段做了一个颇具魄力的方法论切换：完全放弃了传统的混合强化学习阶段，转而采用在策略蒸馏（On-Policy Distillation，简称OPD）作为整合多领域能力的核心手段。

具体做法是，先为数学、代码、Agent、指令遵循等各个垂直领域独立训练专家模型，每个专家都经过SFT加强化学习的完整流程，在各自领域达到最优水平。然后，用十余个专家作为教师模型，通过逆KL散度的全词表蒸馏，把所有专家的能力统一灌注到一个学生模型中。

相比传统的多任务混合RL，OPD的优势在于梯度方差更低、训练更稳定，且避免了不同领域的奖励信号相互干扰。这个方法论的深层含义可能比表面看到的更大：未来的顶级通用模型，或许不再是一锅炖出来的，而是先分头修炼再合体的产物。

CUDA之外的第二条路

心智观察所还发现，MegaMoE内核已在英伟达 GPU和华为昇腾NPU两个平台上完成验证。这一表述并非随意带过，它代表着DeepSeek在底层算力上主动构建双轨适配能力的战略选择。在英伟达GPU出口管制持续收紧的背景下，对昇腾生态的深度适配具有明确的风险对冲意义。

在CUDA生态的适配层面，DeepSeek选择了一条颇有远见的技术路线。他们引入了自研的领域特定语言TileLang来开发核心算子。TileLang的设计哲学是在开发效率和运行性能之间找到平衡，同时通过在IR层面生成设备内核和宿主启动器，在一定程度上解耦了算子实现与具体硬件后端。这意味着同一套算子逻辑可以相对容易地迁移到不同的计算平台上。

更深层的信号在于，DeepSeek正在系统性地降低对英伟达专有软件栈的依赖。以DeepGEMM替代cuBLAS进行矩阵乘法，以TileLang构建自主可控的算子开发管线，以精细的通信计算重叠设计降低对特定互连带宽的硬性需求。这套组合拳为未来向国产算力平台的大规模迁移做了扎实的软件侧准备。

当然，我们也要看到，目前的大规模训练验证仍以英伟达架构为主，真正向昇腾或寒武纪的全面迁移在工程层面仍有相当的挑战。但方向是明确的，基础是在打的。在芯片受限的大背景下，软件层面的自主可控能力建设，可能比很多人想象的更加重要。

结语

DeepSeek选择在这个时间点发布V4，背后有清晰的技术逻辑和竞争逻辑。

从技术积累看，V4并非凭空而来。CSA和HCA的核心压缩思路在V3系列的MLA机制中已有铺垫，mHC来自已有外部论文验证的研究成果，Muon优化器也在学术界得到了充分讨论。V4的工作在于将这些独立验证的创新整合进一个统一框架，并完成百万token规模的工程化落地。这种系统集成能力本身就是极高的技术壁垒。

从竞争格局看，2026年中的闭源阵营已经相当拥挤：GPT-5.4在推理任务上表现强劲，Gemini-3.1-Pro在知识密度上领先，Claude Opus 4.6在长上下文检索和复杂指令遵循上占优。V4的突破在于，它以开源形式、更低的推理成本，在编程竞技、Agent任务、企业级应用等多个关键维度上实现了与闭源巨头的对齐甚至超越。这种性价比优势对商业部署决策的影响，远比单一榜单排名更具实际意义。

还有一个容易被忽略的维度：V4的百万token上下文能力，本质上是在为下一阶段的测试时扩展（test-time scaling）铺路。当推理链条可以延伸到数十万甚至上百万token时，模型在单次推理中能完成的任务复杂度将发生质变。这或许才是DeepSeek真正在下的那盘大棋。

这份技术报告有一条清晰的主线贯穿所有技术决策：在参数规模竞赛逐渐饱和的今天，效率才是决定下一代AI格局的核心变量。

DeepSeek-V4并非在所有维度上都做到了最优，这一点报告本身也坦然承认。但它用一套开源、高效、可落地的方案，把百万token级别的上下文处理从昂贵的闭源特权变成了人人可用的基础设施。它代表的不仅是一个模型的进步，更是整个开源AI生态向效率优先范式转型的信号。

对于开发者、企业用户和整个AI行业来说，这个信号很明确：谁能用更少的算力做更多的事，谁就能在下一轮竞争中占据先机。效率正在成为新的规模。

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.