DeepSeek-V4深度拆解：一篇论文同时做了五件大事|推理|上下文|新论文|deepseek

DeepSeek-V4深度拆解：一篇论文同时做了五件大事

2026-05-03 18:04:17　来源: 我不叫阿哏

广东举报

分享至

这篇对DeepSeek v4论文解读来自Pierre-Carl Langlais（@Dorialexander）开源AI基础设施开发者，Pleias联合创始人，首席技术官。

这篇论文让我看了整整一周。

DeepSeek-V4的论文试图同时完成多件事，而且这些事之间的联系出乎意料地紧密，很难单独拆开来讲。

下面逐一说清楚。

第一件事：正面追赶闭源模型的架构差距

业内一直有个传言：Anthropic的Opus系列和GPT-5里的最大模型，属于完全不同量级的东西。

它们的特征是：规模极大、极度稀疏的混合专家架构（MoE），能够在保持可服务性的前提下维持前所未有的宽搜索空间。

问题在于，这类模型大到无法在单节点上承载，必须在节点互联和不同层级的量化上做大量工程工作。

DeepSeek-V4的一个核心关注点就是通信延迟问题，论文展示了如何通过对互联网络的精细调度来隐藏延迟，大致思路是把通信时间塞进计算时间里同步完成。

这条路有一个硬门槛：必须具备从头重写底层算子（kernel）的能力。论文里反复强调这一点。因为这就是当前前沿竞争的本质。

第二件事：让长上下文同时变得更高效、更便宜

长上下文本质上是一个注意力分配问题：什么内容值得被关注？

一个显而易见的方案是优先关注最近的token。这对基本检索够用，但不满足智能体（agentic）流水线的需求，因为这类场景需要准确召回距离很远但战略重要的内容。

DeepSeek-V4的解法是用两套不同的注意力压缩方案，分配给不同的层来处理两个维度的记忆：

重度压缩注意力（HCA）：暴力方法，把每128个token的序列压缩成一个条目，负责处理模糊但全局性的上下文。

压缩稀疏注意力（CSA）：依靠一个轻量级索引器，把相关的局部内容块精准调出来，即使这些内容距离当前位置有数千个token之远。

整个设计面向推理端做了充分优化：采用了很大的head_dim（512），训练成本更高，但换来的是更高压缩率的KV缓存，而KV缓存恰恰是推理时特别是预填充（prefill）阶段的真正瓶颈。

最终结果是非常典型的DeepSeek风格：继MLA（多头潜在注意力）之后，再次颠覆推理经济学。

预计CSA/HCA混合方案（或类似方案）在今年年底前会成为主流架构标配。

第三件事：重新定义模型架构与学习信号

这是整篇论文最有野心、也最不完整的部分。

最突出的是mHC和CSA/HCA混合机制，但创新点远不止于此，还有一长串记录较少的改动：把softmax换成sqrt(softplus)、使用非标准参数值的两阶段混合Muon优化方案，等等。

问题是，这些新组件之间的相互作用目前仍不清楚，这很可能是导致训练过程中出现明显不稳定性的原因。比如论文提到，mHC涉及一个输出维度只有24的矩阵乘法，这会引入不确定性。

即使是全球顶尖的AI实验室，面对消融实验的组合爆炸也无能为力。这些设计选择的组合很可能是不可穷举的，需要一套更系统的理论来支撑。论文结尾也承认了这一点，表示未来会做更全面、更有原则的架构精简研究，但目前还没有给出答案。

相比之下，训练后阶段的探索可能更有参考价值。

值得注意的是，DeepSeek正是RL+推理训练这套标准方案的推广者，而现在他们自己在重新审视这个方案。目前是两阶段设计：先对专项模型做强化学习，再做在线蒸馏。自从发布Self-Principled Critique Tuning以来，DeepSeek就一直在尝试把推理训练信号扩展到最终稀疏奖励之外。

这未必是最终答案。这个领域目前还处于快速变化中，甚至可以说我们为SYNTH设计的可验证流水线，本质上也是一种极端形式的离线强化学习训练。

第四件事：提前布局硬件生态

这是一个3到5年以上的长期计划。

出发点是把限制变成机会：作为中国领先的AI实验室，DeepSeek有很强的动机让训练在华为昇腾芯片上跑通，并为国内芯片自主化努力做出贡献。

论文里有一份罕见的未来硬件愿望清单，非常详细。多位专家指出，这些建议对英伟达来说意义不大，但对硬件领域的新进入者来说非常合理。

DeepSeek似乎在预判一个新格局：未来AI实验室需要与硬件合作伙伴深度绑定，让芯片设计反过来适配模型设计和推理需求。

第五件事：留白，也是一种信息

论文几乎没有提合成数据流水线、改写、模拟环境等内容。

训练数据总量是32T token，其中大概率有相当比例是生成数据，因为网络和其他数字化来源提供不了这么多高质量token。合成数据的比例可能与Trinity或Kimi相近，大约一半左右。

但很明显，DeepSeek这次把全部精力放在了基础设施、架构和规模化上，系统性的重训练留到了后面。

这和Anthropic或OpenAI的做法可能并没有本质区别：即使模型内部的重要部分已经发生了变化，比如Opus 4.7更换了tokenizer，我们仍然处于同一个模型系列中。这说明一个模型的生命周期，往往包含多轮训练，而每一轮的规模都可能相当于几年前的一次完整预训练。

另外，DeepSeek与Moonshot之间的深度协作，以及Moonshot对DeepSeek的高度依赖，暗示这里可能正在形成一种生态系统动态：DeepSeek专注于硬核的基础设施问题，其他发展方向由生态中的合作伙伴分头推进。

以上解读仅代表作者本人观点。

--end--

最后记得⭐️我，每天都在更新：如果觉得文章还不错的话可以点赞转发推荐评论

/...@作者：你说的完全正确（YAR师）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.