![]()
这篇对DeepSeek v4论文解读来自Pierre-Carl Langlais(@Dorialexander)开源AI基础设施开发者,Pleias联合创始人,首席技术官。
这篇论文让我看了整整一周。
DeepSeek-V4的论文试图同时完成多件事,而且这些事之间的联系出乎意料地紧密,很难单独拆开来讲。
![]()
![]()
下面逐一说清楚。
第一件事:正面追赶闭源模型的架构差距
业内一直有个传言:Anthropic的Opus系列和GPT-5里的最大模型,属于完全不同量级的东西。
它们的特征是:规模极大、极度稀疏的混合专家架构(MoE),能够在保持可服务性的前提下维持前所未有的宽搜索空间。
问题在于,这类模型大到无法在单节点上承载,必须在节点互联和不同层级的量化上做大量工程工作。
DeepSeek-V4的一个核心关注点就是通信延迟问题,论文展示了如何通过对互联网络的精细调度来隐藏延迟,大致思路是把通信时间塞进计算时间里同步完成。
这条路有一个硬门槛:必须具备从头重写底层算子(kernel)的能力。论文里反复强调这一点。因为这就是当前前沿竞争的本质。
第二件事:让长上下文同时变得更高效、更便宜
长上下文本质上是一个注意力分配问题:什么内容值得被关注?
一个显而易见的方案是优先关注最近的token。这对基本检索够用,但不满足智能体(agentic)流水线的需求,因为这类场景需要准确召回距离很远但战略重要的内容。
DeepSeek-V4的解法是用两套不同的注意力压缩方案,分配给不同的层来处理两个维度的记忆:
重度压缩注意力(HCA):暴力方法,把每128个token的序列压缩成一个条目,负责处理模糊但全局性的上下文。
压缩稀疏注意力(CSA):依靠一个轻量级索引器,把相关的局部内容块精准调出来,即使这些内容距离当前位置有数千个token之远。
整个设计面向推理端做了充分优化:采用了很大的head_dim(512),训练成本更高,但换来的是更高压缩率的KV缓存,而KV缓存恰恰是推理时特别是预填充(prefill)阶段的真正瓶颈。
最终结果是非常典型的DeepSeek风格:继MLA(多头潜在注意力)之后,再次颠覆推理经济学。
预计CSA/HCA混合方案(或类似方案)在今年年底前会成为主流架构标配。
第三件事:重新定义模型架构与学习信号
这是整篇论文最有野心、也最不完整的部分。
最突出的是mHC和CSA/HCA混合机制,但创新点远不止于此,还有一长串记录较少的改动:把softmax换成sqrt(softplus)、使用非标准参数值的两阶段混合Muon优化方案,等等。
问题是,这些新组件之间的相互作用目前仍不清楚,这很可能是导致训练过程中出现明显不稳定性的原因。比如论文提到,mHC涉及一个输出维度只有24的矩阵乘法,这会引入不确定性。
即使是全球顶尖的AI实验室,面对消融实验的组合爆炸也无能为力。这些设计选择的组合很可能是不可穷举的,需要一套更系统的理论来支撑。论文结尾也承认了这一点,表示未来会做更全面、更有原则的架构精简研究,但目前还没有给出答案。
相比之下,训练后阶段的探索可能更有参考价值。
值得注意的是,DeepSeek正是RL+推理训练这套标准方案的推广者,而现在他们自己在重新审视这个方案。目前是两阶段设计:先对专项模型做强化学习,再做在线蒸馏。自从发布Self-Principled Critique Tuning以来,DeepSeek就一直在尝试把推理训练信号扩展到最终稀疏奖励之外。
这未必是最终答案。这个领域目前还处于快速变化中,甚至可以说我们为SYNTH设计的可验证流水线,本质上也是一种极端形式的离线强化学习训练。
第四件事:提前布局硬件生态
这是一个3到5年以上的长期计划。
出发点是把限制变成机会:作为中国领先的AI实验室,DeepSeek有很强的动机让训练在华为昇腾芯片上跑通,并为国内芯片自主化努力做出贡献。
论文里有一份罕见的未来硬件愿望清单,非常详细。多位专家指出,这些建议对英伟达来说意义不大,但对硬件领域的新进入者来说非常合理。
DeepSeek似乎在预判一个新格局:未来AI实验室需要与硬件合作伙伴深度绑定,让芯片设计反过来适配模型设计和推理需求。
第五件事:留白,也是一种信息
论文几乎没有提合成数据流水线、改写、模拟环境等内容。
训练数据总量是32T token,其中大概率有相当比例是生成数据,因为网络和其他数字化来源提供不了这么多高质量token。合成数据的比例可能与Trinity或Kimi相近,大约一半左右。
但很明显,DeepSeek这次把全部精力放在了基础设施、架构和规模化上,系统性的重训练留到了后面。
这和Anthropic或OpenAI的做法可能并没有本质区别:即使模型内部的重要部分已经发生了变化,比如Opus 4.7更换了tokenizer,我们仍然处于同一个模型系列中。这说明一个模型的生命周期,往往包含多轮训练,而每一轮的规模都可能相当于几年前的一次完整预训练。
另外,DeepSeek与Moonshot之间的深度协作,以及Moonshot对DeepSeek的高度依赖,暗示这里可能正在形成一种生态系统动态:DeepSeek专注于硬核的基础设施问题,其他发展方向由生态中的合作伙伴分头推进。
以上解读仅代表作者本人观点。
--end--
最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论
/...@作者:你说的完全正确(YAR师)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.