网易首页 > 网易号 > 正文 申请入驻

DeepSeek-V4深度拆解:一篇论文同时做了五件大事

0
分享至


这篇对DeepSeek v4论文解读来自Pierre-Carl Langlais(@Dorialexander)开源AI基础设施开发者,Pleias联合创始人,首席技术官。

这篇论文让我看了整整一周。

DeepSeek-V4的论文试图同时完成多件事,而且这些事之间的联系出乎意料地紧密,很难单独拆开来讲。



下面逐一说清楚。

第一件事:正面追赶闭源模型的架构差距

业内一直有个传言:Anthropic的Opus系列和GPT-5里的最大模型,属于完全不同量级的东西。

它们的特征是:规模极大、极度稀疏的混合专家架构(MoE),能够在保持可服务性的前提下维持前所未有的宽搜索空间。

问题在于,这类模型大到无法在单节点上承载,必须在节点互联和不同层级的量化上做大量工程工作。

DeepSeek-V4的一个核心关注点就是通信延迟问题,论文展示了如何通过对互联网络的精细调度来隐藏延迟,大致思路是把通信时间塞进计算时间里同步完成。

这条路有一个硬门槛:必须具备从头重写底层算子(kernel)的能力。论文里反复强调这一点。因为这就是当前前沿竞争的本质。

第二件事:让长上下文同时变得更高效、更便宜

长上下文本质上是一个注意力分配问题:什么内容值得被关注?

一个显而易见的方案是优先关注最近的token。这对基本检索够用,但不满足智能体(agentic)流水线的需求,因为这类场景需要准确召回距离很远但战略重要的内容。

DeepSeek-V4的解法是用两套不同的注意力压缩方案,分配给不同的层来处理两个维度的记忆:

重度压缩注意力(HCA):暴力方法,把每128个token的序列压缩成一个条目,负责处理模糊但全局性的上下文。

压缩稀疏注意力(CSA):依靠一个轻量级索引器,把相关的局部内容块精准调出来,即使这些内容距离当前位置有数千个token之远。

整个设计面向推理端做了充分优化:采用了很大的head_dim(512),训练成本更高,但换来的是更高压缩率的KV缓存,而KV缓存恰恰是推理时特别是预填充(prefill)阶段的真正瓶颈。

最终结果是非常典型的DeepSeek风格:继MLA(多头潜在注意力)之后,再次颠覆推理经济学。

预计CSA/HCA混合方案(或类似方案)在今年年底前会成为主流架构标配。

第三件事:重新定义模型架构与学习信号

这是整篇论文最有野心、也最不完整的部分。

最突出的是mHC和CSA/HCA混合机制,但创新点远不止于此,还有一长串记录较少的改动:把softmax换成sqrt(softplus)、使用非标准参数值的两阶段混合Muon优化方案,等等。

问题是,这些新组件之间的相互作用目前仍不清楚,这很可能是导致训练过程中出现明显不稳定性的原因。比如论文提到,mHC涉及一个输出维度只有24的矩阵乘法,这会引入不确定性。

即使是全球顶尖的AI实验室,面对消融实验的组合爆炸也无能为力。这些设计选择的组合很可能是不可穷举的,需要一套更系统的理论来支撑。论文结尾也承认了这一点,表示未来会做更全面、更有原则的架构精简研究,但目前还没有给出答案。

相比之下,训练后阶段的探索可能更有参考价值。

值得注意的是,DeepSeek正是RL+推理训练这套标准方案的推广者,而现在他们自己在重新审视这个方案。目前是两阶段设计:先对专项模型做强化学习,再做在线蒸馏。自从发布Self-Principled Critique Tuning以来,DeepSeek就一直在尝试把推理训练信号扩展到最终稀疏奖励之外。

这未必是最终答案。这个领域目前还处于快速变化中,甚至可以说我们为SYNTH设计的可验证流水线,本质上也是一种极端形式的离线强化学习训练。

第四件事:提前布局硬件生态

这是一个3到5年以上的长期计划。

出发点是把限制变成机会:作为中国领先的AI实验室,DeepSeek有很强的动机让训练在华为昇腾芯片上跑通,并为国内芯片自主化努力做出贡献。

论文里有一份罕见的未来硬件愿望清单,非常详细。多位专家指出,这些建议对英伟达来说意义不大,但对硬件领域的新进入者来说非常合理。

DeepSeek似乎在预判一个新格局:未来AI实验室需要与硬件合作伙伴深度绑定,让芯片设计反过来适配模型设计和推理需求。

第五件事:留白,也是一种信息

论文几乎没有提合成数据流水线、改写、模拟环境等内容。

训练数据总量是32T token,其中大概率有相当比例是生成数据,因为网络和其他数字化来源提供不了这么多高质量token。合成数据的比例可能与Trinity或Kimi相近,大约一半左右。

但很明显,DeepSeek这次把全部精力放在了基础设施、架构和规模化上,系统性的重训练留到了后面。

这和Anthropic或OpenAI的做法可能并没有本质区别:即使模型内部的重要部分已经发生了变化,比如Opus 4.7更换了tokenizer,我们仍然处于同一个模型系列中。这说明一个模型的生命周期,往往包含多轮训练,而每一轮的规模都可能相当于几年前的一次完整预训练。

另外,DeepSeek与Moonshot之间的深度协作,以及Moonshot对DeepSeek的高度依赖,暗示这里可能正在形成一种生态系统动态:DeepSeek专注于硬核的基础设施问题,其他发展方向由生态中的合作伙伴分头推进。

以上解读仅代表作者本人观点。

--end--

最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论

/...@作者:你说的完全正确(YAR师)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宣布了!再见辽宁队!正式结束21年生涯

宣布了!再见辽宁队!正式结束21年生涯

篮球实战宝典
2026-05-03 22:36:11
蓝月亮被质疑同规格内衣洗衣液不同价,有电商平台客服:一款针对汗味等,一款针对血渍

蓝月亮被质疑同规格内衣洗衣液不同价,有电商平台客服:一款针对汗味等,一款针对血渍

红星资本局
2026-05-02 18:50:05
五一返程顺风车大单爆了!抢单大厅全是大单车主却不想接单了!

五一返程顺风车大单爆了!抢单大厅全是大单车主却不想接单了!

网约车观察室
2026-05-03 09:52:39
心血管科主任:动脉硬化最危险信号,不是腿凉,是频繁出现2异常

心血管科主任:动脉硬化最危险信号,不是腿凉,是频繁出现2异常

垚垚分享健康
2026-05-03 17:20:10
日本媒体惊呼:中国电动两轮车横扫越南,让本田措手不及

日本媒体惊呼:中国电动两轮车横扫越南,让本田措手不及

阿芒娱乐说
2026-05-02 01:54:13
日本有识之士一针见血,1亿日本人根本没意识到,现在有多么危险

日本有识之士一针见血,1亿日本人根本没意识到,现在有多么危险

影孖看世界
2026-05-03 23:53:43
斯诺克世锦赛决赛首阶段:吴宜泽4-4墨菲,3连鞭对手后惨遭4连鞭

斯诺克世锦赛决赛首阶段:吴宜泽4-4墨菲,3连鞭对手后惨遭4连鞭

侧身凌空斩
2026-05-03 23:35:13
终于对美国上阳谋了!中国正式通告全球,美国不愿干的事中国干!

终于对美国上阳谋了!中国正式通告全球,美国不愿干的事中国干!

安安说
2026-05-03 14:06:34
王钰栋进球后浙江副总喜极而泣,米特里策上前拍肩安慰

王钰栋进球后浙江副总喜极而泣,米特里策上前拍肩安慰

懂球帝
2026-05-03 12:53:07
西安市公安局雁塔分局发布警方提示!

西安市公安局雁塔分局发布警方提示!

环球网资讯
2026-05-03 16:46:51
方程豹钛7EV闪充版上市!19.98万起,这台“大水桶”要杀疯了?

方程豹钛7EV闪充版上市!19.98万起,这台“大水桶”要杀疯了?

不凡智库官方
2026-05-04 00:10:01
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
马未都:得了一场大病,你才明白——什么都不如活着重要

马未都:得了一场大病,你才明白——什么都不如活着重要

杏花烟雨江南的碧园
2026-05-03 13:15:03
快讯!关于赵少康的问题!

快讯!关于赵少康的问题!

故事终将光明磊落
2026-05-03 11:46:27
夏洛特11岁生日照美到出圈,不随凯特不随威廉,却撞脸两位王室传奇

夏洛特11岁生日照美到出圈,不随凯特不随威廉,却撞脸两位王室传奇

小鱼爱鱼乐
2026-05-03 23:46:21
频繁旅行的老人,不管当时玩得多开心多自在,晚年都会被“反噬”

频繁旅行的老人,不管当时玩得多开心多自在,晚年都会被“反噬”

小马达情感故事
2026-05-03 20:45:03
拉丁舞爆红之后,最火的7位裁判都有谁

拉丁舞爆红之后,最火的7位裁判都有谁

金牌娱乐
2026-05-03 16:00:42
不能说的秘密

不能说的秘密

贵圈真乱
2026-05-02 12:20:52
39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

39岁前国脚现状:定居美国踢野球,早已财富自由,有2个可爱女儿

揽星河的笔记
2026-04-14 15:18:30
广东晋级8强各界说啥?提2取胜点,胡明轩成收获,米切尔征服关辛

广东晋级8强各界说啥?提2取胜点,胡明轩成收获,米切尔征服关辛

篮球资讯达人
2026-05-04 00:08:04
2026-05-04 00:44:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
334文章数 6703关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

数码
手机
教育
时尚
游戏

数码要闻

自费测评aigoGS11耳机:一篇可能得罪厂商,但必须发出来的真实体验

手机要闻

华为多款新机销售表现曝光,畅享90 Pro Max激活百万台

教育要闻

期中考暨一模出分,大家考的怎么样?

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

扶我起来 《马拉松》未来多年将持续更新剧情

无障碍浏览 进入关怀版