网易首页 > 网易号 > 正文 申请入驻

【梁文锋署名】DeepSeek新论文:所有人都觉得没必要改的东西,他们改了

0
分享至

2025年的最后一天,DeepSeek又发论文了。


过去一年,很多人都在问同一个问题:DeepSeek为什么能用更少的钱,做出更强的模型?

答案当然不止一个。但这篇论文透露了其中一个思路:去优化那些所有人都觉得"已经是最优解"的东西

这次他们动的是残差连接——一个深度学习领域用了十年、几乎没人质疑过的基础设计。

论文名字有点硬核:mHC(Manifold-Constrained Hyper-Connections),翻译过来就是"流形约束的超连接"。但核心思想其实不复杂,今天试着用人话讲清楚。

先说背景:残差连接统治了深度学习十年

经常训练大模型的朋友,一定听过"残差连接"(Residual Connection)这个词。

2015年,何恺明团队提出ResNet,核心创新就是这个残差连接。简单说就是:每一层的输出 = 这一层学到的东西 + 上一层的输入。

用公式表示:

x_{l+1} = x_l + F(x_l)

这个设计看起来简单,但解决了一个大问题:网络太深就训不动

为什么?因为梯度消失。信号在几十上百层网络里传递,越传越弱,最后弱到模型根本学不到东西。

残差连接的妙处在于:它给信号开了一条"快车道"。不管中间那些层学到了什么,原始信号都能直接传到后面。这就是所谓的恒等映射(Identity Mapping)——浅层的信息可以原封不动地传到深层。

从2015年到现在,不管是GPT、LLaMA还是Gemini,几乎所有大模型都在用这个设计。十年了,没人动过它。

DeepSeek的第一次尝试:Hyper-Connections

2024年9月,DeepSeek发了一篇论文,提出了Hyper-Connections(HC),第一次对残差连接动刀。

核心思想是:既然残差连接的权重是固定的(1:1),为什么不让模型自己学习最优的连接方式?

HC做了两件事:

  1. 把残差流从1条扩展到n条(通常n=4)

  2. 引入可学习的连接矩阵,让模型自己决定怎么混合这些信号

效果确实好。论文数据显示:

  • 训练收敛速度提升1.8倍

  • ARC-Challenge任务提升6个百分点

这个提升挺猛的。但HC有一个致命缺陷——训练不稳定

HC的问题:信号放大了3000倍

这是论文里最直观的一张图。


看左边那条蓝线(HC),在第12000步左右,损失突然飙升。这对大规模训练来说是致命的——你可能已经烧了几百万的算力,结果模型突然崩了。

为什么会这样?

论文里有详细分析。核心原因是:HC破坏了恒等映射的特性

还记得残差连接的公式吗?x_{l+1} = x_l + F(x_l)。这里的x_l是"1倍"传递到下一层的。但HC引入了可学习的权重矩阵H,信号传递变成了:

x_{l+1} = H * x_l + ...

问题来了:H是可学习的,没有任何约束。

当网络有60层时,信号要经过60个H矩阵的连乘。如果每个H的"放大倍数"稍微大于1,连乘60次会发生什么?

指数爆炸

论文测量了这个"放大倍数"(Amax Gain Magnitude)。理想情况下应该是1(信号不放大也不缩小)。但HC在27B模型上的实测结果是——

峰值达到3000

信号被放大了3000倍,梯度也被放大了3000倍。难怪训练会崩。

mHC的解法:双随机矩阵

现在问题清楚了:H矩阵太"自由"了,没有约束,所以会乱来。

那怎么约束它?

最简单的方法是让H = I(单位矩阵),这样就退化回原始的残差连接了。但这样就失去了HC的性能优势。

DeepSeek的解法很优雅:把H约束在"双随机矩阵"上

什么是双随机矩阵?简单说就是满足两个条件的矩阵:

  1. 所有元素都 ≥ 0

  2. 每行之和 = 1,每列之和 = 1

举个例子,这是一个2×2的双随机矩阵:

[0.3, 0.7]
[0.7, 0.3]

每行加起来是1,每列加起来也是1。

为什么这个约束有效?

因为双随机矩阵做的事情本质上是"加权平均"

当你用双随机矩阵乘以一个向量时,结果向量的每个元素都是输入向量的凸组合(加权平均)。加权平均有一个天然的性质:结果不会超出输入的范围

这就从数学上保证了信号不会爆炸。

更妙的是,双随机矩阵还有一个"封闭性":两个双随机矩阵相乘,结果还是双随机矩阵

这意味着不管网络有多深,60层、100层、1000层,信号经过多少个H矩阵的连乘,结果仍然是一个双随机矩阵,仍然满足"不会爆炸"的性质。

论文用了一个算法叫Sinkhorn-Knopp来做这个投影。具体细节不展开了,核心就是迭代地调整矩阵的行和列,让它们都归一化到和为1。

效果:稳定性提升三个数量级

mHC的效果怎么样?


先看稳定性。同样是27B模型,同样的训练配置:

指标

HC

mHC

Amax Gain峰值

3000

1.6

从3000降到1.6,降低了三个数量级。说实话,看到这个数字的时候我愣了一下——这个改进幅度有点离谱。

训练曲线也变得平滑了,再也没有那个可怕的"损失飙升"。

再看性能。mHC不仅比原始的残差连接强,甚至比不稳定的HC还要强:

Benchmark

Baseline

HC

mHC

BBH

43.8

48.9

51.0

DROP

47.0

51.6

53.9

GSM8K

46.7

53.2

53.8

MMLU

59.0

63.0

63.4

mHC在大多数任务上都比HC更好,特别是推理任务(BBH +2.1%,DROP +2.3%)。

稳定性提升了,性能也提升了。那代价呢?

只增加了6.7%的训练时间

这个数字挺关键的。HC虽然不增加FLOPs(浮点运算量),但因为扩展了残差流宽度,内存访问成本大幅增加。DeepSeek在论文里花了大量篇幅讲基础设施优化——内核融合、选择性重计算、通信重叠——才把开销控制在这个水平。

为什么这个方法优雅?

读完这篇论文,我觉得mHC的设计挺漂亮的,主要体现在三个地方:

1. 问题定义精准

很多研究会笼统地说"训练不稳定",但DeepSeek精确地定位到了问题根源:恒等映射特性的丧失导致信号在多层传播时爆炸。有了这个精准定义,解决方案才能有的放矢。

2. 解决方案有数学保证

双随机矩阵不是拍脑袋想出来的,而是有严格的数学性质支撑:

  • 谱范数 ≤ 1(不会放大信号)

  • 组合封闭性(多层仍然稳定)

  • Birkhoff多面体的几何解释(是所有置换矩阵的凸组合)

这种有数学保证的方法,比"试了一百种trick发现这个work"要可靠得多。

3. 工程和理论并重

很多论文只讲理论创新,对工程实现一笔带过。但DeepSeek的论文花了相当篇幅讲基础设施优化:怎么融合内核、怎么减少内存占用、怎么和DualPipe调度配合。这才是能真正落地的研究。

往大了说:DeepSeek在找什么?

回到开头的问题:DeepSeek为什么能用更少的钱做出更强的模型?

这篇论文给出了一个侧面的答案:他们在找那些"所有人都觉得已经是最优解"的东西,然后证明它不是

过去十年,大模型的架构创新主要集中在"微观设计"——Attention怎么改、FFN怎么改、位置编码怎么改。但残差连接?从2015年到现在,几乎原封不动。大家默认它没什么可优化的了。

mHC证明了这个假设是错的。

更重要的是,这种优化的特点是:不增加计算量,只改变信息流动的方式。同样的FLOPs,更好的效果。

这可能就是DeepSeek的技术哲学之一:不是比谁烧的钱多,而是比谁能在同样的资源下榨取更多性能。

当然,mHC还解决了一个实际问题:让HC能稳定训练。HC本身是个好方法,但因为不稳定没法用。mHC修复了这个缺陷,让这条架构创新的路能走下去。

论文最后一句话说得挺直接的:

"我们希望mHC能重新激发社区对宏观架构设计的兴趣。"

翻译一下:过去大家都在卷Attention、卷FFN、卷MoE。现在DeepSeek说,层与层之间怎么连接,这块也有金矿。

最后

这篇论文给我最大的启发是:当你发现一个方法有效但不稳定时,不要放弃,而是去找约束条件

双随机矩阵就是这样一个约束——它保留了HC的表达能力(可学习的连接权重),同时通过数学性质保证了稳定性(加权平均不会爆炸)。在自由和约束之间找平衡,这个思路可能在很多领域都适用。

回到开头的问题:DeepSeek为什么能做到别人做不到的事?

这篇论文给出的答案是:去质疑那些"所有人都觉得没必要改"的东西。残差连接用了十年,不代表它是最优解。

2025年最后一天发这篇论文,DeepSeek给2026年开了个好头。

参考资料

  • mHC论文:https://arxiv.org/abs/2512.24880

  • Hyper-Connections论文:https://arxiv.org/abs/2409.19606

  • DeepSeek-V3技术报告:https://arxiv.org/abs/2412.19437

@Deepseek 用我奶奶也能懂的方式,用100字解释下这篇论文。

奶奶,你想啊,AI训练就像带熊孩子。 以前的规矩是:拉着手走,一步都不许乱动。安全,但孩子啥也学不会。 后来有人说:放开让他跑吧。结果跑着跑着就跑丢了。 DeepSeek的办法:让孩子自己跑,但只能在围栏里跑。怎么跑都行,反正跑不出去。 给自由画个圈,这就是mHC。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人狂必有祸!被何庆魁骂“白眼狼”的闫学晶,狐狸尾巴藏不住了

人狂必有祸!被何庆魁骂“白眼狼”的闫学晶,狐狸尾巴藏不住了

冷紫葉
2026-01-04 18:10:31
长城汽车正式取消“大小周”,全面落实双休制度,员工:刚开始听到消息,以为是谣言不敢信

长城汽车正式取消“大小周”,全面落实双休制度,员工:刚开始听到消息,以为是谣言不敢信

大风新闻
2026-01-06 16:58:03
总局公示四位马拉松女将获国际健将,张水华“走错考场”无缘认证

总局公示四位马拉松女将获国际健将,张水华“走错考场”无缘认证

杨华评论
2026-01-06 17:42:06
“睡遍顶流”的司晓迪身份被扒,曾就读淄博中学!毕业照很清纯!

“睡遍顶流”的司晓迪身份被扒,曾就读淄博中学!毕业照很清纯!

娱乐团长
2026-01-05 16:23:19
詹姆斯30+8+8创两大历史第1神迹!东契奇30+10,墨菲42分创纪录

詹姆斯30+8+8创两大历史第1神迹!东契奇30+10,墨菲42分创纪录

一将篮球
2026-01-07 12:16:03
曾志伟也没想到,卸任TVB总经理不到24小时,恶心的一幕就发生了

曾志伟也没想到,卸任TVB总经理不到24小时,恶心的一幕就发生了

阿纂看事
2026-01-05 14:32:39
联想集团董事长杨元庆:未来3至4年内与英伟达的业务合作规模将翻四番

联想集团董事长杨元庆:未来3至4年内与英伟达的业务合作规模将翻四番

每日经济新闻
2026-01-07 11:18:26
太子集团创始人陈志,被遣送回中国,接受有关部门调查

太子集团创始人陈志,被遣送回中国,接受有关部门调查

新京报政事儿
2026-01-07 20:35:03
辞职24小时内火速签约!张水华的“现实第一步”炸翻全网

辞职24小时内火速签约!张水华的“现实第一步”炸翻全网

天天热点见闻
2026-01-06 08:05:47
外交部:中方依法依规采取措施 完全正当合理合法

外交部:中方依法依规采取措施 完全正当合理合法

环球网资讯
2026-01-07 15:43:14
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
被国民党聘为“最高顾问”,王金平全力辅选,力拼翻转南台湾

被国民党聘为“最高顾问”,王金平全力辅选,力拼翻转南台湾

海峡导报社
2026-01-06 11:32:09
C罗昔日力挺阿莫林的言论再度刷屏:他早看透了曼联的病根?

C罗昔日力挺阿莫林的言论再度刷屏:他早看透了曼联的病根?

星耀国际足坛
2026-01-06 22:00:46
强得可怕!成都蓉城新赛季锋线曝光:坐拥2名外援加4大国脚!

强得可怕!成都蓉城新赛季锋线曝光:坐拥2名外援加4大国脚!

邱泽云
2026-01-07 19:20:59
AI生成漫画登顶日本畅销榜榜首 传统漫画家集体忧虑

AI生成漫画登顶日本畅销榜榜首 传统漫画家集体忧虑

3DM游戏
2026-01-06 17:22:06
国务院国资委主任张玉卓:中央企业要大力发展战略性新兴产业与未来产业 开辟增长的“第二曲线”

国务院国资委主任张玉卓:中央企业要大力发展战略性新兴产业与未来产业 开辟增长的“第二曲线”

财联社
2026-01-07 14:24:05
梅西:很后悔退出阿根廷队,重新审视自己的决定也是一种成熟

梅西:很后悔退出阿根廷队,重新审视自己的决定也是一种成熟

懂球帝
2026-01-07 09:57:04
7800元滑雪夹克“秒没”到原价转让,始祖鸟马年限定遇冷 高端户外还能卖多久“身份感”?

7800元滑雪夹克“秒没”到原价转让,始祖鸟马年限定遇冷 高端户外还能卖多久“身份感”?

每日经济新闻
2026-01-06 21:20:04
45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

45岁富哥“北京肖哥”去世,前一天还晒老婆,死因曝光仇人都惋惜

嫹笔牂牂
2025-12-31 07:07:52
马杜罗有救了?48小时内,中方两次要求放人,特朗普对华作出承诺

马杜罗有救了?48小时内,中方两次要求放人,特朗普对华作出承诺

近史博览
2026-01-07 11:39:25
2026-01-07 21:03:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
110文章数 52关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

结束访华行程当天 李在明最新涉华表态

头条要闻

结束访华行程当天 李在明最新涉华表态

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

教育
家居
旅游
亲子
军事航空

教育要闻

当教育从“育分”转向“育人”,才能改变陪跑者的现状

家居要闻

宁静不单调 恰到好处的美

旅游要闻

冬日限定!伏羲大峡谷冰挂进行时!

亲子要闻

这孩子玩不起了

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版