DeepSeek 在 2026 年第一篇论文,梁文峰署名
让「多流残差」这个好想法,能真正在大模型上跑起来
私底下,某巨佬评价道:“牛逼”
![]()
https://arxiv.org/abs/2512.24880
要理解这篇论文,得先知道 Transformer 里的信息是怎么传的
Transformer 里的信息流
你问 ChatGPT 一个问题:今天天气怎么样,它怎么回答你的?
问题拆成一个个小单元,比如「今天」「天气」「怎么样」这样的片段
,可以点击下面的 svg,模拟交互
然后,每个片段会被转成一组向量,进入 Transformer,开始进行处理
数字从第一层进去,经过处理,传到第二层,再处理,再传到第三层...一直传到最后一层
最后一层输出的数字,决定了模型接下来要生成哪个词
![]()
大概就是这样
这个过程会循环往复,直到所有文字都生成完毕
你看到 ChatGPT 一个字一个字往外蹦,就是这个过程
所以中间这几十层的传递很关键。传到最后的数字如果不对,生成的内容就会跑偏
问题来了:层数一多,数字在传递过程中会越来越小,甚至趋近于零
传到后面,前面的信息就丢了
2015 年,ResNet 提出了一个办法:残差连接
做法很简单。每一层在输出的时候,把「这一层算出来的新数字」和「上一层传过来的原始数字」加在一起,再传给下一层
![]()
一个简单的示意图
这样,不管网络有多深,最开始的信息都能一路传到底
过去十年,几乎所有大模型都在用
字节的想法:一条路不够,搞四条
2024 年,字节发了一篇论文叫 Hyper-Connections(HC),入选了 ICLR 2025
他们说,一条残差通道不够用,要把这条路拓宽成四条,还得并行
同时的,这四条通道之间,可以互相交换信息,通过一个可学习的矩阵来混合
![]()
三种连接方式对比:左边是传统残差,中间是 HC,右边是 DeepSeek 的 mHC
听起来很合理,小模型上的实验效果也确实好
但...
![]()
boom 问题:信号爆炸
那个用来混合信息的矩阵,完全可学习,没有任何约束
一层没事,两层也还行
但层数一多,矩阵一乘,信号就飞了
信息每过一层,都要被这个矩阵处理一次。矩阵乘矩阵,再乘矩阵...
DeepSeek 在 27B 模型上复现了这个问题
训练到 12000 步左右,loss 突然飙升,梯度剧烈震荡,训练崩了
![]()
27B 模型训练曲线,HC 在 12k 步附近崩了
论文里给了一个指标,衡量信号在传递过程中被放大了多少倍
HC 在 27B 模型上,这个数能到多少?3000 倍(理想情况下,不应该放大)
![]()
HC 的信号增益能飙到 3000 mHC:加一个约束
DeepSeek 的思路很直接
问题出在矩阵没有约束,那就加约束
加什么约束?
双随机矩阵
这个矩阵有个特点:所有元素加起来,每一行的和等于 1,每一列的和也等于 1
换句话说,信息经过这个矩阵,可以在四条通道之间重新分配,但总量不变
信息可以流动,但总量守恒
不管模型有多少层,信号都不会爆炸,也不会消失
用了这个约束之后,27B 模型上的信号放大倍数从 3000 降到了 1.6
![]()
mHC 的信号增益稳定在 1 附近性
这就是 mHC
m 代表 Manifold,流形约束
工程优化
四条通道,意味着四倍的数据读写量
DeepSeek 做了一系列工程优化:内核融合、重计算策略、流水线调度...
细节不展开了
最终结果:
额外的训练时间开销只有 6.7%
实验效果
27B 模型,mHC 对比传统残差连接,loss 下降 0.021
下游任务上,推理能力(BBH)提升 2.1%,阅读理解(DROP)提升 2.3%
训练全程稳定
![]()
mHC 稳定下降,没崩 说回这篇论文
字节的 HC 提出了一个好想法:把残差通道变宽
但没解决大规模训练的稳定性问题
DeepSeek 给出了数学上干净的解法,然后在工程上把开销压到了可接受的范围
这篇论文透露的信息:DeepSeek 在认真搞架构层的优化
下一代模型,DeepSeek 会不会用 mHC?不知道
但显然,他们在这个方向有投入
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.