来源:AI芯天下
十年基石:残差连接如何成为AI的[定海神针]
要理解mHC的革命性意义,必须先回溯深度学习的一段关键历史。
2015年之前,神经网络领域存在一个致命悖论。理论上模型层数越深,拟合复杂函数的能力越强,但实际训练中,层数超过几十层就会出现梯度消失或爆炸,导致模型完全无法收敛。
当时在微软亚洲研究院的何恺明、张祥雨团队,用残差连接(ResidualConnection)打破了僵局,其核心公式简单到令人惊叹:y=x+F(x)。
就是这短短一个公式,让训练上千层的深度网络成为可能,也为后来的Transformer架构奠定了基础,那篇残差论文至今仍是AI史上引用量最高的成果之一。
![]()
残差连接的智慧,在于它为信息传递开辟了一条[应急车道]。
如果把深度神经网络比作一座层层加工的工厂,传统架构中,输入信息x必须经过每一层的复杂变换f(x)才能到达输出端。
就像所有物料都要经过每条生产线的加工,一旦某道工序出现偏差,后续就会[差之毫厘,失之千里]。
而残差连接的x项,相当于在工厂里修了一条直达传送带,让部分信息不经过任何加工直接传递到下游。
这种设计的本质是嵌入了[恒等映射](Identity Mapping),哪怕中间的变换函数F(x)学得一塌糊涂,x这条直通路径也能把信号和梯度完整地送到深层,确保网络不会[越算越跑偏]。
就像雕塑大师把创作从[直接塑形]变成[去除多余石料],残差网络让每一层只需要学习增量变化,剩下的交给恒等映射兜底。
这一设计成为了深度学习的[定海神针],从2017年Transformer问世,到GPT、Llama、DeepSeek等主流大模型,几乎所有深度神经网络都把残差连接当作标配。
十年间,模型参数从百万级增长到万亿级,层数从几十层堆叠到上千层,但残差连接的核心逻辑始终未变。
它证明了:让网络[可以很深]的关键,不是每层转换多聪明,而是永远留一条[不作妖]的直达通路。
![]()
单车道不够用了:HC的革新与失控
随着大模型规模持续扩张,研究者们开始不满足于残差连接的[单车道]设计。
如果把残差流比作高速公路的主干线,当车流量(信息吞吐量)越来越大,单车道的通行能力早晚会触达瓶颈。
2024年9月,字节跳动发表的Hyper-Connections(超连接,简称HC)论文,正是这一思路的落地。
HC的核心设计堪称大胆,将原本的残差流宽度从C扩展到n×C,相当于把单车道扩建成n条并行车道,同时引入可学习的混合矩阵,让各车道的信息在每一层重新路由、融合。
实验结果令人振奋,多车道设计让信息交互更充分,模型表达力显著提升,在混合专家(MoE)模型上甚至实现了1.8倍的收敛加速。
就像把单股线织毛衣改成多股线,织出的[毛衣](模型)不仅更结实,还能呈现更复杂的[花纹](特征表达)。
![]()
但狂欢之下,隐患悄然滋生。HC看似完美的设计,隐藏着一个致命缺陷:它拆掉了残差连接中恒等映射的守恒特性。
残差连接之所以稳定,是因为x项的恒等映射天然具备[能量守恒],输入信号不会被随意放大或衰减。
而HC的混合矩阵是完全自由学习的,没有任何约束,跨多层之后就变成了一串矩阵连乘。
这种无约束设计,在大规模训练中会引发灾难性的[放大器效应],如果某几层学到的[残差]在某些方向上略大于1,经过几十层、上百层的复合后,增长会呈指数级积累。
DeepSeek的实验数据显示,HC架构中,信号最大放大倍数能逼近3000倍,直接导致两种训练灾难:要么信号爆炸、梯度爆炸,要么梯度消失,最终模型训练崩盘。
更棘手的是,HC的多车道设计还带来了巨大的工程开销,并行通道的增加让GPU内存占用和通信带宽需求急剧上升,进一步限制了其在更大规模模型中的应用。
这就像把单车道扩建成多车道后,没有制定任何交通规则,结果不仅车流量没提升,反而引发了连环车祸,还让道路维护成本飙升。
HC的困境揭示了一个深刻矛盾,大模型要提升表达力,就需要更复杂的拓扑结构和更多的连接通道;但连接越多、自由度越高,就越难维持训练的稳定性。
这道稳定性与表达力的选择题,成为了大模型架构演进的核心瓶颈。
![]()
mHC破局:给自由的连接套上[数学护栏]
面对HC的困境,DeepSeek团队给出的解决方案是mHC(流形约束超连接),其核心思想可以用一句话概括:你可以修立交桥、扩多车道,但必须给交通流制定严格的守恒规则。
这个规则的数学载体,就是[双随机矩阵](Doubly Stochastic Matrix)。
简单来说,双随机矩阵需要满足两个硬性条件:一是所有元素非负;二是每一行的元素和为1,每一列的元素和也为1。正是这两个约束,让失控的HC重新找回了稳定性。
![]()
①双随机矩阵:重塑恒等映射的守恒性
双随机矩阵的魔力,在于它为信息传递建立了[能量守恒]机制。当残差映射矩阵被约束为双随机矩阵时,输出信号本质上是输入特征的[加权混合]。
权重总和始终为1,就像把一杯水倒入多个杯子再重新混合,总水量不会凭空增加或减少,这种设计带来了关键保障。
用通俗的比喻来说,mHC就像给多车道高速公路制定了完善的交通规则:车辆可以自由换道,但总车流不能凭空增减,车速不能超过上限,从而避免了拥堵和事故。
更巧妙的是,mHC还对前后残差引入了非负约束(通过sigmoid函数实现),避免了正负系数复合导致的数值抵消,进一步保障了信号传递的完整性。
![]()
②Sinkhorn-Knopp算法:把[野矩阵]驯化成[乖矩阵]
要将自由学习的混合矩阵约束为双随机矩阵,需要[流形约束]这个关键的实现步骤。
DeepSeek采用了经典的Sinkhorn-Knopp算法,这个过程就像一个[训练营],无论原始矩阵多么[放飞自我],经过训练后都必须遵守[行列守恒]的硬纪律。
算法的核心流程十分简洁:先让矩阵所有元素变成严格正数;反复交替进行行归一化(让每一行和为1)和列归一化(让每一列和为1);迭代几次后,矩阵会收敛到双随机结构。
论文实验表明,仅需3次迭代就能达到足够精度,而且整个过程完全可微分,支持端到端训练,不会给模型优化带来额外负担。
这里的[流形](manifold)可以理解为一个特定形状的光滑空间,DeepSeek没有让参数在整个欧氏空间乱跑,而是把它限制在一个有几何结构的可行集合里,确保每一步更新都不偏离守恒轨道。
这种设计的优雅之处在于,它没有引入任何新的超参数,也没有降低模型的表达能力,只是给原本自由的权重矩阵套上了一个数学上可证明的[安全边界]。
这种设计从理论上解决了一个长期困扰产业界与学术界的问题:如何让更复杂的信息通路在不牺牲训练稳定性和可扩展性的前提下发挥效能?
传统方法往往在性能与稳定性之间做取舍,而mHC尝试通过数学约束实现双赢。
![]()
硬核工程:6.7%开销的背后,是重写底层的勇气
mHC的多车道设计和双随机矩阵计算,涉及大量分散的矩阵运算和归一化操作。
如果按常规方式执行,会产生频繁的内存访问,严重拖慢训练速度。
DeepSeek团队没有调用现成的库,而是基于TileLang框架手写了底层CUDA内核代码,将多个分散的操作合并成一个融合内核。
这种优化就像把原本需要多次往返的快递,合并成一次批量配送。减少了内存访问次数,提升了数据locality,仅这一项优化就带来了22%的带宽提升。
针对Sinkhorn-Knopp算法,团队还设计了专门的前向和反向内核,在芯片上重新计算中间结果,避免了额外的存储开销。
大模型训练中,激活值的存储是内存占用的主要来源之一。
mHC的多车道设计会让激活值规模成倍增加,为了解决这个问题,DeepSeek采用了选择性重计算策略。在反向传播时,不存储所有中间激活值,而是选择性地重新计算部分结果。
这种策略看似增加了少量计算量,但大幅降低了内存占用,实验显示内存消耗降低了40%。
在多卡并行训练中,设备间的通信延迟往往是性能瓶颈。
DeepSeek扩展了DualPipe调度策略,通过将MLP层的特定内核放在高优先级计算流上执行,让计算任务与设备间的通信任务并行进行。
当一张GPU在发送数据时,另一张GPU已经在执行计算,不会出现[闲等]的情况。
这套组合拳下来,mHC在扩展系数n=4(即4条并行残差流)时,内部实测的额外训练时间开销仅为6.7%。
mHC作为扩展性设计,有望在以下多个层面带来影响:
①大规模LLM训练稳定性:可以提升深层网络扩展规模的可控性。
②低成本训练策略:通过架构优化减少训练失败和资源浪费。
③生态共享:若该架构开源并被主流框架采纳,将推动整个社区对新连接机制的探索。
![]()
十年基石:残差连接如何成为AI的[定海神针]
DeepSeek过去通过开源策略成功将自己置于全球技术对话中;这一次通过架构创新进一步强化其技术品牌。
mHC既是一个具体的架构创新,也代表着DeepSeek在人工智能基础架构领域的更高目标,推动整个行业对于训练稳定性与可扩展性问题的重新思考。
未来几个月,这种思想能否转化为即将发布的R2模型甚至更大规模的实际产品性能优势,将是真正的检验。
但在AI竞争愈发激烈的今天,每一个早期且可能改变游戏规则的架构创新,都值得我们去深入解读与持续关注。
部分资料参考:腾讯科技:《梁文锋带队DeepSeek,重置深度神经网络最底层的“定海神针”》,头部科技:《下一代模型呼之欲出?!DeepSeek的新年礼物mHC是个啥?》,硅星人Pro:《梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”》,科技最前线:《一篇论文,解决大模型“越聪明越容易崩”的死结》
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.