![]()
![]()
大模型就像个复杂的信息处理工厂,残差连接就是工厂里的传送带。
早期的传送带是单通道的,靠着“恒等映射”的设计,能保证信息完整传递,训练起来也稳定。
可随着模型规模越来越大,单通道传送带就不够用了,信息拥堵得厉害。
![]()
为了解决这个问题,字节跳动的团队之前提出了超连接方案。
这个方案相当于把单通道传送带改成了多通道,信息传输效率确实提高了,性能也跟着提升。
但新的问题很快出现了。
多通道没有统一的调度规则,信息在传输中会出现放大或压制的情况,就像失控的跷跷板。
![]()
这种情况直接导致训练过程中梯度爆炸,模型训练到一半就崩溃了。
本来想简单说下这个问题的严重性,但后来发现不举个例子不行。
有头部AI企业试过用类似超连接的方案训练千亿级模型,结果训练进行到一万多步时就频繁中断,损失值突然飙升。
这可不是小问题,大模型训练一次要耗费大量的算力和资金,中途崩溃意味着之前的投入全打了水漂。
![]()
DeepSeek的mHC架构就是冲着这个痛点来的。
从这个阵容能看出来,DeepSeek对这个研究的重视程度。
mHC的核心思路不是废掉多通道,而是给多通道加一套智能调度系统。
![]()
这个系统靠Sinkhorn-Knopp算法实现,能把连接矩阵约束在双拟随机矩阵的流形上。
可能有人觉得这话说得太学术,其实简单理解就是给信息传输加了个安全范围。
双拟随机矩阵的行和列之和都是1,还都是非负数,能保证信息传播时能量守恒,不会出现突然放大或缩小的情况。
除了这个核心设计,mHC还对输入输出映射加了非负约束。
![]()
这样做是为了避免正负系数相互抵消,导致有用的信号丢失。
这些设计看似简单,却精准戳中了超连接的要害。
它没有否定超连接拓宽通道的思路,而是在这个基础上做优化,这种改良式创新往往比颠覆性创新更容易落地。
为了控制训练开销,DeepSeek还做了一套基础设施优化。
![]()
他们把多个计算步骤融合成一个算子,减少了内存读写的次数。
同时采用了重计算策略,前向传播时丢弃中间数据,反向传播时再重新计算,这样能大幅降低内存占用。
这些优化措施效果很明显,在扩展倍率为4的情况下,训练时间只增加了一点,却换来了稳定性的大幅提升。
![]()
一款架构好不好用,最终还是要看实验数据。
DeepSeek用不同规模的模型做了测试,重点验证了27B参数模型的表现。
结果很直观,mHC彻底解决了超连接的训练不稳定问题,最终的损失值比传统基线模型还低。
在下游任务测试中,mHC的表现也全面超越了基线模型,在推理相关的任务上,比超连接还多了几个百分点的提升。
![]()
规模扩展实验也能说明问题。从3B到27B参数的模型,mHC的性能优势一直保持得很好。
哪怕训练数据量不断增加,这种优势也没有明显衰减。
这意味着mHC不仅在小模型上有效,在大规模模型上同样具备实用价值。
如此看来,mHC的意义不只是解决了一个技术痛点。
![]()
它更像是给行业指明了一个方向,大模型竞争不再是单纯堆参数、堆算力,架构的精细化设计同样重要。
之前很多中小企业因为训练不稳定、成本太高,不敢涉足大规模模型领域。
mHC的出现,说不定能降低这些企业的入局门槛。
![]()
mHC架构用巧妙的设计平衡了性能、稳定性和成本三个核心要素,给大模型架构的演进提供了新的思路。
对于AI行业来说,这种务实的技术创新,远比那些噱头式的突破更有价值。
未来随着更多企业跟进和优化,说不定会催生出更多高效稳定的大模型架构,让AI技术的落地变得更容易。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.