当Transformer架构在27B参数规模下遭遇训练崩溃时,DeepSeek团队正在实验室验证一个疯狂假设:能否用数学中的流形理论重新定义残差连接?2026年开年公布的mHC(流形约束超连接)架构给出了惊艳答案——仅增加6.7%训练时间开销,就实现了信号传播稳定性与性能增益的兼得。
![]()
传统HC架构的"双生子困境"
传统超连接(HC)技术通过拓宽残差流通道提升模型容量,却意外触发了两个致命问题:其一,自由学习的连接矩阵会破坏恒等映射特性,导致深层网络出现信号爆炸或消失;其二,显存带宽需求呈指数级增长,形成制约扩展的"内存墙"。这就像给赛车引擎强行增压,虽获得瞬时爆发力,却导致传动系统可靠性崩溃。
![]()
流形约束的数学之美
mHC架构的核心创新在于引入双拟随机矩阵流形。通过Sinkhorn-Knopp算法将连接矩阵投影到Birkhoff多胞形上,使信号传播转变为特征的凸组合。这种设计在数学上严格保证了范数稳定性,相当于给神经网络安装了"稳压器"。实验显示,在同等扩展倍率下,mHC架构的训练损失波动幅度比传统HC降低83%。
![]()
并行计算的工程突破
为抵消通道拓宽带来的计算开销,DeepSeek团队开发了三重优化策略:内核融合减少显存读写,选择性重计算降低冗余操作,DualPipe通信实现计算与传输重叠。这类似于在芯片设计中的超线程技术,使27B参数模型的训练吞吐量保持线性增长。值得注意的是,该架构对Transformer原生接口完全兼容,开发者无需重构现有代码库。
![]()
基座模型的新范式
mHC的价值不仅在于技术指标提升,更在于其方法论启示。通过将连接矩阵约束在特定流形,既保留了HC的性能优势,又恢复了残差网络的本质特性。正如论文作者梁文锋在补充材料中强调:"这标志着我们从经验式架构探索转向了基于微分几何的理论设计。"该成果已应用于DeepSeek-R1训练,在BBH、DROP等基准测试中创造新纪录。
行业观察家注意到,mHC架构的出现恰逢大模型训练进入千亿参数深水区。其展现出的可扩展性优势,可能改变当前以堆叠算力为主的研发路径。不过也有学者提醒,该技术对矩阵分解算法的精度极为敏感,在FP16混合精度训练中仍需进一步验证稳定性边界。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.