
2026年新年第一天,DeepSeek上传了一篇名为《mHC:流形约束超连接》的新论文,创始人梁文锋的名字赫然出现在合著名单中。
这篇论文的核心是提出一种名为mHC(流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题。
为了让读者更好地理解这篇论文的核心概念,这里先简要解释几个关键术语:
残差连接:神经网络中的一种“快捷通道”,让信息可以直接跳过某些层,缓解深层网络训练困难的问题。
超连接:在“快捷通道”基础上,增加更多并行路径和连接方式的增强技术。
流形:可以理解为一种特定形状的曲面或空间结构。
恒等映射特性:指神经网络能够“原样”传递输入信息的能力,是训练稳定的关键。
自2016年何恺明提出“残差连接”以来,这种让信息可以“走捷径”的设计已经成为构建深度神经网络的标配。近年出现的超连接技术则在此基础上增加了更多并行“道路”和连接方式。
但这种增强也有副作用——削弱了神经网络“原样传递”信息的能力,导致训练变得不稳定,尤其当模型规模越来越大时,问题更加明显。
mHC技术的核心思路很巧妙:通过数学方法将复杂的连接方式约束在特定“形状”的空间内,从而恢复神经网络稳定传递信息的能力。
实验表明,在27B参数的混合专家模型上,mHC展现出稳定的训练曲线,最终损失相比基线降低0.021,同时在BBH推理任务上比传统HC提升2.1%。
值得注意的是,这篇论文的第一作者是解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao)三位研究人员,而梁文锋也在作者名单中。
除了理论创新,DeepSeek团队还为mHC架构开发了一系列基础设施优化。他们使用TileLang框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数。
针对Sinkhorn-Knopp算法,他们设计了专门的前向和反向内核,在芯片上重新计算中间结果以避免存储开销。在流水线并行方面,团队扩展了DualPipe调度策略,通过将MLP层的特定内核放在高优先级计算流上执行,实现了计算与通信的重叠。
这些优化使得mHC在保持性能优势的同时,显著减少了额外开销。
mHC的成功研发对行业影响深远。训练稳定性和可扩展性的提升,让大模型在更复杂的场景落地成为可能。
比如需要超大规模参数的多模态模型、工业级的智能决策系统都能从中受益。尤其对算力有限的中小AI企业而言,这意味着能尝试开发更复杂的大模型,降低了大模型研发的门槛。
论文在结论与展望部分指出,作为HC范式的广义拓展,mHC为未来研究开辟了多个重要方向。
通过深化对拓扑结构如何影响优化与表征学习的理解,mHC将有助于突破现有局限,并可能为下一代基础架构的演进指明新路径。
mHC作为HC范式的广义拓展,正开启大模型架构设计的新阶段。通过将残差连接空间约束在特定流形上,这项技术不仅恢复恒等映射特性,还融合了严格的工程优化。
行业内人士已开始预测,这项创新或将应用到DeepSeek下一代模型中,可能带来比肩国际顶尖水平的性能突破。
来源:凤凰网科技
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.