DeepSeek 要发大招了，梁文锋署名新论文！暴力优化AI架构|deepseek|算子|范数|残差

DeepSeek 要发大招了，梁文锋署名新论文！暴力优化AI架构

2026-01-01 18:32:23　来源: 新智元

北京举报

分享至

　　新智元报道

　　编辑：编辑部

　　【新智元导读】2026新年第一天，DeepSeek发表了梁文锋署名的重磅新论文，提出了一种名为「mHC（流形约束超连接）」的新架构，在27B参数模型上，仅增加约6.7%的训练时间开销，即可实现显著性能提升。

　　刚刚，DeepSeek送上2026年新年第一个王炸。

　　这次的创新是，mHC（流形约束超连接）新架构。

　　标题：mHC：Manifold-Constrained Hyper-Connections

　　链接：https://arxiv.org/abs/2512.24880

　　在这篇论文中，DeepSeek提出了流形约束超连接（mHC），将矩阵投影到约束流形上优化残差连接空间，从而确保稳定性，彻底颠覆了传统AI架构认知——

　　可以扩大残差流通道宽度（residual stream width），而在算力和内存上的代价却微乎其微。

　　图1：残差连接范式示意图

　　继Hyper-Connections（HC）开辟「残差连接宽度可扩展」路线之后，mHC直接把这一思路推上实用化的快车道。

　　DeepSeek这次直击AI痛点，给同行上了一课！

　　值得一提的是，这次梁文锋署名，但解振达、韦毅轩、Huanqi Cao为核心贡献者，解振达为通讯作者。

　　DeepSeek，或敲响ResNet丧钟

　　这简直是为「模型优化玩家」量身打造的王牌秘方。

　　过去，超连接（hyper-connections）更多只是学术圈的小众尝试。

　　而现在，DeepSeek直接把它升级为基础架构的核心设计要素。

　　这也正是拥趸一直以来对DeepSeek的期待：数学上的洞察力+硬件层面的极致优化。

　　顶级大语言模型（LLM）中，ResNet结构或许即将被淘汰。

　　毕竟，残差流通道宽度一直是扩展模型的「烦人瓶颈」。

　　这波操作，也再次展现了DeepSeek典型的风格：对同行的温和降维打击——

　　你们两年时间都在打磨微结构，调整DS-MoE？挺可爱哈。

　　来看看我们怎么玩：把一个理论上看起来还不够成熟的高级原语，直接做实，顺手解锁游戏下一关。

　　他们在论文中写道：「我们的内部大规模训练实验进一步验证了mHC在大规模应用中的有效性。」

　　这句话在DeepSeek的原生稀疏注意力（Natively trainable Sparse Attention，NAS）那篇论文里可没有。

　　在27B模型的系统级基准测试结果中，新架构mHC在绝大多数基准测试中持续超越基线模型并优于HC，这证明其在大规模预训练中的有效性。

　　换句话说，DeepSeek信心十足，不怕同行知道自己的「杀招」。

　　这给了DeepSeek的铁粉Teortaxes很大信心，他有九成把握：mHC会进入DeepSeek V4。

　　核心方法

　　Manifold-Constrained Hyper-Connections (mHC)

　　这个方法的关键目标，就是在Hyper-Connections的拓扑设计下恢复身份映射属性。这样，就可以在大规模训练与现实基础模型任务中体现实际价值。

　　mHC与传统残差连接和HC的根本差异在于：传统残差连接只保留简单的输入 + 输出形式（稳定但表达受限）；Hyper-Connections (HC)强化连接能力，但牺牲了稳定性与效率。

　　而mHC的思路是：将Hyper-Connections的参数空间约束到特定的流形（manifold）上，以恢复身份映射结构。

　　技术细节

　　受恒等映射原则的启发，mHC的核心思想是在一个特定流形上对残差映

　　进行约束。尽管原始的恒等映射通过强制来保证训练稳定性，但这种做法从根本上阻断了残差流内部的信息交互，而这种交互对于充分发挥多流（multi-stream）架构的潜力至关重要。

　　因此，作者提出将残差映射投影到一个既能维持跨层信号传播稳定性、又能促进残差流之间相互作用的流形上，从而在保证稳定性的同时保留模型的表达能力。

　　为此，他们将约束为双随机矩阵，即矩阵元素非负，且每一行与每一列的元素之和均为1。

　　形式化地，记为双随机矩阵所构成的流形（亦称Birkhoff多面体），将约束在其投影上，其定义为：

　　需要注意的是，当n=1时，双随机条件会退化为标量1，从而恢复为原始的恒等映射。选择双随机性能够带来若干对大规模模型训练具有重要意义的严格理论性质：

　　1.保范性：双随机矩阵的谱范数有上界1，即。

　　这意味着该可学习映射是非扩张的，从而能够有效缓解梯度爆炸问题。

　　2.组合闭包性：

　　3.通过Birkhoff多面体的几何解释：

　　集合构成Birkhoff多面体，即置换矩阵集合的凸包。

　　这提供了清晰的几何直观：残差映射可以被看作是若干置换的凸组合。

　　从数学上看，此类矩阵的反复作用会单调地增强不同信息流之间的混合程度，从而有效地充当一种鲁棒的特征融合机制。

　　参数化与流形投影

　　给定第l层的输入隐藏矩阵，首先将其展平成向量，以保留完整的上下文信息。随后，遵循原始HC的建模方式，得到动态映射和静态映射，具体如下：

　　随后，通过如下方式得到最终满足约束的映射：

　　其中，表示Sigmoid函数。

　　Sinkhorn–Knopp(⋅) 算子首先通过指数运算保证所有元素为正，然后执行交替的迭代归一化过程，使矩阵的行和列分别归一到1。

　　具体而言，以正矩阵作为初始值，归一化迭代过程为：

　　随着迭代次数增加，当时，该过程收敛到一个双随机矩阵。

　　在实验中，取作为一个实用的近似值。

　　高效的基础设施设计

　　通过一系列严格的工程优化，作者成功将mHC（取n=4）部署到大规模模型中，训练开销仅增加约6.7%。

　　内核融合

　　作者观察到，在mHC中，当对高维隐藏状态进行操作时，RMSNorm会带来显著的延迟。

　　为此，他们将「除以范数」的操作重新排序，使其发生在矩阵乘法之后。该优化在数学上是等价的，但在工程实现上显著提升了效率。

　　此外，我们采用混合精度策略，在不牺牲计算速度的前提下最大化数值精度，并将多个具有共享内存访问模式的算子融合为统一的计算内核，以降低内存带宽瓶颈。

　　基于公式（10）至（13）中给出的输入与参数设置，作者实现了三个专用的 mHC计算内核。

　　利用上述内核计算得到的系数，他们又引入了两个额外的计算内核来应用这些映射。

　　该框架能够简化复杂计算流程内核的实现，并在较小工程代价下充分发挥内存带宽的潜力。

　　重计算

　　n路残差结构在训练过程中会引入显著的内存开销。

　　为缓解这一问题，作者在前向传播结束后丢弃mHC内核产生的中间激活，并在反向传播阶段通过重新执行mHC内核（不包含计算量较大的层函数F）来即时重计算这些激活。

　　因此，对于连续的L_r个层组成的一个模块，只需存储第一层的输入。

　　在忽略轻量级系数、同时考虑到F中的pre-norm开销后，表3总结了在反向传播中需要保留的中间激活以及在L_r个连续层中被重计算的瞬时激活。

　　随后，他们通过最小化与L_r对应的总内存占用来确定最优的块大小。

　　DualPipe中的通信重叠

　　在大规模训练中，流水线并行（pipeline parallelism）是缓解参数与梯度内存占用的标准实践。

　　具体而言，他们采用了DualPipe调度策略，该策略能够有效地重叠跨节点（scale-out）的互连通信流量，例如专家并行与流水线并行中的通信开销。

　　然而，与单流（single-stream）设计相比，mHC中提出的n-流残差结构会在流水线阶段之间引入显著的通信延迟。

　　此外，在阶段边界处，对所有Lr层重新计算mHC内核也会带来不可忽略的计算开销。为了解决这些瓶颈，作者对DualPipe调度进行了扩展（见下图），以在流水线阶段边界实现更高效的通信与计算重叠。

　　原文图4：mHC的通信–计算重叠机制。

　　具体而言，为避免阻塞通信流，他们MLP（即FFN）层的内核放置在一个独立的高优先级计算流上执行。

　　同时，在注意力层中，他们刻意避免使用长时间运行的持久化内核（persistent kernels），以防止产生长时间的停顿。

　　该设计允许对已重叠的注意力计算进行抢占，从而在保持计算设备处理单元高利用率的同时，实现更加灵活的调度。

　　此外，重计算过程被与流水线通信依赖解耦，这是因为每个阶段的初始激活x0l已经被缓存在本地。

　　实验结果

　　DeepSeek团队首先检验了27B模型的训练稳定性和收敛性。

　　如下图（a）所示，mHC有效缓解了在HC中观察到的训练不稳定性，相比基线最终降低了0.021的损失。

　　下图(b)中的梯度范数分析，进一步证实了这种改善的稳定性，表明mHC展现出显著优于HC的，稳定性与基线相当。

　　原文图5：流形约束超连接（mHC）的训练稳定性，展示了 (a) mHC与HC相对于基线的绝对训练损失差距，以及 (b) 三种方法的梯度范数。所有实验均采用27B模型。

　　在多样化基准测试集上，mHC全面提升了下游性能，在所有任务上持续超越基线，并在大多数任务上优于HC。

　　值得注意的是，与HC相比，mHC进一步增强了模型的推理能力，在BBH上实现了2.1%的性能提升，在DROP上实现了2.3%的提升。

　　这证明其在大规模预训练中的有效性。

　　原文表4：27B模型的系统级基准测试结果。本表比较了基线、HC和mHC在8个不同下游基准测试中的零样本和少样本性能。

　　为了评估方法的扩展性，DeepSeek报告了mHC在不同规模下相比基线的相对损失改进。

　　结果表明，即使在更高的计算预算下，mHC依然稳健保持性能优势，仅轻微衰减。

　　此外，研究团队考察了训练过程中的动态变化，展示了3B模型的token扩展曲线。

　　综合来看，这些发现验证了mHC在大规模场景下的有效性。这一结论得到了我们内部大规模训练实验的进一步证实。

　　原文图6：mHC相比基线的扩展特性。 (a) 计算扩展曲线：实线展示了不同计算预算下的性能差距。每个点代表模型大小和数据集大小的特定计算最优配置，从3B和9B扩展到27B参数。(b) Token扩展曲线：3B模型在训练期间的轨迹。每个点代表模型在不同训练token数下的性能。

　　理想情况下，单层映射应满足双随机约束，即前向信号增益与后向梯度增益均等于1。

　　然而，为提升计算效率，实际实现中使用的Sinkhorn-Knopp算法必须限制迭代次数，这次实验中为20次。

　　因此，如下图(a)所示，后向梯度增益会略微偏离1。在下图(b)所示的复合映射情况下，偏离有所增加但仍保持有界，最大值约为1.6。

　　原文图7：流形约束超连接（mHC）的传播稳定性。本图展示了27B模型中 (a) 单层映射与 (b) 复合映射的传播动态

　　值得注意的是，与HC中近3000的最大增益幅度相比，mHC将其降低了三个数量级。

　　这些结果表明，mHC相比HC显著增强了传播稳定性，确保了前向信号与后向梯度的稳定流动。

　　此外，团队观察到，对于HC，当最大增益较大时，其他值也往往显著，这表明所有传播路径普遍存在不稳定性。相比之下，mHC始终产生稳定的结果。

　　原文图8：可学习映射的可视化，展示了HC（第一行）与mHC（第二行）的代表性单层及复合映射。每个矩阵通过对选定序列内所有token取平均计算得出。y轴和x轴上的标签分别表示前向信号增益（行和）与后向梯度增益（列和）。

　　参考资料：

　　https://arxiv.org/abs/2512.24880

　　https://x.com/teortaxesTex/status/2006628917428334631

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

DeepSeek 要发大招了，梁文锋署名新论文！暴力优化AI架构

工信部：Claude Code安全后门隐患

高校男生参加期末考试 监考老师:你眼镜有问题 交卷吧

高校男生参加期末考试 监考老师:你眼镜有问题 交卷吧

阿根廷被埃及埋了一半，死里逃生

鹿晗出轨？邓超出轨绯闻又被扒出

科技新贵们，买爆深圳豪宅

定名岚图梦想家9！岚图全新旗舰MPV来袭

态度原创

万斤西瓜免费吃，来河南顶“瓜瓜”

为了赢苏联，美国当年让小学生学高数？

粘食吃多了腹胀腹痛的居家缓解妙招

美军发动空袭后 伊朗称击落一架美军“死神”无人机

高校男生参加期末考试监考老师:你眼镜有问题交卷吧

高校男生参加期末考试监考老师:你眼镜有问题交卷吧

美军发动空袭后伊朗称击落一架美军“死神”无人机