网易首页 > 网易号 > 正文 申请入驻

DeepSeek 要发大招了,梁文锋署名新论文!暴力优化AI架构

0
分享至

  

  新智元报道

  编辑:编辑部

  【新智元导读】2026新年第一天,DeepSeek发表了梁文锋署名的重磅新论文,提出了一种名为「mHC(流形约束超连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,即可实现显著性能提升。

  刚刚,DeepSeek送上2026年新年第一个王炸

  这次的创新是,mHC(流形约束超连接)新架构。

  

  标题:mHC:Manifold-Constrained Hyper-Connections

  链接:https://arxiv.org/abs/2512.24880

  在这篇论文中,DeepSeek提出了流形约束超连接(mHC),将矩阵投影到约束流形上优化残差连接空间,从而确保稳定性,彻底颠覆了传统AI架构认知——

  可以扩大残差流通道宽度(residual stream width),而在算力和内存上的代价却微乎其微。

  

  图1: 残差连接范式示意图

  继Hyper-Connections(HC)开辟「残差连接宽度可扩展」路线之后,mHC直接把这一思路推上实用化的快车道。

  DeepSeek这次直击AI痛点,给同行上了一课!

  值得一提的是,这次梁文锋署名,但解振达、韦毅轩、Huanqi Cao为核心贡献者,解振达为通讯作者。

  DeepSeek,或敲响ResNet丧钟

  这简直是为「模型优化玩家」量身打造的王牌秘方。

  过去,超连接(hyper-connections)更多只是学术圈的小众尝试。

  而现在,DeepSeek直接把它升级为基础架构的核心设计要素。

  这也正是拥趸一直以来对DeepSeek的期待:数学上的洞察力+硬件层面的极致优化。

  顶级大语言模型(LLM)中,ResNet结构或许即将被淘汰。

  

  毕竟,残差流通道宽度一直是扩展模型的「烦人瓶颈」。

  这波操作,也再次展现了DeepSeek典型的风格:对同行的温和降维打击——

  你们两年时间都在打磨微结构,调整DS-MoE?挺可爱哈。

  来看看我们怎么玩:把一个理论上看起来还不够成熟的高级原语,直接做实,顺手解锁游戏下一关。

  他们在论文中写道:「我们的内部大规模训练实验进一步验证了mHC在大规模应用中的有效性。」

  

  这句话在DeepSeek的原生稀疏注意力(Natively trainable Sparse Attention,NAS)那篇论文里可没有。

  在27B模型的系统级基准测试结果中,新架构mHC在绝大多数基准测试中持续超越基线模型并优于HC,这证明其在大规模预训练中的有效性

  

  换句话说,DeepSeek信心十足,不怕同行知道自己的「杀招」。

  这给了DeepSeek的铁粉Teortaxes很大信心,他有九成把握:mHC会进入DeepSeek V4。

  

  核心方法

  Manifold-Constrained Hyper-Connections (mHC)

  这个方法的关键目标,就是在Hyper-Connections的拓扑设计下恢复身份映射属性。这样,就可以在大规模训练与现实基础模型任务中体现实际价值。

  mHC与传统残差连接和HC的根本差异在于:传统残差连接只保留简单的输入 + 输出形式(稳定但表达受限);Hyper-Connections (HC)强化连接能力,但牺牲了稳定性与效率。

  而mHC的思路是:将Hyper-Connections的参数空间约束到特定的流形(manifold)上,以恢复身份映射结构。

  技术细节

  受恒等映射原则的启发,mHC的核心思想是在一个特定流形上对残差映

  进行约束。尽管原始的恒等映射通过强制来保证训练稳定性,但这种做法从根本上阻断了残差流内部的信息交互,而这种交互对于充分发挥多流(multi-stream)架构的潜力至关重要。

  因此,作者提出将残差映射投影到一个既能维持跨层信号传播稳定性、又能促进残差流之间相互作用的流形上,从而在保证稳定性的同时保留模型的表达能力。

  为此,他们将约束为双随机矩阵,即矩阵元素非负,且每一行与每一列的元素之和均为1。

  形式化地,记为双随机矩阵所构成的流形(亦称Birkhoff多面体),将约束在其投影上,其定义为:

  

  需要注意的是,当n=1时,双随机条件会退化为标量1,从而恢复为原始的恒等映射。选择双随机性能够带来若干对大规模模型训练具有重要意义的严格理论性质:

  1.范性:双随机矩阵的谱范数有上界1,即。

  这意味着该可学习映射是非扩张的,从而能够有效缓解梯度爆炸问题。

  2.组合闭包性

  双随机矩阵集合在矩阵乘法下是封闭的。这保证了跨越多层的复合残差映射
仍然是双随机的,从而在整个模型深度范围内保持稳定性。

  3.通过Birkhoff多面体的几何解释

  集合构成Birkhoff多面体,即置换矩阵集合的凸包。

  这提供了清晰的几何直观:残差映射可以被看作是若干置换的凸组合。

  从数学上看,此类矩阵的反复作用会单调地增强不同信息流之间的混合程度,从而有效地充当一种鲁棒的特征融合机制。

  参数化与流形投影

  在本节中,作者详细介绍了mHC中
、以及的计算过程。

  给定第l层的输入隐藏矩阵,首先将其展平成向量,以保留完整的上下文信息。随后,遵循原始HC的建模方式,得到动态映射和静态映射,具体如下:

  

  随后,通过如下方式得到最终满足约束的映射:

  

  其中,表示Sigmoid函数。

  Sinkhorn–Knopp(⋅) 算子首先通过指数运算保证所有元素为正,然后执行交替的迭代归一化过程,使矩阵的行和列分别归一到1。

  具体而言,以正矩阵作为初始值,归一化迭代过程为:

  

  随着迭代次数增加,当时,该过程收敛到一个双随机矩阵。

  在实验中,取作为一个实用的近似值。

  高效的基础设施设计

  通过一系列严格的工程优化,作者成功将mHC(取n=4)部署到大规模模型中,训练开销仅增加约6.7%。

  内核融合

  作者观察到,在mHC中,当对高维隐藏状态进行操作时,RMSNorm会带来显著的延迟。

  为此,他们将「除以范数」的操作重新排序,使其发生在矩阵乘法之后。该优化在数学上是等价的,但在工程实现上显著提升了效率。

  此外,我们采用混合精度策略,在不牺牲计算速度的前提下最大化数值精度,并将多个具有共享内存访问模式的算子融合为统一的计算内核,以降低内存带宽瓶颈。

  基于公式(10)至(13)中给出的输入与参数设置,作者实现了三个专用的 mHC计算内核。

  

  利用上述内核计算得到的系数,他们又引入了两个额外的计算内核来应用这些映射。

  该框架能够简化复杂计算流程内核的实现,并在较小工程代价下充分发挥内存带宽的潜力。

  重计算

  n路残差结构在训练过程中会引入显著的内存开销。

  为缓解这一问题,作者在前向传播结束后丢弃mHC内核产生的中间激活,并在反向传播阶段通过重新执行mHC内核(不包含计算量较大的层函数F)来即时重计算这些激活。

  因此,对于连续的L_r个层组成的一个模块,只需存储第一层的输入。

  在忽略轻量级系数、同时考虑到F中的pre-norm开销后,表3总结了在反向传播中需要保留的中间激活以及在L_r个连续层中被重计算的瞬时激活。

  

  随后,他们通过最小化与L_r对应的总内存占用来确定最优的块大小。

  

  DualPipe中的通信重叠

  在大规模训练中,流水线并行(pipeline parallelism)是缓解参数与梯度内存占用的标准实践。

  具体而言,他们采用了DualPipe调度策略,该策略能够有效地重叠跨节点(scale-out)的互连通信流量,例如专家并行与流水线并行中的通信开销。

  然而,与单流(single-stream)设计相比,mHC中提出的n-流残差结构会在流水线阶段之间引入显著的通信延迟。

  此外,在阶段边界处,对所有Lr层重新计算mHC内核也会带来不可忽略的计算开销。为了解决这些瓶颈,作者对DualPipe调度进行了扩展(见下图),以在流水线阶段边界实现更高效的通信与计算重叠

  

  原文图4:mHC的通信–计算重叠机制。

  具体而言,为避免阻塞通信流,他们MLP(即FFN)层的内核放置在一个独立的高优先级计算流上执行。

  同时,在注意力层中,他们刻意避免使用长时间运行的持久化内核(persistent kernels),以防止产生长时间的停顿。

  该设计允许对已重叠的注意力计算进行抢占,从而在保持计算设备处理单元高利用率的同时,实现更加灵活的调度。

  此外,重计算过程被与流水线通信依赖解耦,这是因为每个阶段的初始激活x0l已经被缓存在本地。

  实验结果

  DeepSeek团队首先检验了27B模型的训练稳定性和收敛性。

  如下图(a)所示,mHC有效缓解了在HC中观察到的训练不稳定性,相比基线最终降低了0.021的损失。

  下图(b)中的梯度范数分析,进一步证实了这种改善的稳定性,表明mHC展现出显著优于HC的,稳定性与基线相当。

  

  原文图5: 流形约束超连接(mHC)的训练稳定性,展示了 (a) mHC与HC相对于基线的绝对训练损失差距,以及 (b) 三种方法的梯度范数。所有实验均采用27B模型。

  在多样化基准测试集上,mHC全面提升了下游性能,在所有任务上持续超越基线,并在大多数任务上优于HC。

  值得注意的是,与HC相比,mHC进一步增强了模型的推理能力,在BBH上实现了2.1%的性能提升,在DROP上实现了2.3%的提升。

  这证明其在大规模预训练中的有效性。

  

  原文表4:27B模型的系统级基准测试结果。 本表比较了基线、HC和mHC在8个不同下游基准测试中的零样本和少样本性能。

  为了评估方法的扩展性,DeepSeek报告了mHC在不同规模下相比基线的相对损失改进。

  结果表明,即使在更高的计算预算下,mHC依然稳健保持性能优势,仅轻微衰减。

  此外,研究团队考察了训练过程中的动态变化,展示了3B模型的token扩展曲线。

  综合来看,这些发现验证了mHC在大规模场景下的有效性。这一结论得到了我们内部大规模训练实验的进一步证实。

  

  原文图6:mHC相比基线的扩展特性。 (a) 计算扩展曲线:实线展示了不同计算预算下的性能差距。每个点代表模型大小和数据集大小的特定计算最优配置,从3B和9B扩展到27B参数。(b) Token扩展曲线:3B模型在训练期间的轨迹。每个点代表模型在不同训练token数下的性能。

  理想情况下,单层映射应满足双随机约束,即前向信号增益与后向梯度增益均等于1。

  然而,为提升计算效率,实际实现中使用的Sinkhorn-Knopp算法必须限制迭代次数,这次实验中为20次。

  因此,如下图(a)所示,后向梯度增益会略微偏离1。在下图(b)所示的复合映射情况下,偏离有所增加但仍保持有界,最大值约为1.6。

  

  原文图7:流形约束超连接(mHC)的传播稳定性。 本图展示了27B模型中 (a) 单层映射与 (b) 复合映射 的传播动态

  值得注意的是,与HC中近3000的最大增益幅度相比,mHC将其降低了三个数量级

  这些结果表明,mHC相比HC显著增强了传播稳定性,确保了前向信号与后向梯度的稳定流动。

  此外,团队观察到,对于HC,当最大增益较大时,其他值也往往显著,这表明所有传播路径普遍存在不稳定性。相比之下,mHC始终产生稳定的结果。

  

  原文图8:可学习映射的可视化,展示了HC(第一行)与mHC(第二行)的代表性单层及复合映射。每个矩阵通过对选定序列内所有token取平均计算得出。y轴和x轴上的标签分别表示前向信号增益(行和)与后向梯度增益(列和)。

  参考资料:

  https://arxiv.org/abs/2512.24880

  https://x.com/teortaxesTex/status/2006628917428334631

  

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
情绪失控!姜伟泽狂喷裁判连吃2T被驱逐离场 上半场三分3中3

情绪失控!姜伟泽狂喷裁判连吃2T被驱逐离场 上半场三分3中3

狼叔评论
2026-04-07 20:58:10
1996年,施瓦辛格喝醉了在家休息,看到200斤的佣人在做家务……

1996年,施瓦辛格喝醉了在家休息,看到200斤的佣人在做家务……

岁月有情1314
2026-04-07 15:49:39
香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

香蕉被点名!医生提醒:高血糖患者常吃香蕉,很快或迎来这些后果

白话电影院
2026-04-07 20:07:56
特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只有一个

特朗普已做好开战准备?王毅曾警告:中美一旦冲突,结局只有一个

深蓝的航迹
2026-04-08 01:59:21
杨兰兰案最新!陷入僵局:警方迟迟不递交证据,案件更加扑朔迷离

杨兰兰案最新!陷入僵局:警方迟迟不递交证据,案件更加扑朔迷离

澳洲红领巾
2026-04-07 11:50:58
陈光标哭错坟:同姓就是宗亲?陈丽华真实身份一扒,全网都笑了

陈光标哭错坟:同姓就是宗亲?陈丽华真实身份一扒,全网都笑了

行者聊官
2026-04-07 19:40:55
火箭惊天反转?范弗里特能否归来成西部季后赛最大悬念!

火箭惊天反转?范弗里特能否归来成西部季后赛最大悬念!

漫川舟船
2026-04-08 02:58:20
消息称三星中国将大调整:只保留手机和存储部门 其余全撤!

消息称三星中国将大调整:只保留手机和存储部门 其余全撤!

快科技
2026-04-07 15:46:06
抵达南京!郑丽文这套服装的3层深意,90%的人都没看懂

抵达南京!郑丽文这套服装的3层深意,90%的人都没看懂

靓仔情感
2026-04-07 20:34:48
统派大佬送行,郑丽文乘航班来沪,启程前对美国表态,侯友宜发声

统派大佬送行,郑丽文乘航班来沪,启程前对美国表态,侯友宜发声

拾这一抹残妆月
2026-04-08 02:52:08
美媒:“无法无天的世界代价高昂”

美媒:“无法无天的世界代价高昂”

参考消息
2026-04-07 16:50:06
郑丽文刚到大陆,不到24小时,赖清德打破沉默,呼吁两岸展开对话

郑丽文刚到大陆,不到24小时,赖清德打破沉默,呼吁两岸展开对话

阿纂看事
2026-04-07 18:13:54
占得先机,拜仁近15次首回合取胜的欧冠淘汰赛全部晋级

占得先机,拜仁近15次首回合取胜的欧冠淘汰赛全部晋级

懂球帝
2026-04-08 05:15:06
嫣然天使儿童医院发文感谢陈光标捐赠1000万!陈光标此前称:张雪迟迟没来提车,将车辆变现1000万元赠予嫣然医院

嫣然天使儿童医院发文感谢陈光标捐赠1000万!陈光标此前称:张雪迟迟没来提车,将车辆变现1000万元赠予嫣然医院

每日经济新闻
2026-04-07 14:17:07
美伊停火协议细节公布!黄金直线拉升,国际油价大跳水,股市巨震

美伊停火协议细节公布!黄金直线拉升,国际油价大跳水,股市巨震

鲁中晨报
2026-04-07 07:21:14
开车致女友截瘫,男方首次发声,正面照被扒,社交账号曝光!

开车致女友截瘫,男方首次发声,正面照被扒,社交账号曝光!

眼光很亮
2026-04-07 13:20:41
海河牛奶直播间被指涉黄,市监部门:正在核实处理

海河牛奶直播间被指涉黄,市监部门:正在核实处理

现代快报
2026-04-07 21:17:05
湾湾主播替箖玥金宝山祭拜大S!透露玥儿一事惹人心疼!

湾湾主播替箖玥金宝山祭拜大S!透露玥儿一事惹人心疼!

仙味少女心
2026-04-07 02:45:32
阿森纳客场1-0葡超豪门 进欧冠4强占先机 止2连败 哈弗茨替补绝杀

阿森纳客场1-0葡超豪门 进欧冠4强占先机 止2连败 哈弗茨替补绝杀

我爱英超
2026-04-08 05:03:31
或不再需要固态电池,中国动力电池取得大突破!

或不再需要固态电池,中国动力电池取得大突破!

娱乐圈的笔娱君
2026-04-07 17:44:51
2026-04-08 05:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14918文章数 66754关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普:伊朗人愿为自由承受轰炸

头条要闻

特朗普:伊朗人愿为自由承受轰炸

体育要闻

裁判机构:VAR错误推翻巴萨红牌

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

亲子
家居
房产
健康
手机

亲子要闻

春天娃长个黄金期,喝对黑豆水,个子悄悄往上窜

家居要闻

雅致惬意 感知生活之美

房产要闻

重磅!三亚拟出安居房新政!

干细胞抗衰4大误区,90%的人都中招

手机要闻

骁龙8 Elite Gen6再次曝光:5.3GHz+LPE协处理器,友商没法接招!

无障碍浏览 进入关怀版