网易首页 > 网易号 > 正文 申请入驻

DeepSeek新年首篇论文:mHC新架构登场,突破深度学习瓶颈|光锥读论文

0
分享至

2025年12月31日,来自DeepSeek-AI的研究团队在arXiv上发布了一篇题为《mHC: Manifold-Constrained Hyper-Connections》的技术论文。这项研究由解振达、韦毅轩、曹焕琦等十余位研究人员共同完成,通讯作者为解振达,DeepSeek创始人梁文锋亦参与其中。他们提出了一种全新的神经网络连接方式,有望解决当前大模型训练中一个长期被忽视却至关重要的问题:如何在提升性能的同时,保持训练过程的稳定与高效?

从残差连接说起:AI为何需要捷径

在深度学习领域,残差连接是一种经典而重要的设计。可以把它想象成一条“信息高速公路”,让数据在网络层之间直接流通,避免信息在传递过程中丢失或减弱。这种设计自2015年提出以来,已成为当今绝大多数大型语言模型的基石。可以说,没有残差连接,就没有现代AI的繁荣。

后来,研究者尝试拓宽这条路,变成了超连接(HC)——好比把单车道拓成四车道,并允许车辆在不同车道间自由变道。理论上,这能承载更复杂的交通流(信息流),但问题随之而来:没有规则的变道导致交通混乱,某些车道上车辆(信号)堆积如山,另一些却空空如也。在网络中,这就表现为信号在传递过程中被异常放大或缩小,训练变得极不稳定。

mHC:为信息流动加上交通规则

面对这一矛盾,DeepSeek团队提出了他们的解决方案——流形约束超连接(mHC, Manifold-Constrained Hyper-Connections)。它所做的就是在这条高速公路上加装智能导航和限速系统,让它既能跑得快,又能开得稳。

他们用一个巧妙的数学规则来约束车道间的变道行为:确保从任何一个车道流出的车辆总数,与流入该车道的车辆总数,都保持恒定。这就像在每个路口设置了智能信号灯系统,保证整个路网的车辆总数分布始终平衡。


三种神经网络“信息通道”设计对比。标准残差连接像一条单车道直路,信息从上一层直接流向下一层,简单稳定,但流通能力有限。HC将单车道拓宽为多车道,允许信息在通道间自由交互,能力更强。mHC在多车道系统中加入了智能交通信号灯,通过将连接矩阵约束在一个特定规则的空间中,确保信息在多通道间有序、均衡地流动,在提升能力的同时保障了训练稳定性。

这套交通规则通过一个名为Sinkhorn-Knopp的经典算法来实时计算和维持。算法不断微调变道比例,直到满足上述守恒条件。实践中只需迭代约20次即可达到很好的平衡,计算代价很小。这带来了很多好处:

  1. 信号不爆炸也不消失:无论网络多深,输入信号的能量都能大致保持稳定。

  2. 训练更平稳:梯度(指导模型调整的方向信号)的幅度受控,模型学习过程更稳健。

  3. 保留灵活性:车辆依然可以变道(信息依然能在多个通道间交互),只是变道方式更有序。


实验结果:更大、更稳、更强

团队在多个尺度的语言模型上验证了mHC的效果:

训练曲线平稳

在训练一个拥有270亿参数的模型时,使用原始超连接的方案在约1.2万步时出现了异常的损失值尖峰(相当于学习成绩突然暴跌)。而采用mHC的模型训练曲线平滑下降,最终效果比基线模型更好。


mHC与HC的训练稳定性对比


mHC与HC的传播稳定性对比

综合性能更强

在数学解题、常识推理、知识问答等8类不同的测试中,mHC模型全面领先。特别在需要多步推理的任务上(如BBH和DROP),mHC相比原始HC带来了约2%的额外提升——这意味着模型不仅更稳,还更聪明了。

大小模型均有效

从30亿、90亿到270亿参数规模的模型,mHC均能带来持续的性能增益,说明该方法在不同计算规模下都可靠。

让好想法跑得快、省内存

任何新设计若效率太低便难以实用。团队为此做了三层优化:

计算打包(内核融合):将多个连续的小操作合并成一个高效的大操作,减少数据搬运次数。

内存精算(选择性重计算):只在必要时临时重新计算中间结果,而非全部保存,使GPU内存占用大幅降低。

通信隐藏:在分布式训练中,让计算和网络传输尽可能同时进行,避免设备空等。

最终,即使将信息流宽度扩至4倍,mHC也仅带来约6.7%的额外训练时间开销,具备了真正的实用性。

在灵活与稳定之间寻找平衡

当前,AI模型正朝着更大规模、更复杂能力的方向发展,训练稳定性已成为制约其发展的关键瓶颈之一。mHC提供了一种优雅的思路:不是通过限制网络容量来求稳,而是通过引入基于流形约束的结构化灵活性,让网络在安全范围内探索更丰富的连接模式。

这项研究的深层意义便在于,它揭示了一条重要的设计原则:在增强神经网络表达能力的同时,必须通过恰当的数学约束来维持训练动态的稳定。

未来,这一框架还可能启发更多基于不同约束形状的设计,针对不同任务定制不同的信息流动规则,从而在AI的创造力与可控性之间找到更精细的平衡点。

编辑:郭郭

论文信息

发布期刊 arXiv

发布时间 2025年12月31日

论文标题mHC: Manifold-Constrained Hyper-Connections

(DOI:https://doi.org/10.48550/arXiv.2512.24880)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国“B级轿车”销量王:老势力油车重回第一,月零售量超17000台

中国“B级轿车”销量王:老势力油车重回第一,月零售量超17000台

柳先说
2026-04-23 14:57:47
64岁阿姨肺癌离世,常年吃清蒸鱼、炖汤,医生:祸根在3个细节里

64岁阿姨肺癌离世,常年吃清蒸鱼、炖汤,医生:祸根在3个细节里

垚垚分享健康
2026-03-23 08:59:14
我跟大伯去伐木,夜里外面突然有动静,大伯看一眼:今晚必须下山

我跟大伯去伐木,夜里外面突然有动静,大伯看一眼:今晚必须下山

千秋文化
2026-03-25 21:38:09
我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

我敢打赌99%的男人会选白衣服女孩做老婆,看腿型就知道

匹夫来搞笑
2026-04-24 12:20:31
5000万截胡曼城?曼联要签新库尼亚,不等了!

5000万截胡曼城?曼联要签新库尼亚,不等了!

澜归序
2026-04-25 07:21:55
金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

金平日:与金正日争权失败,驻外30年躲过暗杀,因这件事允许回国

阿胡
2025-04-03 13:59:42
金莎备孕成功刷屏,原来3年前就冻了7枚胚胎!高龄怀孕不再凭运气

金莎备孕成功刷屏,原来3年前就冻了7枚胚胎!高龄怀孕不再凭运气

一盅情怀
2026-04-25 19:31:31
早上为什么不建议吃馒头?忠告:不止馒头,这5类食物,尽量少吃

早上为什么不建议吃馒头?忠告:不止馒头,这5类食物,尽量少吃

白话电影院
2026-04-05 22:37:36
退休大爷帮忙接小孩2年,住院要借8千应急,邻居没借,隔天傻眼了

退休大爷帮忙接小孩2年,住院要借8千应急,邻居没借,隔天傻眼了

五元讲堂
2025-09-02 10:40:18
有种差距叫于和伟和王阳,同样跟万茜搭戏,才知“CP感”是门玄学

有种差距叫于和伟和王阳,同样跟万茜搭戏,才知“CP感”是门玄学

陈述影视
2026-04-24 22:44:40
宁波队3-0全取3分将负分清零,中甲4支扣分队已全部抹去负分

宁波队3-0全取3分将负分清零,中甲4支扣分队已全部抹去负分

懂球帝
2026-04-25 21:31:09
一汽-大众产品全面焕新升级 春季新品发布会五车齐发

一汽-大众产品全面焕新升级 春季新品发布会五车齐发

齐鲁壹点
2026-04-01 11:18:03
特朗普通告全球,现在的美国要带领全世界完成“去中国化”

特朗普通告全球,现在的美国要带领全世界完成“去中国化”

果妈聊娱乐
2026-04-25 09:22:11
四川饲料大王首富变“首负”:欠了近千亿,一年光利息就要18亿

四川饲料大王首富变“首负”:欠了近千亿,一年光利息就要18亿

梦回千年aa
2026-04-12 05:53:20
1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

1912年,曹锟娶20岁陈寒蕊,新婚夜他酣睡,新娘见其苍老悲泣不止

唠叨说历史
2026-03-24 18:52:24
美专家:美军一旦向北京、上海扔下核弹,中国并不会对等报复

美专家:美军一旦向北京、上海扔下核弹,中国并不会对等报复

小非喜欢解说
2026-04-25 23:08:06
越南联赛收官!4位中国留洋队员仅2人晋级,不是不拼是球队带不动

越南联赛收官!4位中国留洋队员仅2人晋级,不是不拼是球队带不动

金毛爱女排
2026-04-26 00:00:04
沈阳一大学女教授上课被拍,视频曝光后,网友:简直不敢相信!

沈阳一大学女教授上课被拍,视频曝光后,网友:简直不敢相信!

侃故事的阿庆
2026-04-25 12:32:09
ASML心凉了,中国大陆市场禁售,台积电不要,2nm光刻机卖给谁?

ASML心凉了,中国大陆市场禁售,台积电不要,2nm光刻机卖给谁?

天天热点见闻
2026-04-25 06:29:38
我退休金1.35万,给女儿5000,女婿:每月给我们1.5万,剩下的您留着

我退休金1.35万,给女儿5000,女婿:每月给我们1.5万,剩下的您留着

热心市民小黄
2026-04-25 12:48:03
2026-04-26 05:19:00
未来光锥 incentive-icons
未来光锥
“未来光锥”是由果壳发起的科创品牌,致力于推动科研端与产业端相互融合,促进科技成果的高效转化。
4457文章数 315678关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

头条要闻

媒体:美军在中东罕见高密度集结 伊朗开始调整战术

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

时尚
艺术
教育
旅游
公开课

这些穿搭适合春天!外套彩色内搭白色、裤子穿基础款,舒适大方

艺术要闻

最适合作为抖音总部的大楼,它在福建莆田!

教育要闻

高校重磅改革:40%课程将AI化

旅游要闻

美猴王VS水蜜桃,连云港、无锡文旅“双向奔赴”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版