网易首页 > 网易号 > 正文 申请入驻

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

0
分享至

来源:市场资讯

(来源:智东西)


智东西

作者 江宇 王涵

编辑 心缘

智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。

DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。


论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升,但由于其结构复杂、缺乏约束,往往导致训练不稳定、信号失真甚至梯度爆炸等问题。


▲在27B模型中,HC的多层残差映射在反向传播中导致信号最大放大倍数逼近3000,存在梯度爆炸风险。

为此,DeepSeek提出了mHC(Manifold-Constrained Hyper-Connections)方案,将HC中的残差映射矩阵投影到双随机矩阵构成的“流形空间”,在保留拓扑表达力的同时,恢复原始残差连接的恒等映射性质。


▲DeepSeek提出的mHC结构通过流形投影重建了残差连接的稳定性。

实验证明,这一mHC方法在大规模训练中展现出显著稳定性,仅引入6.7%的训练时间开销,在多个下游任务中超越HC与Baseline模型。


▲在8个下游任务上,mHC全面超越HC,尤其在BBH(+2.1%)和DROP(+2.3%)上表现突出。

一、传统残差连接的升级难点:性能提升,但稳定性丧失

当前主流模型广泛采用Residual Connection架构,其核心优势在于具备“恒等映射”特性,可稳定信号传播、避免训练过程中信号衰减或放大。

但近年来如Hyper-Connections(HC)等结构,为提升表达能力引入更复杂的连接拓扑,将残差通道扩展至n倍宽度,并通过多个可学习映射矩阵对输入与输出特征进行重组。

然而,HC的自由形态也打破了恒等映射约束,导致训练中存在信号爆炸(最高放大至3000倍)或梯度异常的问题。


▲相较于mHC,传统Hyper-Connections在训练过程中出现显著的不稳定现象(上图),其残差连接在深层堆叠中更暴露出前向信号和反向梯度指数级放大问题(下图),成为大模型扩展的隐性障碍。

此外,HC还显著提高了GPU内存占用和通信带宽需求,限制了其在更大规模模型中的使用效率。

二、mHC关键机制:将残差映射投影到“流形”上恢复恒等映射

DeepSeek提出的mHC本质上是对HC的稳定性重构。


▲mHC将残差映射投影到双随机流形后,显著提升了前向信号与反向梯度传播的稳定性。

其核心在于:不再直接使用无约束的残差映射矩阵H_res,而是通过Sinkhorn-Knopp算法将其投影到“Birkhoff多面体”(即双随机矩阵流形)上。

这一投影操作使H_res具备以下三大性质:

1、所有行列和为1,具备能量守恒性,避免信号放大或衰减;

2、在矩阵乘法下闭合,即跨层传播仍保稳定性;

3、具备几何可解释性,是所有排列矩阵的凸组合,有利于特征信息融合。

论文中还提到,将输入/输出映射H_pre、H_post也做了正值约束,可进一步避免信号抵消现象。


▲mHC对应的残差映射矩阵更集中于1附近,反观HC则存在多个爆炸点。

三、实测效果:mHC显著提升训练稳定性与下游表现

此后,论文对比测试了Baseline、HC和mHC三种模型在27B参数规模下的训练表现与推理性能。实测结果表明,流形约束超连接(mHC)在大规模训练场景下显著优于传统超连接(HC)。

训练稳定性方面,对比传统残差、HC与mHC,HC训练中损失震荡发散,梯度爆炸;mHC损失平稳收敛,梯度稳定。


▲流形约束超连接(mHC)的训练稳定性

分析表明HC的复合映射增益高达3000(信息爆炸),而mHC控制在1.6,接近理想恒等映射,信号保真度高。

这说明,mHC通过双随机流形约束,有效抑制了多层堆叠中的信号放大与梯度爆炸问题,损失曲线平稳收敛,梯度范数保持稳定,解决了HC因数值不稳定导致的训练发散缺陷。

性能表现方面,27B模型在BBH(51.0 vs HC 48.9)、DROP(53.9 vs 51.6)、GSM8K、MATH、MMLU等任务显著优于HC与基线,取得显著增益,最高提升达2.3个百分点,验证了其在复杂推理与语义建模中的优势。


▲基准测试

可扩展性方面,3B-27B模型验证,mHC性能增益随规模扩大保持稳定甚至增强(如DROP提升从1.5→2.3),显示深层大模型中的信号保真需求更高,展现出良好的泛化能力与深层适配性。1T token训练下无过拟合,泛化能力增强。


▲(a) 计算扩展曲线;(b) token扩展曲线

系统效率方面,通过内核融合、重计算与通信重叠优化,mHC在扩展率n=4时仅引入6.7%的额外开销,通过内核融合(带宽提升22%)、重计算(内存降40%)及流水线优化(GPU利用率>90%),实现高效训练,工程可行性高。

结语:mHC或为下一代基础架构指明演进方向

作为HC范式的广义扩展,mHC为未来研究开辟了多个前景广阔的路径。

DeepSeek团队在结论中说,尽管本研究采用双随机矩阵确保稳定性,但该框架能容纳针对特定学习目标设计的多种流形约束探索。他们预计,对几何约束特性的进一步研究可能产生新颖方法,从而在可塑性与稳定性之间实现更优权衡。

此外,研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你在体制内捅过的最大篓子是啥? 网友:人怎么能捅这么大的篓子

你在体制内捅过的最大篓子是啥? 网友:人怎么能捅这么大的篓子

带你感受人间冷暖
2026-02-13 10:06:39
七个姐妹凑70万开咖啡店,结果从“七仙女”变成“战国七雄”互掐

七个姐妹凑70万开咖啡店,结果从“七仙女”变成“战国七雄”互掐

达文西看世界
2026-02-12 11:31:45
油价大降1.55元/升,近2年92汽油最大下降后,春节前涨超6.9元/升

油价大降1.55元/升,近2年92汽油最大下降后,春节前涨超6.9元/升

猪友巴巴
2026-02-18 18:50:03
张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

张雪峰:如果你不好好学习,一旦掉入社会底层,和一群没有素质的人混在一起.....

山东教育
2026-01-27 11:38:18
澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

命运自认幽默
2026-02-17 19:50:44
本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

明智家庭教育
2026-01-31 10:29:14
6天亏光90万!当90%的人创业三年内破产……

6天亏光90万!当90%的人创业三年内破产……

大佬灼见
2026-02-19 10:16:35
27岁荷兰女王破纪录,拉链一拉全网爆,代言或超百万美元?

27岁荷兰女王破纪录,拉链一拉全网爆,代言或超百万美元?

老吴教育课堂
2026-02-19 04:14:51
富保罗:爱德华兹是目前NBA最佳球员,连约基奇也不例外

富保罗:爱德华兹是目前NBA最佳球员,连约基奇也不例外

懂球帝
2026-02-19 15:51:22
女生半年卖出800多只点翠大蟑螂,还推出苍蝇胸针、蜘蛛胸针等,已收到来自墨西哥地方城市的合作邀请

女生半年卖出800多只点翠大蟑螂,还推出苍蝇胸针、蜘蛛胸针等,已收到来自墨西哥地方城市的合作邀请

黄河新闻网吕梁频道
2026-02-18 15:07:20
霍启山带娜然游意大利,旁边还站着霍震霆,春节见家长疑好事将近

霍启山带娜然游意大利,旁边还站着霍震霆,春节见家长疑好事将近

叭叭叭卦娱乐
2026-02-18 17:25:01
落泪!除夕女儿看监控,发现母亲独自在客厅坐了一宿,画面曝光

落泪!除夕女儿看监控,发现母亲独自在客厅坐了一宿,画面曝光

观察鉴娱
2026-02-19 13:44:16
章若楠年初一去舅舅家拜年!三妹送碗仔面和饮料,舅舅家超级豪华

章若楠年初一去舅舅家拜年!三妹送碗仔面和饮料,舅舅家超级豪华

小娱乐悠悠
2026-02-18 15:04:35
他从新疆调南京军区任职,秘书想跟着一起调去,不想添麻烦:留下

他从新疆调南京军区任职,秘书想跟着一起调去,不想添麻烦:留下

春秋砚
2026-02-19 10:20:04
一场大战,又骤然逼近了

一场大战,又骤然逼近了

牛弹琴
2026-02-19 07:53:10
马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

马未都:香港宁愿要20万菲佣,也不接受内地保姆,原因很简单

犀利辣椒
2025-12-27 06:42:38
2026年春晚刚结束骂声一片,为何有人却说这台晚会其实太难了?

2026年春晚刚结束骂声一片,为何有人却说这台晚会其实太难了?

东方不败然多多
2026-02-18 19:48:36
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
人均GDP从1万到2万美元,台湾省用了19年,中国大陆将用多少年?

人均GDP从1万到2万美元,台湾省用了19年,中国大陆将用多少年?

壹号股权
2026-01-23 13:10:49
东北男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

品读时刻
2026-02-14 09:03:05
2026-02-19 18:31:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2228245文章数 5497关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

2名初中生扶摔倒女子被交警定次责 摔倒女子索赔22万

头条要闻

2名初中生扶摔倒女子被交警定次责 摔倒女子索赔22万

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

艺术
教育
时尚
家居
数码

艺术要闻

震惊!安徒生竟是画家,他的田园生活太美了!

教育要闻

新航道春季班|雅思入门预备课程:夯实英语根基,科学衔接进阶

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

家居要闻

本真栖居 爱暖伴流年

数码要闻

内存价格崩了 国内最高降价20%:去华强北市场揭秘实情!

无障碍浏览 进入关怀版