网易首页 > 网易号 > 正文 申请入驻

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

0
分享至


智东西
作者 江宇 王涵
编辑 心缘

智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案

DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。


论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升,但由于其结构复杂、缺乏约束,往往导致训练不稳定、信号失真甚至梯度爆炸等问题。


▲在27B模型中,HC的多层残差映射在反向传播中导致信号最大放大倍数逼近3000,存在梯度爆炸风险。

为此,DeepSeek提出了mHC(Manifold-Constrained Hyper-Connections)方案,将HC中的残差映射矩阵投影到双随机矩阵构成的“流形空间”,在保留拓扑表达力的同时,恢复原始残差连接的恒等映射性质。


▲DeepSeek提出的mHC结构通过流形投影重建了残差连接的稳定性。

实验证明,这一mHC方法在大规模训练中展现出显著稳定性,仅引入6.7%的训练时间开销,在多个下游任务中超越HC与Baseline模型。


▲在8个下游任务上,mHC全面超越HC,尤其在BBH(+2.1%)和DROP(+2.3%)上表现突出。

一、传统残差连接的升级难点:性能提升,但稳定性丧失

当前主流模型广泛采用Residual Connection架构,其核心优势在于具备“恒等映射”特性,可稳定信号传播、避免训练过程中信号衰减或放大。

但近年来如Hyper-Connections(HC)等结构,为提升表达能力引入更复杂的连接拓扑,将残差通道扩展至n倍宽度,并通过多个可学习映射矩阵对输入与输出特征进行重组。

然而,HC的自由形态也打破了恒等映射约束,导致训练中存在信号爆炸(最高放大至3000倍)或梯度异常的问题


▲相较于mHC,传统Hyper-Connections在训练过程中出现显著的不稳定现象(上图),其残差连接在深层堆叠中更暴露出前向信号和反向梯度指数级放大问题(下图),成为大模型扩展的隐性障碍。

此外,HC还显著提高了GPU内存占用和通信带宽需求,限制了其在更大规模模型中的使用效率。

二、mHC关键机制:将残差映射投影到“流形”上恢复恒等映射

DeepSeek提出的mHC本质上是对HC的稳定性重构


▲mHC将残差映射投影到双随机流形后,显著提升了前向信号与反向梯度传播的稳定性。

其核心在于:不再直接使用无约束的残差映射矩阵H_res,而是通过Sinkhorn-Knopp算法将其投影到“Birkhoff多面体”(即双随机矩阵流形)上。

这一投影操作使H_res具备以下三大性质:

1、所有行列和为1,具备能量守恒性,避免信号放大或衰减;

2、在矩阵乘法下闭合,即跨层传播仍保稳定性;

3、具备几何可解释性,是所有排列矩阵的凸组合,有利于特征信息融合。

论文中还提到,将输入/输出映射H_pre、H_post也做了正值约束,可进一步避免信号抵消现象。


▲mHC对应的残差映射矩阵更集中于1附近,反观HC则存在多个爆炸点。

三、实测效果:mHC显著提升训练稳定性与下游表现

此后,论文对比测试了Baseline、HC和mHC三种模型在27B参数规模下的训练表现与推理性能。实测结果表明,流形约束超连接(mHC)在大规模训练场景下显著优于传统超连接(HC)。

训练稳定性方面,对比传统残差、HC与mHC,HC训练中损失震荡发散,梯度爆炸;mHC损失平稳收敛,梯度稳定。


▲流形约束超连接(mHC)的训练稳定性

分析表明HC的复合映射增益高达3000(信息爆炸),而mHC控制在1.6,接近理想恒等映射,信号保真度高。

这说明,mHC通过双随机流形约束,有效抑制了多层堆叠中的信号放大与梯度爆炸问题,损失曲线平稳收敛,梯度范数保持稳定,解决了HC因数值不稳定导致的训练发散缺陷。

性能表现方面,27B模型在BBH(51.0 vs HC 48.9)、DROP(53.9 vs 51.6)、GSM8K、MATH、MMLU等任务显著优于HC与基线,取得显著增益,最高提升达2.3个百分点,验证了其在复杂推理与语义建模中的优势。


▲基准测试

可扩展性方面,3B-27B模型验证,mHC性能增益随规模扩大保持稳定甚至增强(如DROP提升从1.5→2.3),显示深层大模型中的信号保真需求更高,展现出良好的泛化能力与深层适配性。1T token训练下无过拟合,泛化能力增强。


▲(a) 计算扩展曲线;(b) token扩展曲线

系统效率方面,通过内核融合、重计算与通信重叠优化,mHC在扩展率n=4时仅引入6.7%的额外开销,通过内核融合(带宽提升22%)、重计算(内存降40%)及流水线优化(GPU利用率>90%),实现高效训练,工程可行性高。

结语:mHC或为下一代基础架构指明演进方向

作为HC范式的广义扩展,mHC为未来研究开辟了多个前景广阔的路径。

DeepSeek团队在结论中说,尽管本研究采用双随机矩阵确保稳定性,但该框架能容纳针对特定学习目标设计的多种流形约束探索。他们预计,对几何约束特性的进一步研究可能产生新颖方法,从而在可塑性与稳定性之间实现更优权衡。

此外,研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
新年第一天就出事!特朗普接连踩雷,最后到底会怎样收场?

新年第一天就出事!特朗普接连踩雷,最后到底会怎样收场?

爱下厨的阿酾
2026-02-18 03:52:55
最舒服的两性关系:灵魂同频,自在相处

最舒服的两性关系:灵魂同频,自在相处

青苹果sht
2026-02-05 06:28:00
OpenClaw 被 OpenAI 收购后,有开发者连夜自建了一套 AI 的"DNA 系统"

OpenClaw 被 OpenAI 收购后,有开发者连夜自建了一套 AI 的"DNA 系统"

深思圈
2026-02-16 20:18:41
我被女同学喊去看碟片,她说:我爸妈去外地了,你就在我家住一晚

我被女同学喊去看碟片,她说:我爸妈去外地了,你就在我家住一晚

白浅娱乐聊
2026-02-15 06:07:18
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

动物奇奇怪怪
2026-02-17 21:48:48
三野憋屈的王牌师,一败影响深远,又未得粟裕重用,终成边防部队

三野憋屈的王牌师,一败影响深远,又未得粟裕重用,终成边防部队

旧书卷里的长安
2026-02-17 22:03:36
再见,拜仁!8100万攻击手遭驱逐离队!9000万“打包”霍村两星

再见,拜仁!8100万攻击手遭驱逐离队!9000万“打包”霍村两星

头狼追球
2026-02-17 19:45:04
高市早苗为何敢挑衅中国?因为中日一旦开战,日本不论输赢都是赚

高市早苗为何敢挑衅中国?因为中日一旦开战,日本不论输赢都是赚

观察者海风
2025-11-27 11:46:57
库班吐槽联盟对“摆烂”处理本末倒置:应该拥抱它,球迷不稀罕看精彩比赛

库班吐槽联盟对“摆烂”处理本末倒置:应该拥抱它,球迷不稀罕看精彩比赛

野渡舟山人
2026-02-18 04:45:56
被做局了!荷兰逼中方交出资产,安世半导体危险,2.5万客户白丢

被做局了!荷兰逼中方交出资产,安世半导体危险,2.5万客户白丢

芭比衣橱
2026-02-16 22:44:33
谁也没想到,咱们的国产大飞机C919,这回在春运里彻底火了!

谁也没想到,咱们的国产大飞机C919,这回在春运里彻底火了!

粤语音乐喷泉
2026-02-16 13:54:40
何庆魁儿子爆料,闫学晶之所以有今天的发展,因为她太“会来事”

何庆魁儿子爆料,闫学晶之所以有今天的发展,因为她太“会来事”

西楼知趣杂谈
2026-01-24 07:22:04
北京男子张先生去世,年仅38岁,儿女上小学,误诊20多天错过治疗

北京男子张先生去世,年仅38岁,儿女上小学,误诊20多天错过治疗

法老不说教
2025-12-25 13:40:58
绝对不是水货!维尔茨各数据持续领跑,利物浦的新指挥官由他扮演

绝对不是水货!维尔茨各数据持续领跑,利物浦的新指挥官由他扮演

里芃芃体育
2026-02-18 05:00:03
“初二吃4样,一年财运旺”,大年初二“祭财神”,这4样记得吃

“初二吃4样,一年财运旺”,大年初二“祭财神”,这4样记得吃

小茉莉美食记
2026-02-17 16:23:58
北约飞行员加入乌克兰空军?组建国际F16飞虎队

北约飞行员加入乌克兰空军?组建国际F16飞虎队

项鹏飞
2026-02-17 20:43:55
亚冠蓉城2:3惜败町田泽维亚,纵观全场,新帅完全不如徐正源!

亚冠蓉城2:3惜败町田泽维亚,纵观全场,新帅完全不如徐正源!

田先生篮球
2026-02-17 23:07:48
官宣还是乌龙?选聘中国男足主教练!邵佳一为此离队下课?

官宣还是乌龙?选聘中国男足主教练!邵佳一为此离队下课?

卿子书
2026-02-17 11:35:49
库普:今天我打进了两个重要进球;下周我们至少要再进三个

库普:今天我打进了两个重要进球;下周我们至少要再进三个

懂球帝
2026-02-18 05:04:13
韩媒:中国可能0金收官!已被哈萨克斯坦超越 谷爱凌还剩最后机会

韩媒:中国可能0金收官!已被哈萨克斯坦超越 谷爱凌还剩最后机会

念洲
2026-02-17 13:48:48
2026-02-18 05:44:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11239文章数 116972关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

加州州长纽森炮轰特朗普:把美国未来卖给中国

头条要闻

加州州长纽森炮轰特朗普:把美国未来卖给中国

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

数码
手机
亲子
房产
公开课

数码要闻

Intel酷睿Ultra 5 338H实测:锐炫B370核显逼近RTX 4050

手机要闻

苹果春季发布会?邀请函曝光,大量新品蓄势待发

亲子要闻

怀疑孩子被侵犯,请宝妈们务必强制报告!

房产要闻

三亚新机场,又传出新消息!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版