网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布最新论文,破解大模型训练拥堵难题

0
分享至

北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为“mHC”(直译为“流形约束超连接”)的框架,该框架改进了此前大模型训练中一种名为“HC(Hyper-Connections,超连接)”的范式,对大规模模型训练提供了切实的性能改进。

贝壳财经记者注意到,DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。事实上,虽然DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。


梁文锋的名字出现在论文作者最后一位。Hugging Face网站截图

论文重点讲了什么?

破解大模型训练拥堵难题

贝壳财经记者梳理发现,DeepSeek团队本次发布的论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

DeepSeek团队在论文中以严谨的数学公式解释了mHC,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的“生命线”——它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

但随着大模型参数突破千亿,这条“单车道”越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了“堵车撞车”,就像多车道中没装 “交通信号灯”一样,使模型训练变得更加不稳定,容易崩溃。

此时,DeepSeek提出了一种新算法,给“多车道”增加了一套智能调度系统(即mHC“流行约束”),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。



论文配图HC与mHC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC。论文截图

最终,DeepSeek在论文中以直观的测试展示了mHC方法相对于HC的稳定性。

理论创新

站在何凯明团队和字节跳动的肩膀上

值得注意的是,本次DeepSeek的论文,是站在了AI“大神”何凯明以及字节跳动的肩膀上。

这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的“标配”。

直到2024年,为了解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

在本次发布论文的文末,DeepSeek团队写道,“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市早苗如此挑衅中国,离不开两名中国败类的影响和出谋划策!

高市早苗如此挑衅中国,离不开两名中国败类的影响和出谋划策!

阿胡
2025-12-26 13:24:43
日本彻底怕了,中国确实太牛了,日媒表示中国的反应超出预期

日本彻底怕了,中国确实太牛了,日媒表示中国的反应超出预期

扶苏聊历史
2026-01-02 05:00:02
『岛国女神』纯天然天赋怪,可爱又性感

『岛国女神』纯天然天赋怪,可爱又性感

素然追光
2025-11-29 05:15:03
上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗

上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗

健康之光
2025-12-31 13:05:03
即将大结局了?整个西方都输了,只有中俄是赢家!

即将大结局了?整个西方都输了,只有中俄是赢家!

文史旺旺旺
2025-12-30 18:23:05
好样的!张本智和被点名封杀在即,樊振东火速切割,社媒果断取关

好样的!张本智和被点名封杀在即,樊振东火速切割,社媒果断取关

球盲百小易
2026-01-03 01:12:18
坐在C位的是谁?

坐在C位的是谁?

周边问题研究所
2026-01-01 14:36:39
你别不信:大部分公公,都会趁儿子不在家的时候跟儿媳妇保持距离

你别不信:大部分公公,都会趁儿子不在家的时候跟儿媳妇保持距离

大熊欢乐坊
2025-11-24 10:19:03
博主:杜加利奇将加盟深圳青年人,罗德里格已签约

博主:杜加利奇将加盟深圳青年人,罗德里格已签约

懂球帝
2026-01-02 14:15:07
柬埔寨“最美大嫂”一战成名,按当地法律会怎么判?会判死刑吗?

柬埔寨“最美大嫂”一战成名,按当地法律会怎么判?会判死刑吗?

十九妹
2025-11-20 14:36:11
“最快女护士”张水华处分文件为内部文件,医院正调查为何泄露,其家人最新回应

“最快女护士”张水华处分文件为内部文件,医院正调查为何泄露,其家人最新回应

潇湘晨报
2025-12-10 19:42:17
台海炸雷!中美摊牌,这一天终于来了!

台海炸雷!中美摊牌,这一天终于来了!

大嘴说天下
2025-12-31 22:23:29
官媒批张本智和拜鬼,樊振东取关作表率,早该出台措施好好治他了

官媒批张本智和拜鬼,樊振东取关作表率,早该出台措施好好治他了

杨华评论
2026-01-02 21:28:20
一个家庭最大的悲哀,就是父母轻易向外人透露子女的这2个隐私,太可悲

一个家庭最大的悲哀,就是父母轻易向外人透露子女的这2个隐私,太可悲

有故事的人
2025-10-31 06:22:11
李在明访华行程公布

李在明访华行程公布

观察者网
2026-01-02 15:06:15
处分期内竟在高校餐厅豪饮!教育厅长“最后的晚餐”谁买单?

处分期内竟在高校餐厅豪饮!教育厅长“最后的晚餐”谁买单?

教师吧
2026-01-02 10:00:42
PHL191远程精确打击:200公里射程震慑台军

PHL191远程精确打击:200公里射程震慑台军

猫女的小树屋
2026-01-02 13:47:56
CCTV5直播!中国队新年首秀,无惧伊拉克,U23亚洲杯出线=创历史

CCTV5直播!中国队新年首秀,无惧伊拉克,U23亚洲杯出线=创历史

侃球熊弟
2026-01-03 00:15:03
乞讨母女睡地铁站7年,站务员从不驱逐,母亲:你过来给你看样东西

乞讨母女睡地铁站7年,站务员从不驱逐,母亲:你过来给你看样东西

星宇共鸣
2025-09-17 17:52:27
陕西一父亲带女儿自驾游,4个月后罪行被揭发,判刑9年5个月

陕西一父亲带女儿自驾游,4个月后罪行被揭发,判刑9年5个月

灿烂夏天
2025-02-16 23:28:09
2026-01-03 04:31:00
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
59200文章数 13933关注度
往期回顾 全部

科技要闻

新势力年榜:零跑险胜华为,蔚来小鹏新高

头条要闻

民调称25%台湾人愿上战场 吕秀莲:围台军演后数据更低

头条要闻

民调称25%台湾人愿上战场 吕秀莲:围台军演后数据更低

体育要闻

快船似乎又行了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

车企2026开年大促 含16个品牌近70款

汽车要闻

方程豹全年销量超23.4万辆 同比暴增316.1%

态度原创

艺术
亲子
手机
公开课
军事航空

艺术要闻

惊艳!她的优雅之美让人叹为观止!

亲子要闻

教育部下了硬指令,私立幼儿园老板们慌了,估计吃安眠药都睡不着

手机要闻

德国装配、主打隐私:Punkt MC03智能手机今年春季登陆美国市场

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

跨年夜乌军袭击"俄控区"平民 已致27死

无障碍浏览 进入关怀版