网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布最新论文,破解大模型训练拥堵难题

0
分享至

北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为“mHC”(直译为“流形约束超连接”)的框架,该框架改进了此前大模型训练中一种名为“HC(Hyper-Connections,超连接)”的范式,对大规模模型训练提供了切实的性能改进。

贝壳财经记者注意到,DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。事实上,虽然DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。


梁文锋的名字出现在论文作者最后一位。Hugging Face网站截图

论文重点讲了什么?

破解大模型训练拥堵难题

贝壳财经记者梳理发现,DeepSeek团队本次发布的论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

DeepSeek团队在论文中以严谨的数学公式解释了mHC,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的“生命线”——它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

但随着大模型参数突破千亿,这条“单车道”越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了“堵车撞车”,就像多车道中没装 “交通信号灯”一样,使模型训练变得更加不稳定,容易崩溃。

此时,DeepSeek提出了一种新算法,给“多车道”增加了一套智能调度系统(即mHC“流行约束”),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。



论文配图HC与mHC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC。论文截图

最终,DeepSeek在论文中以直观的测试展示了mHC方法相对于HC的稳定性。

理论创新

站在何凯明团队和字节跳动的肩膀上

值得注意的是,本次DeepSeek的论文,是站在了AI“大神”何凯明以及字节跳动的肩膀上。

这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的“标配”。

直到2024年,为了解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

在本次发布论文的文末,DeepSeek团队写道,“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狗交配时屁股为什么会连在一起?是母狗不让,还是公狗不想?

狗交配时屁股为什么会连在一起?是母狗不让,还是公狗不想?

宇宙时空
2026-05-25 12:57:36
有高人预测:手握燃油车的家庭,2026年或将迎5个结果

有高人预测:手握燃油车的家庭,2026年或将迎5个结果

西莫的艺术宫殿
2026-06-03 00:54:23
郑丽文一天收两大喜讯!彰化选情再反转,绿营大将硬刚赖清德

郑丽文一天收两大喜讯!彰化选情再反转,绿营大将硬刚赖清德

深析古今
2026-06-03 15:03:50
印度在中印边境快崩溃了?印军官曾言:后撤400米换4年和平,值得

印度在中印边境快崩溃了?印军官曾言:后撤400米换4年和平,值得

史行途
2026-06-03 18:25:03
一顿饭就要花掉40万,四年敛财40亿,杭州土皇帝虞关荣有多嚣张

一顿饭就要花掉40万,四年敛财40亿,杭州土皇帝虞关荣有多嚣张

莫地方
2026-05-21 01:45:03
安徽恶婆婆后续:儿媳后悔,找邻居说和,娘家全体出动求原谅晚了

安徽恶婆婆后续:儿媳后悔,找邻居说和,娘家全体出动求原谅晚了

米果说识
2026-05-31 16:45:27
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
中国运-15再曝试飞图!灰色涂装加新发动机,这次真快了

中国运-15再曝试飞图!灰色涂装加新发动机,这次真快了

瞩望云霄
2026-06-03 18:35:24
乌军对俄莫斯科、圣彼得堡、列宁格勒发动报复性打击!多地起火!

乌军对俄莫斯科、圣彼得堡、列宁格勒发动报复性打击!多地起火!

阿振观点
2026-06-03 21:10:34
最多3年2.07亿!这是步行者给西亚卡姆的全部,能否续约已有答案

最多3年2.07亿!这是步行者给西亚卡姆的全部,能否续约已有答案

奕辰说球
2026-06-03 09:44:45
日本首富重登亚洲首富宝座 身家超过1000亿美元大关

日本首富重登亚洲首富宝座 身家超过1000亿美元大关

财联社
2026-06-03 00:07:33
许家印英国18亿豪宅被流浪汉占领3年,门廊养鲜花,邻里主动接济

许家印英国18亿豪宅被流浪汉占领3年,门廊养鲜花,邻里主动接济

译言
2026-05-23 04:19:29
不宣而战,难怪泽连斯基下令攻打俄罗斯,原来是怕普京再获强援

不宣而战,难怪泽连斯基下令攻打俄罗斯,原来是怕普京再获强援

见闻可乐猫
2026-06-03 20:48:31
小三给我发孕检报告炫耀,我直接截图发给她老公:恭喜你当爸爸

小三给我发孕检报告炫耀,我直接截图发给她老公:恭喜你当爸爸

千秋文化
2026-06-01 20:24:19
因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

因妈妈姓氏太过特殊,全家一致同意“随母姓”,网友:换做是我,也随母姓

品读时刻
2026-05-24 09:01:06
创业板指涨逾4% 三市上涨个股近2000只

创业板指涨逾4% 三市上涨个股近2000只

每日经济新闻
2026-06-03 13:10:07
皇马大选迎来关键变数!因凡蒂诺毫不避嫌,公开力挺弗洛伦蒂诺

皇马大选迎来关键变数!因凡蒂诺毫不避嫌,公开力挺弗洛伦蒂诺

臻体育
2026-06-03 21:42:05
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
午后突发跳水!明天,做好这个应对

午后突发跳水!明天,做好这个应对

钱眼
2026-06-03 20:39:13
卖掉开8年的燃油车,花35万买了一辆理想L8,开了6个月,终于明白

卖掉开8年的燃油车,花35万买了一辆理想L8,开了6个月,终于明白

沙雕小琳琳
2026-06-01 06:06:09
2026-06-03 22:07:00
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
65427文章数 14024关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

游乐园机器人表演踢中男童腹部致其痛苦倒地 家长发声

头条要闻

游乐园机器人表演踢中男童腹部致其痛苦倒地 家长发声

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

数码
亲子
教育
公开课
军事航空

数码要闻

说真的,Type-C界需要一个“秦始皇”

亲子要闻

#闪闪小葵花成长正当时 亲子欢乐派对圆满收官 游戏、展演、问答轮番上线,乐享亲子时光

教育要闻

为什么高考选在9点钟? #2026高考加油 #高考加油

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

媒体:美伊和谈以方却从中作梗 内塔尼亚胡有私人算计

无障碍浏览 进入关怀版