网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布最新论文,破解大模型训练拥堵难题

0
分享至

北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为“mHC”(直译为“流形约束超连接”)的框架,该框架改进了此前大模型训练中一种名为“HC(Hyper-Connections,超连接)”的范式,对大规模模型训练提供了切实的性能改进。

贝壳财经记者注意到,DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。事实上,虽然DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。


梁文锋的名字出现在论文作者最后一位。Hugging Face网站截图

论文重点讲了什么?

破解大模型训练拥堵难题

贝壳财经记者梳理发现,DeepSeek团队本次发布的论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

DeepSeek团队在论文中以严谨的数学公式解释了mHC,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的“生命线”——它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

但随着大模型参数突破千亿,这条“单车道”越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了“堵车撞车”,就像多车道中没装 “交通信号灯”一样,使模型训练变得更加不稳定,容易崩溃。

此时,DeepSeek提出了一种新算法,给“多车道”增加了一套智能调度系统(即mHC“流行约束”),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。



论文配图HC与mHC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC。论文截图

最终,DeepSeek在论文中以直观的测试展示了mHC方法相对于HC的稳定性。

理论创新

站在何凯明团队和字节跳动的肩膀上

值得注意的是,本次DeepSeek的论文,是站在了AI“大神”何凯明以及字节跳动的肩膀上。

这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的“标配”。

直到2024年,为了解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

在本次发布论文的文末,DeepSeek团队写道,“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
利物浦天坑逆袭!曾被嘲像暮年法比尼奥,如今竟追平索博斯洛伊?

利物浦天坑逆袭!曾被嘲像暮年法比尼奥,如今竟追平索博斯洛伊?

奶盖熊本熊
2026-02-18 07:20:27
印度开始停止进口俄罗斯石油,中国也有动作,俄罗斯的腰包紧张了

印度开始停止进口俄罗斯石油,中国也有动作,俄罗斯的腰包紧张了

老谢谈史
2025-10-04 12:59:06
荣耀Magic V6真机曝光!MWC即将发布,折叠屏+机器人手机双王炸

荣耀Magic V6真机曝光!MWC即将发布,折叠屏+机器人手机双王炸

数码八叔
2026-02-18 09:49:27
速滑男队获冠军点赞 李琰霸气发声:铜牌只是起点 不争冠军来干嘛

速滑男队获冠军点赞 李琰霸气发声:铜牌只是起点 不争冠军来干嘛

念洲
2026-02-18 09:21:35
笑喷了!庾澄庆急召长子回家吃饭,恩利边吃边惦记回秦昊这边

笑喷了!庾澄庆急召长子回家吃饭,恩利边吃边惦记回秦昊这边

甜柠聊史
2025-12-06 10:11:36
一场高速堵车,戳穿了3700万新能源车主“谎言”,差距一目了然

一场高速堵车,戳穿了3700万新能源车主“谎言”,差距一目了然

音乐时光的娱乐
2026-02-18 05:56:32
如果不差钱,退休后首选这3座城市久居,物价低,还舒服

如果不差钱,退休后首选这3座城市久居,物价低,还舒服

蜉蝣说
2026-02-14 16:06:23
电动车跑高速费电,装个变速箱不就行了?99%车企不敢,两家试过

电动车跑高速费电,装个变速箱不就行了?99%车企不敢,两家试过

小李车评李建红
2026-02-16 09:00:03
丹麦自废武功,这泼天的富贵被中国小镇接住了!全球皮草中心易主

丹麦自废武功,这泼天的富贵被中国小镇接住了!全球皮草中心易主

阅微札记
2026-02-10 09:29:50
哈梅内伊:“特朗普,你也做不到”

哈梅内伊:“特朗普,你也做不到”

澎湃新闻
2026-02-17 21:01:04
小鹏为什么这么“烦”L3

小鹏为什么这么“烦”L3

虎嗅APP
2026-02-17 01:58:05
出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

生活新鲜市
2026-02-17 23:39:01
英国上将揭露,当年“香港”回归真相:谁敢抗衡中国解放军?

英国上将揭露,当年“香港”回归真相:谁敢抗衡中国解放军?

终于在眼泪中明白
2026-02-07 08:36:49
“中国之光”宇树机器人的演示视频,把马斯克笑哭了!

“中国之光”宇树机器人的演示视频,把马斯克笑哭了!

李东阳朋友圈
2025-12-29 10:00:30
视察安庆期间,毛主席了解到陈独秀儿子陈松年在窑厂当苦工、处境困窘,当即批示:“要给予照顾”

视察安庆期间,毛主席了解到陈独秀儿子陈松年在窑厂当苦工、处境困窘,当即批示:“要给予照顾”

源溯历史
2025-12-20 16:22:13
2032奥运会举办地确定,结果意外改变全球奥运格局

2032奥运会举办地确定,结果意外改变全球奥运格局

余憁搞笑段子
2026-02-02 16:48:20
“爸妈来后冰箱都变老了!”网友:原来全国都这样

“爸妈来后冰箱都变老了!”网友:原来全国都这样

都市快报橙柿互动
2026-02-18 00:22:49
王祖贤在加拿大过年画面曝光:满桌年味年夜饭,全场竟无一位男性

王祖贤在加拿大过年画面曝光:满桌年味年夜饭,全场竟无一位男性

每一次点击
2026-02-16 16:15:43
姬胜德为何多次被减刑?他曾帮贺鹏飞做过一件大事,与海军有关

姬胜德为何多次被减刑?他曾帮贺鹏飞做过一件大事,与海军有关

历史甄有趣
2026-02-17 14:30:07
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
2026-02-18 12:00:49
贝壳财经 incentive-icons
贝壳财经
新京报旗下财经品牌
60991文章数 13956关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

蔡明称收到春晚邀请第一反应就是拒绝:他们给了两理由

头条要闻

蔡明称收到春晚邀请第一反应就是拒绝:他们给了两理由

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

房产
家居
数码
时尚
教育

房产要闻

三亚新机场,又传出新消息!

家居要闻

中古雅韵 乐韵伴日常

数码要闻

苹果发布macOS 26.4 Tahoe首个公测版:自定义充电上限

50+女性秋冬穿搭指南,4个让年龄法则成为加分项,越穿越优雅

教育要闻

“新校长”应有的模样

无障碍浏览 进入关怀版