网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布最新论文,破解大模型训练拥堵难题

0
分享至

北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为“mHC”(直译为“流形约束超连接”)的框架,该框架改进了此前大模型训练中一种名为“HC(Hyper-Connections,超连接)”的范式,对大规模模型训练提供了切实的性能改进。

贝壳财经记者注意到,DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。事实上,虽然DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。


梁文锋的名字出现在论文作者最后一位。Hugging Face网站截图

论文重点讲了什么?

破解大模型训练拥堵难题

贝壳财经记者梳理发现,DeepSeek团队本次发布的论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

DeepSeek团队在论文中以严谨的数学公式解释了mHC,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的“生命线”——它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

但随着大模型参数突破千亿,这条“单车道”越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了“堵车撞车”,就像多车道中没装 “交通信号灯”一样,使模型训练变得更加不稳定,容易崩溃。

此时,DeepSeek提出了一种新算法,给“多车道”增加了一套智能调度系统(即mHC“流行约束”),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。


论文配图HC与mHC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC。论文截图

最终,DeepSeek在论文中以直观的测试展示了mHC方法相对于HC的稳定性。

理论创新

站在何凯明团队和字节跳动的肩膀上

值得注意的是,本次DeepSeek的论文,是站在了AI“大神”何凯明以及字节跳动的肩膀上。

这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的“标配”。

直到2024年,为了解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

在本次发布论文的文末,DeepSeek团队写道,“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1月4日晚间重要公告一览

1月4日晚间重要公告一览

GPLP
2026-01-04 18:21:33
王后与长公主!夏洛特佩戴王冠漂亮大气,凯特太优雅了!

王后与长公主!夏洛特佩戴王冠漂亮大气,凯特太优雅了!

动物奇奇怪怪
2026-01-04 14:14:40
余华,中国最被高估的作家

余华,中国最被高估的作家

智识漂流
2025-12-18 18:59:00
赖清德去向成谜?台军退将称:大陆飞机已进入台北,如入无人之境

赖清德去向成谜?台军退将称:大陆飞机已进入台北,如入无人之境

杰丝聊古今
2025-12-31 22:50:39
做酒店前台,你见过哪些离谱事?网友:这男人上辈子可能救她命了

做酒店前台,你见过哪些离谱事?网友:这男人上辈子可能救她命了

带你感受人间冷暖
2026-01-05 00:20:10
章泽天与网球名将萨巴伦卡合影,却被嘲平胸,脸圆,大腿比较粗!

章泽天与网球名将萨巴伦卡合影,却被嘲平胸,脸圆,大腿比较粗!

小娱乐悠悠
2026-01-02 10:23:42
21岁中卫加入利物浦!高身价接班范迪克,助国家队打造叹息之墙

21岁中卫加入利物浦!高身价接班范迪克,助国家队打造叹息之墙

里芃芃体育
2026-01-05 00:10:06
别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

流苏晚晴
2026-01-02 17:56:17
专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

蜉蝣说
2025-10-31 10:56:39
你扣我油轮,我没收你军火,中国海警发布海报:敢运海马斯就登船

你扣我油轮,我没收你军火,中国海警发布海报:敢运海马斯就登船

游者走天下
2026-01-04 11:44:49
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
员工节假日嫖娼遭行政拘留,隐瞒7年后被银行发现并辞退!男子不服官司一路打到高院,法院:辞退决定合法有效

员工节假日嫖娼遭行政拘留,隐瞒7年后被银行发现并辞退!男子不服官司一路打到高院,法院:辞退决定合法有效

扬子晚报
2026-01-04 17:30:03
一个人对外人和善,对家人却不耐烦、容易炸,不是窝里横,而是因为……

一个人对外人和善,对家人却不耐烦、容易炸,不是窝里横,而是因为……

壹心理
2026-01-04 11:03:32
为什么湾湾不惧大陆军演?湾湾:两大软肋不会真打!大陆如何破局

为什么湾湾不惧大陆军演?湾湾:两大软肋不会真打!大陆如何破局

阿胡
2025-12-30 12:12:11
日本“鞋王”:曾被耐克“偷师”,去年在中国市场捞走近50亿元

日本“鞋王”:曾被耐克“偷师”,去年在中国市场捞走近50亿元

老谢谈史
2026-01-02 19:41:50
刘嘉玲在2.6亿豪宅办跨年宴,28岁侄子首露面被猜亿万家产继承人

刘嘉玲在2.6亿豪宅办跨年宴,28岁侄子首露面被猜亿万家产继承人

付老师种植技术团队
2026-01-03 12:57:17
为何湖人输球就怪东契奇不防守?也不看看另外2位什么防守水平!

为何湖人输球就怪东契奇不防守?也不看看另外2位什么防守水平!

佳佳说奇事故事
2026-01-05 02:01:42
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
特朗普下令抓走马杜罗,梅德韦杰夫表态,只有核武库才能保证安全

特朗普下令抓走马杜罗,梅德韦杰夫表态,只有核武库才能保证安全

策略述
2026-01-04 12:31:50
国乒出征!4位教练率队,竞聘或新风向,马琳受关注,王曼昱抽签

国乒出征!4位教练率队,竞聘或新风向,马琳受关注,王曼昱抽签

帛金体育
2026-01-05 00:29:14
2026-01-05 03:04:49
新京报 incentive-icons
新京报
好新闻,无止境
556821文章数 2506375关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

家居
房产
游戏
手机
时尚

家居要闻

黑白碰撞 个性多元冷冽风

房产要闻

单盘最高狂卖64亿!海南楼市2025年最全榜单发布!

自走棋火了6年后,我才玩了《王者万象棋》

手机要闻

一加Turbo6参数公布,挑战Turbo档最强游戏体验

这才是中年女人该有的打扮,不扮嫩、不穿花,简约大方还显贵

无障碍浏览 进入关怀版