网易首页 > 网易号 > 正文 申请入驻

DeepSeek发布最新论文,破解大模型训练拥堵难题

0
分享至

来源:市场资讯

(来源:贝壳财经)

北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为“mHC”(直译为“流形约束超连接”)的框架,该框架改进了此前大模型训练中一种名为“HC(Hyper-Connections,超连接)”的范式,对大规模模型训练提供了切实的性能改进。

贝壳财经记者注意到,DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。事实上,虽然DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。


梁文锋的名字出现在论文作者最后一位。Hugging Face网站截图

论文重点讲了什么?

破解大模型训练拥堵难题

贝壳财经记者梳理发现,DeepSeek团队本次发布的论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

DeepSeek团队在论文中以严谨的数学公式解释了mHC,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的“生命线”——它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

但随着大模型参数突破千亿,这条“单车道”越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了“堵车撞车”,就像多车道中没装 “交通信号灯”一样,使模型训练变得更加不稳定,容易崩溃。

此时,DeepSeek提出了一种新算法,给“多车道”增加了一套智能调度系统(即mHC“流行约束”),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。


论文配图HC与mHC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC。论文截图

最终,DeepSeek在论文中以直观的测试展示了mHC方法相对于HC的稳定性。

理论创新

站在何凯明团队和字节跳动的肩膀上

值得注意的是,本次DeepSeek的论文,是站在了AI“大神”何凯明以及字节跳动的肩膀上。

这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的“标配”。

直到2024年,为了解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

在本次发布论文的文末,DeepSeek团队写道,“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!OpenClaw首推Kimi K2.5并宣布免费,AI圈这个“年”彻底不过了

突发!OpenClaw首推Kimi K2.5并宣布免费,AI圈这个“年”彻底不过了

大厂青年
2026-02-01 12:33:24
何鸿燊为增寿使尽手段:种生基、打数亿补脑针,最可怕是点七星灯

何鸿燊为增寿使尽手段:种生基、打数亿补脑针,最可怕是点七星灯

麦大人
2024-02-12 14:33:59
官方:美洲队与圣马克西曼解约;此前球员孩子曾遭遇种族歧视

官方:美洲队与圣马克西曼解约;此前球员孩子曾遭遇种族歧视

懂球帝
2026-02-01 16:30:07
弟弟婚宴上,弟媳羞辱我给8万太少,我当场宣布:给我弟换个媳妇

弟弟婚宴上,弟媳羞辱我给8万太少,我当场宣布:给我弟换个媳妇

程哥讲堂
2026-01-30 18:03:22
这种保温杯早被国家禁了,可能引发慢性中毒,很多人却成天不离手

这种保温杯早被国家禁了,可能引发慢性中毒,很多人却成天不离手

DrX说
2025-12-16 14:36:14
大连一小区供暖不理想,室温不足15℃!供热公司:正规划检修管道

大连一小区供暖不理想,室温不足15℃!供热公司:正规划检修管道

半岛晨报
2026-02-01 13:45:05
全世界都惊了!金正恩竟然改了日本的“国号”!不叫“日本”了!

全世界都惊了!金正恩竟然改了日本的“国号”!不叫“日本”了!

蓬勃资讯
2025-12-28 14:38:03
大量网友相信强力磁铁可让燃气表变慢,专家:窃气严重可刑事处罚

大量网友相信强力磁铁可让燃气表变慢,专家:窃气严重可刑事处罚

映射生活的身影
2025-12-20 03:39:27
男子坐牢20年,出狱后发现,自己在北京有240套房

男子坐牢20年,出狱后发现,自己在北京有240套房

徐侠客有话说
2025-12-24 10:34:39
新西兰“破产”董事拿高薪、住豪宅,就是不还钱!债权人“接近崩溃”

新西兰“破产”董事拿高薪、住豪宅,就是不还钱!债权人“接近崩溃”

发现新西兰
2026-01-28 10:54:04
叶一茜带女簪花 18岁森碟下巴后缩矫正好了 这么好看 多亏了网友

叶一茜带女簪花 18岁森碟下巴后缩矫正好了 这么好看 多亏了网友

地理三体说
2026-01-27 21:00:56
“中国要被我们拖垮了!”24年,韩国掀起拒绝吃中国进口白菜浪潮

“中国要被我们拖垮了!”24年,韩国掀起拒绝吃中国进口白菜浪潮

扶苏聊历史
2026-01-23 10:28:26
瑾汐被闺蜜吭了 大哈两个女儿已回国 瑾汐妈妈一事被网友怒赞

瑾汐被闺蜜吭了 大哈两个女儿已回国 瑾汐妈妈一事被网友怒赞

小舟谈历史
2026-01-27 16:01:20
德约澳网丢冠6大遗憾:决赛不败金身告破 还能冲大满贯第25冠吗

德约澳网丢冠6大遗憾:决赛不败金身告破 还能冲大满贯第25冠吗

醉卧浮生
2026-02-01 20:04:24
够离谱的!江苏一男子如厕6小时21分钟被解雇,向公司索赔20多万

够离谱的!江苏一男子如厕6小时21分钟被解雇,向公司索赔20多万

娱乐圈见解说
2026-02-01 19:03:26
“好标准的技校脸”,技校女生大合照火了,网友:能把老实人打傻

“好标准的技校脸”,技校女生大合照火了,网友:能把老实人打傻

妍妍教育日记
2026-01-30 20:54:12
场均16+8+7!失误1.6次联盟顶级,美媒晒阿门数据,火箭因祸得福

场均16+8+7!失误1.6次联盟顶级,美媒晒阿门数据,火箭因祸得福

巴叔GO聊体育
2026-02-01 13:12:05
李晨杭州狂炫67元拌川!小饭馆老板认不出

李晨杭州狂炫67元拌川!小饭馆老板认不出

情感大头说说
2026-01-30 11:32:59
接班孙兴慜,却乐不思蜀?24岁韩国中场被媒体批“缺乏斗志”

接班孙兴慜,却乐不思蜀?24岁韩国中场被媒体批“缺乏斗志”

里芃芃体育
2026-02-01 09:33:12
TA:卡塞米罗一下富勒姆攻势如潮,曼联找接班人任务十分艰巨

TA:卡塞米罗一下富勒姆攻势如潮,曼联找接班人任务十分艰巨

懂球帝
2026-02-02 01:10:09
2026-02-02 04:40:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2059808文章数 5316关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

游戏
艺术
教育
家居
军事航空

末期癌症玩家圆梦《毁灭战士》!id公开致敬

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

家居要闻

蓝调空舍 自由与个性

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版