网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

新年首炸！DeepSeek提出mHC架构破解大模型训练难题

2026-01-07 19:58:02　来源: 流年顛簸

四川举报

0

分享至

大模型就像个复杂的信息处理工厂，残差连接就是工厂里的传送带。

早期的传送带是单通道的，靠着“恒等映射”的设计，能保证信息完整传递，训练起来也稳定。

可随着模型规模越来越大，单通道传送带就不够用了，信息拥堵得厉害。

为了解决这个问题，字节跳动的团队之前提出了超连接方案。

这个方案相当于把单通道传送带改成了多通道，信息传输效率确实提高了，性能也跟着提升。

但新的问题很快出现了。

多通道没有统一的调度规则，信息在传输中会出现放大或压制的情况，就像失控的跷跷板。

这种情况直接导致训练过程中梯度爆炸，模型训练到一半就崩溃了。

本来想简单说下这个问题的严重性，但后来发现不举个例子不行。

有头部AI企业试过用类似超连接的方案训练千亿级模型，结果训练进行到一万多步时就频繁中断，损失值突然飙升。

这可不是小问题，大模型训练一次要耗费大量的算力和资金，中途崩溃意味着之前的投入全打了水漂。

DeepSeek的mHC架构就是冲着这个痛点来的。

从这个阵容能看出来，DeepSeek对这个研究的重视程度。

mHC的核心思路不是废掉多通道，而是给多通道加一套智能调度系统。

这个系统靠Sinkhorn-Knopp算法实现，能把连接矩阵约束在双拟随机矩阵的流形上。

可能有人觉得这话说得太学术，其实简单理解就是给信息传输加了个安全范围。

双拟随机矩阵的行和列之和都是1，还都是非负数，能保证信息传播时能量守恒，不会出现突然放大或缩小的情况。

除了这个核心设计，mHC还对输入输出映射加了非负约束。

这样做是为了避免正负系数相互抵消，导致有用的信号丢失。

这些设计看似简单，却精准戳中了超连接的要害。

它没有否定超连接拓宽通道的思路，而是在这个基础上做优化，这种改良式创新往往比颠覆性创新更容易落地。

为了控制训练开销，DeepSeek还做了一套基础设施优化。

他们把多个计算步骤融合成一个算子，减少了内存读写的次数。

同时采用了重计算策略，前向传播时丢弃中间数据，反向传播时再重新计算，这样能大幅降低内存占用。

这些优化措施效果很明显，在扩展倍率为4的情况下，训练时间只增加了一点，却换来了稳定性的大幅提升。

一款架构好不好用，最终还是要看实验数据。

DeepSeek用不同规模的模型做了测试，重点验证了27B参数模型的表现。

结果很直观，mHC彻底解决了超连接的训练不稳定问题，最终的损失值比传统基线模型还低。

在下游任务测试中，mHC的表现也全面超越了基线模型，在推理相关的任务上，比超连接还多了几个百分点的提升。

规模扩展实验也能说明问题。从3B到27B参数的模型，mHC的性能优势一直保持得很好。

哪怕训练数据量不断增加，这种优势也没有明显衰减。

这意味着mHC不仅在小模型上有效，在大规模模型上同样具备实用价值。

如此看来，mHC的意义不只是解决了一个技术痛点。

它更像是给行业指明了一个方向，大模型竞争不再是单纯堆参数、堆算力，架构的精细化设计同样重要。

之前很多中小企业因为训练不稳定、成本太高，不敢涉足大规模模型领域。

mHC的出现，说不定能降低这些企业的入局门槛。

mHC架构用巧妙的设计平衡了性能、稳定性和成本三个核心要素，给大模型架构的演进提供了新的思路。

对于AI行业来说，这种务实的技术创新，远比那些噱头式的突破更有价值。

未来随着更多企业跟进和优化，说不定会催生出更多高效稳定的大模型架构，让AI技术的落地变得更容易。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

智源2026十大趋势指明AI前景——世界模型、超级应用与产业智能体

DeepTech深科技 2026-01-09 22:18:50
0 跟贴 0
蚂蚁再把医疗AI卷出新高度！蚂蚁·安诊儿医疗大模型开源即SOTA

量子位 2026-01-09 20:03:45
0 跟贴 0

一年后，DeepSeek-R1的每token成本降到了原来的1/32

机器之心Pro 2026-01-09 14:34:59
0 跟贴 0

医疗领域DeepSeek时刻:蚂蚁 · 安诊儿医疗模型开源,登顶权威榜单

机器之心Pro 2026-01-09 11:02:58
0 跟贴 0
Stack Overflow已死？CEO带队狂赚1.15亿刀，6个月原地反杀

新智元 2026-01-09 20:39:45
0 跟贴 0

从联网设备到智能体终端，阿里云开启AI硬件的普惠元年

36氪 2026-01-09 22:03:48
0 跟贴 0

ChatGPT学阿福，但还有一沓作业抄不会

雷科技 2026-01-09 23:12:09
0 跟贴 0
穷人福音！MIT研究：不用堆显卡，抄顶级模型作业就成

新智元 2026-01-09 20:38:47
0 跟贴 0

大数据算法为什么要这样设置

小猫上树 2026-01-06 13:49:34
1 跟贴 1
我们可能没有技术，但我们会抄啊

萌哥电影 2026-01-09 17:59:23
1 跟贴 1
两部门：取消光伏、电池产品增值税出口退税

财联社 2026-01-09 17:57:23
10179 跟贴 10179
沪宁合高铁南京特大桥跨滁河斜拉桥顺利合龙

新华社 2026-01-09 16:37:50
0 跟贴 0
德军统帅部制定“白色方案”既闪击波兰！

二叔胡侃 2026-01-08 12:09:29
9 跟贴 9
中方：沉痛哀悼丹羽宇一郎

新京报政事儿 2026-01-09 15:31:25
2873 跟贴 2873
中国算法vs印度算法，引发众多网友热议，哪种更胜一筹！

生活中那事 2026-01-07 09:13:04
0 跟贴 0
馋了二十年没吃上的烤鸭店，今天终于被算法推荐带去了却心愿

午餐肉艺术家葛世贤 2026-01-07 00:00:00
0 跟贴 0
南京财经大学发布国内首个粮食安全学科专用大模型

现代快报 2026-01-09 18:09:11
0 跟贴 0
桌上冰壶双人比赛规则

各生欢喜者 2026-01-09 00:48:23
1 跟贴 1
歼35E部署巴基斯坦，印巴空战规则被改写

金日视界 2026-01-07 10:42:47
15 跟贴 15
测试蔚来ET9稳定性，看到机盖上杯子傻眼，这实验和诈骗一样！

驴妹儿搞笑 2026-01-08 09:27:27
1 跟贴 1
【DeepSeek谈艺】周武发·油画写生丨以笔为耳，倾听万物

文化视界网 2026-01-09 17:11:21
0 跟贴 0
智能厨电迈入大模型时代，中国厨电想从“学生”变“老师”

雷科技 2026-01-09 23:40:44
0 跟贴 0
大哥这技术太秀了

奇遇叶辰 2026-01-06 10:25:57
3 跟贴 3
河北医科大学：研发医学教育大模型赋能人才培养增效提质

中国教育新闻网 2026-01-09 19:46:52
0 跟贴 0
“千亿市值”叩门AGI时代：MiniMax资本狂欢背后，中国大模型的盛宴与荆棘

每日经济新闻 2026-01-09 21:03:21
0 跟贴 0
垃圾进垃圾出，大模型刷多了垃圾推文，智商骤降还变自恋狂

机器之心Pro 2025-10-24 18:51:47
0 跟贴 0
钢珠破片手雷的模型

市井中人 2026-01-05 14:50:30
1 跟贴 1
重庆南岸：电动轮椅的出行堵点打通了

人民监督 2026-01-09 16:16:30
0 跟贴 0
委内瑞拉军队，讨论如何击退美军入侵，并在地图模型上指指点点

嘻嘻笑笑 2026-01-05 11:24:27
274 跟贴 274
是时候展示真正的技术了

妞妞的一家人 2026-01-06 11:06:22
3 跟贴 3
何中伟任浙江省副省长

新京报政事儿 2026-01-09 16:36:21
10 跟贴 10
赤峰一小学校服有薄膜不透气？教育局：校服有质检报告正调查

新京报 2026-01-09 19:54:18
1680 跟贴 1680
南海多国联手巡航！拒绝美国挑拨，中国方案稳住整片海域

年后要减肥 2026-01-10 01:03:21
0 跟贴 0
被美国打碎的规则秩序，还有谁能重新修复？倩姐还是很乐观的

华山论舌 2026-01-09 12:19:05
0 跟贴 0
倒反天罡！七国联合警告碰壁，加拿大突飞中国，欧盟立场生变？

杰丝聊古今 2026-01-10 05:08:54
0 跟贴 0
黄鹤楼景区应修北门？建议来了

极目新闻 2026-01-06 10:23:04
818 跟贴 818
全球用户大面积中招：鼠标突然就“坏了”！不少人按到“手抽筋”，重装卸载也不管用，罗技回应

每日经济新闻 2026-01-08 20:15:12
527 跟贴 527
多益网络将广工学生列入黑名单，校方回应！劳动监察部门介入

南方都市报 2026-01-09 18:37:18
163 跟贴 163
井深4002.17米！山东这一钻，捅破华东地热“天花板”

齐鲁壹点 2026-01-09 14:31:58
118 跟贴 118
二战经典时刻（18）纳粹的最终方案，杜立特空袭东京！

二叔胡侃 2026-01-09 18:17:04
0 跟贴 0

成龙承认现在最怕的不是死，是手机不响，表示儿子3年没有联系

成龙承认现在最怕的不是死，是手机不响，表示儿子3年没有联系

阿废冷眼观察所

2026-01-09 14:12:26

“浙BA”八强格局已定：县队为何能与设区市队平分席位？

“浙BA”八强格局已定：县队为何能与设区市队平分席位？

澎湃新闻

2026-01-09 13:38:27

每体：巴萨冬窗可能外租贝尔纳尔让他获得时间，赫罗纳最积极

每体：巴萨冬窗可能外租贝尔纳尔让他获得时间，赫罗纳最积极

懂球帝

2026-01-10 02:51:31

哈佛发现：高血脂不用治，治好都是误诊？告诉您5个血脂真相！

哈佛发现：高血脂不用治，治好都是误诊？告诉您5个血脂真相！

岐黄传人孙大夫

2026-01-08 10:06:20

全线爆发！油价直线拉升，白银大涨，美股集体飘红！

全线爆发！油价直线拉升，白银大涨，美股集体飘红！

证券时报e公司

2026-01-09 23:38:37

周六007亚洲杯 23：伊朗 U23 对阵乌兹别克 U23，强强对决分析！

周六007亚洲杯 23：伊朗 U23 对阵乌兹别克 U23，强强对决分析！

一瓶卸妆水就足以毁你容

2026-01-10 05:40:03

快船迎来冲附加赛的最佳时机，未来10场赛程轻松，保10争9

快船迎来冲附加赛的最佳时机，未来10场赛程轻松，保10争9

摸神drose

2026-01-09 20:37:00

交易正式完成后，奇才队特雷·杨展示了他将来会穿着的新球衣

交易正式完成后，奇才队特雷·杨展示了他将来会穿着的新球衣

好火子

2026-01-10 02:05:41

高中生扶老人被讹50万,15年后老人孙子考上清华,在校门口跪下求饶

高中生扶老人被讹50万,15年后老人孙子考上清华,在校门口跪下求饶

红豆讲堂

2025-07-14 17:21:43

如果3年内没有离开股市的打算，那就买这一种股票，赚到盆满钵满

如果3年内没有离开股市的打算，那就买这一种股票，赚到盆满钵满

股经纵横谈

2026-01-09 17:42:31

关于现在的女人是否太开放？为什么给男人戴绿帽的越来越多？

关于现在的女人是否太开放？为什么给男人戴绿帽的越来越多？

户外小阿隋

2026-01-10 04:21:55

扣押油轮，英美捅了马蜂窝，土耳其政客：世界将见证中俄伊土联盟

扣押油轮，英美捅了马蜂窝，土耳其政客：世界将见证中俄伊土联盟

触摸史迹

2026-01-09 20:58:43

北京楼市，亦庄标杆金茂府已跌破发行价

北京楼市，亦庄标杆金茂府已跌破发行价

焦点直击

2026-01-09 08:57:35

美橄榄球明星的隐私部位尺寸，被模特前妻公开讨论，怒而对簿公堂

美橄榄球明星的隐私部位尺寸，被模特前妻公开讨论，怒而对簿公堂

译言

2026-01-07 10:33:38

被曝光后才明白，中国的钱，究竟去了哪里？

被曝光后才明白，中国的钱，究竟去了哪里？

复转这些年

2025-12-27 23:56:37

一夜间，特朗普连发五道金牌，把“中美博弈”的遮羞布撕得粉碎！

一夜间，特朗普连发五道金牌，把“中美博弈”的遮羞布撕得粉碎！

百态人间

2026-01-09 17:11:06

南通最狂黑老大，当场有多狂，现在有多凉

南通最狂黑老大，当场有多狂，现在有多凉

特特农村生活

2026-01-09 12:54:58

杨利伟“成名”背后：妻子做出巨大牺牲，女儿已离世

杨利伟“成名”背后：妻子做出巨大牺牲，女儿已离世

老特有话说

2025-12-14 17:53:35

果然在春晓油田动手了！日本对中方强烈抗议，要求马上谈判！

果然在春晓油田动手了！日本对中方强烈抗议，要求马上谈判！

达文西看世界

2026-01-09 08:09:34

韩专家金在吉：中国文化历史不是上下5000年，韩国古代属于中国

韩专家金在吉：中国文化历史不是上下5000年，韩国古代属于中国

史之铭

2025-11-27 03:21:50

175文章数 62关注度

往期回顾全部

科技要闻

市场偏爱MiniMax：开盘涨42%，市值超700亿

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿委方回应

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿委方回应

体育要闻

金元时代最后的外援，来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞接下来是加速还是起跳？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

时尚

家居

艺术

军事航空

教育要闻

震惊！556分上211？合肥工大统计学真香

推广中奖名单-更新至2025年12月19日推广

家居要闻

木色留白演绎现代自由

艺术要闻

15位著名画家的女性之美：哪一张触动了你的心？

军事要闻

特朗普：已开始从委石油资源中赚钱

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版