网易首页 > 网易号 > 正文 申请入驻

新年首炸!DeepSeek提出mHC架构破解大模型训练难题

0
分享至





大模型就像个复杂的信息处理工厂,残差连接就是工厂里的传送带。

早期的传送带是单通道的,靠着“恒等映射”的设计,能保证信息完整传递,训练起来也稳定。

可随着模型规模越来越大,单通道传送带就不够用了,信息拥堵得厉害。



为了解决这个问题,字节跳动的团队之前提出了超连接方案。

这个方案相当于把单通道传送带改成了多通道,信息传输效率确实提高了,性能也跟着提升。

但新的问题很快出现了。

多通道没有统一的调度规则,信息在传输中会出现放大或压制的情况,就像失控的跷跷板。



这种情况直接导致训练过程中梯度爆炸,模型训练到一半就崩溃了。

本来想简单说下这个问题的严重性,但后来发现不举个例子不行。

有头部AI企业试过用类似超连接的方案训练千亿级模型,结果训练进行到一万多步时就频繁中断,损失值突然飙升。

这可不是小问题,大模型训练一次要耗费大量的算力和资金,中途崩溃意味着之前的投入全打了水漂。



DeepSeek的mHC架构就是冲着这个痛点来的。

从这个阵容能看出来,DeepSeek对这个研究的重视程度。

mHC的核心思路不是废掉多通道,而是给多通道加一套智能调度系统。



这个系统靠Sinkhorn-Knopp算法实现,能把连接矩阵约束在双拟随机矩阵的流形上。

可能有人觉得这话说得太学术,其实简单理解就是给信息传输加了个安全范围。

双拟随机矩阵的行和列之和都是1,还都是非负数,能保证信息传播时能量守恒,不会出现突然放大或缩小的情况。

除了这个核心设计,mHC还对输入输出映射加了非负约束。



这样做是为了避免正负系数相互抵消,导致有用的信号丢失。

这些设计看似简单,却精准戳中了超连接的要害。

它没有否定超连接拓宽通道的思路,而是在这个基础上做优化,这种改良式创新往往比颠覆性创新更容易落地。

为了控制训练开销,DeepSeek还做了一套基础设施优化。



他们把多个计算步骤融合成一个算子,减少了内存读写的次数。

同时采用了重计算策略,前向传播时丢弃中间数据,反向传播时再重新计算,这样能大幅降低内存占用。

这些优化措施效果很明显,在扩展倍率为4的情况下,训练时间只增加了一点,却换来了稳定性的大幅提升。



一款架构好不好用,最终还是要看实验数据。

DeepSeek用不同规模的模型做了测试,重点验证了27B参数模型的表现。

结果很直观,mHC彻底解决了超连接的训练不稳定问题,最终的损失值比传统基线模型还低。

在下游任务测试中,mHC的表现也全面超越了基线模型,在推理相关的任务上,比超连接还多了几个百分点的提升。



规模扩展实验也能说明问题。从3B到27B参数的模型,mHC的性能优势一直保持得很好。

哪怕训练数据量不断增加,这种优势也没有明显衰减。

这意味着mHC不仅在小模型上有效,在大规模模型上同样具备实用价值。

如此看来,mHC的意义不只是解决了一个技术痛点。



它更像是给行业指明了一个方向,大模型竞争不再是单纯堆参数、堆算力,架构的精细化设计同样重要。

之前很多中小企业因为训练不稳定、成本太高,不敢涉足大规模模型领域。

mHC的出现,说不定能降低这些企业的入局门槛。



mHC架构用巧妙的设计平衡了性能、稳定性和成本三个核心要素,给大模型架构的演进提供了新的思路。

对于AI行业来说,这种务实的技术创新,远比那些噱头式的突破更有价值。

未来随着更多企业跟进和优化,说不定会催生出更多高效稳定的大模型架构,让AI技术的落地变得更容易。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成龙承认现在最怕的不是死,是手机不响,表示儿子3年没有联系

成龙承认现在最怕的不是死,是手机不响,表示儿子3年没有联系

阿废冷眼观察所
2026-01-09 14:12:26
“浙BA”八强格局已定:县队为何能与设区市队平分席位?

“浙BA”八强格局已定:县队为何能与设区市队平分席位?

澎湃新闻
2026-01-09 13:38:27
每体:巴萨冬窗可能外租贝尔纳尔让他获得时间,赫罗纳最积极

每体:巴萨冬窗可能外租贝尔纳尔让他获得时间,赫罗纳最积极

懂球帝
2026-01-10 02:51:31
哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

哈佛发现:高血脂不用治,治好都是误诊?告诉您5个血脂真相!

岐黄传人孙大夫
2026-01-08 10:06:20
全线爆发!油价直线拉升,白银大涨,美股集体飘红!

全线爆发!油价直线拉升,白银大涨,美股集体飘红!

证券时报e公司
2026-01-09 23:38:37
周六007亚洲杯 23:伊朗 U23 对阵乌兹别克 U23,强强对决分析!

周六007亚洲杯 23:伊朗 U23 对阵乌兹别克 U23,强强对决分析!

一瓶卸妆水就足以毁你容
2026-01-10 05:40:03
快船迎来冲附加赛的最佳时机,未来10场赛程轻松,保10争9

快船迎来冲附加赛的最佳时机,未来10场赛程轻松,保10争9

摸神drose
2026-01-09 20:37:00
交易正式完成后,奇才队特雷·杨展示了他将来会穿着的新球衣

交易正式完成后,奇才队特雷·杨展示了他将来会穿着的新球衣

好火子
2026-01-10 02:05:41
高中生扶老人被讹50万,15年后老人孙子考上清华,在校门口跪下求饶

高中生扶老人被讹50万,15年后老人孙子考上清华,在校门口跪下求饶

红豆讲堂
2025-07-14 17:21:43
如果3年内没有离开股市的打算,那就买这一种股票,赚到盆满钵满

如果3年内没有离开股市的打算,那就买这一种股票,赚到盆满钵满

股经纵横谈
2026-01-09 17:42:31
关于现在的女人是否太开放?为什么给男人戴绿帽的越来越多?

关于现在的女人是否太开放?为什么给男人戴绿帽的越来越多?

户外小阿隋
2026-01-10 04:21:55
扣押油轮,英美捅了马蜂窝,土耳其政客:世界将见证中俄伊土联盟

扣押油轮,英美捅了马蜂窝,土耳其政客:世界将见证中俄伊土联盟

触摸史迹
2026-01-09 20:58:43
北京楼市,亦庄标杆金茂府已跌破发行价

北京楼市,亦庄标杆金茂府已跌破发行价

焦点直击
2026-01-09 08:57:35
美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

译言
2026-01-07 10:33:38
被曝光后才明白,中国的钱,究竟去了哪里?

被曝光后才明白,中国的钱,究竟去了哪里?

复转这些年
2025-12-27 23:56:37
一夜间,特朗普连发五道金牌,把“中美博弈”的遮羞布撕得粉碎!

一夜间,特朗普连发五道金牌,把“中美博弈”的遮羞布撕得粉碎!

百态人间
2026-01-09 17:11:06
南通最狂黑老大,当场有多狂,现在有多凉

南通最狂黑老大,当场有多狂,现在有多凉

特特农村生活
2026-01-09 12:54:58
杨利伟“成名”背后:妻子做出巨大牺牲,女儿已离世

杨利伟“成名”背后:妻子做出巨大牺牲,女儿已离世

老特有话说
2025-12-14 17:53:35
果然在春晓油田动手了!日本对中方强烈抗议,要求马上谈判!

果然在春晓油田动手了!日本对中方强烈抗议,要求马上谈判!

达文西看世界
2026-01-09 08:09:34
韩专家金在吉:中国文化历史不是上下5000年,韩国古代属于中国

韩专家金在吉:中国文化历史不是上下5000年,韩国古代属于中国

史之铭
2025-11-27 03:21:50
2026-01-10 06:27:00
流年顛簸
流年顛簸
流年顛簸
175文章数 62关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿 委方回应

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿 委方回应

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

教育
时尚
家居
艺术
军事航空

教育要闻

震惊!556分上211?合肥工大统计学真香

推广中奖名单-更新至2025年12月19日推广

家居要闻

木色留白 演绎现代自由

艺术要闻

15位著名画家的女性之美:哪一张触动了你的心?

军事要闻

特朗普:已开始从委石油资源中赚钱

无障碍浏览 进入关怀版