网易首页 > 网易号 > 正文 申请入驻

DeepSeek上新mHC,R2还远吗?

0
分享至

去年1月,春节前夕,“DeepSeek冲击波”席卷业界,中美同时“破圈”,成为年度现象级事件。而2026年一开年,DeepSeek又惊喜时刻进一步提前。

1月1日,DeepSeek在AI开源社区HuggingFacear和研究分享平台arXiv发布论文,提出了名为mHC(Manifold-Constrained Hyper-Connections)的新型神经网络架构优化方案,再次引发讨论热潮,其对AI产业,包括大模型、芯片等领域可能产生的影响也备受瞩目。


图片来自DeepSeek论文“mHC:Manifold-Constrained Hyper-Connections“

mHC架构让大模型训练更稳、更快、更省

DeepSeek此次提出的mHC架构,建立在字节豆包大模型Foundation团队2024年11月发布的Hyper-Connections(HC)基础上。

彼时,豆包团队宣称HC有望替代大模型开发领域沿用近10年的ResNet残差神经网络架构,通过拓宽残差连接宽度,增加连接模式多样性,提升大模型性能和灵活性。

不过,HC只在理论推演和小模型实验中取得了成绩,在大模型训练中,残差连接通道间的交互极易导致信号爆炸或消失,进而全盘失控,无法取得稳定的训练结果,可扩展性也随之降低,成本则大幅升高。

DeepSeek在论文中称,mHC的核心创新在于引入Manifold-Constrained(流形约束),通过Sinkhorn-Knopp算法将残差映射矩阵投影到“双随机矩阵”构成的Birkhoff多面体上。

简单来说,这相当于为上述“易爆”的信号传播环节加上稳定器,确保信号在多层传递过程中受到约束,均值不变、总量守恒,以此解决HC在大模型训练中的稳定性、可扩展性问题。

DeepSeek给出了HC和mHC在270亿参数级别训练中的演示数据,HC在训练到1.2万步左右时信号放大倍数已暴增至3000倍,训练随之崩溃。

而mHC在同等训练中,信号放大倍数仅为1.6倍,全程平稳运行。与此同时,相较于传统架构,mHC训练时的损失显著下降,BBH数据集评测的困难任务推理能力和DROP数据集评测的阅读理解表现均提升2%以上。


图片来自DeepSeek论文“mHC:Manifold-Constrained Hyper-Connections“

另外,DeepSeek延续了“高性价比”“效率优先”的一贯风格,论文称研究团队同时设计了高效的基础设施优化方案,最终,在残差通道扩展4倍后,mHC的额外训练时间开销仅为6.7%。

DeepSeek在论文中总结称,实验证明mHC在大规模训练中表现稳定,性能优越,具备良好的可扩展性,期望其能为拓扑结构设计提供新视角,并推动基础模型的演进。

值得一提的是,论文作者署名多达19人,核心作者为解振达、韦毅轩、曹焕奇,前两者均为清华大学高等研究院博士,也均进入过微软亚洲研究院联培项目,而DeepSeek创始人、CEO梁文锋的名字则列于最后。

在HuggingFacear上,从2024年1月的LLM论文至今,DeepSeek共发布了23篇重要论文,11篇中有梁文锋署名,包括MoE、Coder、R1、V3等节点性重要成果。

或引发AI架构连锁反应,英伟达生态再获加持

mHC发布后,在研究者、业界、媒体中都有较高的讨论度。相较于此前聚焦专门领域的OCR、Math-V2和在V3基础上更新的V3.2,mHC更被视为是一种底层创新,再加之新年伊始的节点,也更多被赋予了一层象征意义。

科技研究机构Odmia首席分析师苏连杰接受Business Insider采访时称,DeepSeek可能会在AI领域引发连锁反应,竞争对手可能会着手开发类似的架构。

实际上,就在DeepSeeK发布论文的次日,普林斯顿和UCLA的研究团队就提出了名为Deep Delta Learning的架构,同样旨在更新ResNet的基本架构。

接连涌现的新研究,提升了业界对2026年大模型架构产生重大范式更新和迭代的期待。

苏连杰还认为,相关研究成果会在DeepSeek其后的新模型中有所体现。

不少机构预计DeepSeek将在春节前后进行重大发布,很可能是备受期待却推迟已久的R2,并以此复刻去年的“冲击效应”,也可能是更新更快的通用模型V4,进一步激发实用性和经济价值。

不过,目前尚无可靠消息论证mHC是否会进入新模型。

去年春节期间,DeepSeek R1给AI芯片产业带来巨大冲击,甚至一度被认为将颠覆“算力为王”的逻辑,让以英伟达为代表的美股AI芯片产业链公司股价大跌。此次,mHC对算力、硬件端的影响也受到关注。

一份专家调研纪要显示,mHC架构虽然通过效率提升、工程优化提升了整体算力的质效比,延续了“无需堆算力就能打造顶尖大模型”的叙事,但其本身依赖FP32高精度计算格式,对内存带宽和高速互联带宽也提出了更高要求,尤需高端芯片的支持。

而且,目前该架构主要针对英伟达超节点链路设计,更适配英伟达生态,而对国产芯片兼容性较弱。

实际上,此前DeepSeek推迟R2发布时,即有分析称缺少英伟达芯片是原因之一。如果这种架构规模化铺开,英伟达的生态短期内会得到优势强化,国产芯片则需着力强化编译层的适配。而长期来看,供应mHC架构的AI芯片需要提升存储带宽,并转向更加精细化的设计。

不过,值得注意的是,2025年英伟达等制造商的美国AI芯片受地缘、政策因素影响逐渐淡出中国市场后,国产芯片替代大幅加速。相关厂商在提升性能以追赶领先者的同时,也逐渐在生态构建层面大举布局,华为昇腾、摩尔线程等都宣布适配DeepSeek大模型,不过其精度格式仍与英伟达有明显差距。

在国产芯片的生态突围中,与DeepSeek等领先大模型的深度耦合被认为至关重要。2026年,英伟达、AMD等国际巨头重返中国的努力、国产芯片的继续成长,以及大模型创新带来的变量,可能会让故事变得更加精彩。(作者|胡珈萌,编辑|李程程)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
甘肃天水一佳人好漂亮, 身高168cm,体重48kg 美的让人移不开眼

甘肃天水一佳人好漂亮, 身高168cm,体重48kg 美的让人移不开眼

乡野小珥
2026-04-08 00:48:57
毛主席从不批评刘伯承和徐向前,一个是不忍批评,另一个无需批评

毛主席从不批评刘伯承和徐向前,一个是不忍批评,另一个无需批评

鹤羽说个事
2026-04-08 22:21:11
俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

流史岁月
2026-04-09 13:55:03
丰塞卡会师世界第三紫薇引热议,袁悦遭逆转无缘直接入选法网正赛

丰塞卡会师世界第三紫薇引热议,袁悦遭逆转无缘直接入选法网正赛

网球之家
2026-04-09 22:56:27
“首富之孙”正脸曝光,网友:38岁的梁洛施赢麻了!

“首富之孙”正脸曝光,网友:38岁的梁洛施赢麻了!

十点读书
2026-04-09 18:59:50
黑龙江富豪惨遭灭门,保姆装死逃过一劫,保姆:凶手怎么会是他?

黑龙江富豪惨遭灭门,保姆装死逃过一劫,保姆:凶手怎么会是他?

林林故事揭秘
2025-04-10 17:37:49
李国旭:明天的比赛将是开赛以来最难的,我们要保持好整体

李国旭:明天的比赛将是开赛以来最难的,我们要保持好整体

懂球帝
2026-04-09 16:48:17
张萌生图太吓人!脸上坑坑洼洼、鼻子全是洞,网友:不容貌焦虑了

张萌生图太吓人!脸上坑坑洼洼、鼻子全是洞,网友:不容貌焦虑了

林轻吟
2026-04-08 22:21:37
美专家预警中国万吨巨兽下水,美军遇30年来最严峻挑战

美专家预警中国万吨巨兽下水,美军遇30年来最严峻挑战

阅尽天下大事
2026-04-08 13:23:21
伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

伊朗发出最后通牒!俄通告全球将参战,法国上将:中估计也要到了

历史长河低语者
2026-04-08 19:52:02
新鹰王还没捂热!又来一个预备役鹰王?

新鹰王还没捂热!又来一个预备役鹰王?

篮球大图
2026-04-09 14:56:55
医生告诫:每天睡前玩手机的人,不用半年时间,睡眠或有这6变化

医生告诫:每天睡前玩手机的人,不用半年时间,睡眠或有这6变化

白话电影院
2026-04-05 15:34:47
受贿3962万余元,贵州省人大教育科学文化卫生委员会原委员石京山一审获刑11年6个月

受贿3962万余元,贵州省人大教育科学文化卫生委员会原委员石京山一审获刑11年6个月

界面新闻
2026-04-09 21:14:40
WTT太原赛大爆冷!男单头号种子一轮游,向鹏0-3惨败输卢森堡选手

WTT太原赛大爆冷!男单头号种子一轮游,向鹏0-3惨败输卢森堡选手

全言作品
2026-04-09 18:17:11
中东面面观丨美以伊战争迎来两周停火 是暂停键还是休止符?

中东面面观丨美以伊战争迎来两周停火 是暂停键还是休止符?

极目新闻
2026-04-09 08:07:26
澳大利亚总理痛批特朗普:堂堂美国总统,讲这话简直不成体统

澳大利亚总理痛批特朗普:堂堂美国总统,讲这话简直不成体统

小陆搞笑日常
2026-04-09 17:41:38
初三女生被5名舍友欺负致右髌骨骨折, 警方行政立案,校园欺凌认定三个月无结果

初三女生被5名舍友欺负致右髌骨骨折, 警方行政立案,校园欺凌认定三个月无结果

大风新闻
2026-04-09 11:09:13
张雪宣布捐赠嫣然“加码”:将冠军奖杯、签名帽子一起赠送!喊话李亚鹏:用途你定,我信你!

张雪宣布捐赠嫣然“加码”:将冠军奖杯、签名帽子一起赠送!喊话李亚鹏:用途你定,我信你!

中国品牌
2026-04-09 18:38:35
颜值比杨鸣帅,球技不输易建联,他37岁身家过亿,CBA现役常青树

颜值比杨鸣帅,球技不输易建联,他37岁身家过亿,CBA现役常青树

白面书誏
2026-04-08 14:00:00
陈丽华追悼会曝光,原来无儿无女的迟重瑞,早已被安排好“退路”

陈丽华追悼会曝光,原来无儿无女的迟重瑞,早已被安排好“退路”

夸大其词的说
2026-04-10 01:01:52
2026-04-10 01:59:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131991文章数 862081关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

以色列总理:同意与黎巴嫩直接谈判

头条要闻

以色列总理:同意与黎巴嫩直接谈判

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火又悬了,最糟糕的情况要来了?

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

亲子
艺术
时尚
旅游
军事航空

亲子要闻

五个月的宝宝必须学温伯格的宇宙学才不哭

艺术要闻

战乱中赶工?阿联酋首个赌场度假村‌,明年建成!

越来越流行的松弛感穿搭,照着穿就很好看

旅游要闻

温州园博会来了!下高铁10分钟入园,100天免费逛

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版