网易首页 > 网易号 > 正文 申请入驻

DeepSeek再次放大招,用MHC改变技术规则

0
分享至

过去半年以来,大家都在等DeepSeek再次放大招,但是似乎并没有让人特别惊艳的进展,再次横空出世。

等2026年的新年刚翻页,DeepSeek 并没有像外界期待的那样发布新模型、刷榜单、秀参数,而是做了一件更加踢馆炸街的大事,在 arXiv上发表了一篇最重磅的论文。


这一点非常关键。因为arXiv 从来就不是给市场看的地方,它是全球科研共同体默认的“原始技术水源”。

能选择在这里发声,说明这一次DeepSeek 想讨论的,不是大模型的应用效果了,而是以前的规则本身,能不能继续成立还能不能继续创新的问题

论文的名字叫《mHC:引入流形约束的超连接结构》。如果你只是停留在标题层面,大概率会觉得这又是一篇典型的模型结构改进论文,专业、抽象。而且离现实很远。

但如果你顺着论文真正想解决的问题往下拆,你会发现,这一次DeepSeek 实际上是在正面回答一个,过去两年几乎所有大模型公司都在刻意回避的问题:

大模型,还能不能继续稳定地变大?

注意,这里不是“还能不能继续变强”,而是“还能不能稳定”的变大的问题。这是两个完全不同的命题。

过去十年,整个深度学习体系有一个几乎没人再质疑的默认前提:只要模型足够深、足够宽,只要算力和数据能跟上,训练的效果就一定能出来。参数规模,等于能力上限。这个逻辑,支撑了从ResNet 到 Transformer,再到今天所有大模型的扩张路径。

但这个逻辑并不是天然成立的,它背后依赖的,其实是一项极其关键、却早已被视为“空气”的基础设施——残差连接

如果没有残差连接,今天你看到的所有GPT、Claude、Gemini、LLaMA,根本不可能存在。

关于残差连接我们得把这个来龙去脉和底层逻辑说清楚。

在残差连接出现之前,神经网络一旦加深之后,训练就会迅速失控。不是算力不够,而是梯度在层层传递中不断衰减、扭曲,信息根本传不到该去的地方。这一点工程上表现得非常直观:loss 不收敛、效果倒退、调参调到崩溃。

参差连接的伟大之处,在于它做了一件极其简单、却极其反直觉的事:
它不要求每一层都必须“学到东西”,而是允许它什么都不学。

输出不再是f(x),而是x + f(x)。
那条“+ x”,就是一条信息的保命通道。

只要这条通道在,哪怕这一层的参数全错,信息至少还能原样往下走。也正是因为这一点,网络才第一次具备了“无限加深”的工程可能性。

换句话来说,残差连接的作用,不是为了提高上限,而是为了防止系统出现崩溃


但是,问题也恰恰出在这里。

残差连接就像一条单向的高速公路。当模型规模越来越大、任务越来越复杂,人们开始逐渐意识到:这种单一、线性的残差信息通道,虽然稳,但可能已经不够用了。

现实世界的信息处理,从来不是一条直线。复杂认知一定是多层信息、多路径并行、交叉作用的结果。而传统残差连接,本质上是一条极其干净、极其保守的高速路,它可以保证不出事故,但是同时也限制了交通运行的复杂度。

这正是Hyper-Connections(HC)出现的背景。

HC 的出发点,是非常清晰:既然信息不该只在相邻层之间流动,那为什么不让多层之间直接建立连接?让不同深度的特征充分混合,理论上模型的表达能力会大幅提升。

从研究的动机上看,这条路设是完全正确的选择。从实验的直觉上看,它也确实有效。但HC 真正的问题,不在于“连得多”,而在于它动了残差连接的底座

为了实现多层混合,HC 把原本的恒等映射 x → x,变成了 x → W·x。也就是说。那条原本不参与学习、不容易出错的信息高速路,被强行加上了一个可学习的变换矩阵。

听起来只是多了一步线性映射,但是这一步,在工程层面,带来的变化是巨大的。

因为一旦W 学错了,那么信息就不再是“至少能通过”,而是必然被扭曲。原来残差连接提供的是“兜底信息机制”,现在这个兜底的机制被拆掉了。

于是你会看到一个非常典型的现象:HC 在小模型、小规模实验中表现十分亮眼;但是模型一放大、层数一加深,训练立刻开始变得不稳定了。算力越多、参数越大,问题反而暴露得越快。

这其实暴露了一个更深层的问题:大模型表达能力的提升,正在侵蚀系统原有的稳定性。

于是,这一次,针对这个问题,DeepSeek 做了一件非常值得玩味,也非常“硬核”的事。

它没有否定HC,也没有退回传统残差连接的安全区,而是直接选择了一个从数学层面重新立规矩的路径。它这次给出的答案,核心思路只有一句话:HC,你可以连得更加复杂,但你不能破坏信息守恒。

于是,DeepSeek 的mHC 出现了。

DeepSeek 把残差路径中的映射矩阵,强行约束到了一个特定的数学空间里——Birkhoff 多面体。这个空间里所有矩阵,都满足一个极其重要的性质:它们是双随机矩阵。

双随机矩阵如果不用数学语言解释,这到底意味着什么?意味着信息不会被放大,也不会被压缩,只会在不同通道之间重新分配。意味着信息的“总量”,是被锁死了。

实现这一步的工程意义,可以说非常直接而重大,因为无论你怎么设计复杂的信息连接,残差信息都不会被破坏;也就意味着无论模型变得多大,梯度都不会因为残差路径而失控。

所以,mHC 的本质,不是让模型变得更“聪明”,而是让模型在复杂化之后,系统依然可控

具体的实验结果,也非常耐人寻味:模型规模越大,mHC 相对于传统 HC 的优势越明显。那么不得不承认,这是一个极其关键的信号,因为它说明,mHC的解决方案,这不是一个小技巧,而是一种随规模放大的结构优势。

到这里,如果我们只站在技术视角来理解的话,这已经是一篇很扎实的论文了。但如果我们再次切换到资本市场的视角,你会发现,这件事的意义要大得多。

过去两年,大模型竞争在资本层面的逻辑其实非常单一:谁能拿到更多钱,谁能买到更多卡,谁就有更大的胜率。

这是一种极端依赖资本投入的竞争模式,它的隐含前提是:算力投入的边际效率始终成立。只要你愿意烧钱,就一定能换来能力。

而mHC 这类工作的真正冲击在于:它开始动摇这个前提。因为训练不稳定,本身就是最大的隐性成本。一次失败的大规模训练,消耗的不只是算力,还有时间、团队节奏、资本耐心,以及市场的窗口期。

大模型具备更稳定的结构,到底意味着什么?意味着花同样的钱,可以换来的是更确定的结果;意味着扩张不是资本的博弈,而是工程化的决策和手段;意味着大模型的规模优势,开始从资源垄断,算力优势,转向“结构设计”能力了。

这种情况会直接改变三件事。第一,算力的绝对优势,会被结构效率部分对冲。第二,工程能力,会重新成为大模型公司的核心壁垒。第三,大模型竞争的重心,会从“谁更有钱有卡”,慢慢转向“谁更不容易崩”。

从这个角度看,DeepSeek 这篇论文,真正的价值不在于 mHC 本身,而在于它所代表的技术方向选择。

它没有在参数规模上,去硬刚美国,也没有在应用层面追热点,而是提前一步,把注意力放在了一个更长期,也更底层的问题上:当模型继续变大的确定性开始下降,新的系统的确定性到底从哪里来?

DeepSeek借助mHC,给出的答案,是结构的约束,是工程的理性,是在复杂系统里主动引入“安全边界”。

这件事,对DeepSeek 自身的战略价值也非常清晰。更稳定的训练意味着更低的边际成本、更高的成功率、更强的开源社区吸引力。同时也意味着在下一轮模型继续放大之前,DeepSeek已经提前卡住了一块关键的技术高地。

更重要的是,它释放了一个非常明确的信号:中国的AI 团队,已经开始在“规则层”参与博弈了。

不是继续跟随,不是看淡优化,而是尝试定义,尝试改变规则,改变底层逻辑。

所以,如果你把这篇论文放回资本市场的语境里,它讨论的从来不只是残差连接,而是一个更宏观的问题:当大模型的扩张不再只是算力问题,谁有能力让系统在更大规模下依然不崩?这才是下一阶段真正决定产业格局和技术能力的核心变量。

新的一年刚刚开始,DeepSeek 又一次选择了不走寻常路。而真正值得关注的,也从来不是这一篇论文本身,而是它背后所指向的那条创新路线。

如果说过去的竞争,是“谁能把模型做得更大”,那接下来的竞争,很可能会变成一句话:今后谁能把模型,安全地做大。目前来看,能够很快掌握这一必杀秘诀的,就是DeepSeek团队了,就是中国的AI工程师了。

因此mHC的提出,其实释放了一个很清晰的信号:中国的AI研发团队,再次跑到了世界前列,因为他们已经开始在“基础架构层”开始做原创了。

所以,在新的一年刚刚开始之际,DeepSeek 又来踢馆,又来炸街了,是不是很快,又会掀起全球的DeepSeek时刻了?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美硬扣俄油轮后,不到24小时,特朗普迎来噩耗,这一次没人能帮他

美硬扣俄油轮后,不到24小时,特朗普迎来噩耗,这一次没人能帮他

云上乌托邦
2026-01-08 12:32:14
瑟瑟发抖!不到24小时,日本失去动武资格,中国再宣布对日新制裁

瑟瑟发抖!不到24小时,日本失去动武资格,中国再宣布对日新制裁

离离言几许
2026-01-07 22:38:54
羽坛名将李宗伟:36岁患癌喉咙全烂,花近1000万续命,现状如何?

羽坛名将李宗伟:36岁患癌喉咙全烂,花近1000万续命,现状如何?

丰谭笔录
2026-01-07 10:59:38
里奇-保罗:就算东契奇防守提升到托尼-阿伦的水平,湖人也无法夺冠

里奇-保罗:就算东契奇防守提升到托尼-阿伦的水平,湖人也无法夺冠

懂球帝
2026-01-08 15:28:44
中俄刚说打通图们江,第一个跳出来反对的,一点不让人意外

中俄刚说打通图们江,第一个跳出来反对的,一点不让人意外

闻香阁
2026-01-04 11:16:35
想不明白就是最大的问题

想不明白就是最大的问题

吴女士
2026-01-08 19:44:25
他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

他8次上春晚,作死被捕入狱,如今56岁无人问津,沦落到四处走穴

小熊侃史
2026-01-06 11:17:00
辞职仅3天,官媒发文锐评张水华,言辞犀利,句句说到大众心坎里

辞职仅3天,官媒发文锐评张水华,言辞犀利,句句说到大众心坎里

李健政观察
2026-01-06 15:09:39
北约秘书长:格陵兰岛已准备好接收更多美军,我知道丹麦完全愿意

北约秘书长:格陵兰岛已准备好接收更多美军,我知道丹麦完全愿意

李健政观察
2026-01-08 09:33:30
国足0-0平伊拉克!赛后数据一目了然,不是王钰栋,最大功臣是他

国足0-0平伊拉克!赛后数据一目了然,不是王钰栋,最大功臣是他

球场没跑道
2026-01-09 00:15:45
司晓迪爆料仅3天,央媒点名张一山,信息量大,原来杨紫没说错

司晓迪爆料仅3天,央媒点名张一山,信息量大,原来杨紫没说错

轩逸阿II
2026-01-08 07:32:33
脚是心梗的放大镜?忠告:脚部出现这几种表现,要尽快就医!

脚是心梗的放大镜?忠告:脚部出现这几种表现,要尽快就医!

岐黄传人孙大夫
2025-12-25 09:56:07
0比3惨案!张本智和遭薛飞横扫,多哈奥运备战拉响警报

0比3惨案!张本智和遭薛飞横扫,多哈奥运备战拉响警报

阿晞体育
2026-01-08 12:44:16
小鹏太狂了!4 款新车齐发,价格降到 17 万,续航干到 1704km !

小鹏太狂了!4 款新车齐发,价格降到 17 万,续航干到 1704km !

科技狐
2026-01-08 23:21:14
俄专家终于说出大实话,一旦爆发海战,全世界仅有一国能击败美军

俄专家终于说出大实话,一旦爆发海战,全世界仅有一国能击败美军

兴史兴谈
2026-01-08 05:21:59
曹丕"荒淫无度"在位7年就驾崩?以他的玩法,40岁实属是高寿!

曹丕"荒淫无度"在位7年就驾崩?以他的玩法,40岁实属是高寿!

沈言论
2026-01-07 18:55:03
40岁C罗苦笑摇头:自家门将离谱送礼 轰5脚进1点球 3轮1分争冠危

40岁C罗苦笑摇头:自家门将离谱送礼 轰5脚进1点球 3轮1分争冠危

我爱英超
2026-01-09 06:56:40
河南一大爷实拍“素颜巴黎”照片火遍全网,埃菲尔铁塔被调侃像“电线塔

河南一大爷实拍“素颜巴黎”照片火遍全网,埃菲尔铁塔被调侃像“电线塔

大象新闻
2026-01-07 19:53:19
特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

特朗普强硬表态,谁敢拦截对台军售就对谁开战,美国军工股暴涨

我心纵横天地间
2026-01-07 16:57:21
难怪美军长驱直入,中俄雷达全都停止搜索,委内瑞拉把好牌打烂

难怪美军长驱直入,中俄雷达全都停止搜索,委内瑞拉把好牌打烂

诗意世界
2026-01-05 19:54:53
2026-01-09 08:15:00
何毅商业财经 incentive-icons
何毅商业财经
分享商业知识,共享财经信息
515文章数 925关注度
往期回顾 全部

科技要闻

内存一天一个价,华强北老板们却高兴不起来

头条要闻

男子与女友吵架飙车泄愤撞死1家3口 当时讨论鹦鹉学舌

头条要闻

男子与女友吵架飙车泄愤撞死1家3口 当时讨论鹦鹉学舌

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

本地
游戏
健康
家居
公开课

本地新闻

1986-2026,一通电话的时空旅程

《界之轨迹》IGN8分:战斗机制好评 结尾或存争议

这些新疗法,让化疗不再那么痛苦

家居要闻

理性主义 冷调自由居所

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版