网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek 元旦扔出王炸！CEO 梁文锋亲自署名，要动 AI 用了 10 年的“承重墙”？

2026-01-01 20:56:39　来源: AI范儿

上海举报

0

分享至

　　今天是元旦，DeepSeek 又扔了个王炸。

　　本来准备躺平过节（嗯，是真的躺着了），结果睁眼发现一篇新论文 mHC（流形约束超连接）突然刷屏。

　　我看了一眼作者列表，直接“垂死病中惊坐起”——最后一位赫然写着：Wenfeng Liang（梁文锋）。

　　

　　图：DeepSeek CEO 梁文峰署名

　　熟悉 DeepSeek 的都知道，这位 CEO 极少在技术论文上亲自署名。

　　老板亲自挂帅，还选在新年第一天发，说明这事儿绝对不简单。

　　读完我才发现，他们这次竟然要革深度学习祖师爷 ResNet 的命。

　　听起来很狂？但我研究了一下原理，发现这帮人是真有东西。

　　01｜从何恺明的“神来之笔”说起

　　要看懂 DeepSeek 的操作，我们得先回看一眼历史。

　　2016年，大神何恺明（Kaiming He）团队提出了 ResNet，彻底解决了深层网络训练不动的难题。

　　其中的核心设计叫“恒等映射”。

　　

　　图：何恺明，深度残差网络（ResNet）的主要发明者

　　打个比方，这就像在迷宫里修了一条“直通车道”。信号可以无脑地从这一层传到下一层，不被中间商赚差价。

　　正是因为有了这条路，今天的 ChatGPT、DeepSeek 这些几百层的庞然大物才跑得起来。

　　但问题是，对于现在胃口越来越大的模型来说，这一条“单车道”渐渐不够用了。

　　于是，学术界搞出了一个叫 HC（Hyper-Connections，超连接）的东西。

　　HC 的想法很美好：既然单车道不够，那我就扩建成多车道呗！

　　它把残差流变宽（n倍），让信息在不同车道间乱窜、混合，以此来提升模型的能力。

　　

　　图：三代架构进化史：(a) 是经典的“单车道” ResNet； (b) 是路修宽了但没红绿灯的 HC（容易撞车）； (c) 是 DeepSeek 加了“交通管制”的 mHC。

　　但问题来了，这一扩建，出事了。

　　原来的 ResNet 是“直通车”，很稳。现在的 HC 变成了“无红绿灯的超级路口”。

　　论文里的数据特别吓人：在 HC 的架构下，信号在网络里传着传着，就会因为缺乏管束而疯狂膨胀。

　　看原论文里的数据，HC 的信号增益幅度峰值直接干到了 3000！（下图右侧）

　　

　　图：HC 的信号增益幅度峰值直接干到了 3000

　　这意味着啥？意味着信号被放大了 3000 倍。

　　这就像早高峰的十字路口没有红绿灯，车全撞在一块了，这就是典型的“信号爆炸”。

　　结果就是：模型训练极其不稳定，错误率（Loss）说炸就炸，根本没法在大规模模型上用。

　　02｜DeepSeek 的解法：数学暴力美学

　　面对这种“车祸现场”，一般人的思路可能是：“那我就少修两条路吧。”

　　但 DeepSeek 的思路是：路我要修，但我要请一个懂数学的交警。

　　这就是 mHC（流形约束超连接）的核心逻辑。

　　他们发现，只要把那些负责指挥交通的矩阵，强行按在一个叫“双随机矩阵”的数学规则里，问题就解决了。

　　别被这个数学名词吓跑，它的原理其实也挺简单，就像“能量守恒定律”：

　　不管你在路口怎么变道、怎么混合，进来的流量总和，必须严格等于出去的流量总和。

　　既不允许车子凭空消失（信号衰减），也不允许凭空变出车来（信号爆炸）。

　　为了做到这一点，DeepSeek 用了一个叫 Sinkhorn-Knopp 的算法，像是给矩阵戴上了“紧箍咒”。

　　不管这矩阵原来长啥样，经过这个算法一处理，它就必须变得老老实实，行和列的加和都得等于1。

　　这就很漂亮了。

　　它保留了多车道互联带来的信息丰富度（性能提升），又把信号严格限制在了一个安全的范围内（稳定性），完美致敬了何恺明当年追求的“恒等映射”精神。

　　03. 效果怎么样？直接看疗效

　　理论吹得再好，还得看实验。

　　还记得刚才说 HC 的信号增益飙到了 3000 吗？

　　用了 mHC 之后，这个数字被死死按在了 1.6 左右。

　　

　　从 3000 到 1.6，这是直接降低了三个数量级！

　　这也直接体现在了训练曲线上：

　　稳如老狗： mHC 的训练 Loss 曲线（蓝线）极其平滑，跟基线模型几乎一样稳。

　　

　　图：mHC 的训练 Loss 曲线极其平滑

　　性能更强：在 27B 参数的模型上，mHC 不仅稳，效果还比标准版更好。特别是在比较难的 BBH（逻辑推理）和 DROP 任务上，提升非常明显。

　　

　　图：在 27B 参数的模型上，mHC 不仅稳，效果还比标准版更好。

　　04. 不止是数学，更是工程上的“抠门”

　　读 DeepSeek 的论文，你永远能感觉到他们那种“把算力榨干到最后一滴”的执着。

　　因为把路修宽，本来是一件非常费显存、费时间的事。

　　如果不做优化，内存访问成本（I/O）会增加好几倍，这谁受得了？

　　所以 mHC 不仅仅是一个数学创新，还是一套工程优化方案。

　　算子融合（Kernel Fusion）：他们手写了底层的 Kernel，把好几步计算合并成一步，减少 GPU 读写内存的次数。

　　重计算（Recomputing）：为了省显存，他们选择在反向传播时重新计算中间结果，而不是一直存着。

　　通信重叠：利用 DualPipe 策略，把额外的通信时间“藏”在计算时间里。

　　结果就是：在扩展率为 4 的情况下，mHC 带来的额外训练时间开销，仅仅只有 6.7%。

　　用极小的代价，换来了模型性能和稳定性的双重提升。

　　这种“又好又省”的风格，确实很 DeepSeek。

　　说实话，每次读 DeepSeek 的论文都让人挺佩服的，不是那些牛逼的技术，而是他们“死磕底层”的态度。

　　特别是在现在，大家都忙着卷应用、卷 Agents 的时候，他们愿意回过头去修补 AI 的“地基”。

　　ResNet 已经统治了深度学习这么多年，大家都觉得它是完美的。

　　但 mHC 告诉我们：只要你不迷信权威，哪怕是地基，也有重修的可能。

　　mHC 这种架构，或许不会马上改变你的生活，但它可能会让下一代的 DeepSeek、GPT 跑得更稳、更快。

　　对于 DeepSeek 这种“硬核”的数学暴力美学，你怎么看？欢迎在评论区聊聊。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

雷军回应"营销大师"标签:现在听到营销两字都有点恶心

每日经济新闻 2026-01-08 00:48:20
1981 跟贴 1981
自动驾驶开源+物理AI全家桶，英伟达CES发布下一代AI超算

量子位 2026-01-08 13:59:34
0 跟贴 0

宇树机器人辟谣：上市工作正常推进

量子位 2026-01-06 10:53:22
0 跟贴 0

雷军最新发文！玄戒O1获小米千万技术大奖，未来五年计划2000亿元研发投入，还强调了三点

每日经济新闻 2026-01-08 12:24:04
2 跟贴 2
DeepSeek突然更新R1论文：暴增64页，能公开的全公开了

DeepTech深科技 2026-01-08 17:10:32
0 跟贴 0

英伟达发布纯视觉自动驾驶模型！马斯克回应！一口气看完CES演讲

极客小冷 2026-01-06 17:12:24
969 跟贴 969

这跟数学没多大关系啊，这是思维逻辑

喜蕃影视 2026-01-06 10:38:27
235 跟贴 235
开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

量子位 2026-01-08 19:01:00
0 跟贴 0

把命运交给算法，它推荐啥我就吃啥

午餐肉艺术家葛世贤 2026-01-06 00:00:00
5 跟贴 5
清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

机器之心Pro 2025-11-13 14:56:23
0 跟贴 0
身体发出的信号，千万别不当回事，早发现能救命！

呆酱爱搞笑 2026-01-05 08:40:32
0 跟贴 0
「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

机器之心Pro 2026-01-08 17:51:14
0 跟贴 0
红绿灯偶遇美女，这腿看了谁不迷糊，膝盖骑车摔坏了

欢乐聚集部 2026-01-07 15:37:42
13 跟贴 13
宁波宁海一大人带两孩子走斑马线过马路被车辆撞倒，当地：仅大人受伤

红星新闻 2026-01-08 13:11:18
1 跟贴 1
好消息南京博物院5件“赝品”已经找到了4件，专家们曲线救画！

晏文丽 2026-01-08 00:45:02
77 跟贴 77
孩子身上发出的信号父母要留意

彬彬有理1 2026-01-04 20:15:00
0 跟贴 0
审视AI陪伴：技术抚慰的边界在何处

经济观察报 2026-01-08 16:08:54
0 跟贴 0
歼35E部署巴基斯坦，印巴空战规则被改写

金日视界 2026-01-07 10:42:47
15 跟贴 15
上市首日涨11%，全球大模型第一股还会破发吗？

虎嗅APP 2026-01-08 17:00:15
0 跟贴 0
美军AI军官上岗！算法成核心武器，未来谁主沉浮？

养殖渔业 2026-01-07 20:40:42
0 跟贴 0
调查显示日本2026年约1.5万种食品将涨价

财联社 2026-01-07 19:58:11
5645 跟贴 5645
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0
陶哲轩：AI看似在推理，其实是在背答案

量子位 2026-01-05 09:20:21
0 跟贴 0
物流算法选错成本飙升30%？三大算法精准匹配！

老盖实话升学 2026-01-04 00:35:15
0 跟贴 0
电焊工耗时3年自制不锈钢航母模型

知肇分子 2026-01-05 23:10:11
4 跟贴 4
车祸74 - 无人驾驶绿灯不走怎么办

许哥说正事 2026-01-07 00:09:22
0 跟贴 0
动感红绿灯，木鱼配迪曲，就怕红灯时间短

河南之声 2026-01-08 13:22:50
0 跟贴 0
马斯克用Grok替代X员工，裁员90%

量子位 2025-11-29 16:58:47
0 跟贴 0
行业最大规模具身数据集！出自简智机器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟贴 0
车开走后才做手势，这傻玩意儿用处多，采购维修全搞定

趣味加工厂 2026-01-07 00:00:00
0 跟贴 0
1998年，一名中国机长携妻子劫机潜逃至台湾省，这对夫妇后来的结局如何？

史海残云 2026-01-08 18:53:09
0 跟贴 0
耗时5年，36集悬疑大剧终于过审，张新成丁禹兮领衔，王炸来了

娱乐圈十三太保 2026-01-08 17:04:27
0 跟贴 0
开年王炸！比亚迪将加推4款210公里纯电续航DM-i车型

海风数码 2026-01-08 17:51:45
0 跟贴 0
王炸！红谷滩核心区D4、D6项目来了！

南昌楼市情报 2026-01-08 19:08:56
0 跟贴 0
【DeepSeek谈艺】宋延龙 | 凝视故土，赋予作品浓郁的叙事感

文化视界网 2026-01-08 16:57:36
0 跟贴 0
【专访】Esoteric Grandioso N1惊艳亮相广州展 Esoteric町田裕之、海老根阳平与TEAC李英专访

新音响 2026-01-08 16:07:37
0 跟贴 0
北京发布大风蓝色预警信号

新华社 2026-01-08 19:16:23
0 跟贴 0
河南三兄弟连续11年给家乡老人发放救助金，村支书：每人每月发300元到1000元，累计发了600多万元，有老人已经领了七八万元

极目新闻 2026-01-07 21:22:09
2036 跟贴 2036
国外AI无人直播，一个房间几十台设备，难道主播也要失业！

搞笑派大星 2026-01-07 10:12:52
20 跟贴 20
民间有高人，自己动手做出南水北调的模型，这技术水平太高明了

电工维修技术 2026-01-07 10:12:56
1 跟贴 1

格陵兰发达到什么水平？我去了才发现，差距真的太大

格陵兰发达到什么水平？我去了才发现，差距真的太大

娱乐八卦木木子

2026-01-07 15:14:07

现阶段，我最认同的政治制度

力哥说

2026-01-08 00:38:37

闫学晶这次恐怕真要哭了，被资本“抛弃”，或将面临巨额赔款

闫学晶这次恐怕真要哭了，被资本“抛弃”，或将面临巨额赔款

社会日日鲜

2026-01-07 08:09:34

终于轮到日本“强烈抗议”：130年了，日本从未像今天这样憋屈

终于轮到日本“强烈抗议”：130年了，日本从未像今天这样憋屈

小陈讲史

2026-01-08 11:57:03

央企重组大动作！中国石油化工集团与中国航空油料集团实施重组

央企重组大动作！中国石油化工集团与中国航空油料集团实施重组

新京报

2026-01-08 18:20:05

特朗普提出将美国军费提升至1.5万亿美元

特朗普提出将美国军费提升至1.5万亿美元

澎湃新闻

2026-01-08 08:25:03

终于是打疼了，日本前首相之女请求来华，中国一句话亮明态度

终于是打疼了，日本前首相之女请求来华，中国一句话亮明态度

博览历史

2026-01-07 18:02:20

养生狂魔猝死！一女子称40岁丈夫6点跑步10点睡，很少吃油盐走了

养生狂魔猝死！一女子称40岁丈夫6点跑步10点睡，很少吃油盐走了

火山詩话

2026-01-08 09:19:19

拍“素颜巴黎”火了的大爷再直播，坐在三门峡的湖边喂天鹅：欧洲行跟团费用一万多，自己不会说英语

拍“素颜巴黎”火了的大爷再直播，坐在三门峡的湖边喂天鹅：欧洲行跟团费用一万多，自己不会说英语

极目新闻

2026-01-08 18:37:44

黄仁勋的“物理AI”，对中国制造来说真不是好消息

黄仁勋的“物理AI”，对中国制造来说真不是好消息

星海情报局

2026-01-07 18:34:49

调查显示日本2026年约1.5万种食品将涨价

调查显示日本2026年约1.5万种食品将涨价

财联社

2026-01-07 19:58:11

女子开车碾压草场后续：扬言撞死牧民，真实身份被扒，公司被牵连

女子开车碾压草场后续：扬言撞死牧民，真实身份被扒，公司被牵连

奇思妙想草叶君

2026-01-07 23:56:24

调整！今晚亚洲杯中国男足U23直播表:CCTV5节目单，央视直播

调整！今晚亚洲杯中国男足U23直播表:CCTV5节目单，央视直播

皮皮观天下

2026-01-08 12:29:53

创NBA生涯纪录！杨瀚森连7战登场入轮转被抓出两道血痕引争议

创NBA生涯纪录！杨瀚森连7战登场入轮转被抓出两道血痕引争议

醉卧浮生

2026-01-08 13:55:19

景德镇一家三口被撞身亡案明宣判，肇事车男司机与女友因“鹦鹉何时开始学舌”问题吵架：他认为鹦鹉是五六千年前学舌

景德镇一家三口被撞身亡案明宣判，肇事车男司机与女友因“鹦鹉何时开始学舌”问题吵架：他认为鹦鹉是五六千年前学舌

极目新闻

2026-01-08 13:43:23

从万亿总裁到变卑微舔狗！网友：王石在地产大佬，差不多活成笑话

从万亿总裁到变卑微舔狗！网友：王石在地产大佬，差不多活成笑话

火山詩话

2026-01-08 16:02:52

罕见！各地密集设立超常规机构，级别前所未有

罕见！各地密集设立超常规机构，级别前所未有

前瞻网

2026-01-07 09:45:12

河北农村老人，要怎么熬过这个寒冬呢？

河北农村老人，要怎么熬过这个寒冬呢？

冰川思想库

2026-01-07 11:53:56

美对俄制裁新法案将阻止中印等国购买俄石油，外交部回应

美对俄制裁新法案将阻止中印等国购买俄石油，外交部回应

澎湃新闻

2026-01-08 15:34:28

1月7日俄乌最新：川普爆出的惊天大瓜

1月7日俄乌最新：川普爆出的惊天大瓜

西楼饮月

2026-01-07 20:12:35

AI范儿是一个专注于人工智能领域的资讯和学习平台，提供最新的人工智能资讯

636文章数 393关注度

往期回顾全部

科技要闻

智谱拿下“全球大模型第一股”，凭什么

头条要闻

陈志被押解回国太子银行进入清算程序贷款人仍需还款

头条要闻

陈志被押解回国太子银行进入清算程序贷款人仍需还款

体育要闻

约基奇倒下后，一位故人邪魅一笑

娱乐要闻

抗战剧《马背摇篮》首播，获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变吉利在CES打出了五张牌

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

艺术

健康

公开课

军事航空

教育要闻

三年级常考题：求“凹”字形图形的周长

艺术要闻

颐和园金光穿洞

这些新疗法，让化疗不再那么痛苦

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版