网易首页 > 网易号 > 正文 申请入驻

DeepSeek 元旦扔出王炸!CEO 梁文锋亲自署名,要动 AI 用了 10 年的“承重墙”?

0
分享至

  今天是元旦,DeepSeek 又扔了个王炸。

  本来准备躺平过节(嗯,是真的躺着了),结果睁眼发现一篇新论文 mHC(流形约束超连接)突然刷屏。

  我看了一眼作者列表,直接“垂死病中惊坐起”——最后一位赫然写着:Wenfeng Liang(梁文锋)。

  

  图:DeepSeek CEO 梁文峰署名

  熟悉 DeepSeek 的都知道,这位 CEO 极少在技术论文上亲自署名。

  老板亲自挂帅,还选在新年第一天发,说明这事儿绝对不简单。

  读完我才发现,他们这次竟然要革深度学习祖师爷 ResNet 的命。

  听起来很狂?但我研究了一下原理,发现这帮人是真有东西。

  01|从何恺明的“神来之笔”说起

  要看懂 DeepSeek 的操作,我们得先回看一眼历史。

  2016年,大神何恺明(Kaiming He) 团队提出了 ResNet,彻底解决了深层网络训练不动的难题。

  其中的核心设计叫“恒等映射”。

  

  图:何恺明,深度残差网络(ResNet)的主要发明者

  打个比方,这就像在迷宫里修了一条“直通车道”。信号可以无脑地从这一层传到下一层,不被中间商赚差价。

  正是因为有了这条路,今天的 ChatGPT、DeepSeek 这些几百层的庞然大物才跑得起来。

  但问题是,对于现在胃口越来越大的模型来说,这一条“单车道”渐渐不够用了。

  于是,学术界搞出了一个叫 HC(Hyper-Connections,超连接) 的东西。

  HC 的想法很美好:既然单车道不够,那我就扩建成多车道呗!

  它把残差流变宽(n倍),让信息在不同车道间乱窜、混合,以此来提升模型的能力。

  

  图:三代架构进化史:(a) 是经典的“单车道” ResNet; (b) 是路修宽了但没红绿灯的 HC(容易撞车); (c) 是 DeepSeek 加了“交通管制”的 mHC。

  但问题来了,这一扩建,出事了。

  原来的 ResNet 是“直通车”,很稳。现在的 HC 变成了“无红绿灯的超级路口”。

  论文里的数据特别吓人:在 HC 的架构下,信号在网络里传着传着,就会因为缺乏管束而疯狂膨胀。

  看原论文里的数据,HC 的信号增益幅度峰值直接干到了 3000!(下图右侧)

  

  图:HC 的信号增益幅度峰值直接干到了 3000

  这意味着啥?意味着信号被放大了 3000 倍。

  这就像早高峰的十字路口没有红绿灯,车全撞在一块了,这就是典型的“信号爆炸”。

  结果就是:模型训练极其不稳定,错误率(Loss) 说炸就炸,根本没法在大规模模型上用。

  02|DeepSeek 的解法:数学暴力美学

  面对这种“车祸现场”,一般人的思路可能是:“那我就少修两条路吧。”

  但 DeepSeek 的思路是:路我要修,但我要请一个懂数学的交警。

  这就是 mHC(流形约束超连接)的核心逻辑。

  他们发现,只要把那些负责指挥交通的矩阵,强行按在一个叫“双随机矩阵”的数学规则里,问题就解决了。

  别被这个数学名词吓跑,它的原理其实也挺简单,就像“能量守恒定律”:

  不管你在路口怎么变道、怎么混合,进来的流量总和,必须严格等于出去的流量总和。

  既不允许车子凭空消失(信号衰减),也不允许凭空变出车来(信号爆炸)。

  为了做到这一点,DeepSeek 用了一个叫 Sinkhorn-Knopp 的算法,像是给矩阵戴上了“紧箍咒”。

  不管这矩阵原来长啥样,经过这个算法一处理,它就必须变得老老实实,行和列的加和都得等于1。

  这就很漂亮了。

  它保留了多车道互联带来的信息丰富度(性能提升),又把信号严格限制在了一个安全的范围内(稳定性),完美致敬了何恺明当年追求的“恒等映射”精神。

  03. 效果怎么样?直接看疗效

  理论吹得再好,还得看实验。

  还记得刚才说 HC 的信号增益飙到了 3000 吗?

  用了 mHC 之后,这个数字被死死按在了 1.6 左右。

  

  从 3000 到 1.6,这是直接降低了三个数量级!

  这也直接体现在了训练曲线上:

  稳如老狗: mHC 的训练 Loss 曲线(蓝线)极其平滑,跟基线模型几乎一样稳。

  

  图:mHC 的训练 Loss 曲线极其平滑

  性能更强: 在 27B 参数的模型上,mHC 不仅稳,效果还比标准版更好。特别是在比较难的 BBH(逻辑推理)和 DROP 任务上,提升非常明显。

  

  图:在 27B 参数的模型上,mHC 不仅稳,效果还比标准版更好。

  04. 不止是数学,更是工程上的“抠门”

  读 DeepSeek 的论文,你永远能感觉到他们那种“把算力榨干到最后一滴”的执着。

  因为把路修宽,本来是一件非常费显存、费时间的事。

  如果不做优化,内存访问成本(I/O)会增加好几倍,这谁受得了?

  所以 mHC 不仅仅是一个数学创新,还是一套工程优化方案。

  算子融合(Kernel Fusion): 他们手写了底层的 Kernel,把好几步计算合并成一步,减少 GPU 读写内存的次数。

  重计算(Recomputing): 为了省显存,他们选择在反向传播时重新计算中间结果,而不是一直存着。

  通信重叠: 利用 DualPipe 策略,把额外的通信时间“藏”在计算时间里。

  结果就是:在扩展率为 4 的情况下,mHC 带来的额外训练时间开销,仅仅只有 6.7%。

  用极小的代价,换来了模型性能和稳定性的双重提升。

  这种“又好又省”的风格,确实很 DeepSeek。

  说实话,每次读 DeepSeek 的论文都让人挺佩服的,不是那些牛逼的技术,而是他们“死磕底层”的态度。

  特别是在现在,大家都忙着卷应用、卷 Agents 的时候,他们愿意回过头去修补 AI 的“地基”。

  ResNet 已经统治了深度学习这么多年,大家都觉得它是完美的。

  但 mHC 告诉我们:只要你不迷信权威,哪怕是地基,也有重修的可能。

  mHC 这种架构,或许不会马上改变你的生活,但它可能会让下一代的 DeepSeek、GPT 跑得更稳、更快。

  对于 DeepSeek 这种“硬核”的数学暴力美学,你怎么看?欢迎在评论区聊聊。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
格陵兰发达到什么水平?我去了才发现,差距真的太大

格陵兰发达到什么水平?我去了才发现,差距真的太大

娱乐八卦木木子
2026-01-07 15:14:07
现阶段,我最认同的政治制度

现阶段,我最认同的政治制度

力哥说
2026-01-08 00:38:37
闫学晶这次恐怕真要哭了,被资本“抛弃”,或将面临巨额赔款

闫学晶这次恐怕真要哭了,被资本“抛弃”,或将面临巨额赔款

社会日日鲜
2026-01-07 08:09:34
终于轮到日本“强烈抗议”:130年了,日本从未像今天这样憋屈

终于轮到日本“强烈抗议”:130年了,日本从未像今天这样憋屈

小陈讲史
2026-01-08 11:57:03
央企重组大动作!中国石油化工集团与中国航空油料集团实施重组

央企重组大动作!中国石油化工集团与中国航空油料集团实施重组

新京报
2026-01-08 18:20:05
特朗普提出将美国军费提升至1.5万亿美元

特朗普提出将美国军费提升至1.5万亿美元

澎湃新闻
2026-01-08 08:25:03
终于是打疼了,日本前首相之女请求来华,中国一句话亮明态度

终于是打疼了,日本前首相之女请求来华,中国一句话亮明态度

博览历史
2026-01-07 18:02:20
养生狂魔猝死!一女子称40岁丈夫6点跑步10点睡,很少吃油盐走了

养生狂魔猝死!一女子称40岁丈夫6点跑步10点睡,很少吃油盐走了

火山詩话
2026-01-08 09:19:19
拍“素颜巴黎”火了的大爷再直播,坐在三门峡的湖边喂天鹅:欧洲行跟团费用一万多,自己不会说英语

拍“素颜巴黎”火了的大爷再直播,坐在三门峡的湖边喂天鹅:欧洲行跟团费用一万多,自己不会说英语

极目新闻
2026-01-08 18:37:44
黄仁勋的“物理AI”,对中国制造来说真不是好消息

黄仁勋的“物理AI”,对中国制造来说真不是好消息

星海情报局
2026-01-07 18:34:49
调查显示日本2026年约1.5万种食品将涨价

调查显示日本2026年约1.5万种食品将涨价

财联社
2026-01-07 19:58:11
女子开车碾压草场后续:扬言撞死牧民,真实身份被扒,公司被牵连

女子开车碾压草场后续:扬言撞死牧民,真实身份被扒,公司被牵连

奇思妙想草叶君
2026-01-07 23:56:24
调整!今晚亚洲杯中国男足U23直播表:CCTV5节目单,央视直播

调整!今晚亚洲杯中国男足U23直播表:CCTV5节目单,央视直播

皮皮观天下
2026-01-08 12:29:53
创NBA生涯纪录!杨瀚森连7战登场入轮转 被抓出两道血痕引争议

创NBA生涯纪录!杨瀚森连7战登场入轮转 被抓出两道血痕引争议

醉卧浮生
2026-01-08 13:55:19
景德镇一家三口被撞身亡案明宣判,肇事车男司机与女友因“鹦鹉何时开始学舌”问题吵架:他认为鹦鹉是五六千年前学舌

景德镇一家三口被撞身亡案明宣判,肇事车男司机与女友因“鹦鹉何时开始学舌”问题吵架:他认为鹦鹉是五六千年前学舌

极目新闻
2026-01-08 13:43:23
从万亿总裁到变卑微舔狗!网友:王石在地产大佬,差不多活成笑话

从万亿总裁到变卑微舔狗!网友:王石在地产大佬,差不多活成笑话

火山詩话
2026-01-08 16:02:52
罕见!各地密集设立超常规机构,级别前所未有

罕见!各地密集设立超常规机构,级别前所未有

前瞻网
2026-01-07 09:45:12
河北农村老人,要怎么熬过这个寒冬呢?

河北农村老人,要怎么熬过这个寒冬呢?

冰川思想库
2026-01-07 11:53:56
美对俄制裁新法案将阻止中印等国购买俄石油,外交部回应

美对俄制裁新法案将阻止中印等国购买俄石油,外交部回应

澎湃新闻
2026-01-08 15:34:28
1月7日俄乌最新:川普爆出的惊天大瓜

1月7日俄乌最新:川普爆出的惊天大瓜

西楼饮月
2026-01-07 20:12:35
2026-01-08 19:31:00
AI范儿 incentive-icons
AI范儿
AI范儿是一个专注于人工智能领域的资讯和学习平台,提供最新的人工智能资讯
636文章数 393关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

陈志被押解回国 太子银行进入清算程序贷款人仍需还款

头条要闻

陈志被押解回国 太子银行进入清算程序贷款人仍需还款

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

教育
艺术
健康
公开课
军事航空

教育要闻

三年级常考题:求“凹”字形图形的周长

艺术要闻

颐和园金光穿洞

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版