网易首页 > 网易号 > 正文 申请入驻

梁文锋的新论文,要革何恺明们的命?

0
分享至



出品|搜狐科技

作者|常博硕

编辑| 杨 锦

果然,只要一到假期,DeepSeek就会更新点什么。

这个元旦,DeepSeek发表了一篇新论文《mHC: Manifold-Constrained Hyper-Connections》提出了一种新的架构——流形约束超连接,以解决传统架构在大模型训练中的不稳定问题。

更值得关注的是,论文作者最后一位赫然写着梁文锋的大名。


在此之前,梁文锋几乎很少在技术论文中署名,最多是挂个通讯作者。这次直接参与论文撰写,足以可见DeepSeek对这篇论文的重视程度。

而细读之后才发现,这篇论文可以称得上是一场革命性的创新,革的正是何恺明们建立的深度学习基石ResNet的命。

作为计算机视觉领域的顶尖科学家,何恺明毕业于清华大学物理系,现任麻省理工学院电气工程与计算机科学系副教授(终身教职)。其最著名的成就,就是提出了ResNet架构,解决了深度神经网络中“越深越难训练”的根本性问题,ResNet也被称为现代深度学习发展史上的一座里程碑。


十年未变的“底层共识”被改变

要理解DeepSeek这篇论文分量,我们得回到十年前。如果把那时的神经网络比喻成一座高塔,在当时,随着塔的层数堆叠过多,地基传来的信号往往在半路就消失殆尽,很容易导致塔身崩塌。

直到何恺明等人提出了划时代的ResNet(残差网络),这个问题才被解决。

在 ResNet之前,深度神经网络有一个致命问题,那就是网络一深,反而学不会了。原因很简单,梯度会在层层传递中消失或爆炸,前面的信息传不到后面。

于是当时还在微软亚洲研究院的何恺明等人就发表了一篇名为《Deep Residual Learning for Image Recognition》的论文,这篇论文也是AI历史上引用率最高的殿堂级论文之一。

可以这样理解,原本信息过神经网络层时会被拦截处理,可以理解为一条高速公路中有很多收费站,导致信号像公路上的车流一样不停被收费站拦截,运行不畅。

而ResNet相当于在旁边修了一条直通的“快速通道”,哪怕收费站处理得不好,信息也可以通过快速通道原封不动地传到下一站,这也被称为恒等映射(Identity Mapping)。

于是,自2016 年何恺明提出ResNet开始,残差连接迅速成为深度神经网络的默认配置。它解决了深层网络难以训练的问题,使得模型深度可以从几十层扩展到上百层,甚至更深。

后来出现的 Transformer,看似是一种全新的架构,但LayerNorm + Residual的基本形式,本质也是继承了ResNet的思想。ResNet也成为了后来几乎所有大模型的基石。

然而,随着模型参数迈向万亿级别,研究者开始觉得单车道的信息吞吐量太小了,它限制了模型思考的广度。既然单车道不够用,为什么不把它拓宽成八车道、十六车道?

一种新的架构HC也就应运而生。这种被称为“超连接”(Hyper-Connections,简称HC)的新架构由字节Seed团队在论文《Hyper-Connections》中提出。


它试图打破传统的束缚,将原本单一的残差流拓宽数倍,并允许信息在不同的通道间自由穿插、混合。也就是说,原本的高速路加快车单行道直接变成了一个巨大的、没有红绿灯的多层立交桥。

在 HC 架构中,模型维护多条并行的残差流,每一层输出都是这些残差流的线性组合。这也就意味着,信息不必被压缩进单一通道,结果就是网络的表示能力显著增强。

在中小规模实验中,HC的表现确实亮眼,在相同参数量和计算量下,HC模型往往能取得更低的 loss,或者在下游任务上表现更优。

但问题,很快就暴露出来。HC 在大规模模型训练中,存在系统性的不稳定问题。

这种不稳定并不是偶然的训练失败,而是随着层数和训练步数增加,几乎必然发生的结构性风险。



mHC掀起架构革命

当模型规模放大,HC就开始“失控”了。在DeepSeek的新论文里认为,从数学角度看,这种失控的问题出在残差的恒等映射被破坏了。

在 ResNet 中,残差连接的核心价值不在于加法本身,而在于不论网络其他部分如何变化,都至少存在一条不被放大的信息通路。

但在 HC 中,每一层的残差更新,本质上是一个可学习矩阵对多条残差流的线性变换。当这种矩阵在层与层之间不断相乘时,就有可能导致梯度在反向传播中迅速失控,训练在某个时间点突然崩掉。

论文给出的实验非常直观,在 27B 参数规模的模型中,HC 架构在训练早期看似正常,但在约一万多步后,出现了突发的损失激增,梯度范数也表现出剧烈波动。


研究团队计算了复合映射对信号的放大倍数,在HC架构中,这个值的峰值达到了3000,意味着信号在层间传播时可能被放大数千倍,也可能直接衰减至几乎消失。


换句话说,HC 的问题并不是效果不好,而是它缺乏一个像ResNet那样的安全底座。

DeepSeek论文的核心思路是将残差映射矩阵约束到一个特定的流形上,一个由双随机矩阵构成的Birkhoff多面体。

他们认为HC的“多车道”思路是对的,但不能让车乱跑。于是他们在 HC 的基础上,加了一套严格的数学约束也就是双随机矩阵。

DeepSeek的工作,可以看作是给这个多车道高速路装上了智能红绿灯和导流线,规则是你可以变道,但必须保证出来的总车流量等于进去的总车流量。

这样既享受了HC带来的高吞吐量和性能提升,又像ResNet一样极其稳定,恢复了恒等映射。

具体来看,在mHC中所有用于混合多条残差流的矩阵,都必须满足三个条件:每一行元素之和等于1;每一列元素之和等于1;所有元素非负。

这类矩阵被称为双随机矩阵。

乍一看,这是一个非常强的约束,但正是这一约束,带来了mHC的核心优势。从稳定性角度看双随机矩阵的谱半径被严格限制在1以内,这意味着它不会放大信号,多层相乘后,依然保持有界,梯度既不会爆炸,也不会消失。

同时,双随机矩阵等价于对多条残差流做加权平均,在本质上仍然保留了ResNet的内核,信息可以自由混合,但不会被无限放大。

mHC架构其实并非纸上谈兵,DeepSeek团队论文之所以有诸多好评,很大程度上也源于他们在工程可行性上的能力。


算力压榨到极致

在原始HC设计中,多残差流意味着更高的内存占用和访问成本,显存带宽是现代AI芯片最昂贵的资源,如此高昂的成本在大模型时代是很难让人接受的。

DeepSeek团队展现了他们作为顶级AI实验室的工程素养,他们没有停留在算法层面,而是深入到了底层的算子优化。

团队为此开发了一系列基础设施优化,他们使用TileLang框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数。

针对Sinkhorn-Knopp算法,他们设计了专门的前向和反向内核,在芯片上重新计算中间结果以避免存储开销。

同时,他们还提出了DualPipe并行策略。在大模型训练中,计算和通信往往是串行的,也就导致了GPU在等待数据传输时经常处于闲置状态。

DualPipe巧妙地构建了一个双向流水线,利用前向传播和反向传播在时间上的错位,让计算任务和通信任务实现了完美重叠。

在算力、数据和参数规模不断膨胀的今天,模型性能的提升越来越像一场刷榜游戏。在这样的背景下,像mHC 这样直指底层结构的工作,就显得尤为重要。

对于用户来说,mHC或许不如一个新的模型、新的智能体对生活的改变大,但至少让人们看到了一群死磕AI底层架构的工程师们的执着,这群修补地基的人,或许才是AI时代最稀缺的人才。



运营编辑 |曹倩审核|孟莎莎




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄国昌正式辞职!柯文哲留下关键一人,郑丽文对岛内喊出一句话

黄国昌正式辞职!柯文哲留下关键一人,郑丽文对岛内喊出一句话

博览历史
2026-01-06 15:07:27
特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

特朗普举着孩子照片,对哭泣的母亲承诺:我相信中国会执行死刑的

博览历史
2025-07-21 17:59:30
医生发现:坚持用盐水漱口的人,咽喉可能正在发生这5个积极变化

医生发现:坚持用盐水漱口的人,咽喉可能正在发生这5个积极变化

健康科普365
2026-01-04 09:41:09
顶级后卫视野?拉拉维亚救球后直接坐在多名女球迷身边

顶级后卫视野?拉拉维亚救球后直接坐在多名女球迷身边

懂球帝
2026-01-07 12:00:09
大家做好准备!明年起,六七十岁的老人或将面临“三个现实问题”

大家做好准备!明年起,六七十岁的老人或将面临“三个现实问题”

好笑娱乐君每一天
2026-01-07 13:05:48
某大厂员工:领导让他报裁员名单,结果这哥们竟然把自己写上去,拿着20多万的赔偿,去付买房的首付!

某大厂员工:领导让他报裁员名单,结果这哥们竟然把自己写上去,拿着20多万的赔偿,去付买房的首付!

上海约饭局
2026-01-06 16:54:03
高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

高峰也没想到,他当年抛弃的儿子,如今开始给那英争光了

趣文说娱
2026-01-04 16:34:24
彭德怀的遗憾:一野兵力仅四野十分之一,毛主席为啥不让他大扩军

彭德怀的遗憾:一野兵力仅四野十分之一,毛主席为啥不让他大扩军

史海任我行
2026-01-07 15:36:20
澳洲政府突宣!再见,澳洲移民!

澳洲政府突宣!再见,澳洲移民!

澳洲红领巾
2026-01-07 14:08:14
特斯拉中国:购买Model 3和Model Y、Model Y L车型5年0息

特斯拉中国:购买Model 3和Model Y、Model Y L车型5年0息

极目新闻
2026-01-06 09:58:24
事发上海!报废车爆改四缸八涡轮,1.6T的非法改装车嚣张开上街头!

事发上海!报废车爆改四缸八涡轮,1.6T的非法改装车嚣张开上街头!

上观新闻
2026-01-07 16:31:11
拜仁5-0完胜,26岁日本球星凌空斩,17岁新星2球1助,18岁新星1球1助

拜仁5-0完胜,26岁日本球星凌空斩,17岁新星2球1助,18岁新星1球1助

凌空倒钩
2026-01-06 23:53:46
安徽反腐:涉嫌严重违纪违法,6人被调查

安徽反腐:涉嫌严重违纪违法,6人被调查

网易安徽
2026-01-07 11:45:17
1800亿规模!高奢跌落神坛,轻奢放下身段,靠奥莱“收割”中产

1800亿规模!高奢跌落神坛,轻奢放下身段,靠奥莱“收割”中产

品牌观察官
2026-01-07 17:53:43
1901年庚子谈判,西方列必杀12人名单,慈禧指一名字:此人不可杀

1901年庚子谈判,西方列必杀12人名单,慈禧指一名字:此人不可杀

干史人
2025-12-16 19:20:03
丈夫想先睡妻子,妻子和情夫都不同意,2015年丈夫把他俩都杀了

丈夫想先睡妻子,妻子和情夫都不同意,2015年丈夫把他俩都杀了

汉史趣闻
2026-01-03 19:21:52
上学时遭遇同学间的家境攀比,陈毅的儿子陈丹淮被追问家世背景,只简单答道:“我父亲就是个普通处长”

上学时遭遇同学间的家境攀比,陈毅的儿子陈丹淮被追问家世背景,只简单答道:“我父亲就是个普通处长”

史海残云
2025-12-27 18:00:16
日本签字了,高市选定中日主战场,对华开第二枪,解放军开始巡海

日本签字了,高市选定中日主战场,对华开第二枪,解放军开始巡海

小祁谈历史
2026-01-07 10:39:18
为什么红军到了陕北,就安全了?原因很现实,6个原因

为什么红军到了陕北,就安全了?原因很现实,6个原因

沈言论
2026-01-01 15:40:03
曾是央视知名主持,如今桂林街头买菜!她的选择为何让人深思?

曾是央视知名主持,如今桂林街头买菜!她的选择为何让人深思?

好贤观史记
2026-01-07 09:45:12
2026-01-07 20:00:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方账号
4634文章数 9175关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

三亚一游客被司机诱导就餐 点了4道海鲜花1868元

头条要闻

三亚一游客被司机诱导就餐 点了4道海鲜花1868元

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

时尚
家居
本地
房产
军事航空

看起来很好亲的唇,能养出来?

家居要闻

宁静不单调 恰到好处的美

本地新闻

“闽东利剑·惠民安商”高效执行专项行动

房产要闻

最新!海口二手房,涨价房源突然猛增30%

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版