![]()
![]()
出品|搜狐科技
作者|常博硕
编辑| 杨 锦
果然,只要一到假期,DeepSeek就会更新点什么。
这个元旦,DeepSeek发表了一篇新论文《mHC: Manifold-Constrained Hyper-Connections》提出了一种新的架构——流形约束超连接,以解决传统架构在大模型训练中的不稳定问题。
更值得关注的是,论文作者最后一位赫然写着梁文锋的大名。
![]()
在此之前,梁文锋几乎很少在技术论文中署名,最多是挂个通讯作者。这次直接参与论文撰写,足以可见DeepSeek对这篇论文的重视程度。
而细读之后才发现,这篇论文可以称得上是一场革命性的创新,革的正是何恺明们建立的深度学习基石ResNet的命。
作为计算机视觉领域的顶尖科学家,何恺明毕业于清华大学物理系,现任麻省理工学院电气工程与计算机科学系副教授(终身教职)。其最著名的成就,就是提出了ResNet架构,解决了深度神经网络中“越深越难训练”的根本性问题,ResNet也被称为现代深度学习发展史上的一座里程碑。
![]()
十年未变的“底层共识”被改变
要理解DeepSeek这篇论文分量,我们得回到十年前。如果把那时的神经网络比喻成一座高塔,在当时,随着塔的层数堆叠过多,地基传来的信号往往在半路就消失殆尽,很容易导致塔身崩塌。
直到何恺明等人提出了划时代的ResNet(残差网络),这个问题才被解决。
在 ResNet之前,深度神经网络有一个致命问题,那就是网络一深,反而学不会了。原因很简单,梯度会在层层传递中消失或爆炸,前面的信息传不到后面。
于是当时还在微软亚洲研究院的何恺明等人就发表了一篇名为《Deep Residual Learning for Image Recognition》的论文,这篇论文也是AI历史上引用率最高的殿堂级论文之一。
可以这样理解,原本信息过神经网络层时会被拦截处理,可以理解为一条高速公路中有很多收费站,导致信号像公路上的车流一样不停被收费站拦截,运行不畅。
而ResNet相当于在旁边修了一条直通的“快速通道”,哪怕收费站处理得不好,信息也可以通过快速通道原封不动地传到下一站,这也被称为恒等映射(Identity Mapping)。
于是,自2016 年何恺明提出ResNet开始,残差连接迅速成为深度神经网络的默认配置。它解决了深层网络难以训练的问题,使得模型深度可以从几十层扩展到上百层,甚至更深。
后来出现的 Transformer,看似是一种全新的架构,但LayerNorm + Residual的基本形式,本质也是继承了ResNet的思想。ResNet也成为了后来几乎所有大模型的基石。
然而,随着模型参数迈向万亿级别,研究者开始觉得单车道的信息吞吐量太小了,它限制了模型思考的广度。既然单车道不够用,为什么不把它拓宽成八车道、十六车道?
一种新的架构HC也就应运而生。这种被称为“超连接”(Hyper-Connections,简称HC)的新架构由字节Seed团队在论文《Hyper-Connections》中提出。
![]()
它试图打破传统的束缚,将原本单一的残差流拓宽数倍,并允许信息在不同的通道间自由穿插、混合。也就是说,原本的高速路加快车单行道直接变成了一个巨大的、没有红绿灯的多层立交桥。
在 HC 架构中,模型维护多条并行的残差流,每一层输出都是这些残差流的线性组合。这也就意味着,信息不必被压缩进单一通道,结果就是网络的表示能力显著增强。
在中小规模实验中,HC的表现确实亮眼,在相同参数量和计算量下,HC模型往往能取得更低的 loss,或者在下游任务上表现更优。
但问题,很快就暴露出来。HC 在大规模模型训练中,存在系统性的不稳定问题。
这种不稳定并不是偶然的训练失败,而是随着层数和训练步数增加,几乎必然发生的结构性风险。
![]()
![]()
mHC掀起架构革命
当模型规模放大,HC就开始“失控”了。在DeepSeek的新论文里认为,从数学角度看,这种失控的问题出在残差的恒等映射被破坏了。
在 ResNet 中,残差连接的核心价值不在于加法本身,而在于不论网络其他部分如何变化,都至少存在一条不被放大的信息通路。
但在 HC 中,每一层的残差更新,本质上是一个可学习矩阵对多条残差流的线性变换。当这种矩阵在层与层之间不断相乘时,就有可能导致梯度在反向传播中迅速失控,训练在某个时间点突然崩掉。
论文给出的实验非常直观,在 27B 参数规模的模型中,HC 架构在训练早期看似正常,但在约一万多步后,出现了突发的损失激增,梯度范数也表现出剧烈波动。
![]()
研究团队计算了复合映射对信号的放大倍数,在HC架构中,这个值的峰值达到了3000,意味着信号在层间传播时可能被放大数千倍,也可能直接衰减至几乎消失。
![]()
换句话说,HC 的问题并不是效果不好,而是它缺乏一个像ResNet那样的安全底座。
DeepSeek论文的核心思路是将残差映射矩阵约束到一个特定的流形上,一个由双随机矩阵构成的Birkhoff多面体。
他们认为HC的“多车道”思路是对的,但不能让车乱跑。于是他们在 HC 的基础上,加了一套严格的数学约束也就是双随机矩阵。
DeepSeek的工作,可以看作是给这个多车道高速路装上了智能红绿灯和导流线,规则是你可以变道,但必须保证出来的总车流量等于进去的总车流量。
这样既享受了HC带来的高吞吐量和性能提升,又像ResNet一样极其稳定,恢复了恒等映射。
具体来看,在mHC中所有用于混合多条残差流的矩阵,都必须满足三个条件:每一行元素之和等于1;每一列元素之和等于1;所有元素非负。
这类矩阵被称为双随机矩阵。
乍一看,这是一个非常强的约束,但正是这一约束,带来了mHC的核心优势。从稳定性角度看双随机矩阵的谱半径被严格限制在1以内,这意味着它不会放大信号,多层相乘后,依然保持有界,梯度既不会爆炸,也不会消失。
同时,双随机矩阵等价于对多条残差流做加权平均,在本质上仍然保留了ResNet的内核,信息可以自由混合,但不会被无限放大。
mHC架构其实并非纸上谈兵,DeepSeek团队论文之所以有诸多好评,很大程度上也源于他们在工程可行性上的能力。
![]()
算力压榨到极致
在原始HC设计中,多残差流意味着更高的内存占用和访问成本,显存带宽是现代AI芯片最昂贵的资源,如此高昂的成本在大模型时代是很难让人接受的。
DeepSeek团队展现了他们作为顶级AI实验室的工程素养,他们没有停留在算法层面,而是深入到了底层的算子优化。
团队为此开发了一系列基础设施优化,他们使用TileLang框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数。
针对Sinkhorn-Knopp算法,他们设计了专门的前向和反向内核,在芯片上重新计算中间结果以避免存储开销。
同时,他们还提出了DualPipe并行策略。在大模型训练中,计算和通信往往是串行的,也就导致了GPU在等待数据传输时经常处于闲置状态。
DualPipe巧妙地构建了一个双向流水线,利用前向传播和反向传播在时间上的错位,让计算任务和通信任务实现了完美重叠。
在算力、数据和参数规模不断膨胀的今天,模型性能的提升越来越像一场刷榜游戏。在这样的背景下,像mHC 这样直指底层结构的工作,就显得尤为重要。
对于用户来说,mHC或许不如一个新的模型、新的智能体对生活的改变大,但至少让人们看到了一群死磕AI底层架构的工程师们的执着,这群修补地基的人,或许才是AI时代最稀缺的人才。
![]()
![]()
运营编辑 |曹倩审核|孟莎莎
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.