网易首页 > 网易号 > 正文 申请入驻

梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

0
分享至

来源:市场资讯

(来源:机器之心Pro)


机器之心编辑部

新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。

该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。

简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。


这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。

传统的残差连接(即 Transformer 中的 x + F (x) 结构)凭借「恒等映射」保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C。

近期,以字节跳动Seed团队提出的 Hyper-Connections (HC) 为代表的研究,通过扩展残差流宽度和多样化连接模式,拓展了过去十年中广泛应用的残差连接范式。

虽然这些方法带来了显著的性能提升,但但也带来了两个严重问题:

从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销。

为了解决这些挑战,DeepSeek 的研究团队提出了Manifold-Constrained Hyper-Connections (mHC,流形约束超连接)。

这是一个通用框架,它将 HC 的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

它的核心目的是:在保留「加宽残差流」带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题。

团队利用Sinkhorn-Knopp 算法将残差连接矩阵投影到 Birkhoff 多胞形(双随机矩阵)上。这使得信号传播变为特征的「凸组合」,从数学上严格保证了信号范数的稳定性(能量守恒)。为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的 DualPipe 通信计算重叠策略。

实证表明,mHC 不仅解决了稳定性问题,且在大规模训练中(如 27B 模型)表现出卓越的可扩展性。在 n=4 的扩展倍率下,仅增加了 6.7% 的训练时间开销,却换来了显著的性能提升。mHC 为基础模型的拓扑架构演进指明了方向。


图 1:残差连接范式示意图。 本图对比了以下三种结构设计: (a) 标准残差连接(Residual Connection); (b) Hyper-Connections (HC); (c) 我们提出的 Manifold-Constrained Hyper-Connections (mHC)。与无约束的 HC 不同,mHC 专注于优化残差连接空间,通过将矩阵投影到受约束的流形上,以确保稳定性。

具体方法介绍

流形约束超连接 (mHC)

借鉴恒等映射(Identity Mapping)原则,mHC 的核心前提是将残差映射

虽然原始的恒等映射是通过强制执行

因此,该 DeepSeek 团队提出将残差映射投影到一个流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力(expressivity)。

为此,他们的做法是将

形式上,令




其中 1_n 表示全 1 的 n 维向量。

为什么选择双拟随机性?因为其具有多项有利于大规模训练的理论属性:


此外,该团队还对输入映射

参数化与流形投影

本节将详述 mHC 中各映射的计算过程。

给定第 l 层的输入隐藏矩阵 x_l,先将其展平为向量



最终的约束映射通过以下方式获得:


其中


DeepSeek 在实验中采用 t_max=20 次迭代。

高效基础设施设计

DeepSeek 还为 mHC 量身定制了基础设施设计,使其在 n=4 时在大模型中的训练开销仅增加 6.7%:

算子融合 (Kernel Fusion):

重新调整 RMSNorm 的顺序以提高效率,并采用混合精度策略。

开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销。

在单个算子中实现 Sinkhorn-Knopp 迭代及其自定义反向传播。

重计算 (Recomputing):

为了减轻 n 流设计带来的内存压力,DeepSeek 在前向传播后丢弃 mHC 算子的中间激活,并在反向传播时即时重新计算。

通过推导得出最优重计算块大小 L_r^*,以最小化总内存占用。

DualPipe 中的通信重叠:

扩展了 DualPipe 调度算法,以改善流水线并行阶段边界处的通信与计算重叠在专用高优先级计算流上执行 MLP 层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率。

实验

实验设置

研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接(HC)以及提出的流形约束超连接(mHC)进行了对比分析。

他们采用了受 DeepSeek-V3 启发的 MoE 架构,训练了四种不同的模型变体,以覆盖不同的评估体系。

具体而言,HC 和 mHC 的扩展率 n 均设置为 4,主要关注点是一个 27B 参数规模的模型。其训练数据集的大小与其参数量成正比,该模型用于展示系统层面的主要结果。在此基础上,他们通过引入使用成比例数据训练的较小的 3B 和 9B 模型来分析计算扩展性,从而观察不同计算规模下的性能趋势。此外,为了专门研究 Token 规模的影响,他们另外训练了一个独立的 3B 模型,该模型在一个固定的 1T Token 的语料库上进行训练。


主要结果


图 5:流形约束超连接 (mHC) 的训练稳定性。 该图展示了:(a) mHC 和 HC 相对于基线模型的训练损失绝对差值;(b) 三种方法在训练过程中的梯度范数。所有实验均基于 27B 参数规模的模型。实验结果表明,mHC 在损失函数和梯度范数两方面均表现出更优的稳定性。

研究团队首先考察 27B 模型的训练稳定性和收敛性。如图 5 (a) 所示,mHC 有效缓解了在 HC 中观察到的训练不稳定问题,与基线模型相比,最终损失降低了 0.021。图 5 (b) 中的梯度范数分析进一步证实了这种稳定性的提升:mHC 表现出明显优于 HC 的行为,保持了与基线模型相当的稳定轮廓。


表 4:27B 模型在系统级基准测试上的结果。 本表对比了基线模型、HC 以及 mHC 在 8 个不同的下游基准测试中的零样本和少样本性能表现。结果显示,mHC 始终优于基线模型,并在大多数基准测试中超越了 HC,证明了其在大规模预训练中的有效性。

表 4 展示了在多种下游基准测试中的性能表现。mHC 带来了全面的提升,一致性地优于基线模型,并在大多数任务上超过了 HC。值得注意的是,与 HC 相比,mHC 进一步增强了模型的推理能力,在 BBH 和 DROP 任务上分别实现了 2.1% 和 2.3% 的性能增益。

规模扩展实验


图 6:mHC 与基线模型的扩展特性对比。 (a) 计算扩展曲线:实线描绘了在不同计算预算下的性能差距。每个点代表模型大小与数据集大小的最优计算配置,涵盖了从 3B、9B 到 27B 参数规模的规模扩展过程。 (b) Token 扩展曲线:展示了 3B 模型在训练过程中的轨迹。每个点代表模型在不同训练 Token 数量下的性能表现。

为了评估该方法的扩展性,研究者报告了在不同规模下 mHC 相对于基线模型的损失改善情况。在图 6 (a) 中,他们绘制了涵盖 3B、9B 和 27B 参数规模的计算规模扩展曲线。其轨迹表明,即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减。

此外,他们在图 6 (b) 中考察了训练过程中的动态变化,展示了 3B 模型的 Token 扩展曲线。总的来看,这些发现验证了 mHC 在大规模场景下的有效性。这一结论在他们内部的大规模训练实验中得到了进一步的证实。

更多详情请参阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯诺克赛程:决出D组头名,中国或连续2组夺冠,147先生打酱油?

斯诺克赛程:决出D组头名,中国或连续2组夺冠,147先生打酱油?

刘姚尧的文字城堡
2026-01-09 07:13:33
乌军2025年伤亡15万人,川普“夺取格陵兰岛”声东击西

乌军2025年伤亡15万人,川普“夺取格陵兰岛”声东击西

史政先锋
2026-01-07 21:59:13
事业巅峰远赴美国,被老外“玩腻”后晚年回国,如今变成了这样!

事业巅峰远赴美国,被老外“玩腻”后晚年回国,如今变成了这样!

归史
2025-12-09 11:10:44
维尼修斯评论和西蒙尼发生冲突视频:又输掉了一场淘汰赛

维尼修斯评论和西蒙尼发生冲突视频:又输掉了一场淘汰赛

懂球帝
2026-01-09 06:30:08
马杜罗还有救,联合国召开大会,6国出面救人,朝鲜下令发射导弹

马杜罗还有救,联合国召开大会,6国出面救人,朝鲜下令发射导弹

军机Talk
2026-01-06 10:23:09
和公婆同住的中年夫妻,已经放弃了性生活

和公婆同住的中年夫妻,已经放弃了性生活

十点读书
2026-01-07 19:33:49
日本巨头中国工厂停产,3.5万员工铁饭碗破灭

日本巨头中国工厂停产,3.5万员工铁饭碗破灭

似水流年忘我
2025-12-08 10:56:29
被迫裁员75%、只剩6个月续命!Tailwind创始人崩溃自白:全球爆火的CSS框架,竟养不起8个人

被迫裁员75%、只剩6个月续命!Tailwind创始人崩溃自白:全球爆火的CSS框架,竟养不起8个人

CSDN
2026-01-08 18:14:53
日本对中国提出一个大胆要求,西方媒体提醒日方:还记得16年前吗

日本对中国提出一个大胆要求,西方媒体提醒日方:还记得16年前吗

历史有些冷
2026-01-08 08:20:05
医生叮嘱:家中老人一旦迈入63岁,以下这5条建议一定要牢记

医生叮嘱:家中老人一旦迈入63岁,以下这5条建议一定要牢记

健康之光
2025-12-18 09:30:34
1980年轰动巨大的新疆白毛风事件有多恐怖?749局首次认怂

1980年轰动巨大的新疆白毛风事件有多恐怖?749局首次认怂

小月文史
2024-11-20 19:14:38
万万没想到!李晨会因为老人味登上热搜,感觉他这辈子很难结婚了

万万没想到!李晨会因为老人味登上热搜,感觉他这辈子很难结婚了

乐悠悠娱乐
2025-12-02 11:01:18
单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

单伟健1100亿鲸吞万达,王健林30年帝国终成资本代运营平台

流苏晚晴
2026-01-06 18:25:30
肉眼可见的垃圾合同!火箭为什么要3年长约签回这位老将呢?

肉眼可见的垃圾合同!火箭为什么要3年长约签回这位老将呢?

稻谷与小麦
2026-01-08 23:36:10
AI生成漫画登顶日本畅销榜榜首 传统漫画家集体忧虑

AI生成漫画登顶日本畅销榜榜首 传统漫画家集体忧虑

3DM游戏
2026-01-06 17:22:06
安吉丽娜·朱莉出售洛杉矶2450万美元豪宅,被曝计划移居柬埔寨和欧洲

安吉丽娜·朱莉出售洛杉矶2450万美元豪宅,被曝计划移居柬埔寨和欧洲

红星新闻
2026-01-07 12:50:29
还是德芙聪明!用刘亦菲当代言人怕巧克力没人看直接把刘亦菲变小

还是德芙聪明!用刘亦菲当代言人怕巧克力没人看直接把刘亦菲变小

小娱乐悠悠
2025-12-11 09:58:30
涉嫌严重违纪违法,东莞一学校党总支原书记被查

涉嫌严重违纪违法,东莞一学校党总支原书记被查

南方都市报
2026-01-08 16:42:19
一年狂赚2500亿,潜伏中国34年,被误认国产,竟是洋货!

一年狂赚2500亿,潜伏中国34年,被误认国产,竟是洋货!

仙味少女心
2025-11-27 23:38:57
震惊!东莞一工厂春节放假前结清工资,网友:这才是把员工当人

震惊!东莞一工厂春节放假前结清工资,网友:这才是把员工当人

火山詩话
2026-01-08 07:27:21
2026-01-09 08:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1964918文章数 5194关注度
往期回顾 全部

科技要闻

内存一天一个价,华强北老板们却高兴不起来

头条要闻

男子与女友吵架飙车泄愤撞死1家3口 当时讨论鹦鹉学舌

头条要闻

男子与女友吵架飙车泄愤撞死1家3口 当时讨论鹦鹉学舌

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

郁亮的万科35年:从"宝万之争"到"活下去"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

时尚
艺术
教育
本地
健康

60+女性穿搭指南来了:4招告别“大妈感”,解锁冬日优雅气质

艺术要闻

毛主席致陈委员信:笔法与结体,谁更难掌握?

教育要闻

校长的“五势”智慧

本地新闻

1986-2026,一通电话的时空旅程

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版