网易首页 > 网易号 > 正文 申请入驻

DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级

0
分享至

来源:市场资讯

  来源:量子位 | 公众号 QbitAI

  2026年新年第一天,DeepSeek上传新论文。

  给何恺明2016成名作ResNet中提出的深度学习基础组件“残差连接”来了一场新时代的升级。


  DeepSeek梁文峰亲自署名论文,共同一作为Zhenda Xie , Yixuan Wei, Huanqi Cao。


  残差连接十年未变,扩展之后却带来隐患

  残差连接自2016年ResNet问世以来,一直是深度学习架构的基石。

  其核心机制简洁明了,x+1 = x + F (x ,W),即下一层的输出等于当前层输入加上残差函数的输出。

  这个设计之所以成功,关键在于“恒等映射”属性,信号可以从浅层直接传递到深层,不经任何修改。


  随着Transformer架构的崛起,这一范式已成为GPT、LLaMA等大语言模型的标准配置。

  这个设计之所以成功,关键在于“恒等映射”属性,信号可以从浅层直接传递到深层,不经任何修改。

  近期出现的Hyper-Connections(HC)试图打破这一格局。HC将残差流的宽度从C维扩展到n×C维,并引入三个可学习的映射矩阵来管理信息流动。

  DeepSeek团队的实验表明,在这三个映射中,负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升。


  但问题随之而来,当HC扩展到多层时,复合映射不再保持恒等性质。

  论文中展示的27B模型训练曲线显示,HC在约12000步时出现了突发的损失激增,梯度范数也表现出剧烈波动。


  研究团队计算了复合映射对信号的放大倍数:在HC中,这个值的峰值达到了3000,意味着信号在层间传播时可能被放大数千倍,或者相应地被衰减至近乎消失。


  双随机矩阵的三重保障

  DeepSeek论文的核心思路是将残差映射矩阵约束到一个特定的流形上,一个由双随机矩阵构成的Birkhoff多面体。


  双随机矩阵的每一行和每一列之和都等于1,所有元素非负。这种约束带来了三个关键的理论性质。

  第一是范数保持:双随机矩阵的谱范数不超过1,这意味着信号在经过映射后不会被放大,有效防止了梯度爆炸。

  第二是组合封闭:多个双随机矩阵相乘的结果仍然是双随机矩阵,因此无论网络多深,跨层的复合映射都能保持稳定性。

  第三是几何解释:Birkhoff多面体是所有排列矩阵的凸包,残差映射实际上是在对特征做凸组合,相当于一种稳健的特征融合机制。


  为了将任意矩阵投影到这个流形上,论文采用了Sinkhorn-Knopp算法。该算法先对矩阵取指数使所有元素为正,然后交替对行和列进行归一化,迭代收敛到双随机矩阵。

  实验数据显示,这个近似解已经足够有效:在27B模型中,mHC的复合映射信号增益最大值约为1.6,与HC的3000形成了三个数量级的差距。


  工程优化:从内核融合到流水线重叠

  接下来进入DeepSeek的拿手好戏,工程优化环节。

  扩展残差流宽度必然带来额外的内存访问开销,论文详细分析了每个token的内存读写成本:

  标准残差连接需要读取2C个元素、写入C个元素,而HC需要读取(5n+1)C + n² + 2n个元素、写入(3n+1)C + n² + 2n个元素。

  当扩展率n=4时,这是一个相当可观的增量。

  团队为此开发了一系列基础设施优化,他们使用TileLang框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数。

  针对Sinkhorn-Knopp算法,他们设计了专门的前向和反向内核,在芯片上重新计算中间结果以避免存储开销。

  在流水线并行方面,他们扩展了DualPipe调度策略,通过将MLP层的特定内核放在高优先级计算流上执行,实现了计算与通信的重叠。


  论文还给出了重计算策略的优化公式。对于L层的网络,最优的重计算块大小约为:


  这个值通常与流水线阶段的层数相当,因此研究者选择将重计算边界与流水线阶段边界对齐。

  实验验证:稳定性与性能兼得

  论文在3B、9B和27B三个规模的MoE模型上进行了验证,扩展率n设为4。

  在27B参数的MoE模型上,mHC展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与baseline相当的梯度范数稳定性。

  在下游任务评测中,mHC在BBH推理任务上比HC提升2.1%,在DROP阅读理解任务上提升2.3%。mHC在大多数任务上不仅超过基线,还超过了HC。


  计算缩放曲线显示,mHC的性能优势在更高计算预算下仍然保持,仅出现轻微衰减。对3B模型的token缩放曲线分析表明,mHC的优势贯穿整个训练过程。


  论文提到,内部的大规模训练实验进一步证实了这些结论,且当扩展率n=4时,mHC仅引入6.7%的额外时间开销。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国千亿投资打水漂后,郭台铭想通了!带46台光刻机回国求赏饭

美国千亿投资打水漂后,郭台铭想通了!带46台光刻机回国求赏饭

奉壹数码
2026-01-05 14:06:20
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
中国是否会继续进口委内瑞拉石油?外交部回应

中国是否会继续进口委内瑞拉石油?外交部回应

澎湃新闻
2026-01-05 16:06:45
苹果官网突然上架新品:1月8日,正式开售!

苹果官网突然上架新品:1月8日,正式开售!

搞机小帝
2026-01-06 09:49:40
拆除马到成功雕塑,是纵容文字狱式舆情

拆除马到成功雕塑,是纵容文字狱式舆情

不主流讲话
2026-01-06 08:51:34
越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

越查越有,释永信落网全家老底被扒,原来他才只是冰山一角!

阿纂看事
2025-08-08 18:10:48
马杜罗迎来帮手,六国挺身而出,四国对美国发出通牒,特朗普急了

马杜罗迎来帮手,六国挺身而出,四国对美国发出通牒,特朗普急了

娱乐圈的笔娱君
2026-01-05 17:48:42
霍家南沙地皮争产落幕:从兄弟反目到慈善招牌,这步棋下对了?

霍家南沙地皮争产落幕:从兄弟反目到慈善招牌,这步棋下对了?

行走的知识库
2026-01-06 08:00:28
老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

Thurman在昆明
2026-01-03 15:59:21
美国网红用类固醇健身后感叹:副作用让我一年老了 10 岁

美国网红用类固醇健身后感叹:副作用让我一年老了 10 岁

下水道男孩
2026-01-05 22:39:47
对岸提醒解放军:可以考虑“生擒”赖清德,但还要小心一件事

对岸提醒解放军:可以考虑“生擒”赖清德,但还要小心一件事

曹兴教授TALK
2026-01-06 10:13:06
魔鬼赛程,阿森纳将在本月面对利物浦、切尔西、曼联和国米

魔鬼赛程,阿森纳将在本月面对利物浦、切尔西、曼联和国米

懂球帝
2026-01-06 10:00:43
为什么湾湾不惧大陆军演?湾湾:两大软肋不会真打!大陆如何破局

为什么湾湾不惧大陆军演?湾湾:两大软肋不会真打!大陆如何破局

阿胡
2025-12-30 12:12:11
一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

一旦开战中国必败?我国著名院士批主战派,要懂得甲午战争的惨败

文史旺旺旺
2025-11-14 20:30:09
美军或用对付伊拉克的方法,对付中国?一旦开战,卫星肯定不保

美军或用对付伊拉克的方法,对付中国?一旦开战,卫星肯定不保

妙知
2025-12-09 00:16:52
委内瑞拉庆祝石油工业国有化 1976年1月3日《人民日报》

委内瑞拉庆祝石油工业国有化 1976年1月3日《人民日报》

那些看得见的老照片
2026-01-04 16:57:43
默多克继承战结束,长子出血33亿美元,邓文迪26年的心机全部兑现

默多克继承战结束,长子出血33亿美元,邓文迪26年的心机全部兑现

电影烂番茄
2025-09-14 22:41:57
德国生产线连夜运往中国:一场静悄悄的工业大逃杀,正在欧洲上演

德国生产线连夜运往中国:一场静悄悄的工业大逃杀,正在欧洲上演

远方风林
2026-01-04 23:42:28
西班牙为何与拉美多国联合声讨美国?这个欧洲国家频频对美国说“不”,多次硬刚特朗普

西班牙为何与拉美多国联合声讨美国?这个欧洲国家频频对美国说“不”,多次硬刚特朗普

极目新闻
2026-01-05 11:28:53
41岁后25+7+7!勒布朗再创历史首见纪录 美媒晒四数据赞GOAT

41岁后25+7+7!勒布朗再创历史首见纪录 美媒晒四数据赞GOAT

颜小白的篮球梦
2026-01-06 08:07:50
2026-01-06 11:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1925676文章数 5172关注度
往期回顾 全部

科技要闻

性能涨5倍!黄仁勋CES秀肌肉 下代芯片来了

头条要闻

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

头条要闻

马杜罗在出庭期间在纸上做笔记 对旁听席说"新年快乐"

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

马斯克评英伟达纯视觉自动驾驶系统Alpamayo

态度原创

健康
教育
时尚
数码
军事航空

这些新疗法,让化疗不再那么痛苦

教育要闻

人工智能时代,这些孩子将来靠什么立足

冬天穿衣其实很简单!上短下长、加点亮色,高级舒适又耐看

数码要闻

小米REDMI蓝牙音箱2“暮焰黑”配色开售,99元

军事要闻

美称对“占领”委内瑞拉保留选择权

无障碍浏览 进入关怀版