网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek后又一神作！清华校友出手，终结ResNet十年统治？

2026-01-02 17:41:02　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子好困

【新智元导读】2026年架构革命的枪声已经打响！ResNet用十年证明了「加法捷径」能救训练，但也暴露了「只加不减」的天花板。DeepSeek新年王炸之后，普林斯顿和UCLA新作DDL让网络学会忘记、重写和反转。

新年第一天，DeepSeek祭出大杀器——mHC，对「残差连接」做出了重大改进，引爆全网。

紧接着，另一篇重磅研究诞生了！

斯坦福著名教授Christopher Manning读完后直言，「2026年，将成为改进残差连接之年」。

拓展阅读：刚刚，DeepSeek扔出大杀器，梁文锋署名！暴力优化AI架构

这篇来自普林斯顿和UCLA新研究，提出了一个全新架构：Deep Delta Learning（DDL）。

它不再把「捷径」（shortcut）当作固定的恒等映射，而让它本身也能学习并随数据变化。

论文地址：https://github.com/yifanzhang-pro/deep-delta-learning/blob/master/Deep_Delta_Learning.pdf

一个是mHC流形约束超连接，一个是DDL深度增量学习，几乎在同一时间，传递出一个强烈的信号：

残差连接，正在进入一个必须被重新设计的时代。

那么，这篇论文主要解决了什么问题？

ResNet用了十年「加法」

终于被改写了

2015年，ResNet（残差网络）横空出世后，「加法捷径（shortcut）」几乎成为了深度网络的默认配置。

它解决了梯度消失的难题，撑起了现代深度学习的高楼。

ResNet通过残差学习，解决了深度神经网络训练中的核心难题——层数加深，AI性能不升反降。

ResNet为什么能训得这么深？

因为它只做了一件极其「保守」的事，当深度网络什么都学不会的时候，至少别把输入弄坏。

如今，无论是CNN、ViT，还是各种混合架构，那条「直接把输入加回去」的残差连接，成为了标配。

这套架构设计稳定的同时，也带来了一个后果——

神经网络几乎只会累加信息，却很难修改状态。

经典ResNet核心更新公式非常简单：

从动力系统角度看，它等价于对微分方程做一步前向欧拉离散。

这意味着，对应的线性算子所有特征方向的特征值都是+1，网络只能「平移」状态，而不能反转、选择性遗忘。

换句话说，旧特征很难被彻底清除，中间表示几乎不会被「反转」，深度网络在表达复杂动态时，显得有些笨重。

如果「捷径」永远只是恒等映射，深度神经网络不够灵活，本质上只能「加法叠加」。

来自普林斯顿和UCLA的最新论文，第一次系统性提出——

这条「捷径」，其实限制了深度神经网络的想象力。

此外，近期一些研究还指出，缺乏负特征值，是深度网络建模能力的隐形天花板。

让深度网络学会「忘记」

如果允许「捷径」本身可以被学习，可以选择性遗忘，甚至可以反转某些特征，会发生什么？

DDL给出的答案是：用一个rank-1的线性算子，替代固定的identity shortcut。

简单来说，DDL把ResNet的「固定加法捷径」，升级成了一个可控的状态更新机制。

其核心变化只有一个——

每一层不再只是加新东西，而会先决定：要不要保留旧状态。

在这个全新架构中，引入了一个非常关键的标量β，这个数值决定了当前层如何对待已有特征。

增量残差块

DDL不再把隐藏状态，看成一个向量，而是一个矩阵

这个设计，让网络状态具备了「记忆矩阵」的含义，也为后续的Delta Rule的对齐埋下了伏笔。

其核心更新公式如下所示：

而DDL真正的关键所在，是Delta Operator，让「捷径」不再是I，而是

这是一个rank-1 的对称线性算子，其谱结构异常简单。即d−1个特征值恒为1，只有一个特征值是1−β。

换句话说，一个标量β，就能精确控制某个特征方向的命运。

DDL将三种几何行为，统一在一个模块中，以下当β ∈ [0, 2]时，不同情况——

当β接近0时，DDL什么都不做

这一层几乎被跳过，DDL的行为和ResNet完全一致，非常适合深层网络的稳定训练。

当β接近1时，DDL会先忘掉，再写入

这时，网络会主动「清空」某个特征方向，再写入新的内容，类似一次精准的状态重置。

这也恰恰是，传统ResNet很难做到的事。

当β接近2时，DDL就会实现特征反转

某些特征会被直接「翻转符号」，深度网络第一次具备了「反向表达」的能力，这对建模振荡、对立关系非常关键。

值得注意的是，它还出现了负特征值，这是普通残差网络几乎不可能产生的行为。

目前，论文主要提出了DDL核心方法，作者透露实验部分即将更新。

残差网络，2.0时代

为什么这一方法的提出，非常重要？

过去十年，传统残差网络的一个隐患是：信息只加不减，噪声会一路累积。

DDL明确引入了忘记、重写、反转，让网络可以主动清理无用特征，重构中间表示，让建模成为非单调动态过程。

神经网络可以自己决定，如何处理输入的信息。

DDL不会推翻ResNet，当门控（gate）关闭时，它就是普通残差网络，当它完全打开时，便进入了全新的表达空间。

ResNet让深度学习进入了「可规模化时代」，而DDL提出的是下一步——

让深度神经网络不仅稳定，而且具备真正的状态操控能力。

也许多年后回头看，残差网络真正的进化，不仅仅是更深，还会改自己。

最后的最后，我们让ChatGPT分别总结下DDL和mHC的核心贡献：

一位网友对这两种革命性架构的亮点总结：

这一切，只说明了一件事：残差连接，真正被当成「可设计对象」来认真对待。

这就像是一个「时代切换」的信号，过去模型变强=更大+更深+更多参数，现在「模型变强=更合理的结构约束」。

作者介绍

Yifan Zhang

Yifan Zhang是普林斯顿大学的博士生，也是普林斯顿AI实验室的Fellow，师从Mengdi Wang教授、姚期智教授和Quanquan Gu教授。

此前，他获得了清华大学交叉信息研究院计算机科学硕士学位并成为博士候选人；本科毕业于北京大学元培学院，获数学与计算机科学理学学士学位。

个人研究重点是：构建兼具高扩展性和高性能的LLM及多模态基础模型。

Yifeng Liu

Yifeng Liu是加州大学洛杉矶分校的计算机博士，本科毕业于清华信息科学与技术学院，姚班出身。

Mengdi Wang

Mengdi Wang是普林斯顿大学电气与计算机工程系以及统计与机器学习中心的副教授。

她曾获得了MIT电气工程与计算机科学博士学位，在此之前，她获得了清华大学自动化系学士学位。

个人研究方向包括机器学习、强化学习、生成式AI、AI for science以及智能系统应用。

Quanquan Gu

Quanquan Gu是UCLA计算机科学系的副教授，同时领导UCLA通用人工智能实验室。

他曾获得伊利诺伊大学厄巴纳-香槟分校计算机科学博士学位，分别于2007年和2010年获得了清华大学学士和硕士学位。

个人研究方向是人工智能与机器学习，重点包括非凸优化、深度学习、强化学习、LLM以及深度生成模型。

参考资料：

https://x.com/chrmanning/status/2006786935059263906

https://x.com/yifan_zhang_/status/2006674032549310782?s=20

https://github.com/yifanzhang-pro/deep-delta-learning/blob/master/Deep_Delta_Learning.pdf

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

科学家研发大模型新框架，助力解决RISC-V软件生态瓶颈

DeepTech深科技 2025-10-12 19:05:00
0 跟贴 0
除夕重磅！千问开源Qwen3.5，最大吞吐量提升至19倍

DeepTech深科技 2026-02-16 21:37:36
1 跟贴 1

除夕迎「源神」？Qwen3.5以小胜大，大模型竞赛下半场开始了

机器之心Pro 2026-02-16 22:45:48
0 跟贴 0

天下苦CUDA久矣，又一国产方案上桌了

量子位 2026-01-30 21:59:52
3 跟贴 3
ApdativeNN：建模类人自适应感知机制，突破机器视觉不可能三角

机器之心Pro 2025-11-28 17:15:19
0 跟贴 0

36年卷积猜想被解决，华人唯一作者，AI或受益

机器之心Pro 2025-11-26 14:30:39
1 跟贴 1

15%全量Attention！「RTPurbo」阿里Qwen3长文本推理5倍压缩方案

机器之心Pro 2025-12-23 12:52:34
0 跟贴 0
Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘

机器之心Pro 2025-11-05 13:58:14
0 跟贴 0

小鸟从小比较娇贵，必须要手养它才行，有了模型养几十只不是问题

发怒的福猫 2026-02-13 13:39:20
2 跟贴 2
清华联手千问重塑归一化范式，让 Transformer 回归「深度」学习

机器之心Pro 2026-02-10 18:50:12
0 跟贴 0
年夜饭的制作秘籍，好吃不累不怕胖的团圆饭制作公式，今年做年夜饭的朋友记好了#年夜

营养师可可 2026-02-16 20:52:08
0 跟贴 0
L2玩家搭上L4的直通车

燃擎频道 2026-02-15 15:00:57
0 跟贴 0
一文速通「机器人3D场景表示」发展史

机器之心Pro 2026-01-23 13:01:05
0 跟贴 0
对话鹿明机器人：在具身智能的“数据荒”里，做一个送水人｜AI Founder 请回答

钛媒体APP 2026-01-11 12:48:38
0 跟贴 0
台媒：送伊朗歼20模型有深意，伊朗发文感谢中国！

蓝飘飘fly 2026-02-16 03:07:08
1 跟贴 1
中国游客称因道路积雪被困俄罗斯“极光村” 超40小时，俄媒：滞留游客都已离开

上游新闻 2026-02-17 20:22:05
11441 跟贴 11441
江苏一老板给全村70岁以上老人发红包，派发红包的场面持续了近两个小时，总额达163500元；有老人已连续领14年红包：“比亲儿子还要亲”

大风新闻 2026-02-17 19:26:08
970 跟贴 970
视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

机器之心Pro 2026-01-13 18:26:48
0 跟贴 0
为什么这篇谷歌论文被称为「Attention is all you need」V2

量子位 2025-12-21 15:15:36
26 跟贴 26
填符号让等式成立，不同的人有不同的做法

郎老师趣味数学课堂 2026-02-17 14:02:30
0 跟贴 0
小伙徒手搓出一辆考斯特汽车模型，真的是太牛了

宸宸爱发明V 2026-02-15 13:44:08
4 跟贴 4
男子分享自己的00后数学老师，网友：我那时候怎么没有这样的老师

人生乐趣 2026-02-17 15:56:00
8 跟贴 8
OpenAI下架4o真是为了给自己和富豪们续命吗？

DeepTech深科技 2026-02-17 14:15:19
1 跟贴 1
最后一节物理课，老师用公式和学生们告别，用这方式告别瞬间破防

趣闹日常 2026-02-17 07:30:59
1 跟贴 1
马斯克预言：2026年底编程将迈向全自动化

极目新闻 2026-02-17 12:50:39
1157 跟贴 1157
湖南95后女生上门做年夜饭月入4万多：春节前订单就满了

齐鲁壹点 2026-02-17 14:54:08
268 跟贴 268
98元涨到963元，最近价格飞涨近十倍，网友直呼离谱！有的已突破2000元

浙江之声 2026-02-17 17:35:40
472 跟贴 472
初中数学解方程，完全立方公式

天天数理学习分享 2026-02-14 11:31:10
3 跟贴 3
中国队夺得冬奥会速度滑冰男子团体追逐铜牌

央视新闻客户端 2026-02-17 23:28:37
59 跟贴 59
OpenAI急迫招入OpenClaw之父解决四个问题

虎嗅APP 2026-02-17 00:37:44
12 跟贴 12
又一推理新范式：将LLM自身视作改进操作符，突破长思维链极限

机器之心Pro 2025-10-04 18:35:49
0 跟贴 0
赛场频现违例，中国冰壶队：相信世界壶联有办法解决争议

澎湃新闻 2026-02-17 10:17:03
508 跟贴 508
官宣！苹果春季发布会3月4日在中国上海举行

现代快报 2026-02-17 09:13:03
127 跟贴 127
日语已事实死亡，老人甚至看不懂电视！中国是否该警惕“西化”？

凉羽亭 2026-02-17 17:29:10
0 跟贴 0
游客在胖东来买到搬不动：买了5000多元的年货，还花了500多元的快递费

杭州日报 2026-02-16 13:34:00
764 跟贴 764
黄循财：日本给我们的苦难教训极重

上观新闻 2026-02-17 13:57:06
255 跟贴 255
中国赠送伊朗歼20战机模型，伊空军司令笑容满面引发讨论

聚焦光辉与阴暗 2026-02-17 23:32:01
0 跟贴 0
AI红包“大战”春节档：有人活跃各平台抢到50元，有人抽中运动相机

红星资本局 2026-02-17 15:55:06
101 跟贴 101
“水滴耳环”官网火速改商品简介为“王菲同款”：与去年“虾片耳环”是同一品牌

大象新闻 2026-02-17 13:43:03
147 跟贴 147
胡明轩压哨绝杀太燃，新队长打球自信几何看这便知#上头条聊CBA

小鱼有娱吖 2026-02-15 20:09:29
0 跟贴 0

刚刚，全球最大对冲基金最新持仓来了

刚刚，全球最大对冲基金最新持仓来了

格隆汇

2026-02-18 00:50:14

中国095核潜艇亮相渤海湾，美称吨位远超093型，X方向舵令人恐惧

中国095核潜艇亮相渤海湾，美称吨位远超093型，X方向舵令人恐惧

我心纵横天地间

2026-02-17 20:37:46

婆婆住院，我和小姑子伺候，夜里听到她们的对话后，我心痛万分

婆婆住院，我和小姑子伺候，夜里听到她们的对话后，我心痛万分

千秋历史

2026-02-17 14:55:38

为了得到巅峰期的伊万卡，姆巴佩到底花了多少“转会费”？

为了得到巅峰期的伊万卡，姆巴佩到底花了多少“转会费”？

罗氏八卦

2025-12-24 11:56:24

泰国机场凌晨开始“堵人”，游客称排队入境需1个多小时，多个旅行社春节泰国游项目售罄

泰国机场凌晨开始“堵人”，游客称排队入境需1个多小时，多个旅行社春节泰国游项目售罄

极目新闻

2026-02-16 15:46:39

说实话，王菲今年唱的歌不是不好听，也不是听不懂，而是难度太高

说实话，王菲今年唱的歌不是不好听，也不是听不懂，而是难度太高

小染说台球

2026-02-17 12:33:20

江苏一退休阿姨手握280万，侄子问她手里多少存款，她谎称18万，不料2天后侄子带着妻子搬来说要长期住

江苏一退休阿姨手握280万，侄子问她手里多少存款，她谎称18万，不料2天后侄子带着妻子搬来说要长期住

感觉会火

2026-01-30 12:06:57

别再用现金行贿受贿了！大数据一查就现形，全程 “裸奔” 藏不住

别再用现金行贿受贿了！大数据一查就现形，全程 “裸奔” 藏不住

复转这些年

2026-02-09 23:45:54

太拼了！-1℃的上海街头，市民通宵排队，抢到后惊喜，相当于1折

太拼了！-1℃的上海街头，市民通宵排队，抢到后惊喜，相当于1折

辉哥说动漫

2026-02-17 22:09:39

日本更强？日本媒体：有两个优势比中国强，在战争中能赢得胜利

日本更强？日本媒体：有两个优势比中国强，在战争中能赢得胜利

星星会坠落

2026-01-03 19:50:16

首钢签约麦基内幕曝光！超级顶薪让他无法拒绝，争冠格局彻底乱了

首钢签约麦基内幕曝光！超级顶薪让他无法拒绝，争冠格局彻底乱了

老叶评球

2026-02-17 21:41:14

48岁光棍奔非洲寻爱，1.6万拿下初恋，网友着急：娶可以别带回国

48岁光棍奔非洲寻爱，1.6万拿下初恋，网友着急：娶可以别带回国

大鱼简科

2026-01-30 11:32:48

江疏影上海年夜饭曝光！七菜一汤加茅台，手上的戒指才是重点

江疏影上海年夜饭曝光！七菜一汤加茅台，手上的戒指才是重点

觉慧梦吟

2026-02-17 21:02:36

展窗：一种被凝视的透明

疾跑的小蜗牛

2026-02-17 23:22:51

98年双峰女生｜164cm HRM，想找一个有房有车的男生

98年双峰女生｜164cm HRM，想找一个有房有车的男生

双峰生活

2026-02-06 19:27:32

以为是假新闻其实是真新闻，从袁立到王星，件件离谱又惊人

以为是假新闻其实是真新闻，从袁立到王星，件件离谱又惊人

上官晚安

2026-01-06 08:08:35

闹大了！赵睿或卸任男篮队长！新队长三选一，黑马逆袭，冷门意外

闹大了！赵睿或卸任男篮队长！新队长三选一，黑马逆袭，冷门意外

闻晓说体育

2026-02-18 01:51:01

李月汝妹妹被国少剔除？征战AUU21场提升战力与姐姐一同留洋升级

李月汝妹妹被国少剔除？征战AUU21场提升战力与姐姐一同留洋升级

颜小白的篮球梦

2026-02-17 20:29:25

黄金又跌价了26年2月17日金条降价，国内黄金、足金、金条新价格

黄金又跌价了26年2月17日金条降价，国内黄金、足金、金条新价格

户外钓鱼哥阿旱

2026-02-17 10:29:59

吃中国饭，砸中国锅！央视出手全程打码，这位700万网红彻底崩塌

吃中国饭，砸中国锅！央视出手全程打码，这位700万网红彻底崩塌

小熊侃史

2025-12-27 12:00:29

AI产业主平台领航智能+时代

14549文章数 66630关注度

往期回顾全部

科技要闻

春晚这些机器人是怎样做到的？

头条要闻

加州州长纽森炮轰特朗普：把美国未来卖给中国

头条要闻

加州州长纽森炮轰特朗普：把美国未来卖给中国

体育要闻

谷爱凌：'不小心"拿到了银牌祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉！

财经要闻

大年初一，这三件事很不寻常

汽车要闻

问界M6更多信息：乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

艺术

数码

旅游

公开课

家居要闻

中古雅韵乐韵伴日常

艺术要闻

十大名家画喜鹊，2026喜上加喜！

数码要闻

Intel酷睿Ultra 5 338H实测：锐炫B370核显逼近RTX 4050

旅游要闻

特写：流光溢彩映维港花车巡游贺新春

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版