网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

终结Transformer统治！清华姚班校友出手，剑指AI「灾难性遗忘」

2025-11-08 17:13:46　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】大模型「灾难性遗忘」问题或将迎来突破。近日，NeurIPS 2025收录了谷歌研究院的一篇论文，其中提出一种全新的「嵌套学习（Nested Learning）」架构。实验中基于该框架的「Hope」模型在语言建模与长上下文记忆任务中超越Transformer模型，这意味着大模型正迈向具备自我改进能力的新阶段。

「灾难性遗忘」，是神经网络最根深蒂固的毛病之一，比如：

·刚学会减法，就忘记了以前学到的加法；

·切换到一个新游戏，模型在前一游戏的得分就会掉到随机水平；

·微调大模型，常出现「风格漂移」与「旧知识遗忘」现象

它的存在，使得大模型难以像人类那样持续学习。

在过去十年中，得益于强大的神经网络结构及其训练算法，机器学习取得了惊人的进步。

但「灾难性遗忘」的老毛病并没有被根治。

为破解这一难题，来自谷歌的研究人员提出了一种持续学习的全新范式——嵌套学习（Nested Learning），并且已被NeurIPS 2025接收。

论文地址：https://abehrouz.github.io/files/NL.pdf

「嵌套学习」将模型视为一系列更小的、相互嵌套的优化问题，每个问题都有其独立的内部工作流程。

这样的设计旨在缓解甚至完全避免大模型的「灾难性遗忘」。

破解「灾难性遗忘」根源

在「持续学习」与「自我改进」方面，人类大脑无疑是黄金标准。

它通过「神经可塑性」不断重构自身结构，以应对新的经验、记忆与学习任务。

缺乏这种能力的人，会陷入类似「顺行性遗忘」的状态——只能依赖即时情境而无法积累知识。

当前的大模型同样存在类似局限：

它们的知识要么局限于输入窗口的即时上下文，要么被固定在预训练阶段学到的静态信息中。

这正是大模型出现「灾难性遗忘」的根源——在学习新任务时会牺牲对旧任务的掌握能力。

这也是长期困扰机器学习的核心问题。

简单地不断用新数据更新模型参数的方法，往往会导致「灾难性遗忘」。

研究者通常通过修改网络结构（Architecture Tweaks）或优化算法（Optimization Rules）来缓解这种问题。

然而这样做，长期存在一个误区：我们一直将模型结构（网络架构）与优化算法视作两个独立的部分。

这阻碍了统一且高效学习系统的构建。

在论文中，研究人员提出了「嵌套学习」，打破了结构与算法的界限，以弥合二者之间的鸿沟。

也就是说「嵌套学习」不再将机器学习模型视作一种单一、连续的过程，而是一个由多层相互关联的优化问题组成的系统，这些问题同时进行优化。

研究人员认为，「模型结构」与「训练规则」本质上是同一概念，只是处于不同的「优化层级」上，每个层级都有独立的信息流动与更新速率。

通过识别这种内在结构，使得我们能够构建更深层的学习组件，从而解决像「灾难性遗忘」这类长期难题。

为了验证这一理论假设，研究人员提出了一个概念验证型的自我修正架构，命名为「Hope（希望）」。

该模型在语言建模任务中表现出色，并在长上下文记忆管理上优于当前最先进的模型。

嵌套学习的新范式

在嵌套学习的框架下，一个复杂的机器学习模型，是由多个一致且相互连接的优化问题组成的系统。

这些优化问题可以是层层嵌套的，也可以并行运行。

每个内部优化子问题，都有自己独立的信息，即其学习所依赖的信息集合。

这一视角意味着：现有的深度学习方法，从本质上是在压缩其内部信息流。

嵌套学习允许我们设计出具备更深计算深度的学习组件。

为了说明这一范式，研究人员以「联想记忆」为例，这是一种能够通过一个刺激唤起另一个记忆的能力，就像我们看到一张脸就想起一个名字。

研究人员推论，在训练过程中，尤其是「反向传播」阶段，可以被建模为一种联想记忆。该模型学习将数据点映射到其对应的局部误差值，该局部误差值衡量了该数据点的「惊奇度」或「意外性」。

根据前人研究，研究人员发现关键的网络结构组件，比如Transformer模型的「注意力机制」，也可形式化为简单的联想记忆模块，用于学习序列中各个token之间的映射关系。

如上图所示，大脑中统一且可重用的结构以及多时间尺度的更新是人类持续学习的关键组成部分。

嵌套学习允许大脑的每个组成部分进行多时间尺度的更新，同时表明诸如Transformer等众所周知的架构，实际上是具有不同更新频率的线性层。

嵌套学习模型中的统一结构与多频率更新机制，与人脑的神经波动与神经可塑性结构十分相似。

它使我们能够在人工模型中定义「多时间尺度更新」：每个学习组件可在不同频率下更新参数。

通过定义「更新频率」，即每个组件参数被调整的频率，我们可以将这些优化问题组织成有序的层级结构。

这一结构正是嵌套学习范式的核心。

嵌套学习的应用

嵌套学习视角，为我们提供了改进现有算法和架构的原则性方法：

深度优化器（Deep Optimizers）

嵌套学习将优化器（Optimizer，例如基于动量的优化器）视为一种联想记忆模块。

这使我们能从联想记忆的角度重新设计优化算法。

传统优化器通常依赖「点积相似度」来衡量样本间相似性，但这一机制无法考虑样本间的复杂关系。

通过将优化目标改为标准损失函数，研究人员提出了新的动量更新公式，使优化过程对不完美数据更具鲁棒性。

连续记忆系统（Continuum Memory Systems）

在标准的Transformer模型中，序列建模层承担短期记忆，保存当前上下文信息；而前馈神经网络层则充当长期记忆，存储训练前的知识。

嵌套学习扩展了这一思想，提出「连续记忆系统」，这是一种由多个模块组成的记忆谱系，每个模块以不同频率进行更新，这为持续学习创建了一个更加丰富、高效的记忆系统。

Hope：具备连续记忆的自我修正架构

研究人员基于以上嵌套学习原则设计了「Hope」模型，它是「Titans架构」的改进版本。

Titans架构是一种长期记忆机制，会根据记忆的「惊奇度」来优先保留信息。

但它仅支持两层参数更新，因此只能实现一阶的「上下文内学习」。

上图比较了Hope与Transformers的架构主干。

相比之下，Hope是一种可自我修改的递归架构，能实现无限层级的上下文内学习。

它还结合了连续记忆系统（CMS），能够扩展到更大的上下文窗口。

换言之，Hope可以通过自指过程优化自身记忆，形成具有无限嵌套学习层级的架构。

研究人员进行了多组实验，来评估深度优化器与Hope架构在语言建模、长上下文推理、持续学习及知识整合等任务上的表现。

实验结果显示：

在常用的语言建模与常识推理任务上，Hope相较现代递归模型与标准Transformer模型展现出更低的困惑度与更高的准确率。

在长上下文任务中，Hope与Titans模型均显著优于TTT与Mamba2，证明连续记忆系统能更高效地处理超长序列信息。

Hope框架在标准基准上表现优于现有模型，印证了当架构与算法被统一后，学习系统可以变得更具表现力、更高效、更具自我改进能力。

这意味着，我们对深度学习的理解迈出了新的一步。

通过将「模型结构」与「优化过程」统一为一个连贯的、层层嵌套的优化系统，Hope框架为模型设计提供了一种新范式。

这一发现，为弥合当前大模型遗忘特性与人脑持续学习能力之间的差距奠定了坚实基础，或许将有助于破解大模型「灾难性遗忘」的根源性问题。

作者介绍

Peilin Zhong

Peilin Zhong

Peilin Zhong是谷歌纽约（Google NYC）算法与优化团队的一名研究科学家，该团队由Vahab Mirrokni领导。

他的博士毕业于哥伦比亚大学，师从Alex Andoni、Cliff Stein及Mihalis Yannakakis教授，本科毕业于清华大学交叉信息研究院（姚班）。

Peilin Zhong致力于理论计算机科学，尤其侧重于算法的设计与分析。他的具体研究方向有并行与大规模并行算法、Sketching算法、流式算法、图算法、机器学习、高维几何、度量嵌入等。

参考资料：

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Sakana AI造了个数字生命「培养皿」，AI学会打架、结盟、抢地盘

机器之心Pro 2025-11-05 13:58:14
0 跟贴 0
AI六巨头首次同台！纵论四十年AI风云、泡沫之辩与AGI时间表

DeepTech深科技 2025-11-07 18:28:54
7 跟贴 7

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增

量子位 2025-11-08 12:56:50
1 跟贴 1

ICCV涌现自动驾驶新范式：统一世界模型VLA，用训练闭环迈向L4

量子位 2025-11-08 12:32:59
0 跟贴 0
77岁「AI教父」Hinton：AI早有意识！我们打造的智能，可能终结人类文明

新智元 2025-10-11 13:21:31
104 跟贴 104

视频模型假装在推理？MME-CoF新基准评估12个推理维度

新智元 2025-11-07 20:41:52
0 跟贴 0

Token经济时代，AI推理跑不快的瓶颈是“存力”？

钛媒体APP 2025-11-07 12:05:21
0 跟贴 0
开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

机器之心Pro 2025-10-08 15:52:12
0 跟贴 0

在失败中进化？UIUC联合斯坦福、AMD实现智能体「从错误中成长」

机器之心Pro 2025-11-07 13:00:48
0 跟贴 0
杨立昆、李飞飞等提出空间超感知范式，用预测未来代替暴力记忆

DeepTech深科技 2025-11-08 21:19:07
0 跟贴 0
仅0.2B就比GPT-4.1强？加州大学新指标：组合推理基准首次超越人类

新智元 2025-11-08 19:10:54
0 跟贴 0
从技能培养到认知发展，猿编程在大模型时代的教育应答

芥末堆看教育 2025-11-08 13:49:23
0 跟贴 0
AI六巨头罕见同台！李飞飞激辩LeCun，黄仁勋：你们都错了

新智元 2025-11-08 19:10:18
1 跟贴 1
LLM首次达到人类语言专家水平！OpenAI o1拿下拆解句法、识别歧义、推理音律

新智元 2025-11-08 12:34:47
0 跟贴 0
AI100访谈：「Get笔记」方法论｜量子位智库

量子位 2025-11-08 15:01:19
0 跟贴 0
从单卡争锋到集群竞速：中国AI算力生态迈入开放架构新周期

财联社 2025-11-08 15:25:06
0 跟贴 0
模型不用微调，靠上下文就能自我进化？

机器之心Pro 2025-10-11 20:20:59
0 跟贴 0
微信、清华提出CALM，新范式实现「离散词元」到「连续向量」转变

机器之心Pro 2025-11-07 14:26:29
0 跟贴 0
砖墙框架完成开始盖尖子墙，丈母娘看到赞不绝口：这手艺太好了！

老挝媳妇阿珍 2025-11-08 15:31:46
10 跟贴 10
他们在1993年就提出了Scaling Law

量子位 2025-09-03 10:24:41
0 跟贴 0
穿搭和脸有没有关系，戴上头套一目了然，果然建模才是最重要的！

搞笑大蘑菇 2025-11-05 13:09:35
3 跟贴 3
科学家研发大模型新框架，助力解决RISC-V软件生态瓶颈

DeepTech深科技 2025-10-12 19:05:00
1 跟贴 1
台湾19岁男孩考上清华，瞒着全家来北京上学，下飞机就瞬间大哭

姜武 2025-11-06 05:04:42
1 跟贴 1
如果没有这个乞丐，中国就是，如今的巴勒斯坦！

埃蒙家生活 2025-11-06 15:17:13
0 跟贴 0
武契奇称"无法保证不制裁俄罗斯" 俄方回应

参考消息网 2025-11-08 01:23:28
5041 跟贴 5041
翁帆将要离开清华这块伤心地！去英国留学两年

金牌娱乐 2025-11-08 10:10:34
38 跟贴 38
杨振宁先生去世19天后，遗孀翁帆现状曝光，仍住在清华的别墅里

星娱STAR 2025-11-07 15:38:53
1 跟贴 1
国外小哥用钢丝制造独一无二的飞机模型

奇奇趣世界 2025-11-07 09:45:48
3 跟贴 3
哪些省份被纳入“航母命名库”？海军回应

新京报 2025-11-08 16:23:37
825 跟贴 825
翁帆将赴剑桥大学做访问学者

桑未落 2025-11-08 19:40:34
1 跟贴 1
杨振宁离世后，翁帆只吃两荤一素，到底是真节俭还是装样子？

聚焦分享每日热点 2025-11-08 07:38:45
0 跟贴 0
武汉大学老校长刘道玉病逝：武汉大学自己培养出来的校长！

风云观察者 2025-11-07 21:22:55
0 跟贴 0
儿子清华毕业赴美国，国内为什么留不住人才？大爷一语道破

涵奈Kanna 2025-11-08 10:49:55
2 跟贴 2
71岁山西大哥孩子考上清华大学老两口来北京带孙女知识改变命

超铁解说 2025-11-07 12:02:07
0 跟贴 0
“人民咖啡馆”被央媒点名批评后紧急改名，记者实探：店铺已开始整改，店名被遮盖

极目新闻 2025-11-08 13:20:10
706 跟贴 706
重庆北碚区划调整情况通报会举行，区委书记：实现国家战略下的“再生长”

澎湃新闻 2025-11-08 13:32:27
95 跟贴 95
加入美籍的中国天才，曾被误会为叛徒，却为我国培养20名顶尖

海棠家的大肥鱼 2025-11-08 11:18:31
0 跟贴 0
杭州市监部门：对淘宝“霸屏广告”展开调查

潇湘晨报 2025-11-08 10:19:14
1439 跟贴 1439
飞书多维表格也能搞定业务管理？这个新功能好用到爆哭！

秋叶excel 2025-11-04 12:14:13
0 跟贴 0
ASML展示首款先进封装大视场光刻机

财联社 2025-11-07 20:51:05
1221 跟贴 1221

北京飞广州航班起飞40分钟后返航，更换飞机后再出发？国航客服：系航司原因

北京飞广州航班起飞40分钟后返航，更换飞机后再出发？国航客服：系航司原因

极目新闻

2025-11-08 12:23:23

88年，潜伏42年的中共地下党员从台湾秘密返回，6年后被组织发现

88年，潜伏42年的中共地下党员从台湾秘密返回，6年后被组织发现

红色先驱

2025-10-27 18:18:06

预制板房或将“全面拆除”？新规之下，一切都变了，2种方式安置

预制板房或将“全面拆除”？新规之下，一切都变了，2种方式安置

巢客HOME

2025-11-08 05:10:03

废了？25岁国足新星神秘消失，别人比赛他逛商场，恐被邵佳一除名

废了？25岁国足新星神秘消失，别人比赛他逛商场，恐被邵佳一除名

国足风云

2025-11-08 11:19:02

陪睡陪玩根本不够！目无王法、舔手，大花撕破脸，都不装了

陪睡陪玩根本不够！目无王法、舔手，大花撕破脸，都不装了

情感大头说说

2025-11-08 05:53:27

‍希金斯逆转失败！43-40送大礼，马奎尔连赢2局，半决赛追到2-6

‍希金斯逆转失败！43-40送大礼，马奎尔连赢2局，半决赛追到2-6

刘姚尧的文字城堡

2025-11-08 16:51:53

郑丽文去北京行程安排

奇思妙想生活家

2025-11-08 12:49:46

警惕换卡陷阱！人社部戳破：只有两种情况需要换，其余都是套路

警惕换卡陷阱！人社部戳破：只有两种情况需要换，其余都是套路

娱乐的硬糖吖

2025-11-07 15:04:32

某地运营商一句“醍醐灌顶”的宣传口号…

某地运营商一句“醍醐灌顶”的宣传口号…

通信老柳

2025-11-08 08:39:03

谷爱凌，头发变黑，脸变精致，胸围傲人，气质变得更优？

谷爱凌，头发变黑，脸变精致，胸围傲人，气质变得更优？

娱乐领航家

2025-10-27 22:00:06

林志玲老太多了，看着比张钧甯大20岁！脸部浮肿，简直惨不忍睹！

林志玲老太多了，看着比张钧甯大20岁！脸部浮肿，简直惨不忍睹！

乐悠悠娱乐

2025-11-08 09:38:15

封杀四年，49岁赵薇突传消息，因胃癌去世传闻5个月前就真相大白

封杀四年，49岁赵薇突传消息，因胃癌去世传闻5个月前就真相大白

书雁飞史oh

2025-11-06 19:05:31

诺维茨基：独行侠进攻端一无是处，我为独行侠球迷感到难过

诺维茨基：独行侠进攻端一无是处，我为独行侠球迷感到难过

懂球帝

2025-11-08 21:16:07

器官捐献宣传走进小学，家长情绪崩溃，网友晒的名单触目惊心

器官捐献宣传走进小学，家长情绪崩溃，网友晒的名单触目惊心

知晓科普

2025-11-06 16:58:25

长公主也老了，腰也变圆润了

户外钓鱼哥阿勇

2025-11-08 15:03:02

女朋友是体育生是什么体验？网友：第二天下不来床

女朋友是体育生是什么体验？网友：第二天下不来床

带你感受人间冷暖

2025-11-06 00:20:05

普京可能在为战后秩序铺路，强硬派拉夫罗夫或将走入历史

普京可能在为战后秩序铺路，强硬派拉夫罗夫或将走入历史

阿离家居

2025-11-08 01:45:46

中国人集体戒酒

格隆汇

2025-11-07 19:55:07

她是马斯克的白月光：美的无可挑剔，生理性喜欢！上头不是没原因

她是马斯克的白月光：美的无可挑剔，生理性喜欢！上头不是没原因

牛牛叨史

2025-11-06 15:48:40

我过了70岁才发现：拼搏半生换来的房子和存款，却成了一种负担

我过了70岁才发现：拼搏半生换来的房子和存款，却成了一种负担

蝉吟槐蕊

2025-11-07 10:29:57

AI产业主平台领航智能+时代

13819文章数 66238关注度

往期回顾全部

科技要闻

美股“AI八巨头”单周市值损失8000亿美元

头条要闻

豁免到手欧尔班：谢谢您总统先生

头条要闻

豁免到手欧尔班：谢谢您总统先生

体育要闻

马刺绞赢火箭，不靠文班亚马？

娱乐要闻

古二再度放料！秦雯王家卫吐槽出现新人物

财经要闻

小马、文远回港上市但自动驾驶还没赢家

汽车要闻

特斯拉Model Y后驱长续航版上线：28.85 万元

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

旅游

艺术

公开课

军事航空

亲子要闻

韩网热帖：在身体最美丽、最健康的20多岁中期生养孩子是最好的！

旅游要闻

缘起东坡，情定长江：三城共绘“千里婵娟”

艺术要闻

1008米！世界新第一高楼项目，迎来第三家中国公司加入

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

福建舰常驻地为三亚军港

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版