网易首页 > 网易号 > 正文 申请入驻

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

0
分享至


机器之心报道

机器之心编辑部

LLM在持续学习方面有了新突破。

近日,谷歌推出了一种全新的用于持续学习的机器学习范式 —— 嵌套学习,模型不再采用静态的训练周期,而是以不同的更新速度在嵌套层中进行学习,即将模型视为一系列嵌套问题的堆叠,使其能够不断学习新技能,同时又不会遗忘旧技能。



而这或将标志着人工智能朝着「真正像大脑一样进化的方向」迈出了一大步。



这种方法一经发布,便引起网友的热议,不少网友表示,「这很令人兴奋,是迈向真正自适应、自我改进智能的重要一步。」



下面来详细了解一下。

在谷歌看来,过去十年,得益于强大的神经网络结构和高效的训练算法,机器学习(ML)领域取得了令人惊叹的进展,可尽管大语言模型(LLMs)取得了巨大成功,一些根本性问题仍然存在,尤其是「持续学习(Continual Learning)」—— 即模型能否在不遗忘旧知识的前提下,不断学习新知识与技能。

在人类学习和自我改进方面,人脑是最完美的范例,它依靠神经可塑性(neuroplasticity)不断调整结构,以适应新的经验、记忆与学习。缺乏这种能力的人,就会像患有前向性遗忘症(anterograde amnesia)一样,只能理解眼前的信息。

当前的 LLM 也面临着类似的限制,「知识」仅限于输入窗口的上下文,或是预训练阶段学到的静态信息。

为了弥补这些缺点,一个直觉式的做法是不断用新数据更新模型参数,但这往往导致所谓的「灾难性遗忘」(Catastrophic Forgetting,CF)—— 模型学了新任务,却失去了旧任务的能力。过去的研究尝试通过改进网络结构或优化算法来缓解这一问题。

然而,长期以来,大家总是把「模型结构」与「优化算法」当作两件事来看待,这种割裂的视角阻碍了统一高效学习系统的建立。

谷歌发表于 NeurIPS 2025 的论文《Nested Learning:深度学习架构的幻象》 中,提出了一个新的学习框架 —— 嵌套学习(Nested Learning),用以弥合架构与优化之间的鸿沟。其核心思想是:一个机器学习模型并非单一的学习过程,而是由多个相互关联、层次分明的优化子问题组成。

谷歌认为模型架构与优化算法本质上是同一类事物;它们只是不同层级的「优化层」(optimization levels),各自拥有独立的信息流与更新频率。

通过识别这种内在结构,嵌套学习为 AI 设计揭示了一个此前被忽视的维度,让我们能在不同时间尺度上构建更具「深度」的学习组件,从而解决灾难性遗忘等问题。

基于嵌套学习原理,谷歌设计了一个自我修改型架构 ——Hope,实验表明:Hope 在语言建模任务中表现优异,并且在长上下文记忆管理方面超越了当前最先进的模型。



  • 论文标题:Nested Learning: The Illusion of Deep Learning Architectures
  • 论文地址:https://abehrouz.github.io/files/NL.pdf

嵌套学习范式(The Nested Learning Paradigm)

嵌套学习揭示出,复杂的机器学习模型其实是一组相互嵌套或并行运行的优化问题,每个子问题都有自己的上下文流(context flow),也就是其试图从中学习的特定信息集。

也就是说,传统深度学习方法其实是在「压缩」这些内部信息流,而嵌套学习为我们提供了新的设计维度,从而可以构建具有更深计算深度的学习组件。

以联想记忆(Associative Memory)为例,联想记忆是指根据一个事物联想到另一个事物的能力,像是大家看到一张脸就想起一个名字。基于此,谷歌发现:训练过程本身,尤其是反向传播(backpropagation)过程,可以被建模为一种联想记忆机制,该模型学习将每个数据点映射到其局部误差(local error)上,以衡量该数据点的「意外程度」。

类似地,就像 Miras 之类研究所指出的那样,Transformer 的注意力机制也可以形式化为联想记忆模块,用于学习序列中 token 之间的映射关系。



在人脑中,统一的结构与可重复使用的模块,以及多时间尺度更新(multi-time–scale update),是人类持续学习的关键。而嵌套学习使得模型的每个组件都能以不同的频率进行更新,这表明,常见架构(如 Transformer、记忆模块)其实都是具有不同更新频率的线性层。

通过定义更新频率(update frequency rate),即每个组件的权重被调整的频次,谷歌可以将这些优化问题组织成有序的「层级」,这便构成了嵌套学习范式的核心。

嵌套学习的实际应用

嵌套学习视角提供了改进现有算法和架构的原则性方法:

  • 深度优化器:

嵌套学习将优化器(如动量优化器)视为联想记忆模块,从而可以将联想记忆的原理应用于它们,观察到,许多标准优化器依赖简单的点积相似度(dot-product similarity),而这并未考虑不同数据样本之间的复杂关系。

通过将优化目标改为更标准的损失指标,如 L2 回归损失(L2 regression loss),可以推导出新的动量公式,使优化器对噪声数据更具鲁棒性。

  • 连续体记忆系统(Continuum Memory Systems):

在传统 Transformer 中:序列模型充当短期记忆,保存即时上下文;前馈神经网络则充当长期记忆,存储预训练知识。嵌套学习范式将这一概念扩展到一个称之为「连续体记忆系统」(CMS)的结构中,其中记忆被视为一系列模块,每个模块以不同的特定频率更新。

这为持续学习创建了一个更加丰富、高效的记忆系统。

Hope:具备连续记忆的自我修改架构

作为概念验证,谷歌基于嵌套学习原理设计了 Hope 架构,它是 Titans 架构的一个变体。

Titans 架构是基于「惊讶度」优先级的长期记忆系统,但它仅有两层参数更新机制,属于一阶上下文学习。

Hope 则是一个自我修改的循环架构(self-modifying recurrent architecture),能够执行无限层次的上下文学习,并通过 CMS 模块扩展上下文窗口。它能够通过自我引用过程优化自身记忆,形成具有无限循环学习层次的结构。

实验与结果

谷歌评估了嵌套学习框架下:新型深度优化器的有效性,以及 Hope 在语言建模、长上下文推理、持续学习与知识整合任务上的表现。

结果显示:

  • Hope 在多项语言建模与常识推理任务上表现出更低的困惑度(perplexity)与更高的准确率;



不同架构在语言建模任务(困惑度,左)和常识推理任务(准确率,右)上的性能对比:包括 Hope、Titans、Samba 以及基线 Transformer。

  • 在长上下文大海捞针任务( NIAH)中,Hope 展现出显著更优的记忆管理能力。这证明 CMS 提供了一种更高效、更有效的方法来处理扩展的信息序列。



不同架构在长上下文任务中、不同难度等级下的性能对比:包括 Hope、Titans、TTT 和 Mamba2。其中,NIAH-PK、NIAH-H 和 NIAH-W 分别表示大海捞针任务的三种类型:通行密钥、数字和单词。

总的来看,嵌套学习代表了谷歌对深度学习理解迈进了新阶段,通过将架构与优化视为统一的、层次化的优化系统,打开了一个全新的设计维度。由此产生的模型(如 Hope)则表明,这种系统性整合方法能够带来更强的表达能力、更高的效率与持续学习能力。

或许可以说,嵌套学习为弥合当前 LLM「易遗忘」的局限与人脑卓越的持续学习能力之间的差距奠定了坚实的理论与实践基础,为构建下一代可自我改进的人工智能(self-improving AI)提供了新的可能性。

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://x.com/behrouz_ali/status/1986875258935066946

https://x.com/JeffDean/status/1986938111839129858

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骨干团集体叛逃,惨遭背刺的马斯克,还敢用中国人对付中国人吗?

骨干团集体叛逃,惨遭背刺的马斯克,还敢用中国人对付中国人吗?

晓囝爱八卦
2025-11-18 19:24:10
突发两大利空!全球股市大跳水,A股超4100家下跌,AI泡沫带崩全球?

突发两大利空!全球股市大跳水,A股超4100家下跌,AI泡沫带崩全球?

看财经show
2025-11-18 17:09:18
女足莱曼分享家中被盗后一片狼藉:下次请顺便帮我打扫一下

女足莱曼分享家中被盗后一片狼藉:下次请顺便帮我打扫一下

懂球帝
2025-11-19 00:46:50
万人痛批咏梅落选“金鸡奖”,陈道明当年的话,终于有人信了

万人痛批咏梅落选“金鸡奖”,陈道明当年的话,终于有人信了

八卦南风
2025-11-18 11:15:09
U22中国0-0乌兹别克斯坦U22无缘冠军,汪士钦报复推人染红

U22中国0-0乌兹别克斯坦U22无缘冠军,汪士钦报复推人染红

懂球帝
2025-11-18 21:33:16
帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

帝王蟹不是螃蟹?泛滥的帝王蟹,为何说每吃一只都是在拯救世界?

狸猫之一的动物圈
2025-10-13 10:09:58
东部战区重磅发布!

东部战区重磅发布!

新京报
2025-11-18 16:23:55
外媒:特斯拉加速淘汰所有中国产零部件,转而生产美国制造的汽车

外媒:特斯拉加速淘汰所有中国产零部件,转而生产美国制造的汽车

寒士之言本尊
2025-11-17 14:37:37
大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

大批中国人依然去日本旅游,日媒追问时,他们的回答太扎心了

寒士之言本尊
2025-11-18 23:53:07
上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

我心纵横天地间
2025-11-18 19:01:13
304万亿,我国的货币发行总量已经是世界第一了。

304万亿,我国的货币发行总量已经是世界第一了。

流苏晚晴
2025-11-18 20:20:14
一百年里只见过4次!2025年男子在上海发现1只,一天约200人围观

一百年里只见过4次!2025年男子在上海发现1只,一天约200人围观

万象硬核本尊
2025-11-17 19:37:13
谢谢陈思诚,贡献出25年年底内娱最大的笑话!

谢谢陈思诚,贡献出25年年底内娱最大的笑话!

娱乐圈笔娱君
2025-11-18 18:12:15
大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

奇思妙想草叶君
2025-11-18 01:27:22
高市早苗一手炮制日本外交天崩开局:同时得罪四国,制造罕见被动局面

高市早苗一手炮制日本外交天崩开局:同时得罪四国,制造罕见被动局面

上观新闻
2025-11-18 00:28:13
省会城市政府主要领导密集调整

省会城市政府主要领导密集调整

鲁中晨报
2025-11-18 22:35:05
谁给张碧晨出的馊主意?这么有想象力衣服,太天马行空了!

谁给张碧晨出的馊主意?这么有想象力衣服,太天马行空了!

小椰的奶奶
2025-11-19 00:42:03
后程发力摘金!全运会男子400米决赛:全国纪录保持者刘凯夺冠

后程发力摘金!全运会男子400米决赛:全国纪录保持者刘凯夺冠

全景体育V
2025-11-18 20:23:12
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
别被新闻给误导了,这才是高市早苗的真相

别被新闻给误导了,这才是高市早苗的真相

少年一白
2025-11-18 12:03:56
2025-11-19 04:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11747文章数 142507关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

游戏
健康
家居
公开课
军事航空

魔兽世界:时光服正式开服,排队时间增加,联盟成香饽饽!

警惕超声报告这六大"坑"

家居要闻

彰显奢华 意式经典风格

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版