网易首页 > 网易号 > 正文 申请入驻

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

0
分享至


机器之心报道

机器之心编辑部

LLM在持续学习方面有了新突破。

近日,谷歌推出了一种全新的用于持续学习的机器学习范式 —— 嵌套学习,模型不再采用静态的训练周期,而是以不同的更新速度在嵌套层中进行学习,即将模型视为一系列嵌套问题的堆叠,使其能够不断学习新技能,同时又不会遗忘旧技能。



而这或将标志着人工智能朝着「真正像大脑一样进化的方向」迈出了一大步。



这种方法一经发布,便引起网友的热议,不少网友表示,「这很令人兴奋,是迈向真正自适应、自我改进智能的重要一步。」



下面来详细了解一下。

在谷歌看来,过去十年,得益于强大的神经网络结构和高效的训练算法,机器学习(ML)领域取得了令人惊叹的进展,可尽管大语言模型(LLMs)取得了巨大成功,一些根本性问题仍然存在,尤其是「持续学习(Continual Learning)」—— 即模型能否在不遗忘旧知识的前提下,不断学习新知识与技能。

在人类学习和自我改进方面,人脑是最完美的范例,它依靠神经可塑性(neuroplasticity)不断调整结构,以适应新的经验、记忆与学习。缺乏这种能力的人,就会像患有前向性遗忘症(anterograde amnesia)一样,只能理解眼前的信息。

当前的 LLM 也面临着类似的限制,「知识」仅限于输入窗口的上下文,或是预训练阶段学到的静态信息。

为了弥补这些缺点,一个直觉式的做法是不断用新数据更新模型参数,但这往往导致所谓的「灾难性遗忘」(Catastrophic Forgetting,CF)—— 模型学了新任务,却失去了旧任务的能力。过去的研究尝试通过改进网络结构或优化算法来缓解这一问题。

然而,长期以来,大家总是把「模型结构」与「优化算法」当作两件事来看待,这种割裂的视角阻碍了统一高效学习系统的建立。

谷歌发表于 NeurIPS 2025 的论文《Nested Learning:深度学习架构的幻象》 中,提出了一个新的学习框架 —— 嵌套学习(Nested Learning),用以弥合架构与优化之间的鸿沟。其核心思想是:一个机器学习模型并非单一的学习过程,而是由多个相互关联、层次分明的优化子问题组成。

谷歌认为模型架构与优化算法本质上是同一类事物;它们只是不同层级的「优化层」(optimization levels),各自拥有独立的信息流与更新频率。

通过识别这种内在结构,嵌套学习为 AI 设计揭示了一个此前被忽视的维度,让我们能在不同时间尺度上构建更具「深度」的学习组件,从而解决灾难性遗忘等问题。

基于嵌套学习原理,谷歌设计了一个自我修改型架构 ——Hope,实验表明:Hope 在语言建模任务中表现优异,并且在长上下文记忆管理方面超越了当前最先进的模型。



  • 论文标题:Nested Learning: The Illusion of Deep Learning Architectures
  • 论文地址:https://abehrouz.github.io/files/NL.pdf

嵌套学习范式(The Nested Learning Paradigm)

嵌套学习揭示出,复杂的机器学习模型其实是一组相互嵌套或并行运行的优化问题,每个子问题都有自己的上下文流(context flow),也就是其试图从中学习的特定信息集。

也就是说,传统深度学习方法其实是在「压缩」这些内部信息流,而嵌套学习为我们提供了新的设计维度,从而可以构建具有更深计算深度的学习组件。

以联想记忆(Associative Memory)为例,联想记忆是指根据一个事物联想到另一个事物的能力,像是大家看到一张脸就想起一个名字。基于此,谷歌发现:训练过程本身,尤其是反向传播(backpropagation)过程,可以被建模为一种联想记忆机制,该模型学习将每个数据点映射到其局部误差(local error)上,以衡量该数据点的「意外程度」。

类似地,就像 Miras 之类研究所指出的那样,Transformer 的注意力机制也可以形式化为联想记忆模块,用于学习序列中 token 之间的映射关系。



在人脑中,统一的结构与可重复使用的模块,以及多时间尺度更新(multi-time–scale update),是人类持续学习的关键。而嵌套学习使得模型的每个组件都能以不同的频率进行更新,这表明,常见架构(如 Transformer、记忆模块)其实都是具有不同更新频率的线性层。

通过定义更新频率(update frequency rate),即每个组件的权重被调整的频次,谷歌可以将这些优化问题组织成有序的「层级」,这便构成了嵌套学习范式的核心。

嵌套学习的实际应用

嵌套学习视角提供了改进现有算法和架构的原则性方法:

  • 深度优化器:

嵌套学习将优化器(如动量优化器)视为联想记忆模块,从而可以将联想记忆的原理应用于它们,观察到,许多标准优化器依赖简单的点积相似度(dot-product similarity),而这并未考虑不同数据样本之间的复杂关系。

通过将优化目标改为更标准的损失指标,如 L2 回归损失(L2 regression loss),可以推导出新的动量公式,使优化器对噪声数据更具鲁棒性。

  • 连续体记忆系统(Continuum Memory Systems):

在传统 Transformer 中:序列模型充当短期记忆,保存即时上下文;前馈神经网络则充当长期记忆,存储预训练知识。嵌套学习范式将这一概念扩展到一个称之为「连续体记忆系统」(CMS)的结构中,其中记忆被视为一系列模块,每个模块以不同的特定频率更新。

这为持续学习创建了一个更加丰富、高效的记忆系统。

Hope:具备连续记忆的自我修改架构

作为概念验证,谷歌基于嵌套学习原理设计了 Hope 架构,它是 Titans 架构的一个变体。

Titans 架构是基于「惊讶度」优先级的长期记忆系统,但它仅有两层参数更新机制,属于一阶上下文学习。

Hope 则是一个自我修改的循环架构(self-modifying recurrent architecture),能够执行无限层次的上下文学习,并通过 CMS 模块扩展上下文窗口。它能够通过自我引用过程优化自身记忆,形成具有无限循环学习层次的结构。

实验与结果

谷歌评估了嵌套学习框架下:新型深度优化器的有效性,以及 Hope 在语言建模、长上下文推理、持续学习与知识整合任务上的表现。

结果显示:

  • Hope 在多项语言建模与常识推理任务上表现出更低的困惑度(perplexity)与更高的准确率;



不同架构在语言建模任务(困惑度,左)和常识推理任务(准确率,右)上的性能对比:包括 Hope、Titans、Samba 以及基线 Transformer。

  • 在长上下文大海捞针任务( NIAH)中,Hope 展现出显著更优的记忆管理能力。这证明 CMS 提供了一种更高效、更有效的方法来处理扩展的信息序列。



不同架构在长上下文任务中、不同难度等级下的性能对比:包括 Hope、Titans、TTT 和 Mamba2。其中,NIAH-PK、NIAH-H 和 NIAH-W 分别表示大海捞针任务的三种类型:通行密钥、数字和单词。

总的来看,嵌套学习代表了谷歌对深度学习理解迈进了新阶段,通过将架构与优化视为统一的、层次化的优化系统,打开了一个全新的设计维度。由此产生的模型(如 Hope)则表明,这种系统性整合方法能够带来更强的表达能力、更高的效率与持续学习能力。

或许可以说,嵌套学习为弥合当前 LLM「易遗忘」的局限与人脑卓越的持续学习能力之间的差距奠定了坚实的理论与实践基础,为构建下一代可自我改进的人工智能(self-improving AI)提供了新的可能性。

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://x.com/behrouz_ali/status/1986875258935066946

https://x.com/JeffDean/status/1986938111839129858

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高金素梅被请回无交保,说明北检无足够证据!

高金素梅被请回无交保,说明北检无足够证据!

达文西看世界
2026-02-12 17:27:52
出大事了,美国后院起火,18州联手“逼宫”,特朗普遭致命打击

出大事了,美国后院起火,18州联手“逼宫”,特朗普遭致命打击

小小科普员
2026-02-12 15:12:41
上海男篮夺冠后续:刘铮和古德温备战世预赛 四外援返美休假

上海男篮夺冠后续:刘铮和古德温备战世预赛 四外援返美休假

狼叔评论
2026-02-12 23:10:04
广东又一条高速公路开工!全长89.9公里,双向六车道

广东又一条高速公路开工!全长89.9公里,双向六车道

交建动态
2026-02-11 20:54:38
马杜罗儿子透露,美军电子战瘫痪了加拉加斯,但父亲的华为手机还能打通

马杜罗儿子透露,美军电子战瘫痪了加拉加斯,但父亲的华为手机还能打通

大白聊IT
2026-02-09 00:03:01
当黑人选民看到,奥巴马越老越白的时候,产生了强烈的被背叛感!

当黑人选民看到,奥巴马越老越白的时候,产生了强烈的被背叛感!

看尽人间百态
2025-12-24 01:28:42
钱多有什么用?49岁舒淇自曝多年无子真相,不是丁克,是生不出来

钱多有什么用?49岁舒淇自曝多年无子真相,不是丁克,是生不出来

情感大头说说
2026-02-12 20:13:02
军委副主席,过去四十年来人数上的变化

军委副主席,过去四十年来人数上的变化

深度财线
2025-10-21 13:06:54
莫迪还没说不买,普京反手超级加倍:俄油骨折价,全仓发往中国!

莫迪还没说不买,普京反手超级加倍:俄油骨折价,全仓发往中国!

潇湘烟雨水
2026-02-13 01:12:46
居民楼麻将馆要凉了?2026禁令还没到,整治已经悄无声息抄后路

居民楼麻将馆要凉了?2026禁令还没到,整治已经悄无声息抄后路

鲸探所长
2026-02-09 16:32:26
李婷!你在无锡 彻底火了!

李婷!你在无锡 彻底火了!

无锡eTV全媒体
2026-02-12 13:49:59
茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

阿纂看事
2025-10-13 15:36:03
普京是对的!乌还在幻想,美、欧已不愿再投资,俄发起斩首行动

普京是对的!乌还在幻想,美、欧已不愿再投资,俄发起斩首行动

趴在桌子上属羊
2026-02-11 21:36:03
垃圾不够烧?真相可能打脸了

垃圾不够烧?真相可能打脸了

大道微言
2026-02-10 19:40:32
超级工程,我国一旦全面完成,中国军队将处于世界顶峰

超级工程,我国一旦全面完成,中国军队将处于世界顶峰

米师傅安装
2026-02-13 01:38:34
月球城市:SpaceX为何放弃火星转向月球

月球城市:SpaceX为何放弃火星转向月球

链闻科技
2026-02-11 17:51:48
一口气看完左派、右派、左倾、右倾、左翼、右翼有什么区别?

一口气看完左派、右派、左倾、右倾、左翼、右翼有什么区别?

晓张说
2026-02-12 14:13:44
未来三周财运爆棚!这3个生肖被好运砸中,钱包鼓到变形

未来三周财运爆棚!这3个生肖被好运砸中,钱包鼓到变形

毅谈生肖
2026-02-11 11:17:22
SU7 Ultra崩了!雷军这次玩砸了

SU7 Ultra崩了!雷军这次玩砸了

李东阳朋友圈
2026-02-11 19:11:52
值了!中超80万欧引进前欧冠天才后卫:曾被英超意甲豪门哄抢

值了!中超80万欧引进前欧冠天才后卫:曾被英超意甲豪门哄抢

邱泽云
2026-02-12 18:41:44
2026-02-13 03:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12297文章数 142564关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

旅游
时尚
亲子
公开课
军事航空

旅游要闻

五大顶流萌团C位出道 上海全新文旅IP“海上萌主”春节亮相

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

亲子要闻

孩子最渴望听到父母说的五句话

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版