网易首页 > 网易号 > 正文 申请入驻

突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化

0
分享至


机器之心报道

机器之心编辑部

LLM在持续学习方面有了新突破。

近日,谷歌推出了一种全新的用于持续学习的机器学习范式 —— 嵌套学习,模型不再采用静态的训练周期,而是以不同的更新速度在嵌套层中进行学习,即将模型视为一系列嵌套问题的堆叠,使其能够不断学习新技能,同时又不会遗忘旧技能。



而这或将标志着人工智能朝着「真正像大脑一样进化的方向」迈出了一大步。



这种方法一经发布,便引起网友的热议,不少网友表示,「这很令人兴奋,是迈向真正自适应、自我改进智能的重要一步。」



下面来详细了解一下。

在谷歌看来,过去十年,得益于强大的神经网络结构和高效的训练算法,机器学习(ML)领域取得了令人惊叹的进展,可尽管大语言模型(LLMs)取得了巨大成功,一些根本性问题仍然存在,尤其是「持续学习(Continual Learning)」—— 即模型能否在不遗忘旧知识的前提下,不断学习新知识与技能。

在人类学习和自我改进方面,人脑是最完美的范例,它依靠神经可塑性(neuroplasticity)不断调整结构,以适应新的经验、记忆与学习。缺乏这种能力的人,就会像患有前向性遗忘症(anterograde amnesia)一样,只能理解眼前的信息。

当前的 LLM 也面临着类似的限制,「知识」仅限于输入窗口的上下文,或是预训练阶段学到的静态信息。

为了弥补这些缺点,一个直觉式的做法是不断用新数据更新模型参数,但这往往导致所谓的「灾难性遗忘」(Catastrophic Forgetting,CF)—— 模型学了新任务,却失去了旧任务的能力。过去的研究尝试通过改进网络结构或优化算法来缓解这一问题。

然而,长期以来,大家总是把「模型结构」与「优化算法」当作两件事来看待,这种割裂的视角阻碍了统一高效学习系统的建立。

谷歌发表于 NeurIPS 2025 的论文《Nested Learning:深度学习架构的幻象》 中,提出了一个新的学习框架 —— 嵌套学习(Nested Learning),用以弥合架构与优化之间的鸿沟。其核心思想是:一个机器学习模型并非单一的学习过程,而是由多个相互关联、层次分明的优化子问题组成。

谷歌认为模型架构与优化算法本质上是同一类事物;它们只是不同层级的「优化层」(optimization levels),各自拥有独立的信息流与更新频率。

通过识别这种内在结构,嵌套学习为 AI 设计揭示了一个此前被忽视的维度,让我们能在不同时间尺度上构建更具「深度」的学习组件,从而解决灾难性遗忘等问题。

基于嵌套学习原理,谷歌设计了一个自我修改型架构 ——Hope,实验表明:Hope 在语言建模任务中表现优异,并且在长上下文记忆管理方面超越了当前最先进的模型。



  • 论文标题:Nested Learning: The Illusion of Deep Learning Architectures
  • 论文地址:https://abehrouz.github.io/files/NL.pdf

嵌套学习范式(The Nested Learning Paradigm)

嵌套学习揭示出,复杂的机器学习模型其实是一组相互嵌套或并行运行的优化问题,每个子问题都有自己的上下文流(context flow),也就是其试图从中学习的特定信息集。

也就是说,传统深度学习方法其实是在「压缩」这些内部信息流,而嵌套学习为我们提供了新的设计维度,从而可以构建具有更深计算深度的学习组件。

以联想记忆(Associative Memory)为例,联想记忆是指根据一个事物联想到另一个事物的能力,像是大家看到一张脸就想起一个名字。基于此,谷歌发现:训练过程本身,尤其是反向传播(backpropagation)过程,可以被建模为一种联想记忆机制,该模型学习将每个数据点映射到其局部误差(local error)上,以衡量该数据点的「意外程度」。

类似地,就像 Miras 之类研究所指出的那样,Transformer 的注意力机制也可以形式化为联想记忆模块,用于学习序列中 token 之间的映射关系。



在人脑中,统一的结构与可重复使用的模块,以及多时间尺度更新(multi-time–scale update),是人类持续学习的关键。而嵌套学习使得模型的每个组件都能以不同的频率进行更新,这表明,常见架构(如 Transformer、记忆模块)其实都是具有不同更新频率的线性层。

通过定义更新频率(update frequency rate),即每个组件的权重被调整的频次,谷歌可以将这些优化问题组织成有序的「层级」,这便构成了嵌套学习范式的核心。

嵌套学习的实际应用

嵌套学习视角提供了改进现有算法和架构的原则性方法:

  • 深度优化器:

嵌套学习将优化器(如动量优化器)视为联想记忆模块,从而可以将联想记忆的原理应用于它们,观察到,许多标准优化器依赖简单的点积相似度(dot-product similarity),而这并未考虑不同数据样本之间的复杂关系。

通过将优化目标改为更标准的损失指标,如 L2 回归损失(L2 regression loss),可以推导出新的动量公式,使优化器对噪声数据更具鲁棒性。

  • 连续体记忆系统(Continuum Memory Systems):

在传统 Transformer 中:序列模型充当短期记忆,保存即时上下文;前馈神经网络则充当长期记忆,存储预训练知识。嵌套学习范式将这一概念扩展到一个称之为「连续体记忆系统」(CMS)的结构中,其中记忆被视为一系列模块,每个模块以不同的特定频率更新。

这为持续学习创建了一个更加丰富、高效的记忆系统。

Hope:具备连续记忆的自我修改架构

作为概念验证,谷歌基于嵌套学习原理设计了 Hope 架构,它是 Titans 架构的一个变体。

Titans 架构是基于「惊讶度」优先级的长期记忆系统,但它仅有两层参数更新机制,属于一阶上下文学习。

Hope 则是一个自我修改的循环架构(self-modifying recurrent architecture),能够执行无限层次的上下文学习,并通过 CMS 模块扩展上下文窗口。它能够通过自我引用过程优化自身记忆,形成具有无限循环学习层次的结构。

实验与结果

谷歌评估了嵌套学习框架下:新型深度优化器的有效性,以及 Hope 在语言建模、长上下文推理、持续学习与知识整合任务上的表现。

结果显示:

  • Hope 在多项语言建模与常识推理任务上表现出更低的困惑度(perplexity)与更高的准确率;



不同架构在语言建模任务(困惑度,左)和常识推理任务(准确率,右)上的性能对比:包括 Hope、Titans、Samba 以及基线 Transformer。

  • 在长上下文大海捞针任务( NIAH)中,Hope 展现出显著更优的记忆管理能力。这证明 CMS 提供了一种更高效、更有效的方法来处理扩展的信息序列。



不同架构在长上下文任务中、不同难度等级下的性能对比:包括 Hope、Titans、TTT 和 Mamba2。其中,NIAH-PK、NIAH-H 和 NIAH-W 分别表示大海捞针任务的三种类型:通行密钥、数字和单词。

总的来看,嵌套学习代表了谷歌对深度学习理解迈进了新阶段,通过将架构与优化视为统一的、层次化的优化系统,打开了一个全新的设计维度。由此产生的模型(如 Hope)则表明,这种系统性整合方法能够带来更强的表达能力、更高的效率与持续学习能力。

或许可以说,嵌套学习为弥合当前 LLM「易遗忘」的局限与人脑卓越的持续学习能力之间的差距奠定了坚实的理论与实践基础,为构建下一代可自我改进的人工智能(self-improving AI)提供了新的可能性。

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

https://x.com/behrouz_ali/status/1986875258935066946

https://x.com/JeffDean/status/1986938111839129858

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中央明确15个副省级市,江苏1个,广东2个,安徽、河南一个都没有

中央明确15个副省级市,江苏1个,广东2个,安徽、河南一个都没有

娱乐洞察点点
2025-10-29 13:56:14
又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

又暴雷!48小时卷走129亿,200万会员血本无归,“传销巨头”凉了

阿器谈史
2025-11-12 17:24:46
正负值+17!轰13+3+4,谢泼德没让我失望,乌度卡赛后说出心里话

正负值+17!轰13+3+4,谢泼德没让我失望,乌度卡赛后说出心里话

巴叔GO聊体育
2025-11-15 12:41:25
张家界荒野求生最后一名女选手“冷美人”退赛,还剩14名男选手,赛事方:她呕吐晕倒被送医

张家界荒野求生最后一名女选手“冷美人”退赛,还剩14名男选手,赛事方:她呕吐晕倒被送医

极目新闻
2025-11-14 14:44:15
《最佳拍档》光头仔移居珠海生活无忧 豪夸买2000呎豪宅无难度

《最佳拍档》光头仔移居珠海生活无忧 豪夸买2000呎豪宅无难度

娱乐留声机彡
2025-11-13 18:05:32
联合国秘书长将改选,中美杠上了,中方不排除连续否决美支持人选

联合国秘书长将改选,中美杠上了,中方不排除连续否决美支持人选

乐天闲聊
2025-11-15 11:11:53
iPhone17ProMax突然被擦掉色,引发网友争议

iPhone17ProMax突然被擦掉色,引发网友争议

搞机小帝
2025-11-16 00:03:39
ATP总决赛:辛纳0-2澳洲选手,遭遇13连败,决赛再战!

ATP总决赛:辛纳0-2澳洲选手,遭遇13连败,决赛再战!

阿芑历史
2025-11-16 00:38:31
原来这才是监狱狱警的真实工作,网友:心酸到反被犯人安慰!

原来这才是监狱狱警的真实工作,网友:心酸到反被犯人安慰!

夜深爱杂谈
2025-11-13 23:49:07
8+13+4!正式达成首秀!太阳十号秀点评杨瀚森

8+13+4!正式达成首秀!太阳十号秀点评杨瀚森

篮球实战宝典
2025-11-15 14:14:37
钱再多有什么用?57岁李克勤家丑曝光!一个败家子毁了全家

钱再多有什么用?57岁李克勤家丑曝光!一个败家子毁了全家

林轻吟
2025-11-14 09:20:39
曝王思聪已与懒懒分手成功,懒懒变卖手中奢侈品,价格贵的离谱

曝王思聪已与懒懒分手成功,懒懒变卖手中奢侈品,价格贵的离谱

千言娱乐记
2025-11-15 19:42:22
凶手另有其人?山西狗咬人案律师甩出关键证据,死者妹妹惨遭打脸

凶手另有其人?山西狗咬人案律师甩出关键证据,死者妹妹惨遭打脸

刚哥说法365
2025-11-15 01:09:15
孙思邈:睡醒后若出现这3种反常现象,说明阳气足,是长寿的征兆

孙思邈:睡醒后若出现这3种反常现象,说明阳气足,是长寿的征兆

古怪奇谈录
2025-11-10 17:05:00
突发特讯!多名日本国会议员要求高市撤回涉台错误言论,高市早苗众怒难平,引发高度关注

突发特讯!多名日本国会议员要求高市撤回涉台错误言论,高市早苗众怒难平,引发高度关注

在新加坡生活
2025-11-16 00:29:22
6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

6国外援候命,高市通知全球,对华打响第二枪,解放军被逼上硬菜

乐天闲聊
2025-11-14 11:42:56
阿斯麦向美国承诺:只要解放军攻台,立刻远程瘫痪台积电光刻机

阿斯麦向美国承诺:只要解放军攻台,立刻远程瘫痪台积电光刻机

文史旺旺旺
2025-10-27 19:58:04
悲催!嘉兴一母亲哭诉:25岁女儿留学而归,执意嫁给大20岁的男人

悲催!嘉兴一母亲哭诉:25岁女儿留学而归,执意嫁给大20岁的男人

火山诗话
2025-11-13 06:47:04
被告律师称另有隐情:郭某或遭自己人误伤丧命,网友笑喷

被告律师称另有隐情:郭某或遭自己人误伤丧命,网友笑喷

热点菌本君
2025-11-14 14:04:47
拜合拉木双响,中国男足2-0韩国!最新排名:4队同积3分,全乱了

拜合拉木双响,中国男足2-0韩国!最新排名:4队同积3分,全乱了

侃球熊弟
2025-11-15 21:16:54
2025-11-16 01:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

上百名日本民众围堵首相官邸 大喊:高市早苗下台

头条要闻

上百名日本民众围堵首相官邸 大喊:高市早苗下台

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

数码
房产
时尚
教育
军事航空

数码要闻

华为Mate 80全系支持3D人脸识别,同期还有高端“二合一平板电脑”

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

有品味的中年女人,穿衣都有4个共同点,看看你掌握了几个

教育要闻

天塌了啊:英国大学又开始搞大裁员了!

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版