网易首页 > 网易号 > 正文 申请入驻

AI向人脑「黄金标准」又近一步,谷歌发布嵌套学习,赋予大模型持续学习的能力

0
分享至


刚刚,谷歌发布了一项名为“嵌套学习”(Nested Learning)的全新机器学习范式,它将模型视为嵌套优化问题,从而增强对长上下文的处理能力。基于嵌套学习的概念验证模型 Hope 在语言建模方面展现出更优异的性能,谷歌的野心是缓解乃至彻底解决LLM遗忘问题,实现类似人脑的持续学习能力

相关论文《Nested Learning: The Illusion of Deep Learning Architectures》已在NeurIPS 2025上发表


在过去十年,机器学习取得了巨大进步,但LLM的成功之下,一些根本性挑战依然存在,尤其是在持续学习方面。

人脑是持续学习的黄金标准,其通过神经可塑性不断调整自身结构以适应新体验。相比之下,当前LLM的知识局限于其输入窗口的即时上下文或预训练期间学到的静态信息。

最直接的解决方法——用新数据持续更新模型参数,往往会导致“灾难性遗忘”(Catastrophic Forgetting, CF)。传统上,研究人员通过调整架构或优化规则来对抗CF,但长期以来,模型架构与优化算法被视为两个独立部分,阻碍了真正统一高效的学习系统诞生。

谷歌提出的“嵌套学习”则打破了这一壁垒。

什么是嵌套学习?

嵌套学习范式提出,一个复杂的ML模型并非单一的连续过程,而是一个由相互关联、多层次的学习问题组成的系统,这些问题被嵌套或并行地同时优化。

该理论认为,模型架构和训练规则(即优化算法)本质上是同一概念,它们只是处于不同“层级”的优化问题,每个层级都有其自身的信息流(“上下文流”)和更新速率

通过识别这种内在结构,“嵌套学习”为设计更强大的AI提供了一个全新的、此前不可见的维度,允许构建具有更深计算深度的学习组件,从而最终解决灾难性遗忘等问题。

为了阐释这一范式,研究人员以“联想记忆”(associative memory)为例。

他们指出,训练过程本身(尤其是反向传播)就可以被建模为一个联想记忆。模型学习将给定数据点映射到其局部误差值,该误差值衡量了数据点的“意外”程度。同样,像Transformer中的注意力机制等关键架构组件,也可以被形式化为学习序列中Token之间映射关系的简单联想记忆模块。

通过为每个组件定义一个“更新频率”,即权重调整的频率,这些相互关联的优化问题就可以被排列成不同的“层级”。这个有序集合构成了嵌套学习范式的心脏。

研究人员表示,人脑中统一且可复用的结构以及多时间尺度的更新,是人类持续学习的关键。嵌套学习允许模型的每个组件进行多时间尺度更新,并证明了Transformer等知名架构实际上是具有不同更新频率的线性层。

嵌套学习的应用

基于“嵌套学习”的视角,可以直接获得改进现有算法和架构的原则性方法:

1. 深度优化器 (Deep optimizers)

由于嵌套学习将优化器(如动量优化器)也视为联想记忆模块,因此可以将联想记忆的原理应用于优化器设计。研究人员观察到,许多标准优化器依赖于简单的点积相似度,其更新并未考虑不同数据样本之间的关联。通过将优化器的底层目标更改为更标准的损失度量,例如L2回归损失,他们为动量等核心概念推导出了新的公式,使其对不完美数据更具鲁棒性。

2. 连续谱记忆系统 (Continuum memory systems, CMS)

在标准Transformer中,序列模型充当短期记忆,保存即时上下文;前馈网络则充当长期记忆,存储预训练知识。嵌套学习将这一概念扩展为一个“连续谱记忆系统”,其中记忆被视为由一系列模块组成的光谱,每个模块都以特定的不同频率进行更新,为持续学习创造了更丰富、更有效的记忆系统。

Hope:一个自修改的验证架构

作为概念验证,研究团队利用嵌套学习原理设计了一款名为“Hope”的自修改架构。

Hope是Titans架构的一个变体。Titans架构是一种长期记忆模块,能根据记忆的“意外”程度确定其优先级,但它只有两个参数更新层级。

而Hope是一个自修改的循环架构,它能够利用无限层级的上下文学习,并通过CMS模块增强,以扩展到更大的上下文窗口。它本质上可以通过一个自引用过程来优化自身的记忆,从而创造出一个具有无限循环学习层级的架构。

实验结果

在语言建模、长上下文推理、持续学习和知识整合等一系列任务上的实验证明了嵌套学习、连续谱记忆系统和自修改Titans架构的有效性。

通用性能:在一系列公开的语言建模和常识推理任务上,Hope架构展现出比现代循环模型(如Titans、Samba)和标准Transformer更低的困惑度和更高的准确率


长上下文处理:在“大海捞针”(Needle-In-Haystack, NIAH)下游任务中,Hope展示了卓越的记忆管理能力,证明了CMS是处理扩展信息序列的一种更高效的方式,其性能在不同难度的任务上均优于Titans、TTT和Mamba2


结论

谷歌研究团队认为,“嵌套学习”范式代表了对深度学习理解的一次飞跃。通过将架构和优化视为一个统一、连贯的嵌套优化问题系统,它为模型设计解锁了一个新的维度

像Hope这样的模型证明,采用原则性方法统一这些元素,可以带来表达能力更强、功能更强大、效率更高的学习算法。

团队相信,“嵌套学习”为弥合当前LLM的遗忘特性与人脑卓越的持续学习能力之间的鸿沟,提供了一个坚实的基础,并期待研究社区能共同探索这一新维度,以构建下一代自我完善的AI

参考:

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近距离看杨紫,嘴角发黑唇纹很深,发际线是画的,身边梅婷更真实

近距离看杨紫,嘴角发黑唇纹很深,发际线是画的,身边梅婷更真实

查尔菲的笔记
2026-01-28 18:25:05
具俊晔设计的大S雕像完工,白色S型非常漂亮,纪念大S去世一周年

具俊晔设计的大S雕像完工,白色S型非常漂亮,纪念大S去世一周年

阿纂看事
2026-01-28 11:40:11
欧冠有趣局势:胜者晋级16强 结果1-1无缘直通 曼城捡便宜

欧冠有趣局势:胜者晋级16强 结果1-1无缘直通 曼城捡便宜

叶青足球世界
2026-01-29 09:09:31
一场追悼会,戳穿梁小龙在香港的真实地位,原来成龙没说谎!

一场追悼会,戳穿梁小龙在香港的真实地位,原来成龙没说谎!

叨唠
2026-01-27 03:28:08
75岁大将栽了!张又侠晚节不保,怎么回事~

75岁大将栽了!张又侠晚节不保,怎么回事~

叮当当科技
2026-01-29 08:14:45
海归经济学家、哈佛才女“金女神”的往事

海归经济学家、哈佛才女“金女神”的往事

穿透
2026-01-28 17:45:59
尼帕病毒气势汹汹!对我们春节有影响吗?它害怕这5件事,记住了

尼帕病毒气势汹汹!对我们春节有影响吗?它害怕这5件事,记住了

现代小青青慕慕
2026-01-28 09:11:03
40:193,新版联合国再生变,不等普京付费加盟,中方第一个反对

40:193,新版联合国再生变,不等普京付费加盟,中方第一个反对

时时有聊
2026-01-28 19:29:16
“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

妍妍教育日记
2026-01-27 19:58:28
“尼帕病毒”来势汹汹!建议:1不喝、2不碰、1坚持,别马虎了!

“尼帕病毒”来势汹汹!建议:1不喝、2不碰、1坚持,别马虎了!

现代小青青慕慕
2026-01-28 08:54:56
一个拒绝出示身份证的公民,如何让全英国烧掉了自己的证件?

一个拒绝出示身份证的公民,如何让全英国烧掉了自己的证件?

刘晓原
2026-01-27 08:20:13
“女子考编第1因学历重叠政审不合格”最新进展:该岗位已由第2名递补

“女子考编第1因学历重叠政审不合格”最新进展:该岗位已由第2名递补

极目新闻
2026-01-28 11:38:11
如何看待牢A不认同罗翔的叙事逻辑?这个回答破万点赞,但也细思极恐

如何看待牢A不认同罗翔的叙事逻辑?这个回答破万点赞,但也细思极恐

文字里拾光
2026-01-28 20:06:11
43岁香港过气艳星官宣生子!嫁威海农村小伙,出生便是香港户口

43岁香港过气艳星官宣生子!嫁威海农村小伙,出生便是香港户口

裕丰娱间说
2026-01-28 19:54:43
武汉理工毕业生当保安被母校约谈后,被开除了

武汉理工毕业生当保安被母校约谈后,被开除了

半岛晨报
2026-01-28 19:47:13
董明珠卸任仅2天,停职审查、转移资产、办公室恋情,哪个是真的

董明珠卸任仅2天,停职审查、转移资产、办公室恋情,哪个是真的

离离言几许
2026-01-28 20:47:56
解放军上将在京不幸去世:立战功、扳倒谷俊山,其亲弟弟身份曝光

解放军上将在京不幸去世:立战功、扳倒谷俊山,其亲弟弟身份曝光

博士观察
2026-01-27 14:10:13
章泽天父母离婚内幕曝光!家里有五六个工人,还有个同父异母妹妹

章泽天父母离婚内幕曝光!家里有五六个工人,还有个同父异母妹妹

李健政观察
2026-01-28 14:21:41
曝字母哥做好交易换队准备!多队开出重磅报价 雄鹿开始听取方案

曝字母哥做好交易换队准备!多队开出重磅报价 雄鹿开始听取方案

罗说NBA
2026-01-29 00:49:06
金正恩:朝鲜火箭炮遥遥领先,任何国家目前都赶不上

金正恩:朝鲜火箭炮遥遥领先,任何国家目前都赶不上

IN朝鲜
2026-01-28 13:18:28
2026-01-29 09:56:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1030文章数 395关注度
往期回顾 全部

科技要闻

刚刚,特斯拉交出"极寒"财报:利润暴跌61%

头条要闻

美国军事高压引中东强烈担忧 伊朗向邻国发出警告

头条要闻

美国军事高压引中东强烈担忧 伊朗向邻国发出警告

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

黄金价格太高了吗

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

亲子
本地
家居
手机
公开课

亲子要闻

小时候还是挺可爱的

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

跃式别墅 包络石木为生

手机要闻

全球首款2nm芯片智能手机来了!三星Galaxy S26系列获FCC认证

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版