网易首页 > 网易号 > 正文 申请入驻

AI向人脑「黄金标准」又近一步,谷歌发布嵌套学习,赋予大模型持续学习的能力

0
分享至


来源:AI寒武纪

刚刚,谷歌发布了一项名为“嵌套学习”(Nested Learning)的全新机器学习范式,它将模型视为嵌套优化问题,从而增强对长上下文的处理能力。基于嵌套学习的概念验证模型 Hope 在语言建模方面展现出更优异的性能,谷歌的野心是缓解乃至彻底解决LLM遗忘问题,实现类似人脑的持续学习能力

相关论文《Nested Learning: The Illusion of Deep Learning Architectures》已在NeurIPS 2025上发表


在过去十年,机器学习取得了巨大进步,但LLM的成功之下,一些根本性挑战依然存在,尤其是在持续学习方面。

人脑是持续学习的黄金标准,其通过神经可塑性不断调整自身结构以适应新体验。相比之下,当前LLM的知识局限于其输入窗口的即时上下文或预训练期间学到的静态信息。

最直接的解决方法——用新数据持续更新模型参数,往往会导致“灾难性遗忘”(Catastrophic Forgetting, CF)。传统上,研究人员通过调整架构或优化规则来对抗CF,但长期以来,模型架构与优化算法被视为两个独立部分,阻碍了真正统一高效的学习系统诞生。

谷歌提出的“嵌套学习”则打破了这一壁垒。

什么是嵌套学习?

嵌套学习范式提出,一个复杂的ML模型并非单一的连续过程,而是一个由相互关联、多层次的学习问题组成的系统,这些问题被嵌套或并行地同时优化。

该理论认为,模型架构和训练规则(即优化算法)本质上是同一概念,它们只是处于不同“层级”的优化问题,每个层级都有其自身的信息流(“上下文流”)和更新速率

通过识别这种内在结构,“嵌套学习”为设计更强大的AI提供了一个全新的、此前不可见的维度,允许构建具有更深计算深度的学习组件,从而最终解决灾难性遗忘等问题。

为了阐释这一范式,研究人员以“联想记忆”(associative memory)为例。

他们指出,训练过程本身(尤其是反向传播)就可以被建模为一个联想记忆。模型学习将给定数据点映射到其局部误差值,该误差值衡量了数据点的“意外”程度。同样,像Transformer中的注意力机制等关键架构组件,也可以被形式化为学习序列中Token之间映射关系的简单联想记忆模块。

通过为每个组件定义一个“更新频率”,即权重调整的频率,这些相互关联的优化问题就可以被排列成不同的“层级”。这个有序集合构成了嵌套学习范式的心脏。

研究人员表示,人脑中统一且可复用的结构以及多时间尺度的更新,是人类持续学习的关键。嵌套学习允许模型的每个组件进行多时间尺度更新,并证明了Transformer等知名架构实际上是具有不同更新频率的线性层。

嵌套学习的应用

基于“嵌套学习”的视角,可以直接获得改进现有算法和架构的原则性方法:

1. 深度优化器 (Deep optimizers)

由于嵌套学习将优化器(如动量优化器)也视为联想记忆模块,因此可以将联想记忆的原理应用于优化器设计。研究人员观察到,许多标准优化器依赖于简单的点积相似度,其更新并未考虑不同数据样本之间的关联。通过将优化器的底层目标更改为更标准的损失度量,例如L2回归损失,他们为动量等核心概念推导出了新的公式,使其对不完美数据更具鲁棒性。

2. 连续谱记忆系统 (Continuum memory systems, CMS)

在标准Transformer中,序列模型充当短期记忆,保存即时上下文;前馈网络则充当长期记忆,存储预训练知识。嵌套学习将这一概念扩展为一个“连续谱记忆系统”,其中记忆被视为由一系列模块组成的光谱,每个模块都以特定的不同频率进行更新,为持续学习创造了更丰富、更有效的记忆系统。

Hope:一个自修改的验证架构

作为概念验证,研究团队利用嵌套学习原理设计了一款名为“Hope”的自修改架构。

Hope是Titans架构的一个变体。Titans架构是一种长期记忆模块,能根据记忆的“意外”程度确定其优先级,但它只有两个参数更新层级。

而Hope是一个自修改的循环架构,它能够利用无限层级的上下文学习,并通过CMS模块增强,以扩展到更大的上下文窗口。它本质上可以通过一个自引用过程来优化自身的记忆,从而创造出一个具有无限循环学习层级的架构。

实验结果

在语言建模、长上下文推理、持续学习和知识整合等一系列任务上的实验证明了嵌套学习、连续谱记忆系统和自修改Titans架构的有效性。

通用性能:在一系列公开的语言建模和常识推理任务上,Hope架构展现出比现代循环模型(如Titans、Samba)和标准Transformer更低的困惑度和更高的准确率


长上下文处理:在“大海捞针”(Needle-In-Haystack, NIAH)下游任务中,Hope展示了卓越的记忆管理能力,证明了CMS是处理扩展信息序列的一种更高效的方式,其性能在不同难度的任务上均优于Titans、TTT和Mamba2


结论

谷歌研究团队认为,“嵌套学习”范式代表了对深度学习理解的一次飞跃。通过将架构和优化视为一个统一、连贯的嵌套优化问题系统,它为模型设计解锁了一个新的维度

像Hope这样的模型证明,采用原则性方法统一这些元素,可以带来表达能力更强、功能更强大、效率更高的学习算法。

团队相信,“嵌套学习”为弥合当前LLM的遗忘特性与人脑卓越的持续学习能力之间的鸿沟,提供了一个坚实的基础,并期待研究社区能共同探索这一新维度,以构建下一代自我完善的AI

参考:

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太突然!严蓬去世

太突然!严蓬去世

大象新闻
2025-11-10 13:34:06
这种丰满的腿,穿紧身瑜伽裤真的好看吗?

这种丰满的腿,穿紧身瑜伽裤真的好看吗?

小乔古装汉服
2025-10-15 17:16:17
1955年,毛主席看到枪决名单后,拍案大怒:她可是咱全党的恩人!

1955年,毛主席看到枪决名单后,拍案大怒:她可是咱全党的恩人!

芊芊子吟
2025-11-08 21:45:03
丁浩笑了:姜东润朴廷桓又进八强了?这剧情我熟啊

丁浩笑了:姜东润朴廷桓又进八强了?这剧情我熟啊

月满大江流
2025-11-11 11:45:46
冠中冠战报:小特进4强!2位世界冠军出局,赵心童VS艾伦时间确定

冠中冠战报:小特进4强!2位世界冠军出局,赵心童VS艾伦时间确定

球场没跑道
2025-11-11 08:21:49
台湾军事强人郝柏村,支持两岸统一,直言:就算死,我也是中国人

台湾军事强人郝柏村,支持两岸统一,直言:就算死,我也是中国人

史之铭
2025-11-10 19:20:32
中方即将发货却被反咬,忍无可忍撂狠话后,荷兰准备停止接管安世

中方即将发货却被反咬,忍无可忍撂狠话后,荷兰准备停止接管安世

王墨观察
2025-11-10 17:55:03
她长相虽然不是特别好,但身材比例是真好,看面相是个过日子的人

她长相虽然不是特别好,但身材比例是真好,看面相是个过日子的人

草莓解说体育
2025-11-08 15:01:49
不出意外的话!苏林会成为第二个黎笋

不出意外的话!苏林会成为第二个黎笋

近史谈
2025-11-02 18:54:35
河北50条烟拦婚车后续:拦车人疑有团伙,如今还没遭到处罚

河北50条烟拦婚车后续:拦车人疑有团伙,如今还没遭到处罚

映射生活的身影
2025-11-10 10:17:02
刘强东入局换电:京东5万开卖“网约车神车”,88秒补能500km

刘强东入局换电:京东5万开卖“网约车神车”,88秒补能500km

智能车参考
2025-11-10 20:49:37
汉人最伟大的巅峰之战,如果这场仗输了,中国将分裂成几十个小国

汉人最伟大的巅峰之战,如果这场仗输了,中国将分裂成几十个小国

珺瑶婉史
2025-11-07 20:05:07
陈若琳也未想到,退步到第5名的全红婵,意外收获口碑暴涨

陈若琳也未想到,退步到第5名的全红婵,意外收获口碑暴涨

小娱乐悠悠
2025-11-11 10:59:12
美边境查获创纪录290磅海洛因,联邦官员逮捕一名合法居留墨西哥男子

美边境查获创纪录290磅海洛因,联邦官员逮捕一名合法居留墨西哥男子

华人生活网
2025-11-10 04:13:39
15岁少年失联3个月最后定位柬埔寨,父亲一周前收到消息“想联系儿子弄三个人来”,警方已立案

15岁少年失联3个月最后定位柬埔寨,父亲一周前收到消息“想联系儿子弄三个人来”,警方已立案

极目新闻
2025-11-10 21:09:02
霍震霆没想到,官宣新身份没多久,儿媳郭晶晶再次让阔太圈沉默了

霍震霆没想到,官宣新身份没多久,儿媳郭晶晶再次让阔太圈沉默了

以茶带书
2025-11-10 16:06:23
年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

年轻人正在逃离上海!上海月薪8500房租3200,撤离上海的年轻人们,放弃万元月薪选择及时止损

流年拾光
2025-10-23 20:33:16
“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

“光刻机之父”林本坚:中国现有设备能造出5nm芯片,美国已承认

趣文说娱
2025-11-08 17:14:30
面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

千言娱乐记
2025-10-23 21:21:23
我年终奖8千,其他同事8万,老板要我跟我续签20年合同,我笑了

我年终奖8千,其他同事8万,老板要我跟我续签20年合同,我笑了

张道陵秘话
2025-11-08 16:32:14
2025-11-11 13:07:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4311文章数 37335关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

取钱被追问用途律师:已拒绝建行道歉 向监管部门控告

头条要闻

取钱被追问用途律师:已拒绝建行道歉 向监管部门控告

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

艺术
亲子
教育
公开课
军事航空

艺术要闻

田英章日常书信曝光,字迹开阔惊艳人心!

亲子要闻

北京二环内的真实生活,祖孙三代在小院里的欢声笑语,真温馨!

教育要闻

千城百县看中国|山东成武:人工智能课堂筑梦少年未来

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒承认:乌重镇即将被攻克

无障碍浏览 进入关怀版