网易首页 > 网易号 > 正文 申请入驻

AI向人脑「黄金标准」又近一步,谷歌发布嵌套学习,赋予大模型持续学习的能力

0
分享至


刚刚,谷歌发布了一项名为“嵌套学习”(Nested Learning)的全新机器学习范式,它将模型视为嵌套优化问题,从而增强对长上下文的处理能力。基于嵌套学习的概念验证模型 Hope 在语言建模方面展现出更优异的性能,谷歌的野心是缓解乃至彻底解决LLM遗忘问题,实现类似人脑的持续学习能力

相关论文《Nested Learning: The Illusion of Deep Learning Architectures》已在NeurIPS 2025上发表


在过去十年,机器学习取得了巨大进步,但LLM的成功之下,一些根本性挑战依然存在,尤其是在持续学习方面。

人脑是持续学习的黄金标准,其通过神经可塑性不断调整自身结构以适应新体验。相比之下,当前LLM的知识局限于其输入窗口的即时上下文或预训练期间学到的静态信息。

最直接的解决方法——用新数据持续更新模型参数,往往会导致“灾难性遗忘”(Catastrophic Forgetting, CF)。传统上,研究人员通过调整架构或优化规则来对抗CF,但长期以来,模型架构与优化算法被视为两个独立部分,阻碍了真正统一高效的学习系统诞生。

谷歌提出的“嵌套学习”则打破了这一壁垒。

什么是嵌套学习?

嵌套学习范式提出,一个复杂的ML模型并非单一的连续过程,而是一个由相互关联、多层次的学习问题组成的系统,这些问题被嵌套或并行地同时优化。

该理论认为,模型架构和训练规则(即优化算法)本质上是同一概念,它们只是处于不同“层级”的优化问题,每个层级都有其自身的信息流(“上下文流”)和更新速率

通过识别这种内在结构,“嵌套学习”为设计更强大的AI提供了一个全新的、此前不可见的维度,允许构建具有更深计算深度的学习组件,从而最终解决灾难性遗忘等问题。

为了阐释这一范式,研究人员以“联想记忆”(associative memory)为例。

他们指出,训练过程本身(尤其是反向传播)就可以被建模为一个联想记忆。模型学习将给定数据点映射到其局部误差值,该误差值衡量了数据点的“意外”程度。同样,像Transformer中的注意力机制等关键架构组件,也可以被形式化为学习序列中Token之间映射关系的简单联想记忆模块。

通过为每个组件定义一个“更新频率”,即权重调整的频率,这些相互关联的优化问题就可以被排列成不同的“层级”。这个有序集合构成了嵌套学习范式的心脏。

研究人员表示,人脑中统一且可复用的结构以及多时间尺度的更新,是人类持续学习的关键。嵌套学习允许模型的每个组件进行多时间尺度更新,并证明了Transformer等知名架构实际上是具有不同更新频率的线性层。

嵌套学习的应用

基于“嵌套学习”的视角,可以直接获得改进现有算法和架构的原则性方法:

1. 深度优化器 (Deep optimizers)

由于嵌套学习将优化器(如动量优化器)也视为联想记忆模块,因此可以将联想记忆的原理应用于优化器设计。研究人员观察到,许多标准优化器依赖于简单的点积相似度,其更新并未考虑不同数据样本之间的关联。通过将优化器的底层目标更改为更标准的损失度量,例如L2回归损失,他们为动量等核心概念推导出了新的公式,使其对不完美数据更具鲁棒性。

2. 连续谱记忆系统 (Continuum memory systems, CMS)

在标准Transformer中,序列模型充当短期记忆,保存即时上下文;前馈网络则充当长期记忆,存储预训练知识。嵌套学习将这一概念扩展为一个“连续谱记忆系统”,其中记忆被视为由一系列模块组成的光谱,每个模块都以特定的不同频率进行更新,为持续学习创造了更丰富、更有效的记忆系统。

Hope:一个自修改的验证架构

作为概念验证,研究团队利用嵌套学习原理设计了一款名为“Hope”的自修改架构。

Hope是Titans架构的一个变体。Titans架构是一种长期记忆模块,能根据记忆的“意外”程度确定其优先级,但它只有两个参数更新层级。

而Hope是一个自修改的循环架构,它能够利用无限层级的上下文学习,并通过CMS模块增强,以扩展到更大的上下文窗口。它本质上可以通过一个自引用过程来优化自身的记忆,从而创造出一个具有无限循环学习层级的架构。

实验结果

在语言建模、长上下文推理、持续学习和知识整合等一系列任务上的实验证明了嵌套学习、连续谱记忆系统和自修改Titans架构的有效性。

通用性能:在一系列公开的语言建模和常识推理任务上,Hope架构展现出比现代循环模型(如Titans、Samba)和标准Transformer更低的困惑度和更高的准确率


长上下文处理:在“大海捞针”(Needle-In-Haystack, NIAH)下游任务中,Hope展示了卓越的记忆管理能力,证明了CMS是处理扩展信息序列的一种更高效的方式,其性能在不同难度的任务上均优于Titans、TTT和Mamba2


结论

谷歌研究团队认为,“嵌套学习”范式代表了对深度学习理解的一次飞跃。通过将架构和优化视为一个统一、连贯的嵌套优化问题系统,它为模型设计解锁了一个新的维度

像Hope这样的模型证明,采用原则性方法统一这些元素,可以带来表达能力更强、功能更强大、效率更高的学习算法。

团队相信,“嵌套学习”为弥合当前LLM的遗忘特性与人脑卓越的持续学习能力之间的鸿沟,提供了一个坚实的基础,并期待研究社区能共同探索这一新维度,以构建下一代自我完善的AI

参考:

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一位7年护工自白:只要老人进了养老院,九成以上就再也回不了家

一位7年护工自白:只要老人进了养老院,九成以上就再也回不了家

小怪吃美食
2025-11-14 08:01:04
全运会乒乓球:女单决赛对阵出炉!希望之星4:1晋级,冲击冠军

全运会乒乓球:女单决赛对阵出炉!希望之星4:1晋级,冲击冠军

国乒二三事
2025-11-15 06:14:50
U22国足vs韩国:汪士钦拜合拉木先发 依木兰替补

U22国足vs韩国:汪士钦拜合拉木先发 依木兰替补

体坛周报
2025-11-15 18:51:11
新加坡外交专家提醒中国:近些年,中国有一个最大的战略失误!

新加坡外交专家提醒中国:近些年,中国有一个最大的战略失误!

领悟看世界
2025-10-05 18:42:23
安德玛为何宁愿多花9500万,也要终止与库里12年的合作?

安德玛为何宁愿多花9500万,也要终止与库里12年的合作?

体育产业独立评论
2025-11-14 22:24:08
中企对外宣布:回购中国已购光刻机!外媒:ASML的专利权陷入危机

中企对外宣布:回购中国已购光刻机!外媒:ASML的专利权陷入危机

文史旺旺旺
2025-11-15 08:55:03
3岁男童高烧39.8℃ 1天后不幸去世 爸爸:最初诊断为普通感冒……

3岁男童高烧39.8℃ 1天后不幸去世 爸爸:最初诊断为普通感冒……

半岛晨报
2025-11-15 17:00:03
朝阳一私立国际学校“暴雷”!

朝阳一私立国际学校“暴雷”!

朝阳通
2025-11-14 11:49:25
王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

王中磊破产,携全家搬出庄园住进别墅,老婆愁眉苦脸被迫接受降级

王瑄自驾
2025-11-13 20:32:34
薛剑“越战越勇”!当众提出“中国有权驻军日本”,高市向G7告状

薛剑“越战越勇”!当众提出“中国有权驻军日本”,高市向G7告状

云上乌托邦
2025-11-15 15:03:13
泰国王后衣袂扬,两天三衣会中文会开飞机,黑金战袍配小火炉美炸

泰国王后衣袂扬,两天三衣会中文会开飞机,黑金战袍配小火炉美炸

全球时尚号
2025-11-15 12:37:48
双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

双十一没落了?23年销售额1.13万亿,24年1.44万亿,25年让人惊讶

奇思妙想草叶君
2025-11-14 23:39:25
奋斗后发现大麻烦,网友:只要努力就必然负债!

奋斗后发现大麻烦,网友:只要努力就必然负债!

特约前排观众
2025-11-15 00:05:08
杨兰兰最新消息!拒绝认罪,第四次庭审仍不现身

杨兰兰最新消息!拒绝认罪,第四次庭审仍不现身

霹雳炮
2025-11-14 19:22:49
2.7万亿电诈大佬的佘智江:给老乡发红包时,妙瓦底有人正被关水牢

2.7万亿电诈大佬的佘智江:给老乡发红包时,妙瓦底有人正被关水牢

热风追逐者
2025-11-14 09:54:50
山东“入室抢婴案”两名被告人不服一审判决已上诉,称量刑过重

山东“入室抢婴案”两名被告人不服一审判决已上诉,称量刑过重

新京报
2025-11-15 19:19:06
4周实现100%清除肿瘤!国研GC101疗法重击脑瘤、肺癌、黑色素瘤等

4周实现100%清除肿瘤!国研GC101疗法重击脑瘤、肺癌、黑色素瘤等

无癌家园i
2025-11-14 16:52:29
真嗑药了?40岁菲尔普斯已老态龙钟:现身悉尼 奥运23金+资产7亿

真嗑药了?40岁菲尔普斯已老态龙钟:现身悉尼 奥运23金+资产7亿

风过乡
2025-11-14 08:03:19
00后沪漂女孩发文:将永远维护上海人!

00后沪漂女孩发文:将永远维护上海人!

看看新闻Knews
2025-11-15 19:44:16
曝2大离婚瓜!国民男星夫妻反目分居2年,钟嘉欣7年抱仨遭骗婚

曝2大离婚瓜!国民男星夫妻反目分居2年,钟嘉欣7年抱仨遭骗婚

萧佉影视解说
2025-11-15 16:51:53
2025-11-15 20:23:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
971文章数 370关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

钟嘉欣婚变风波升级!被骗婚?

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

手机
艺术
本地
亲子
公开课

手机要闻

OPPO官方说明:Reno15系列发布会不存在任何售票渠道

艺术要闻

侍卫官吐露:蒋介石的最后岁月

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

亲子要闻

孕妇饿了要立即吃东西吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版