网易首页 > 网易号 > 正文 申请入驻

终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」

0
分享至


新智元报道

编辑:元宇

【新智元导读】大模型「灾难性遗忘」问题或将迎来突破。近日,NeurIPS 2025收录了谷歌研究院的一篇论文,其中提出一种全新的「嵌套学习(Nested Learning)」架构。实验中基于该框架的「Hope」模型在语言建模与长上下文记忆任务中超越Transformer模型,这意味着大模型正迈向具备自我改进能力的新阶段。

「灾难性遗忘」,是神经网络最根深蒂固的毛病之一,比如:

·刚学会减法,就忘记了以前学到的加法;

·切换到一个新游戏,模型在前一游戏的得分就会掉到随机水平;

·微调大模型,常出现「风格漂移」与「旧知识遗忘」现象

它的存在,使得大模型难以像人类那样持续学习。

在过去十年中,得益于强大的神经网络结构及其训练算法,机器学习取得了惊人的进步。

但「灾难性遗忘」的老毛病并没有被根治。

为破解这一难题,来自谷歌的研究人员提出了一种持续学习的全新范式——嵌套学习(Nested Learning),并且已被NeurIPS 2025接收。


论文地址:https://abehrouz.github.io/files/NL.pdf

「嵌套学习」将模型视为一系列更小的、相互嵌套的优化问题,每个问题都有其独立的内部工作流程。

这样的设计旨在缓解甚至完全避免大模型的「灾难性遗忘」。


破解「灾难性遗忘」根源

在「持续学习」与「自我改进」方面,人类大脑无疑是黄金标准。

它通过「神经可塑性」不断重构自身结构,以应对新的经验、记忆与学习任务。

缺乏这种能力的人,会陷入类似「顺行性遗忘」的状态——只能依赖即时情境而无法积累知识。

当前的大模型同样存在类似局限:

它们的知识要么局限于输入窗口的即时上下文,要么被固定在预训练阶段学到的静态信息中。

这正是大模型出现「灾难性遗忘」的根源——在学习新任务时会牺牲对旧任务的掌握能力。

这也是长期困扰机器学习的核心问题。

简单地不断用新数据更新模型参数的方法,往往会导致「灾难性遗忘」。

研究者通常通过修改网络结构(Architecture Tweaks)或优化算法(Optimization Rules)来缓解这种问题。

然而这样做,长期存在一个误区:我们一直将模型结构(网络架构)与优化算法视作两个独立的部分。

这阻碍了统一且高效学习系统的构建。

在论文中,研究人员提出了「嵌套学习」,打破了结构与算法的界限,以弥合二者之间的鸿沟。

也就是说「嵌套学习」不再将机器学习模型视作一种单一、连续的过程,而是一个由多层相互关联的优化问题组成的系统,这些问题同时进行优化。

研究人员认为,「模型结构」与「训练规则」本质上是同一概念,只是处于不同的「优化层级」上,每个层级都有独立的信息流动与更新速率。

通过识别这种内在结构,使得我们能够构建更深层的学习组件,从而解决像「灾难性遗忘」这类长期难题。

为了验证这一理论假设,研究人员提出了一个概念验证型的自我修正架构,命名为「Hope(希望)」。

该模型在语言建模任务中表现出色,并在长上下文记忆管理上优于当前最先进的模型。

嵌套学习的新范式

在嵌套学习的框架下,一个复杂的机器学习模型,是由多个一致且相互连接的优化问题组成的系统。

这些优化问题可以是层层嵌套的,也可以并行运行。


每个内部优化子问题,都有自己独立的信息,即其学习所依赖的信息集合。

这一视角意味着:现有的深度学习方法,从本质上是在压缩其内部信息流。

嵌套学习允许我们设计出具备更深计算深度的学习组件。

为了说明这一范式,研究人员以「联想记忆」为例,这是一种能够通过一个刺激唤起另一个记忆的能力,就像我们看到一张脸就想起一个名字。

研究人员推论,在训练过程中,尤其是「反向传播」阶段,可以被建模为一种联想记忆。该模型学习将数据点映射到其对应的局部误差值,该局部误差值衡量了该数据点的「惊奇度」或「意外性」。

根据前人研究,研究人员发现关键的网络结构组件,比如Transformer模型的「注意力机制」,也可形式化为简单的联想记忆模块,用于学习序列中各个token之间的映射关系。


如上图所示,大脑中统一且可重用的结构以及多时间尺度的更新是人类持续学习的关键组成部分。

嵌套学习允许大脑的每个组成部分进行多时间尺度的更新,同时表明诸如Transformer等众所周知的架构,实际上是具有不同更新频率的线性层。

嵌套学习模型中的统一结构与多频率更新机制,与人脑的神经波动与神经可塑性结构十分相似。

它使我们能够在人工模型中定义「多时间尺度更新」:每个学习组件可在不同频率下更新参数。

通过定义「更新频率」,即每个组件参数被调整的频率,我们可以将这些优化问题组织成有序的层级结构。

这一结构正是嵌套学习范式的核心。

嵌套学习的应用

嵌套学习视角,为我们提供了改进现有算法和架构的原则性方法:

深度优化器(Deep Optimizers)

嵌套学习将优化器(Optimizer,例如基于动量的优化器)视为一种联想记忆模块。

这使我们能从联想记忆的角度重新设计优化算法。

传统优化器通常依赖「点积相似度」来衡量样本间相似性,但这一机制无法考虑样本间的复杂关系。

通过将优化目标改为标准损失函数,研究人员提出了新的动量更新公式,使优化过程对不完美数据更具鲁棒性。

连续记忆系统(Continuum Memory Systems)

在标准的Transformer模型中,序列建模层承担短期记忆,保存当前上下文信息;而前馈神经网络层则充当长期记忆,存储训练前的知识。

嵌套学习扩展了这一思想,提出「连续记忆系统」,这是一种由多个模块组成的记忆谱系,每个模块以不同频率进行更新,这为持续学习创建了一个更加丰富、高效的记忆系统。

Hope:具备连续记忆的自我修正架构

研究人员基于以上嵌套学习原则设计了「Hope」模型,它是「Titans架构」的改进版本。

Titans架构是一种长期记忆机制,会根据记忆的「惊奇度」来优先保留信息。

但它仅支持两层参数更新,因此只能实现一阶的「上下文内学习」。


上图比较了Hope与Transformers的架构主干。

相比之下,Hope是一种可自我修改的递归架构,能实现无限层级的上下文内学习。

它还结合了连续记忆系统(CMS),能够扩展到更大的上下文窗口。

换言之,Hope可以通过自指过程优化自身记忆,形成具有无限嵌套学习层级的架构。

研究人员进行了多组实验,来评估深度优化器与Hope架构在语言建模、长上下文推理、持续学习及知识整合等任务上的表现。

实验结果显示:

在常用的语言建模与常识推理任务上,Hope相较现代递归模型与标准Transformer模型展现出更低的困惑度与更高的准确率。


在长上下文任务中,Hope与Titans模型均显著优于TTT与Mamba2,证明连续记忆系统能更高效地处理超长序列信息。


Hope框架在标准基准上表现优于现有模型,印证了当架构与算法被统一后,学习系统可以变得更具表现力、更高效、更具自我改进能力。

这意味着,我们对深度学习的理解迈出了新的一步。

通过将「模型结构」与「优化过程」统一为一个连贯的、层层嵌套的优化系统,Hope框架为模型设计提供了一种新范式。

这一发现,为弥合当前大模型遗忘特性与人脑持续学习能力之间的差距奠定了坚实基础,或许将有助于破解大模型「灾难性遗忘」的根源性问题。

作者介绍

Peilin Zhong


Peilin Zhong

Peilin Zhong是谷歌纽约(Google NYC)算法与优化团队的一名研究科学家,该团队由Vahab Mirrokni领导。

他的博士毕业于哥伦比亚大学,师从Alex Andoni、Cliff Stein及Mihalis Yannakakis教授,本科毕业于清华大学交叉信息研究院(姚班)。

Peilin Zhong致力于理论计算机科学,尤其侧重于算法的设计与分析。他的具体研究方向有并行与大规模并行算法、Sketching算法、流式算法、图算法、机器学习、高维几何、度量嵌入等。

参考资料:

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凯恩:孔帕尼教我们毫不留情地击败对手,领先3球就要进第4个

凯恩:孔帕尼教我们毫不留情地击败对手,领先3球就要进第4个

懂球帝
2026-01-19 01:09:48
随着阿森纳0-0,曼联2-0,利物浦1-1,切尔西2-0,英超最新积分榜出炉

随着阿森纳0-0,曼联2-0,利物浦1-1,切尔西2-0,英超最新积分榜出炉

侧身凌空斩
2026-01-18 04:01:52
超越算力!AI下一战是能耗,这4家液冷与电源公司订单已排到明年

超越算力!AI下一战是能耗,这4家液冷与电源公司订单已排到明年

小白鸽财经
2026-01-16 20:30:03
斯诺克大师赛:两场6-5!吴宜泽+小特被逆转,决赛对阵出炉附赛程

斯诺克大师赛:两场6-5!吴宜泽+小特被逆转,决赛对阵出炉附赛程

球场没跑道
2026-01-18 07:18:35
曼联2-0曼城,球员亲述卡里克如何改变球队心态

曼联2-0曼城,球员亲述卡里克如何改变球队心态

浮萍足球
2026-01-19 00:57:09
人类对闲鱼的开发不足1%,一群神人把我笑发财了

人类对闲鱼的开发不足1%,一群神人把我笑发财了

另子维爱读史
2026-01-11 21:09:06
员工一律禁用AI!50年老牌游戏公司下发最严禁令,CEO直言:“内部没人真的看好”

员工一律禁用AI!50年老牌游戏公司下发最严禁令,CEO直言:“内部没人真的看好”

CSDN
2026-01-16 20:16:21
渣打马拉松2026 l 周润发2小时跑完10公里,TVB群星参加

渣打马拉松2026 l 周润发2小时跑完10公里,TVB群星参加

TVB剧评社
2026-01-18 13:14:04
闫学晶又被曝出新料!她和儿子一个也跑不了,这下是彻底没救了

闫学晶又被曝出新料!她和儿子一个也跑不了,这下是彻底没救了

李橑在北漂
2026-01-18 16:32:28
高雄市长之战支持谁?7万人网络投票结果一面倒

高雄市长之战支持谁?7万人网络投票结果一面倒

新时光点滴
2026-01-18 04:53:12
多图直击包钢一厂区爆炸现场

多图直击包钢一厂区爆炸现场

中国青年报
2026-01-18 20:08:05
56岁窦唯复出,掌声还依旧吗

56岁窦唯复出,掌声还依旧吗

陈意小可爱
2026-01-19 00:24:38
中国将迎人口死亡高峰!22年1041万,23年1100万,去年死亡多少?

中国将迎人口死亡高峰!22年1041万,23年1100万,去年死亡多少?

长歌侃娱
2026-01-16 07:55:03
随着萨拉赫罚丢点球+比分2-4,埃及轰然倒下,非洲杯季军浮出水面

随着萨拉赫罚丢点球+比分2-4,埃及轰然倒下,非洲杯季军浮出水面

侧身凌空斩
2026-01-18 02:17:55
意外!被中国用核武器轰炸45次的罗布泊,如今竟然变成了这样!

意外!被中国用核武器轰炸45次的罗布泊,如今竟然变成了这样!

王鶔吃吃喝喝
2026-01-16 13:57:53
TA:执教曼联的教练都应围绕B费建队,而阿莫林竟让他踢6号位

TA:执教曼联的教练都应围绕B费建队,而阿莫林竟让他踢6号位

懂球帝
2026-01-18 13:06:14
广东宏远VS四川男篮!杜锋拒绝爆冷,崔永熙提前复出,央视直播

广东宏远VS四川男篮!杜锋拒绝爆冷,崔永熙提前复出,央视直播

体坛瞎白话
2026-01-18 15:06:30
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
U23亚洲杯变东亚杯,不排除亚足联改革:东西亚分区 直到决赛交手

U23亚洲杯变东亚杯,不排除亚足联改革:东西亚分区 直到决赛交手

兰亭墨未干
2026-01-19 01:07:45
小作精的金主大佬进去了!女歌手演唱会暗藏玄学!

小作精的金主大佬进去了!女歌手演唱会暗藏玄学!

八卦疯叔
2026-01-18 17:51:33
2026-01-19 01:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14359文章数 66513关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

头条要闻

特朗普建"联合国"自任主席 邀60国加入仅1国接受

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

又一次闷声干大事,奇瑞进入2.0 AI+时代

态度原创

本地
家居
健康
艺术
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

家居要闻

岁月柔情 现代品质轻奢

血常规3项异常,是身体警报!

艺术要闻

放大看油画,细节之美令人惊叹不已!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版