网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Transformer已死？DeepMind正在押注另一条AGI路线

2026-01-08 21:48:59　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】借鉴人类联想记忆，嵌套学习让AI在运行中构建抽象结构，超越Transformer的局限。谷歌团队强调：优化器与架构互为上下文，协同进化才能实现真正持续学习。这篇论文或成经典，开启AI从被动训练到主动进化的大门。

「灾难性遗忘」，一个困扰了AI界几十年的幽灵，这一次或许被彻底解决了。

过去一年，AI突飞猛进，绝非夸张的修辞，仅谷歌DeepMind一年的成就，就让人眼花缭乱：

但如果DeepMind要选2025年最重要的研究或产品，那最近火爆的嵌套学习「Nested Learning」必有一席之地。

有网友读过论文之后，发帖表示，这篇论文就是《Attention is All you Need》的「续集」。

如果Transformer开启了Scaling时代，那么嵌套学习，可能正在开启真正的AGI时代。

DeepMind创始人Shane Legg更直接，AGI一路坦途，最新进展就是嵌套学习。

甚至有网友表示，如果要给未来的外星人留一篇论文，必然是这篇《嵌套学习》。

如果实现AGI需要2-3项突破，持续学习可能就是其中之一，而谷歌已发表了多篇相关论文。

然而，这些论文有一个共同的作者──

康奈尔大学计算机科学系二年级博士生、谷歌研究院（纽约）研究实习生Ali Behrouz。

Transformer的记忆之殇

在多方面，Transformer表现出色，能够Scaling、推动AI跨越，能实现跨任务、跨领域的泛化能力。

但谷歌很早就意识到一件事：Transformer并不完美。

1. 长上下文处理效率低

2. 抽象知识层级有限

3. 适应性弱

4. 缺乏持续学习能力

特别是第四点，Ali认为那是最关键的问题。

当提到「持续学习」（Continual Learning），我们指的是：

没有训练期，也没有测试期；

模型在使用过程中，持续塑造新的记忆和抽象结构。

人类天生如此。

但对今天的大语言模型来说，几乎不存在任何「持续学习」。

为了说明问题有多本质，Ali用了一个医学上的类比：顺行性遗忘症（Anterograde Amnesia）。

这种病的患者有一个非常诡异的特征：

他们的短期记忆是正常的
他们的长期记忆也还在

但问题在于：短期记忆，无法转移为长期记忆。

于是，他们永远活在「现在」。

新的经历进来，过一会儿就消失；世界在变，但他们的大脑不再更新。

现在，把这个病，套到LLM身上。

你会发现，大模型和人类患者一模一样。

今天的大语言模型，知识主要来自两部分：

预训练阶段学到的长期知识、

当前上下文里的短期信息。

但这两者之间，几乎完全没有通道。

AI模型无法自然地把「刚刚学到的东西」，沉淀为未来可复用的知识。

想让它真的学会？

你只能：再烧钱、再训练、再微调。

这和顺行性遗忘症患者的状态，本质上没有区别。

真正的问题不是参数不够多，不是数据不够大，也不只是算力不够。

问题的本质在于「短期记忆」和「长期记忆」之间，根本没有一条自然的知识转移通道。

如果这条通道不存在，所谓「持续学习」，就永远只是一个口号。

这引出了一个核心问题：我们该如何构建一种机制，让AI模型像人类一样，将「现在」的经历沉淀为「未来」的知识？

一切AI皆是「联想记忆」

如果想让AI真正具备持续学习能力，那你绕不开一个最底层的问题：

模型到底是「怎么记住东西的」？

Ali给出的答案，不是Transformer，不是参数量，而是一个更原始、更根本的概念：联想记忆（Associative Memory）。

所谓「联想记忆」，是人类学习机制的基石。

它的本质，是通过经验将不同的事件或信息相互关联。

比如，你看到一张脸，马上想起一个名字；你闻到某个味道，唤起一段记忆。

这不是逻辑推理，而是关联的建立。

技术上，联想记忆就是键值对映射：

Key：线索
Value：与之关联的内容

但关键在于，联想记忆的映射关系不是预先写死的，而是「学出来的」。

从某种角度来看，注意力机制本质上就是一种联想记忆系统：它学习如何从当前上下文中提取key，并将其映射到最合适的value，从而产生输出。

如果我们不仅优化这种映射本身，还让系统去元学习（meta-learn）这种映射过程的初始状态，会发生什么？

基于对联想记忆的理解，他们提出了一个通用框架，名为MIRAS，用于系统化地设计AI模型中的记忆模块。

这一框架的核心思想是：

几乎所有注意力机制、本地记忆结构，乃至优化器本身，其实都可以视为联想记忆的特例。

为了设计一套「可学习的、嵌套式的记忆系统」，我们需要对模型中的记忆结构做出四大设计决策：

记忆架构（Memory Architecture）
注意力偏置/目标函数（Attentional Bias/Objective）
保留机制（Retention Gate）
学习规则（Learning Rule）

这个框架可以用来统一解释许多已有的注意力机制与优化器。

简单来说：MIRAS让我们能够把「记忆」作为一种学习过程进行建模、组合与优化，而不仅仅是一个静态模块。

更进一步，优化器也可以被统一视为「将当前梯度映射到历史信息」的联想过程，就可以对它们进行重新建模与推广。

优化器就是一种「记忆模块」，是模型理解其学习历史、进而做出更优决策的关键组件。

优化过程与学习算法/架构本质上是相同的概念，只是处于系统不同层级中具有不同的上下文（即梯度与数据）。

此外，它们是两个相互连接的组件，其中学习算法/架构为优化器生成上下文（即梯度）。这支持为特定架构设计专属优化器的理念。

由此，谷歌的团队探讨了不同层级之间的知识传递方式，提出了嵌套学习。

嵌套学习

专治LLM失忆症

基于NL的观点，谷歌团队使用反向传播和梯度下降训练深度神经网络，本质上是一个压缩与优化问题，其目标是训练一种联想记忆（associative memory），以将各层的输入映射到其预测中对应的局部误差。

相应地，他们认为预训练是一种上下文内学习形式，其中上下文是全部预训练数据，而各网络层则将该上下文压缩进其参数之中。而其他流行的基于梯度的优化器，本质上也是旨在将梯度压缩进其参数中的联想记忆。

优化器与架构并不是彼此独立的，它们应该互为上下文、协同进化。

为了正式定义Nested Learning（嵌套学习）框架，需要了解两个核心概念：更新频率（Update Frequency）与嵌套系统（Nested System）。

一、更新频率

首先设定一个时间单位，通常取系统中更新最慢的模块的一次更新作为基本时间单位。

然后，对于系统中其他组件，我们统计它们在一个时间单位内更新了多少次，就得到了它们的「更新频率」。

举个例子：

假设循环神经网络（RNN），上下文长度为(L)，那么在处理一段长度为(L)的文本时，RNN的状态会更新(L)次；

而如果外层是一个只在每个文档级别上更新的模块（如预训练模型），那么它的更新频率就是1。

因此，我们可以说：RNN是「快模块」，预训练模型是「慢模块」。

通过这种不同频率的组合，我们就能构建出一个在不同时间尺度上都能学习的系统。

二、嵌套系统（Nested System）

接下来，我们定义什么是一个「嵌套系统」。

它由多个独立的子模块组成，每个模块都有：

自己的参数（Parameter）；

自己的上下文（Context）；

自己的优化目标（Objective）；

自己的梯度流（Gradient Flow）。

这些模块之间以「更新频率」的快慢形成嵌套关系。

如果我们把每个子模块都视为一个联想记忆系统，那么整个模型就可以看作是一个嵌套的联想记忆系统（Nested Associative Memory System）。

更进一步，每一个这样的联想系统，本身又可以由更小的优化子过程构成，从而形成递归嵌套。

当构建了一个由多个层级组成的嵌套系统之后，最关键的问题就来了：

不同层之间的知识要如何传递？

知识转移方式有以下几种，这些机制构成了Nested Learning架构中「信息流动」的基础：

直接条件传递（Direct Conditioning）：慢层（外层）模型的输出直接作为快层（内层）模型的输入条件
非参数化条件传递：不依赖额外参数，模型的输出直接依赖于上下文本身。虽然没有显式参数连接，但输出依然受到内层状态的强烈影响。
通过反向传播传递（Gradient-Based Transfer）：梯度本身就构成了知识的传递路径——高层对目标的判断，反向指导底层如何调整参数。
初始状态传递（Meta-Learned Initialization）：慢层模型生成快层模型的初始状态。外层学习一个初始化点，使得内层可以通过少量更新迅速适应新任务。
权重生成（Hypernetwork）：慢层模型直接生成快层模型的参数。这就是超网络（Hypernetwork）的本质。

理论固然重要，但最终还是要看这些设计能否在真实任务中带来性能提升。

结合自我修改（Self-Modifying）与连续记忆系统（Continuum Memory System），谷歌提出了嵌套学习范式下的HOPE架构。

他们将Nested Learning与HOPE架构应用于多个任务场景中，尤其聚焦在「长上下文」和「持续学习」两个维度。

总体来看，HOPE在多个核心任务上都优于或显著超越现有对比模型，尤其是在持续学习和长上下文方面显示了明显优势。这体现了嵌套学习和连续记忆系统的潜力。

这到底意味着什么？

Nested Learning不只是一个架构框架，而是一种重新理解深度学习的范式。

谷歌DeepMind内部也传出消息：他们已经突破了持续学习，但因为安全原因尚未发布。

如果嵌套学习解决了持续学习能力，或许将是未来最重要的事。

DeepMind的沉默，或许比他们的论文更震耳欲聋。

持续学习赋予了AI可怕的能力：它不再仅仅回应我们的指令，而是开始根据过往的经验，筛选它认为重要的东西。也就是说，它开始有了「偏好」。

如果嵌套学习真的解决了灾难性遗忘，那么我们亲手打开的，可能不只是一扇通往AGI的大门，更是一个未知的潘多拉魔盒。

盒子里的东西，究竟是更聪明的工具，还是一个不仅学会了思考、更学会了「记住仇恨与偏爱」的对手？

这一次，钥匙在谷歌手中，但未来在谁手中？

参考资料：

https://www.youtube.com/watch?v=3WqZIja7kdA

https://www.youtube.com/watch?v=uX12aCdni9Q

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

并购激励金都不要了？Windsurf核心工程师离开DeepMind

机器之心Pro 2026-05-25 20:37:38
0 跟贴 0
DeepMind之父惊人自白：我造的AI可能灭绝人类，但已无人能停下

新智元 2026-03-30 21:26:17
0 跟贴 0

扎克伯格承认：Meta AI智能体研发不及预期

智东西 2026-07-03 17:02:20
0 跟贴 0

大模型最难的AI Infra，用Vibe Coding搞定

机器之心Pro 2026-01-07 15:33:06
0 跟贴 0
让两个大模型在线吵架，跑通全网95%科研代码｜深势Deploy-Master

机器之心Pro 2026-01-09 14:22:47
0 跟贴 0

给Transformer变个形，LLM竟能变得更聪明

机器之心Pro 2026-06-29 18:39:15
1 跟贴 1

Fable 5解禁即上岗，工程师改行当「验收员」

新智元 2026-07-04 09:20:28
2 跟贴 2
Transformer解决计算问题？人大团队指出上限取决于上下文管理

机器之心Pro 2026-06-12 12:58:06
0 跟贴 0

多名演员发文抵制！业内人士：很悲哀，收入猛降八成，几乎成“免费劳动力”

浙江之声 2026-07-04 08:13:16
2491 跟贴 2491
跨会话不再「失忆」：openJiuwen社区开源 AutoGenetic Memory

机器之心Pro 2026-07-02 12:30:04
0 跟贴 0
100多万人围观！没头没腿，神似充电宝的机器人全网走红？

机器之心Pro 2026-06-17 18:52:08
0 跟贴 0
Claude Fable 5，名存实亡

新智元 2026-07-03 16:39:46
25 跟贴 25
安心养虾！从OpenClaw 看云上AI安全落地路径

量子位 2026-04-18 19:55:39
0 跟贴 0
AI 正在杀死靠复杂收费的公司

钛媒体APP 2026-07-04 10:10:14
1 跟贴 1
亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
99万买个不干活的机器人，“陪伴经济”催生下一个万亿风口？

钛媒体APP 2026-07-04 12:08:08
0 跟贴 0
Claude Fable 5解禁！这7个操作必学

智东西 2026-07-04 12:59:27
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
VLX全球首发！量子位孟鸿对话Om AI CEO赵天成

量子位 2026-07-02 11:28:49
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
王晓野：Working Agent将是下一个爆发点

量子位 2026-05-21 08:05:51
0 跟贴 0
Token吃掉三成工资！硅谷AI账单失控了

新智元 2026-07-04 13:11:45
0 跟贴 0
Meta为什么必须做“云”

钛媒体APP 2026-07-03 17:34:13
1 跟贴 1
对话「哈萨比斯传」作者：“他不喜欢奥特曼”

量子位 2026-03-11 17:20:42
4 跟贴 4
三星拿下Meta443亿大单！全球芯片代工格局要变天？

探索新高度 2026-07-04 04:07:35
3 跟贴 3
佛得角对阵3个世界冠军90分钟不败

红星新闻 2026-07-04 08:11:01
8936 跟贴 8936
全球首个英伟达含量为0的万亿模型，成了海外开发者的抢手货

量子位 2026-07-02 18:50:00
8 跟贴 8
235B参数也没用！港中文等发布7模态数据集，专测顶级VLM的感知盲区

新智元 2026-07-04 00:40:15
11 跟贴 11
苹果在印度成了“开源手机”，但印度AI为什么还是扶不起来？

钛媒体APP 2026-07-03 19:00:19
0 跟贴 0
泰山景区回应修建滚筒式刀片刺绳隔离铁丝网：与正常游览路线不交叉不重叠

北京日报客户端 2026-07-02 08:55:17
19463 跟贴 19463
金属大黄蜂拼装！314零件可动！高端礼品超酷#模型拼装 #大黄蜂模型

制造科技 2026-06-30 21:37:21
0 跟贴 0
美媒：台富豪认为台海紧张局势正恶化资产涌向新加坡

澎湃新闻 2026-07-03 22:22:09
1445 跟贴 1445

梅西额头肿起一个大包，赛后谈佛得角：他们好像总是多出一个人

梅西额头肿起一个大包，赛后谈佛得角：他们好像总是多出一个人

新浪财经

2026-07-04 13:25:43

央视罕见公开西太对峙细节！日舰模拟攻击辽宁舰，结果沉默？

央视罕见公开西太对峙细节！日舰模拟攻击辽宁舰，结果沉默？

青青衫书生

2026-06-30 13:24:21

男篮惨败后再遭打击？中国队恐无缘世界杯：或被日韩联手做局黑掉

男篮惨败后再遭打击？中国队恐无缘世界杯：或被日韩联手做局黑掉

篮球快餐车

2026-07-04 06:50:57

超级富二代的自我毁灭：玩游戏、追网红，两年败光3个亿

超级富二代的自我毁灭：玩游戏、追网红，两年败光3个亿

小怪吃美食

2026-06-27 14:57:44

今夜，利好来了！暴增超622倍，A股大牛股公告！

今夜，利好来了！暴增超622倍，A股大牛股公告！

券商中国

2026-07-04 01:39:42

日媒连夜发文警醒张本美和！

乒乓乐园

2026-07-04 10:38:38

台风“美莎克”将再次登陆最新路径公布

台风“美莎克”将再次登陆最新路径公布

极目新闻

2026-07-04 07:32:12

唯独中国交五倍签证费？高市不听岸田劝告，中方对日本改了称呼！

唯独中国交五倍签证费？高市不听岸田劝告，中方对日本改了称呼！

清衣渡a

2026-06-30 13:42:14

恭喜！知名港星25岁儿子北大硕士毕业，夫妻俩赴北京观礼满脸骄傲

恭喜！知名港星25岁儿子北大硕士毕业，夫妻俩赴北京观礼满脸骄傲

十级搞笑选手

2026-07-02 18:22:47

当年豪言五年甩开清华，斥资 200 亿打造西湖大学，今现状反差太大

当年豪言五年甩开清华，斥资 200 亿打造西湖大学，今现状反差太大

牛锅巴小钒

2026-07-04 10:26:15

杜特尔特迎来好消息，捅了马蜂窝的马科斯，突然对中国喊出一句话

杜特尔特迎来好消息，捅了马蜂窝的马科斯，突然对中国喊出一句话

卖樱桃的大丸子

2026-07-04 13:31:38

状元恋爱了！库珀-弗拉格Ins晒和女友的合影与球迷分享

状元恋爱了！库珀-弗拉格Ins晒和女友的合影与球迷分享

阿废冷眼观察所

2026-07-04 10:08:22

这就过分了！郭士强点名批评正负值唯一为正之人，赵继伟批年轻人

这就过分了！郭士强点名批评正负值唯一为正之人，赵继伟批年轻人

萌兰聊个球

2026-07-03 23:39:56

伊朗送别哈梅内伊

参考消息

2026-07-04 13:53:06

奇迹！80岁重度阿尔茨海默老妇，吃了一口蘑菇后竟然好了几周？

奇迹！80岁重度阿尔茨海默老妇，吃了一口蘑菇后竟然好了几周？

徐德文科学频道

2026-06-30 08:21:43

世体：穆帅已通知多人归队，皇马将于7月13日开启季前训练

世体：穆帅已通知多人归队，皇马将于7月13日开启季前训练

懂球帝

2026-07-03 16:43:05

降了！7月5日起，大幅下调！

山东教育电视台

2026-07-03 08:41:49

大妈发问：男方父母买房，女儿只能居住，能同意吗？评论区太清醒

大妈发问：男方父母买房，女儿只能居住，能同意吗？评论区太清醒

谭谈社会

2026-07-04 11:54:52

有那钱不如刷刷墙！一场农村生日仪式被群嘲，家长被迫看清现实！

有那钱不如刷刷墙！一场农村生日仪式被群嘲，家长被迫看清现实！

林林先生

2026-06-26 22:40:32

夏奇拉带两儿子观赛阿根廷对阵佛得角，白色墨镜超可爱，小儿子蓝白间条衫抢镜

夏奇拉带两儿子观赛阿根廷对阵佛得角，白色墨镜超可爱，小儿子蓝白间条衫抢镜

喜欢历史的阿繁

2026-07-04 11:07:29

AI产业主平台领航智能+时代

15603文章数 66945关注度

往期回顾全部

科技要闻

韬定律论文V2版，充工程细节和实测数据

头条要闻

美大使装无辜：好失望你们在中国肯定不自由

头条要闻

美大使装无辜：好失望你们在中国肯定不自由

体育要闻

揭法国锋线最大优势有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚在纽约设宴庆贺

财经要闻

韩国股市杠杆失控：450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光用上了长联屏设计/下半年上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

亲子

健康

公开课

军事航空

旅游要闻

迎旅发！兴凯湖畔备好 “醉美” 风景

亲子要闻

告别焦虑，科学守护孩子脊柱健康

听说少吃点能抗衰老？专家讲解！

公开课

李玫瑾：为什么性格比能力更重要？

军事要闻

普京宣布俄军“完全解放”卢甘斯克

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版