网易首页 > 网易号 > 正文 申请入驻

Transformer已死?DeepMind正在押注另一条AGI路线

0
分享至

来源:市场资讯

(来源:硅星人)


文章转载于新智元

「灾难性遗忘」,一个困扰了AI界几十年的幽灵,这一次或许被彻底解决了。

过去一年,AI突飞猛进,绝非夸张的修辞,仅谷歌DeepMind一年的成就,就让人眼花缭乱:


但如果DeepMind要选2025年最重要的研究或产品,那最近火爆的嵌套学习必有一席之地。

有网友读过论文之后,发帖表示,这篇论文就是《Attention is All you Need》的「续集」。

如果Transformer开启了Scaling时代,那么嵌套学习,可能正在开启真正的AGI时代。

DeepMind创始人Shane Legg更直接,AGI一路坦途,最新进展就是嵌套学习。

甚至有网友表示,如果要给未来的外星人留一篇论文,必然是这篇《嵌套学习》。


如果实现AGI需要2-3项突破,持续学习可能就是其中之一,而谷歌已发表了多篇相关论文。


然而,这些论文有一个共同的作者──

康奈尔大学计算机科学系二年级博士生、谷歌研究院(纽约)研究实习生Ali Behrouz。


1

Transformer的记忆之殇

在多方面,Transformer表现出色,能够Scaling、推动AI跨越,能实现跨任务、跨领域的泛化能力。

但谷歌很早就意识到一件事:Transformer并不完美。

1. 长上下文处理效率低

2. 抽象知识层级有限

3. 适应性弱

4. 缺乏持续学习能力

特别是第四点,Ali认为那是最关键的问题。

当提到「持续学习」(Continual Learning),我们指的是:

没有训练期,也没有测试期;

模型在使用过程中,持续塑造新的记忆和抽象结构。

人类天生如此。

但对今天的大语言模型来说,几乎不存在任何「持续学习」。

为了说明问题有多本质,Ali用了一个医学上的类比:顺行性遗忘症(Anterograde Amnesia)。

这种病的患者有一个非常诡异的特征:

但问题在于:短期记忆,无法转移为长期记忆。


于是,他们永远活在「现在」。

新的经历进来,过一会儿就消失; 世界在变,但他们的大脑不再更新。

现在,把这个病,套到LLM身上。

你会发现,大模型和人类患者一模一样。

今天的大语言模型,知识主要来自两部分:

预训练阶段学到的长期知识、

当前上下文里的短期信息。

但这两者之间,几乎完全没有通道。

AI模型无法自然地把「刚刚学到的东西」,沉淀为未来可复用的知识。

想让它真的学会?

你只能:再烧钱、再训练、再微调。

这和顺行性遗忘症患者的状态,本质上没有区别。

真正的问题不是参数不够多,不是数据不够大,也不只是算力不够。

问题的本质在于「短期记忆」和「长期记忆」之间,根本没有一条自然的知识转移通道。

如果这条通道不存在,所谓「持续学习」,就永远只是一个口号。

这引出了一个核心问题:我们该如何构建一种机制,让AI模型像人类一样,将「现在」的经历沉淀为「未来」的知识?

1

一切AI皆是「联想记忆」

如果想让AI真正具备持续学习能力,那你绕不开一个最底层的问题:

模型到底是「怎么记住东西的」?

Ali给出的答案,不是Transformer,不是参数量,而是一个更原始、更根本的概念:联想记忆(Associative Memory)。

所谓「联想记忆」,是人类学习机制的基石。

它的本质,是通过经验将不同的事件或信息相互关联。

比如,你看到一张脸,马上想起一个名字;你闻到某个味道,唤起一段记忆。

这不是逻辑推理,而是关联的建立。

技术上,联想记忆就是键值对映射:

但关键在于,联想记忆的映射关系不是预先写死的,而是「学出来的」。

从某种角度来看,注意力机制本质上就是一种联想记忆系统:它学习如何从当前上下文中提取key,并将其映射到最合适的value,从而产生输出。

如果我们不仅优化这种映射本身,还让系统去元学习(meta-learn)这种映射过程的初始状态,会发生什么?

基于对联想记忆的理解,他们提出了一个通用框架,名为MIRAS,用于系统化地设计AI模型中的记忆模块。

这一框架的核心思想是:

几乎所有注意力机制、本地记忆结构,乃至优化器本身,其实都可以视为联想记忆的特例。

为了设计一套「可学习的、嵌套式的记忆系统」,我们需要对模型中的记忆结构做出四大设计决策:


这个框架可以用来统一解释许多已有的注意力机制与优化器。

简单来说:MIRAS让我们能够把「记忆」作为一种学习过程进行建模、组合与优化,而不仅仅是一个静态模块。

更进一步,优化器也可以被统一视为「将当前梯度映射到历史信息」的联想过程,就可以对它们进行重新建模与推广。

优化器就是一种「记忆模块」,是模型理解其学习历史、进而做出更优决策的关键组件。

优化过程与学习算法/架构本质上是相同的概念,只是处于系统不同层级中具有不同的上下文(即梯度与数据)。

此外,它们是两个相互连接的组件,其中学习算法/架构为优化器生成上下文(即梯度)。这支持为特定架构设计专属优化器的理念。

由此,谷歌的团队探讨了不同层级之间的知识传递方式,提出了嵌套学习。

1

嵌套学习 专治LLM失忆症

基于NL的观点,谷歌团队使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,其目标是训练一种联想记忆(associative memory),以将各层的输入映射到其预测中对应的局部误差。

相应地,他们认为预训练是一种上下文内学习形式,其中上下文是全部预训练数据,而各网络层则将该上下文压缩进其参数之中。而其他流行的基于梯度的优化器,本质上也是旨在将梯度压缩进其参数中的联想记忆。

优化器与架构并不是彼此独立的,它们应该互为上下文、协同进化。

为了正式定义Nested Learning(嵌套学习)框架,需要了解两个核心概念:更新频率(Update Frequency)与嵌套系统(Nested System)。

一、更新频率

首先设定一个时间单位,通常取系统中更新最慢的模块的一次更新作为基本时间单位。

然后,对于系统中其他组件,我们统计它们在一个时间单位内更新了多少次,就得到了它们的「更新频率」。


举个例子:

假设循环神经网络(RNN),上下文长度为(L),那么在处理一段长度为(L)的文本时,RNN的状态会更新(L)次;

而如果外层是一个只在每个文档级别上更新的模块(如预训练模型),那么它的更新频率就是1。

因此,我们可以说:RNN是「快模块」,预训练模型是「慢模块」。

通过这种不同频率的组合,我们就能构建出一个在不同时间尺度上都能学习的系统。

二、嵌套系统(Nested System)

接下来,我们定义什么是一个「嵌套系统」。

它由多个独立的子模块组成,每个模块都有:

自己的参数(Parameter);

自己的上下文(Context);

自己的优化目标(Objective);

自己的梯度流(Gradient Flow)。

这些模块之间以「更新频率」的快慢形成嵌套关系。


如果我们把每个子模块都视为一个联想记忆系统,那么整个模型就可以看作是一个嵌套的联想记忆系统(Nested Associative Memory System)。

更进一步,每一个这样的联想系统,本身又可以由更小的优化子过程构成,从而形成递归嵌套。

当构建了一个由多个层级组成的嵌套系统之后,最关键的问题就来了:

不同层之间的知识要如何传递?

知识转移方式有以下几种,这些机制构成了Nested Learning架构中「信息流动」的基础:


理论固然重要,但最终还是要看这些设计能否在真实任务中带来性能提升。

结合自我修改(Self-Modifying)与连续记忆系统(Continuum Memory System),谷歌提出了嵌套学习范式下的HOPE架构。


他们将Nested Learning与HOPE架构应用于多个任务场景中,尤其聚焦在「长上下文」和「持续学习」两个维度。

总体来看,HOPE在多个核心任务上都优于或显著超越现有对比模型,尤其是在持续学习和长上下文方面显示了明显优势。这体现了嵌套学习和连续记忆系统的潜力。






1

这到底意味着什么?

Nested Learning不只是一个架构框架,而是一种重新理解深度学习的范式。

谷歌DeepMind内部也传出消息:他们已经突破了持续学习,但因为安全原因尚未发布。


如果嵌套学习解决了持续学习能力,或许将是未来最重要的事。


DeepMind的沉默,或许比他们的论文更震耳欲聋。

持续学习赋予了AI可怕的能力:它不再仅仅回应我们的指令,而是开始根据过往的经验,筛选它认为重要的东西。也就是说,它开始有了「偏好」。

如果嵌套学习真的解决了灾难性遗忘,那么我们亲手打开的,可能不只是一扇通往AGI的大门,更是一个未知的潘多拉魔盒。

盒子里的东西,究竟是更聪明的工具,还是一个不仅学会了思考、更学会了「记住仇恨与偏爱」的对手?

这一次,钥匙在谷歌手中,但未来在谁手中?

参考资料:

https://www.youtube.com/watch?v=3WqZIja7kdA

https://www.youtube.com/watch?v=uX12aCdni9Q

点个“爱心”,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《秋雪漫过的冬天》首播,赵又廷张子枫主演,不如原版韩剧好看

《秋雪漫过的冬天》首播,赵又廷张子枫主演,不如原版韩剧好看

马庆云的影音娱
2026-01-10 15:26:57
很多大厂开始辞退组内的印度人!

很多大厂开始辞退组内的印度人!

黯泉
2026-01-10 22:50:19
日本人的祖先究竟是谁?美国教授拿出DNA,日本人懵了

日本人的祖先究竟是谁?美国教授拿出DNA,日本人懵了

马探解说体育
2026-01-09 18:22:53
大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

大妈花50万买基金,账号忘了15年,孙子找回看到余额,全家愣住了

黄家湖的忧伤
2025-08-12 17:05:12
章泽天回国策划播客节目,她素颜开会很有气质,她换了新发色很美

章泽天回国策划播客节目,她素颜开会很有气质,她换了新发色很美

秋之洁
2026-01-10 09:16:55
第94分钟绝平!法布雷加斯神换人,替补神兵救主,3连胜终结

第94分钟绝平!法布雷加斯神换人,替补神兵救主,3连胜终结

足球狗说
2026-01-11 00:02:45
绝不让高安国和蔡正元含冤,大陆终于出手了,请大家记住这张鬼脸

绝不让高安国和蔡正元含冤,大陆终于出手了,请大家记住这张鬼脸

影孖看世界
2026-01-10 18:50:04
超20万颗!中国新增多个星座计划申请 全球太空资源竞争趋于白热化

超20万颗!中国新增多个星座计划申请 全球太空资源竞争趋于白热化

财联社
2026-01-10 18:06:08
洗碗机大反转!砸家男越看越冤,知情人曝更多,难怪丈夫会崩溃

洗碗机大反转!砸家男越看越冤,知情人曝更多,难怪丈夫会崩溃

八斗小先生
2026-01-10 15:30:07
商业航天+核聚变!5家硬核隐形冠军全解析,抢占双万亿赛道风口

商业航天+核聚变!5家硬核隐形冠军全解析,抢占双万亿赛道风口

Thurman在昆明
2026-01-10 09:35:46
外卖员送餐发现是自己地址,接下单:我倒要看看谁在我家!

外卖员送餐发现是自己地址,接下单:我倒要看看谁在我家!

晓艾故事汇
2025-07-14 17:13:00
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
供电局提醒:7种电器不用就拔插头,不然电费翻倍还危险

供电局提醒:7种电器不用就拔插头,不然电费翻倍还危险

叮当当科技
2026-01-03 11:07:42
柬埔寨至今都不敢相信,一场战争打掉了自己50年的国运

柬埔寨至今都不敢相信,一场战争打掉了自己50年的国运

农夫史记
2026-01-10 21:17:19
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
关晓彤没给鹿晗留一丝体面

关晓彤没给鹿晗留一丝体面

小椰的奶奶
2026-01-11 01:17:06
香港大埔五级火|黄伟纶:原址重建住宅不切实际,拟改建为社区设施

香港大埔五级火|黄伟纶:原址重建住宅不切实际,拟改建为社区设施

星岛记事
2026-01-10 11:32:27
阿娇的瓜又炸了,聊天记录曝光,颠覆想象

阿娇的瓜又炸了,聊天记录曝光,颠覆想象

听风听你
2024-12-25 22:41:20
切尔西血亏!400万甩卖的天才,如今估值超6000万, 枪手曼城疯抢

切尔西血亏!400万甩卖的天才,如今估值超6000万, 枪手曼城疯抢

澜归序
2026-01-11 02:24:33
数学家陶哲轩直言:大语言模型和其他现代AI的数学门槛没那么高,却有个“致命短板”至今无解

数学家陶哲轩直言:大语言模型和其他现代AI的数学门槛没那么高,却有个“致命短板”至今无解

人工智能学家
2026-01-10 18:38:44
2026-01-11 04:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1982386文章数 5212关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

头条要闻

特朗普签署行政令 宣布进入国家紧急状态

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

亲子
健康
教育
旅游
时尚

亲子要闻

方媛晒三个女儿:大宝趴地上画画,二宝读英文书!三胎睡婴儿车里

这些新疗法,让化疗不再那么痛苦

教育要闻

表现不好,还不接受批评的学生,怎么教育比较合适?

旅游要闻

12.7亿元营收、15倍增长背后:谁在操盘万岁山武侠城?顶流景区直面“长红”之困|主题乐园资本论

伊姐周六热推:电视剧《小城大事》;电视剧《轧戏》......

无障碍浏览 进入关怀版