网易首页 > 网易号 > 正文 申请入驻

下一个Transformer可能又被Google做出来了

0
分享至


作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

如果把现在的顶尖大模型比作一个人,那它一定患有一种罕见的神经系统疾病:顺行性遗忘症(Anterograde Amnesia)。

这是 Google Research 研究员、最近最受关注的一篇论文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 抛出的一个让所有人陷入沉思的比喻。

看过诺兰的电影《记忆碎片》(Memento)的人更能理解这种绝望。这种病症的患者拥有完好的“过往记忆”(Retrograde Memory),他们记得发病前的一切,我是谁,我来自哪里,我有什么技能。但对于发病后发生的所有事情,他们永远无法形成“新的长期记忆”。他们只能活在短暂的“当下”,几分钟后,一切就会被重置。

这就是现在 AI 模型的真实写照。

无论Gemini或是ChatGPT多么博学,如果不联网搜索,它们都只能依靠预训练阶段获得的出厂知识(也就是“发病前”的记忆)来回答问题。而在对话窗口里,无论你教给它多少新公司的业务逻辑,或者纠正了它多少次代码错误,这些信息都只停留在短暂的上下文窗口里。

一旦窗口关闭,或者显存被重置,它就像金鱼一样,把刚才发生的一切忘得干干净净 。下一次见面,它依然是那个出厂时的它,丝毫没有因为与你的交互而变得更聪明一点。

为什么拥有超级算力的 AI,却治不好这个健忘症?

长期以来,行业有一种二元对立的看法,认为 AI 的“架构”(Architecture)和“优化器”(Optimizer)是两个截然不同的物种。

架构是骨架(如 Transformer),它是静态的,出厂即冻结,负责“推理”。“优化器”是雕刻刀(如 Adam、SGD),它是动态的,只在工厂里用来训练模型,出厂后就被没收了。

我们习惯了把 AI 当作一个静态产品,训练好了,打包发布,用户只管用。


但在 Google 最新发布的 52 页硬核论文《Nested Learning: The Illusion of Deep Learning Architectures》(嵌套学习:深度学习架构的幻觉)中,研究团队试图告诉我们,这其实是一种幻觉,是我们人为制造的自我设限。

如果架构和优化器本质上是同一个东西呢?如果并没有所谓的“训练阶段”和“推理阶段”之分,一切都只是不同频率的“记忆压缩”过程呢?

基于这个大胆的假设,Google 团队提出了一个名为 HOPE 的新框架。他们并没有简单地堆砌参数,而是试图从底层逻辑上重构 AI 的“大脑结构”,让它不再是一个出厂即固化的工具,而是在每一次交互中都能微调自己、拥有“快慢记忆系统”的动态生命体。

而这篇论文也被不少人称为“Attention Is All You Need V2”,这篇论文提出的Transformer 架构成就了今天大模型的火热,而HOPE让人们期待它成为下一个Transformer 级别的创新。


Ali Behrouz 在 NeurIPS 2025 现场讲解Nested Learning。

1

拆解“幻觉”:被遗忘的中间地带

要治好“健忘症”,我们首先得看看现在的 AI 大脑里到底装了什么。

在 Ali Behrouz 的解构下,目前的 Transformer 架构呈现出一种极端的“精神分裂”状态。如果不使用复杂的数学术语,我们可以把它的内部组件看作两个极端:

一个是“极快”的 Attention(注意力机制)。它时刻处于亢奋状态,对你输入的每一个字(Token)都进行瞬时的计算和响应。它的更新频率几乎是无限的,这让模型拥有了所谓的上下文学习能力(In-Context Learning),你刚说的话,它马上就能用。

另一个是“极慢”的 MLP(前馈神经网络)。它是模型的长期记忆库,承载了绝大多数参数。但它的更新频率是 0。这部分像一块冻结的硬盘,除非你耗费巨资进行全量微调(Fine-tuning),否则它永远不会改变。

在这两者之间,存在着一个巨大的真空地带。

这就是“幻觉”的根源。人类的大脑并不是这样工作的。我们的记忆是一个连续的频谱,我们有几秒钟的感官记忆,有几小时的工作记忆,也有几天甚至几年的长期记忆。我们的脑突触并不是非黑即白,而是以各种不同的频率在不断微调。

为了填补这个真空,Google 团队提出了 Nested Learning(嵌套学习) 的概念。我们可以把它想象成一套精密咬合的齿轮系统”:

  • 最外层的小齿轮转得飞快(处理当前的对话);

  • 中间层的齿轮转得稍慢(记住过去几小时或几天的任务);

  • 最里层的大齿轮转得极慢(沉淀世界观和基础知识)。

为了证明这种统一性在生物学上的合理性,他甚至在论文中引用了一个非常硬核的神经科学案例,半球切除术(Hemispherectomy) 。

医学发现,即使切掉人类的一半大脑,通常是为了治疗严重癫痫,剩下的一半脑组织也能通过重组资源,接管几乎所有功能,人依然能正常生活。这说明大脑并没有什么“专门负责 Attention 的模块”或“专门负责 MLP 的模块”,神经组织是通用的、可复用的。

同样的道理,AI 的“架构”和“优化器”本质上也是同一种东西,只是处于不同的嵌套层级:

  • 传统的模型记忆的是“数据”(Token);

  • 优化器(如 Adam)记忆的是“梯度”(Gradient)。即“我上次在这个地方犯了错,下次要修正” 。

既然都是在“记忆信息”并“更新状态”,为什么我们要把它们人为地割裂开来?也许我们不需要在这个二元对立的框架里修修补补,可以直接设计一个全频率覆盖的动态系统。

1

HOPE 的三层设计

基于 Nested Learning 的理论,Google 团队交出了一份具体的工程答卷,还起了一个充满寓意的名字:HOPE (High-order OPtimization and Expressivity)。

如果说传统的 Transformer 是一个只有短期记忆的“单核处理器”,那么 HOPE 更像是一个符合神经科学原理的“双重记忆大脑”。它通过两个组件,复刻了类似生物大脑中海马体(Hippocampus)与大脑皮层(Cortex)的协作机制 。

1. 快系统:像海马体一样敏锐的 Titans

在 HOPE 的最前端,是处理即时信息的“快系统”。这里 Google 使用了论文一作 Ali Behrouz 之前的另一项成名作Titans。

你可以把 Titans 理解为一种“超级 RNN”。它就像人类灵活的海马体,负责快速捕捉和编码当下的新知。传统的 AI 模型在处理新信息时是被动的,但 HOPE 里的 Titans 模块具有极强的“主观能动性”,它是 Self-Modifying(自我修改) 的。

它不仅是在读取数据,更是在根据当前的上下文,实时生成自己这一步学习所需要的 Key、Value,甚至自己决定这一次记忆的 Learning Rate(学习率) 。这意味着,它能敏锐地判断眼前信息的重要性,快速形成短期记忆。

2. 慢系统:像皮层一样厚重的 CMS

这是整个架构中最具颠覆性的设计。HOPE 引入了 Continuum Memory System (连续记忆系统,CMS)。CMS 就像是厚重的大脑皮层,负责将经过筛选的知识长久地刻印在神经元中。


Google 将人脑电波的频率机制引入了 AI 架构设计,构建了不同更新频率的层级

在 CMS 中,模型内部的 MLP(前馈网络)不再是铁板一块,而是被切分成了不同的层级,就像不同转速的齿轮:

  • 高频层: 可能每处理几百个字就更新一次,用于捕捉刚才对话里的新定义。

  • 中频层: 可能每处理几万字更新一次,用于适应一个新的项目背景。

  • 低频层: 几乎不更新,用于稳固语言的语法和常识 。

左侧的 HOPE 架构拥有丰富的中间层级

这种设计避免了灾难性遗忘。当新知识涌入时,它会被优先存储在高频层,而不会去惊扰低频层里的旧知识。随着时间的推移,真正重要的信息才会像沙漏里的沙子一样,慢慢沉淀到深层。

3. 优化器也有了“记忆”

Google 的激进之处在于,他们不仅改造了大脑(架构),还改造了老师(优化器)。

为了配合这就这套复杂的系统,他们设计了一个名为 M3 (Multi-scale Momentum Muon) 的新优化器。

既然模型分了层,优化器为什么不能分层?普通的 Adam 优化器只看眼前的梯度(Local Structure),容易陷入短视。而 M3 优化器本身也被设计成了嵌套结构,它有一层“快动量”负责看脚下的路,还有一层“慢动量”负责看远处的山脉(全局 Loss Landscape)。

这意味着,连负责训练的算法本身,都拥有了更深远的记忆力。


M3 优化器在 ImageNet 训练任务中,展现出了更快的收敛速度和更低的 Loss

实验数据显示,这种设计在 ImageNet 和大语言模型训练上,不仅收敛更快,而且最终效果更好。

4. 给工程师的“后悔药”

对于工业界的开发者来说,HOPE 最迷人的地方可能不是从头训练一个新模型,而是它提供了一种“原地改造”的可能性。

Ali Behrouz 在分享中提到了一个名为 Ad-hoc Level Stacking 的技巧,你不需要抛弃手里现有的 Llama 或 Qwen 模型。你可以直接拿来一个预训练好的模型,人为地将它的不同层指定为不同的“更新频率”,把浅层设为高频,深层设为低频 。

这就像是给一辆已经出厂的旧车,通过刷新固件就解锁了自动驾驶功能。这一特性,让 Nested Learning 成为了一个工程方案。

1

从“静态产品”到“动态生命”

我们把视角从代码行中抽离出来,会发现 Nested Learning 真正的野心,不在于刷榜,而在于试图完成一次 AI 领域的范式转移。

在 NeurIPS 的分享最后,作者提出了一个发人深省的观点,“深度(Depth)也许不再是唯一的答案。”

过去十年,我们一直在堆叠物理层数,把神经网络做得越来越深。这种暴力美学确实带来了涌现能力,但它也制造了一个巨大的“幻觉”,误以为智能来源于静态的深度。而忽略了真正的深度可能来自于嵌套的优化。

更进一步,论文中提出了一个极其激进的定义:“预训练本身,其实就是一种超长上下文的 In-Context Learning。”

这句话消解了 AI 领域最大的边界。在 Nested Learning 的愿景里,没有所谓的“训练结束”这一天。模型在与用户交互的每一秒,都在以某种微小的频率更新自己的突触。它不再是一个冰冷的、出厂即固化机器,而是一个在数据流中不断呼吸、代谢、进化的有机体。

这或许才是通往 AGI更本质的道路,智能不是被灌输的,而是在交互中生长的。

当然,任何试图颠覆范式的理论,注定会伴随着巨大的争议。这围绕这篇论文讨论区里,声音很多样。

乐观者将其视为 "Attention Is All You Need V2"。社区对于自我修改这一概念尤为着迷。长期以来,我们一直诟病 LLM 只是“统计学的鹦鹉”,而 HOPE 让 AI 第一次拥有了某种“元认知”能力,即学习如何学习。这种从被动拟合到主动适应的跨越,被认为是 AI 产生质变的关键。

实用主义者则看到了解决灾难性遗忘的曙光。如果这一架构能落地,未来的企业级 AI 将不再需要为了更新一点点业务知识而耗资百万进行全量重训,AI 可以在业务流中自然地学会新规章,同时不忘记旧制度。这是对降本增效是最直接的。

质疑者也大有人在。比如有评论指出,论文中将 SGD(梯度下降)强行解释为“联想记忆”的数学证明虽然精彩,但更多依赖直觉,缺乏严谨的收敛性保障。更有工程师担心,这种复杂的“嵌套优化”会让调参难度呈指数级上升,毕竟,调一个 Adam 已经够头疼了,现在我们要同时调好几个不同频率的“大脑”。

但无论如何,Google 这一次没有在参数量上卷,而是在“学习的本质”上开了一枪。

它用一种近乎哲学的方式提醒我们,对于一个真正的智能体来说,存在就是压缩,活着就是学习。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
白银彻底失控了

白银彻底失控了

格隆汇
2026-01-26 20:18:13
晚年的陈独秀,如何看透苏联的真相?

晚年的陈独秀,如何看透苏联的真相?

凭阑听史
2026-01-24 18:15:48
1分惜败!残阵北京惊艳1战,CBA焦点:迪亚洛准3双,多次爆发争执

1分惜败!残阵北京惊艳1战,CBA焦点:迪亚洛准3双,多次爆发争执

话体坛
2026-01-26 22:19:59
贵州茅台成交额创2025年4月9日以来新高

贵州茅台成交额创2025年4月9日以来新高

证券时报
2026-01-26 15:35:14
高盛策略师警告:全球股市“风暴”正在酝酿 回调或一触即发

高盛策略师警告:全球股市“风暴”正在酝酿 回调或一触即发

财联社
2026-01-26 15:04:05
张本美和泪洒当场!17岁创5纪录成日乒首人 日媒:她的时代到来

张本美和泪洒当场!17岁创5纪录成日乒首人 日媒:她的时代到来

颜小白的篮球梦
2026-01-26 21:12:05
佐藤龙之介:罚点前李昊的喊话我没太听清,这种行为这很正常

佐藤龙之介:罚点前李昊的喊话我没太听清,这种行为这很正常

懂球帝
2026-01-26 18:55:07
A股明天周二剧本已出!晚间突传一重大消息,明天要来大动作吗?

A股明天周二剧本已出!晚间突传一重大消息,明天要来大动作吗?

股市皆大事
2026-01-26 15:51:55
汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

汽车圈“大地震”!比亚迪大将投奔行业巨头,叫嚣:三年内没对手

长星寄明月
2026-01-20 21:00:46
起风了,黄国昌辞职后去向已明,柯文哲改弦更张,郑丽文再获强援

起风了,黄国昌辞职后去向已明,柯文哲改弦更张,郑丽文再获强援

卷史
2026-01-26 12:09:19
洪森最大的失误:低估了西哈莫尼国王,高估了儿子洪玛奈!

洪森最大的失误:低估了西哈莫尼国王,高估了儿子洪玛奈!

阿柒的讯
2025-12-23 18:22:55
连续18个涨停!浙江一上市公司发布最新公告

连续18个涨停!浙江一上市公司发布最新公告

台州交通广播
2026-01-26 07:20:03
重大转向!美国发布最新国防战略报告:特朗普总统寻求与中国建立稳定的和平、公平的贸易以及互相尊重的关系

重大转向!美国发布最新国防战略报告:特朗普总统寻求与中国建立稳定的和平、公平的贸易以及互相尊重的关系

每日经济新闻
2026-01-25 09:56:41
46岁蓝正龙悉尼被偶遇!造型邋遢似流浪汉,手提台湾LV太抢眼

46岁蓝正龙悉尼被偶遇!造型邋遢似流浪汉,手提台湾LV太抢眼

小曙说娱
2026-01-25 00:27:44
《寻秦记》庆功会:宣萱天然脸好靓,林峯满脸褶,古天乐颜值回春

《寻秦记》庆功会:宣萱天然脸好靓,林峯满脸褶,古天乐颜值回春

洲洲影视娱评
2026-01-26 12:20:42
“林肯”号航母打击群抵达中东,美军做好准备,等待特朗普下令

“林肯”号航母打击群抵达中东,美军做好准备,等待特朗普下令

山河路口
2026-01-24 22:30:19
外媒:特朗普称“已拿到”委内瑞拉被扣石油

外媒:特朗普称“已拿到”委内瑞拉被扣石油

参考消息
2026-01-25 21:30:05
狠!10天八个跌停板!从51跌到2.19跌去96%,3万股东踩雷,今天又跌停

狠!10天八个跌停板!从51跌到2.19跌去96%,3万股东踩雷,今天又跌停

股市皆大事
2026-01-26 14:33:42
时隔两年Angelababy和黄晓明再次合体为儿子庆9岁生日 全程无交流

时隔两年Angelababy和黄晓明再次合体为儿子庆9岁生日 全程无交流

小娱乐悠悠
2026-01-26 11:42:27
拒绝逆转,北京男篮1分险胜山西 张才仁制胜补篮 翟晓川9+4+4全能

拒绝逆转,北京男篮1分险胜山西 张才仁制胜补篮 翟晓川9+4+4全能

替补席看球
2026-01-26 21:42:45
2026-01-26 22:44:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2818文章数 10431关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

C919新年交付开门红 被指今年有望实现每15天造一架

头条要闻

C919新年交付开门红 被指今年有望实现每15天造一架

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

数码
本地
亲子
房产
公开课

数码要闻

首发可用NVIDIA DLSS 4.5,480帧的《明日方舟:终末地》体验如何

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

亲子要闻

原来坐月子时候真的不能常抱宝宝!网友:一旦习惯就有的受了

房产要闻

突发!三亚官宣,调整安居房政策!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版