网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

伯克利神作背刺OpenAI：持续学习才是真神！

2026-05-19 06:58:08　来源: 新智元

北京举报

0

分享至

新智元报道

【新智元导读】伯克利等发布FST框架：通过快慢分层解决大模型持续学习死局。

AI工程师Dan McAteer大胆预言，2026年持续学习（continual learning）即将爆发！

通过记忆/上下文快速适应+权重缓慢调整的分层机制，模型保留可塑性避免灾难性遗忘，这一突破远超推理变革1000倍。

这是最近的伯克利等机构的AI实验给他的勇气。

他们让同一个大语言模型连续学三个任务：

先学需要多跳检索的事实核验HoVer；再学代码推理CodeIO；最后学物理题Physics。

每个任务训200步就切换，模拟真实世界里「任务在不断变化」的学习场景。

用主流的强化学习(RL)范式训练，模型在第一关HoVer上学会了。到了第二关CodeIO完全卡住。学不动。

换上他们提出的新框架FST（Learning，Fast and Slow），同一个模型，三关都能学会。

这是AI行业过去两年集体押注的某个方向，第一次显露出它的天花板。

标题：Learning, Fast and Slow: Towards LLMs That Adapt Continually

预印本：https://arxiv.org/abs/2605.12484

项目主页：https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

如果我们集体押注的那条路，正在让模型变成「会做题但学不会新东西的天才」，那我们押的到底是AI，还是一只越来越精致的鹦鹉？

「推理」成了AI圈的全部叙事

过去两年，几乎所有头部实验室都在做同一件事：让模型想得更深。

OpenAI的o系列、DeepSeek的R1、Claude的思考模式这些产品形态各异，但内核都是一个共识：推理能力是AI的下一关。

这个共识强到什么程度？

强到你今天去一线投资人那里，如果不能讲清楚自己怎么「做推理」（reasoning），连第一轮的门都进不去。

强到我们已经忘了去问：推理，到底是什么？

打一个比方，一个学生能把任何一道高考题想得无比深，推理链条无懈可击，逻辑结构滴水不漏。

但有一个前提，他从初中毕业那天起，就没再学过任何新知识。所有的知识储备，都停留在他16岁那年的状态。

你愿意把他的能力，称为「智能」吗？

这个比方可不是修辞。这是当前最先进LLM的真实处境。

GPT-5、Claude、Gemini等所有这些你今天能用上的模型，它们在每一次新对话开始时，都是一个昨天毕业、今天醒来、忘了一切的天才。

它们可以在一道题上推理得越来越深，但只要对话框一关，记忆就会清空，回到出厂设置般的「天才状态」。

它们是在推理的巨石上反复攀爬的数字西西弗斯——爬得越来越高，起点却永远是山脚。

问题是，为什么我们一直没察觉？

在AI历史上失败了30年，大家不敢再期待

为什么GPT不会从你和它的对话里学到任何东西？为什么你昨天教它的东西，今天打开一个新对话，它就完全不记得？

这是一堵30年没人推倒的墙。

AI领域的「持续学习」(Continual Learning)，研究怎么让模型像人一样，不断「温故知新，吐故纳新」。

这个问题从1990年代就在被研究，然后在三个老对手面前反复失败：

第一个对手叫「首因偏差」（primacy bias），早期数据会主导模型最终的策略。

模型学会的第一件事，会顽固地塑造它后面学所有事情的方式。

第二个对手叫「损失函数弹性」（loss of plasticity），即模型每多学一个任务，可塑性就降低一分。

到某个临界点，它就再也学不会任何新东西了。

第三个对手最有名，叫「灾难性遗忘」(catastrophic forgetting)——你教模型学新任务，它的旧能力「啪」地一下塌掉。

教它做数学题，它就忘了怎么写代码。教它写代码，它就忘了怎么对话。

这三个问题，在小模型时代就存在。

到了大模型时代，它们没有变小，只是变得不那么醒目。

因为我们干脆放弃了让模型「持续学习」，只在训练时灌一次知识，部署后就冻结。

我们今天用的所有LLM，本质上都是冻结的天才。

聪明，但不能再聪明。强大，但活在一个永恒的当下。

这就是为什么大模型时代，持续学习一直是个「听上去很美但谁也不敢碰」的话题。

试过的人都被这堵墙撞回来过。

但最近，这堵墙被一组研究者推了一道缝——他们没有发明新算法，他们做了一件更根本的事：重新分工。

让模型像大脑一样，快慢分层

这是Databricks工程力+伯克利系统派+经典ML学派绑在一起的项目。

作者豪华，值得一看：Matei Zaharia(Databricks联合创始人，Apache Spark作者)、Joseph Gonzalez(伯克利，vLLM作者之一)、Inderjit Dhillon(UT Austin与Google，ML领域元老级人物)——以及一群伯克利的博士。

当这三股力量同时押注一个方向，你就该认真看一眼。

他们提出的框架叫FST(Fast-Slow Training，快慢训练)。核心思想极其朴素：

不要让一组参数同时承担两个矛盾职能。

传统RL训练里，模型只有一组参数。

它既要「快速适应当前任务的特殊性」，又要「保留通用的推理能力」。

这两件事天然冲突：前者要漂移，后者要稳定。

FST的做法是：把这两件事分到两套「权重」上。

两者交替更新——每隔一段时间用RL调一下慢权重，同时用一个叫GEPA的prompt优化器自动演化快权重。

你的大脑，正是这样运作的。

在博客里，GEPA团队直接引用了「互补学习系统」理论(Complementary Learning Systems)：

你的海马体，是大脑的「快权重」，它在几分钟内就能记住今天下午开会时同事说的那句话；

你的新皮层，是「慢权重」，它用几个月甚至几年的时间，慢慢把这些细节里真正值得纳入长期结构的东西沉淀下来。

新记忆，从来没有直接写进大脑长期结构。

它先在海马体里「暂存」，在睡眠中被反复回放，最终只有极小一部分被慢慢渗透进新皮层——剩下的，你忘了。

FST第一次让大模型拥有了这种分层结构。

数字也很漂亮。

FST在CodeIO任务上达到RL同等性能，只用了1/3的训练步数——数据效率3倍。

在匹配准确率的情况下，FST训出来的模型与基础模型的KL散度(衡量分布偏移)比RL低70%——遗忘减少70%。

最关键的是可塑性测试：训完Math任务后，再训HoVer-hard，RL训过的模型几乎完全学不动新任务(可塑性塌缩到近0)，FST训过的模型，几乎恢复到基础模型水平继续学。

这是数量级跃迁。

当然，FST不是一个完美的算法。GEPA和CISPO可以被任何其他的prompt优化器和RL算法替换，它的工程实现还很初步。

重要的不是FST这个具体方法能不能跑通——重要的是它提出的"快慢分工"作为一种范式语言，第一次让持续学习从空想变成可工程化的方向。

还没形成的共识

共识正在形成，但还没形成。

这才是真实状态。

业界给的时间表是另一套。

Ilya Sutskever认为：超级智能应被重新定义为持续学习器，而非已完成的AGI。

他估算continual learning还要5到20年。

Ilya一向比业界共识慢，但每次保守判断都比业界更精准。5到20年的区间意味着，即使是 Ilya 也承认这件事会被解决，分歧只在节奏。

Karpathy更微妙。

在他看来，continual learning是真问题，用现有路径解决还不够。他的怀疑停在执行层面，方向层面没有反对。

但事情已经动了。

推理时代是2024年开局、2026 年收尾。

持续学习时代是2026年开局，下一轮博弈不会等到2027年。

参考资料：

https://arxiv.org/pdf/2605.12484

https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

https://x.com/daniel_mac8/status/2055975372345274519

编辑：KingHZ David

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

给世界模型加上因果，她要让机器人真正理解“为什么”

DeepTech深科技 2026-06-20 11:32:15
0 跟贴 0
OpenAI塌房！Scaling law原作曝bug，万亿算力全白烧

新智元 2026-07-05 12:45:19
0 跟贴 0

Agent终于长出了身体：Jiuwen Symbiosis背后的思考与实践

量子位 2026-06-13 16:08:07
18 跟贴 18

当AI改进自己：递归自我改进与AI监管

经济观察报 2026-07-05 02:55:54
0 跟贴 0
GaussianDWM：用3D高斯表示统一自动驾驶场景理解与多模态生成

机器之心Pro 2026-06-14 19:24:09
0 跟贴 0

视频生成模型会「推理」吗？303道题全面揭示世界模型的推理短板

机器之心Pro 2026-06-28 18:29:07
0 跟贴 0

预测到规划未来：WLA统一了世界建模、语言推理与动作生成

机器之心Pro 2026-07-03 16:11:26
0 跟贴 0
我把昨晚的梦输入AI，它居然直接把我拉进去玩儿了一把？！

量子位 2026-06-19 16:40:27
3 跟贴 3

当AI从租GPU走向卖Token，谁会赚到真正的钱？

虎嗅APP 2026-05-19 00:08:10
0 跟贴 0
安心养虾！从OpenClaw 看云上AI安全落地路径

量子位 2026-04-18 19:55:39
0 跟贴 0
李飞飞、Jim Fan、徐丹飞联手，给具身智能指了一条新路

钛媒体APP 2026-07-05 09:29:08
0 跟贴 0
亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
一家BI公司，当下决定转型

钛媒体APP 2026-07-05 09:18:14
0 跟贴 0
王晓野：Working Agent将是下一个爆发点

量子位 2026-05-21 08:05:51
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
23岁4年逆袭，奥特曼连人带公司全买了！

新智元 2026-07-04 16:33:04
38 跟贴 38
傻瓜式Loop教程来了：一行命令直接上手，GitHub狂揽4.5k Star

量子位 2026-07-04 07:00:05
15 跟贴 15
LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro 2026-04-22 11:01:55
0 跟贴 0
让大模型边想边说：这篇文章把「何时开口」变成可学习策略

机器之心Pro 2026-05-18 14:49:11
0 跟贴 0
Claude Code 源码泄露了，有人用Python复刻了一个极简版

机器之心Pro 2026-04-02 11:30:10
14 跟贴 14
看上去呆呆的傻小子，竟是跳高天才

影中见影 2026-07-03 00:00:00
0 跟贴 0
冯德莱恩：中欧对话结果必须令人满意否则将进行报复

澎湃新闻 2026-07-05 07:08:04
9055 跟贴 9055
UC伯克利麻了：生源太差，得从小学乘法开始教，微积分课被迫暂停

机器之心Pro 2026-07-02 16:25:15
11 跟贴 11
比比皆是的下一个创新点：Prompt Learning进化到SIPDO闭环自进化

机器之心Pro 2026-02-28 11:17:43
0 跟贴 0
图形推理，学霸如何找出规律呢

公考客栈店小二 2026-07-03 09:00:00
0 跟贴 0
Github持续霸榜第一的，是一个AI视频剪辑项目OpenMontage

量子位 2026-06-28 18:41:58
0 跟贴 0
1993-1998年出生，凭什么最幸运？

字节漫游指南 2026-07-04 03:15:46
0 跟贴 0
OpenAI提议向美国政府出让5%股权

新智元 2026-07-04 16:31:19
0 跟贴 0
凤凰传奇谈工作策略，不谈感情成明智之选，背后原因大揭秘

料定历史 2026-07-04 09:53:27
1 跟贴 1
河南80后男子带村民养蝉，高峰期一晚上可抓1.2万只：每晚摸三轮爬叉，抓到4小时内冷冻

环球网资讯 2026-07-05 08:36:34
2095 跟贴 2095
船都绕着走，“再不治理迟早出大事”

中国新闻周刊 2026-07-04 19:46:11
5775 跟贴 5775

法国世界杯最大反差！巴黎双子星天差地别！一个封神一个被狂喷

法国世界杯最大反差！巴黎双子星天差地别！一个封神一个被狂喷

澜归序

2026-07-05 08:31:43

安切洛蒂：巴西的中卫比我更了解哈兰德；拉菲尼亚可以上场了

安切洛蒂：巴西的中卫比我更了解哈兰德；拉菲尼亚可以上场了

懂球帝

2026-07-05 10:13:26

彻底叫停！一旦取消京牌限制，北京或将陷入不可逆的全城瘫痪

彻底叫停！一旦取消京牌限制，北京或将陷入不可逆的全城瘫痪

趣味萌宠的日常

2026-07-05 10:39:40

穆里尼奥力保！皇马铁了心甩卖，边缘替补世界杯封神打脸高层

穆里尼奥力保！皇马铁了心甩卖，边缘替补世界杯封神打脸高层

澜归序

2026-07-05 05:37:57

穆杰塔巴想去哈梅内伊下葬仪式被否决：避免暗杀

穆杰塔巴想去哈梅内伊下葬仪式被否决：避免暗杀

看看新闻Knews

2026-07-05 12:58:26

4种中国式大妈发型：“自以为时髦，实际油腻显老”，看看是你吗

4种中国式大妈发型：“自以为时髦，实际油腻显老”，看看是你吗

白宸侃片

2026-07-05 00:26:23

14球对70球，15球对19球！大罗彻底沦为笑话，被姆巴佩全面碾压！

14球对70球，15球对19球！大罗彻底沦为笑话，被姆巴佩全面碾压！

陌识

2026-07-05 07:18:08

65岁大爷哭诉：退休后沉迷交谊舞，每月9000的退休金都不够用

65岁大爷哭诉：退休后沉迷交谊舞，每月9000的退休金都不够用

烙任情感

2026-07-04 11:40:20

安切洛蒂：没人有资格评判我，有资格指点我的只有弗格森

安切洛蒂：没人有资格评判我，有资格指点我的只有弗格森

懂球帝

2026-07-04 22:00:07

淘汰赛变成全武行！这个主裁太离谱，前裁判怒了：应取消执法资格

淘汰赛变成全武行！这个主裁太离谱，前裁判怒了：应取消执法资格

萌兰聊个球

2026-07-05 08:21:47

名古屋亚运会还没开，日本主办方已经先急眼了

名古屋亚运会还没开，日本主办方已经先急眼了

阿振观点

2026-07-04 19:16:05

孙颖莎横扫陈幸同采访！亲承状态调动好没松懈，展望下轮打王艺迪

孙颖莎横扫陈幸同采访！亲承状态调动好没松懈，展望下轮打王艺迪

篮球资讯达人

2026-07-05 10:09:57

不结婚，怎么解决生理需求？58岁的歌唱家张也，给出了最佳回答

不结婚，怎么解决生理需求？58岁的歌唱家张也，给出了最佳回答

悦君兮君不知

2026-07-04 00:01:28

根本不是安全问题？伊朗最高领袖缺席父亲葬礼，安全理由能否服众

根本不是安全问题？伊朗最高领袖缺席父亲葬礼，安全理由能否服众

触摸史迹

2026-07-05 02:44:15

黄有龙再传坏消息！2.7亿赌债仅冰山一角，毁掉他的根本不是赵薇

黄有龙再传坏消息！2.7亿赌债仅冰山一角，毁掉他的根本不是赵薇

叹为观止易

2026-07-05 09:24:09

江西挖出50万吨“垃圾”一化验，3300年前中国已把西方甩了2000年

江西挖出50万吨“垃圾”一化验，3300年前中国已把西方甩了2000年

掠影后有感

2026-06-19 09:55:37

重磅！6月29日国务院发文，中小学教育迎来全面大调整

重磅！6月29日国务院发文，中小学教育迎来全面大调整

手工制作阿爱

2026-07-05 11:49:08

唯独中国交五倍签证费？高市不听岸田劝告，中方对日本改了称呼！

唯独中国交五倍签证费？高市不听岸田劝告，中方对日本改了称呼！

清衣渡a

2026-06-30 13:42:14

面对只会哭泣和抱怨的“巨婴”，中国太难了

面对只会哭泣和抱怨的“巨婴”，中国太难了

大树乡谈

2026-07-04 23:57:56

比亚迪CEO警告：新款电机一旦投放市场，汽车行业恐迎全面洗牌

比亚迪CEO警告：新款电机一旦投放市场，汽车行业恐迎全面洗牌

梦史

2026-07-03 23:42:26

AI产业主平台领航智能+时代

15610文章数 66948关注度

往期回顾全部

科技要闻

华为：逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

中国为何援助"中高收入国家"佛得角媒体披露原因

头条要闻

中国为何援助"中高收入国家"佛得角媒体披露原因

体育要闻

姆巴佩点走巴拉圭：巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光用上了长联屏设计/下半年上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

艺术

家居

数码

时尚

教育要闻

义务教育年限要延长了吗？

艺术要闻

原来郭沫若是错的！《兰亭序》并非伪作

家居要闻

传奇筑日常诗

数码要闻

华强北存储行情回升多款固态硬盘、内存条价格上涨

伊姐周六热推：电视剧《画梦录》；电视剧《灿如繁星》......

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版