网易首页 > 网易号 > 正文 申请入驻

伯克利神作背刺OpenAI:持续学习才是真神!

0
分享至


新智元报道


【新智元导读】伯克利等发布FST框架:通过快慢分层解决大模型持续学习死局。

AI工程师Dan McAteer大胆预言,2026年持续学习(continual learning)即将爆发!

通过记忆/上下文快速适应+权重缓慢调整的分层机制,模型保留可塑性避免灾难性遗忘,这一突破远超推理变革1000倍。


这是最近的伯克利等机构的AI实验给他的勇气。

他们让同一个大语言模型连续学三个任务:

先学需要多跳检索的事实核验HoVer;再学代码推理CodeIO;最后学物理题Physics。

每个任务训200步就切换,模拟真实世界里「任务在不断变化」的学习场景。

用主流的强化学习(RL)范式训练,模型在第一关HoVer上学会了。到了第二关CodeIO完全卡住。学不动。

换上他们提出的新框架FST(Learning,Fast and Slow),同一个模型,三关都能学会。


这是AI行业过去两年集体押注的某个方向,第一次显露出它的天花板。


标题:Learning, Fast and Slow: Towards LLMs That Adapt Continually

预印本:https://arxiv.org/abs/2605.12484

项目主页:https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

如果我们集体押注的那条路,正在让模型变成「会做题但学不会新东西的天才」,那我们押的到底是AI,还是一只越来越精致的鹦鹉?

「推理」成了AI圈的全部叙事

过去两年,几乎所有头部实验室都在做同一件事:让模型想得更深。

OpenAI的o系列、DeepSeek的R1、Claude的思考模式这些产品形态各异,但内核都是一个共识:推理能力是AI的下一关


这个共识强到什么程度?

强到你今天去一线投资人那里,如果不能讲清楚自己怎么「做推理」(reasoning),连第一轮的门都进不去。

强到我们已经忘了去问:推理,到底是什么?

打一个比方,一个学生能把任何一道高考题想得无比深,推理链条无懈可击,逻辑结构滴水不漏。

但有一个前提,他从初中毕业那天起,就没再学过任何新知识。所有的知识储备,都停留在他16岁那年的状态。

你愿意把他的能力,称为「智能」吗?

这个比方可不是修辞。这是当前最先进LLM的真实处境。

GPT-5、Claude、Gemini等所有这些你今天能用上的模型,它们在每一次新对话开始时,都是一个昨天毕业、今天醒来、忘了一切的天才。

它们可以在一道题上推理得越来越深,但只要对话框一关,记忆就会清空,回到出厂设置般的「天才状态」。

它们是在推理的巨石上反复攀爬的数字西西弗斯——爬得越来越高,起点却永远是山脚。

问题是,为什么我们一直没察觉?

在AI历史上失败了30年,大家不敢再期待

为什么GPT不会从你和它的对话里学到任何东西?为什么你昨天教它的东西,今天打开一个新对话,它就完全不记得?

这是一堵30年没人推倒的墙。

AI领域的「持续学习」(Continual Learning),研究怎么让模型像人一样,不断「温故知新,吐故纳新」。

这个问题从1990年代就在被研究,然后在三个老对手面前反复失败:

第一个对手叫「首因偏差」(primacy bias),早期数据会主导模型最终的策略。

模型学会的第一件事,会顽固地塑造它后面学所有事情的方式。

第二个对手叫「损失函数弹性」(loss of plasticity),即模型每多学一个任务,可塑性就降低一分。

到某个临界点,它就再也学不会任何新东西了。

第三个对手最有名,叫「灾难性遗忘」(catastrophic forgetting)——你教模型学新任务,它的旧能力「啪」地一下塌掉。

教它做数学题,它就忘了怎么写代码。教它写代码,它就忘了怎么对话。


这三个问题,在小模型时代就存在。

到了大模型时代,它们没有变小,只是变得不那么醒目。

因为我们干脆放弃了让模型「持续学习」,只在训练时灌一次知识,部署后就冻结。

我们今天用的所有LLM,本质上都是冻结的天才

聪明,但不能再聪明。强大,但活在一个永恒的当下。

这就是为什么大模型时代,持续学习一直是个「听上去很美但谁也不敢碰」的话题。

试过的人都被这堵墙撞回来过。


但最近,这堵墙被一组研究者推了一道缝——他们没有发明新算法,他们做了一件更根本的事:重新分工

让模型像大脑一样,快慢分层

这是Databricks工程力+伯克利系统派+经典ML学派绑在一起的项目

作者豪华,值得一看:Matei Zaharia(Databricks联合创始人,Apache Spark作者)、Joseph Gonzalez(伯克利,vLLM作者之一)、Inderjit Dhillon(UT Austin与Google,ML领域元老级人物)——以及一群伯克利的博士。


当这三股力量同时押注一个方向,你就该认真看一眼。

他们提出的框架叫FST(Fast-Slow Training,快慢训练)。核心思想极其朴素:

不要让一组参数同时承担两个矛盾职能。

传统RL训练里,模型只有一组参数。

它既要「快速适应当前任务的特殊性」,又要「保留通用的推理能力」。

这两件事天然冲突:前者要漂移,后者要稳定

FST的做法是:把这两件事分到两套「权重」上

两者交替更新——每隔一段时间用RL调一下慢权重,同时用一个叫GEPA的prompt优化器自动演化快权重。

你的大脑,正是这样运作的。


在博客里,GEPA团队直接引用了「互补学习系统」理论(Complementary Learning Systems):

你的海马体,是大脑的「快权重」,它在几分钟内就能记住今天下午开会时同事说的那句话;

你的新皮层,是「慢权重」,它用几个月甚至几年的时间,慢慢把这些细节里真正值得纳入长期结构的东西沉淀下来。


新记忆,从来没有直接写进大脑长期结构。

它先在海马体里「暂存」,在睡眠中被反复回放,最终只有极小一部分被慢慢渗透进新皮层——剩下的,你忘了。

FST第一次让大模型拥有了这种分层结构。

数字也很漂亮。


FST在CodeIO任务上达到RL同等性能,只用了1/3的训练步数——数据效率3倍

在匹配准确率的情况下,FST训出来的模型与基础模型的KL散度(衡量分布偏移)比RL低70%——遗忘减少70%

最关键的是可塑性测试:训完Math任务后,再训HoVer-hard,RL训过的模型几乎完全学不动新任务(可塑性塌缩到近0),FST训过的模型,几乎恢复到基础模型水平继续学。


这是数量级跃迁

当然,FST不是一个完美的算法。GEPA和CISPO可以被任何其他的prompt优化器和RL算法替换,它的工程实现还很初步。

重要的不是FST这个具体方法能不能跑通——重要的是它提出的"快慢分工"作为一种范式语言,第一次让持续学习从空想变成可工程化的方向

还没形成的共识

共识正在形成,但还没形成。

这才是真实状态。

业界给的时间表是另一套。

Ilya Sutskever认为:超级智能应被重新定义为持续学习器,而非已完成的AGI。

他估算continual learning还要5到20年。

Ilya一向比业界共识慢,但每次保守判断都比业界更精准。5到20年的区间意味着,即使是 Ilya 也承认这件事会被解决,分歧只在节奏。

Karpathy更微妙。

在他看来,continual learning是真问题,用现有路径解决还不够。他的怀疑停在执行层面,方向层面没有反对。

但事情已经动了。

推理时代是2024年开局、2026 年收尾。

持续学习时代是2026年开局,下一轮博弈不会等到2027年。

参考资料:

https://arxiv.org/pdf/2605.12484

https://gepa-ai.github.io/gepa/blog/2026/05/11/learning-fast-and-slow/

https://x.com/daniel_mac8/status/2055975372345274519

编辑:KingHZ David

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法国世界杯最大反差!巴黎双子星天差地别!一个封神一个被狂喷

法国世界杯最大反差!巴黎双子星天差地别!一个封神一个被狂喷

澜归序
2026-07-05 08:31:43
安切洛蒂:巴西的中卫比我更了解哈兰德;拉菲尼亚可以上场了

安切洛蒂:巴西的中卫比我更了解哈兰德;拉菲尼亚可以上场了

懂球帝
2026-07-05 10:13:26
彻底叫停!一旦取消京牌限制,北京或将陷入不可逆的全城瘫痪

彻底叫停!一旦取消京牌限制,北京或将陷入不可逆的全城瘫痪

趣味萌宠的日常
2026-07-05 10:39:40
穆里尼奥力保!皇马铁了心甩卖,边缘替补世界杯封神打脸高层

穆里尼奥力保!皇马铁了心甩卖,边缘替补世界杯封神打脸高层

澜归序
2026-07-05 05:37:57
穆杰塔巴想去哈梅内伊下葬仪式被否决:避免暗杀

穆杰塔巴想去哈梅内伊下葬仪式被否决:避免暗杀

看看新闻Knews
2026-07-05 12:58:26
4种中国式大妈发型:“自以为时髦,实际油腻显老”,看看是你吗

4种中国式大妈发型:“自以为时髦,实际油腻显老”,看看是你吗

白宸侃片
2026-07-05 00:26:23
14球对70球,15球对19球!大罗彻底沦为笑话,被姆巴佩全面碾压!

14球对70球,15球对19球!大罗彻底沦为笑话,被姆巴佩全面碾压!

陌识
2026-07-05 07:18:08
65岁大爷哭诉:退休后沉迷交谊舞,每月9000的退休金都不够用

65岁大爷哭诉:退休后沉迷交谊舞,每月9000的退休金都不够用

烙任情感
2026-07-04 11:40:20
安切洛蒂:没人有资格评判我,有资格指点我的只有弗格森

安切洛蒂:没人有资格评判我,有资格指点我的只有弗格森

懂球帝
2026-07-04 22:00:07
淘汰赛变成全武行!这个主裁太离谱,前裁判怒了:应取消执法资格

淘汰赛变成全武行!这个主裁太离谱,前裁判怒了:应取消执法资格

萌兰聊个球
2026-07-05 08:21:47
名古屋亚运会还没开,日本主办方已经先急眼了

名古屋亚运会还没开,日本主办方已经先急眼了

阿振观点
2026-07-04 19:16:05
孙颖莎横扫陈幸同采访!亲承状态调动好没松懈,展望下轮打王艺迪

孙颖莎横扫陈幸同采访!亲承状态调动好没松懈,展望下轮打王艺迪

篮球资讯达人
2026-07-05 10:09:57
不结婚,怎么解决生理需求?58岁的歌唱家张也,给出了最佳回答

不结婚,怎么解决生理需求?58岁的歌唱家张也,给出了最佳回答

悦君兮君不知
2026-07-04 00:01:28
根本不是安全问题?伊朗最高领袖缺席父亲葬礼,安全理由能否服众

根本不是安全问题?伊朗最高领袖缺席父亲葬礼,安全理由能否服众

触摸史迹
2026-07-05 02:44:15
黄有龙再传坏消息!2.7亿赌债仅冰山一角,毁掉他的根本不是赵薇

黄有龙再传坏消息!2.7亿赌债仅冰山一角,毁掉他的根本不是赵薇

叹为观止易
2026-07-05 09:24:09
江西挖出50万吨“垃圾”一化验,3300年前中国已把西方甩了2000年

江西挖出50万吨“垃圾”一化验,3300年前中国已把西方甩了2000年

掠影后有感
2026-06-19 09:55:37
重磅!6月29日国务院发文,中小学教育迎来全面大调整

重磅!6月29日国务院发文,中小学教育迎来全面大调整

手工制作阿爱
2026-07-05 11:49:08
唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

唯独中国交五倍签证费?高市不听岸田劝告,中方对日本改了称呼!

清衣渡a
2026-06-30 13:42:14
面对只会哭泣和抱怨的“巨婴”,中国太难了

面对只会哭泣和抱怨的“巨婴”,中国太难了

大树乡谈
2026-07-04 23:57:56
比亚迪CEO警告:新款电机一旦投放市场,汽车行业恐迎全面洗牌

比亚迪CEO警告:新款电机一旦投放市场,汽车行业恐迎全面洗牌

梦史
2026-07-03 23:42:26
2026-07-05 13:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15610文章数 66948关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

中国为何援助"中高收入国家"佛得角 媒体披露原因

头条要闻

中国为何援助"中高收入国家"佛得角 媒体披露原因

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
艺术
家居
数码
时尚

教育要闻

义务教育年限要延长了吗?

艺术要闻

原来郭沫若是错的!《兰亭序》并非伪作

家居要闻

传奇筑 日常诗

数码要闻

华强北存储行情回升 多款固态硬盘、内存条价格上涨

伊姐周六热推:电视剧《画梦录》;电视剧《灿如繁星》......

无障碍浏览 进入关怀版