网易首页 > 网易号 > 正文 申请入驻

Karpathy戳破强化学习神话,首提AI复盘式进化!暴力试错将死

0
分享至


新智元报道

编辑:桃子

【新智元导读】强化学习,或许并不能通往AGI终点。Karpathy最新发文提出另一种Scaling范式,像人类一样反思回顾,通过复盘学习取得突破,更多的S形进步曲线等待发现。

Grok 4能站在大模型之巅,全是Scaling强化学习立了大功。



如今,AI大神Karpathy站出来急泼一盆冷水:

RL只是把最终成败的单一数值回传,效率随任务时长急剧下降。

而且,RL与人类「反思-提炼-再应用」迭代机制存在巨大差异。


RL短期有效

真正突破在于「复盘学习」

强化学习的本质是,某次行动表现良好(糟糕),就略微提升(降低)未来类似行动的概率。

这种方法通过验证函数,比显示监督取得了更大的杠杆效应,无疑是其强大之处。

然而, 在Karpathy看来,从长远角度来讲,强化学习或许并不是最优策略。

长时程任务,RL局限显现

首先,一旦任务交互时间增加到几分钟乃至几小时,RL就遇到了挑战。

想象一下,一个数小时交互的任务,最终却只得到一个单一的标量奖励,来调整整个过程的梯度。

这样的反馈,能否足以支撑高效学习?


RL机制与人类差异显著

其次,对于大多数智能任务而言,这感觉并不像人类的进步机制。

简言之,RL的机制与人类智能提升方式,存在着显著的差异。

人类会通过一个复盘/反思阶段,从每一次推演中能提取到多得多的监督信息,比如「哪里做得好?哪里不太行?下次该试试什么?」等等。

从这个阶段得到的教训感觉是明确的,就像一个新字符串,可以直接添加到未来的系统提示词里,也可以选择性地在之后被「蒸馏」成权重/直觉,有点像睡眠的作用。

在英语里,我们说通过这个过程,某件事会成为人的「第二天性」,而我们目前正缺少这样的学习范式。

这里,Karpathy提到了ChatGPT「记忆」功能,或许就是这种机制概念的一个雏形,尽管它目前只用于个性化,而非解决问题。

值得注意的是,在Atari游戏这类RL场景中也不存在类似的机制,因为那些领域里没有大语言模型,也没有上下文学习。

算法新设想:回顾-反思范式

为此,Karpathy提出了一个算法框架——

给定一个任务,先跑几次推演,然后把所有推演过程(包括每次的奖励)都塞进一个上下文,再用一个元提示词来复盘/反思哪些地方做得好或不好,从而提炼出一个字符串形式的「教训」,并将其添加到系统提示词中(或者更通用地,更新当前的教训数据库)。

不过,他表示,这里面有很多细节要填充,有很多地方可以调整,具体怎么做并不简单。

举个栗子,大模型计数问题。

我们知道,由于分词(tokenization)的原因,大模型不太容易识别单个字母,也不太容易在残差流里计数。

所以,众所周知,模型很难识别出「strawberry」里的「r」字母。


Claude的系统提示词里就加入了一个「快速修复」patch——添加了一段话,大意是:「如果用户让你数字母,你得先用逗号把字母隔开,每隔一个就给一个显式计数器加一,照这样做完任务」。

这段话就是「教训」,它明确地指导模型如何完成计数任务。

但问题在于,这种教训要如何从智能体的实践中自发产生,而不是由工程师硬编码进去?它该如何被泛化?

以及,这些教训如何随着时间推移被蒸馏,从而避免让上下文窗口无限膨胀?

最后,他总结道,RL会带来更多收益,如果应用得当,它的杠杆效应巨大。

并且,深受「惨痛教训」(bitter lesson)理论的启发,RL优于监督微调(SFT)。

但它并不是完整的答案,尤其是随着推演的流程越来越长。

在这之后,还有更多的S型增长曲线等待发现,这些曲线可能专属于大语言模型,在游戏/机器人这类环境中没有先例,而这,正是我觉得激动人心的地方。

OpenAI研究科学家Noam Brown对此深表赞同,「确实,未来仍有许多研究工作有待完成」。


AI初创公司联创Yuchen Jin提出了一个有趣的观点,全新训练范式——课程学习,是一个自监督记忆+检索+反思的反馈循环,无需任何外部奖励信号。


一位网友很有见地称,强化学习实际上是暴力试错的一种方法,并非是明智的策略。


放弃无效RL研究

最近,关于强化学习的讨论,成为了AI圈的一大热点。

除了Karpathy本人下场,上周前OpenAI研究员Kevin Lu发长文称,Transformer只是配角,放弃无效RL研究!


他直言,真正推动AI规模跃迁的技术是互联网,而非Transformer,这也是你应该停止RL研究,转投产品开发的原因。

众所周知数据才是AI最重要的要素,但研究者们却往往选择回避这个领域...

究竟什么才是规模化地做数据?

互联网提供了天然的数据宝库:海量且多样化的数据源、自然形成的学习路径、反映人类真实需求的能力维度,以及可经济高效规模化部署的技术特性——

它成为下一个token预测的完美搭档,构成了AI爆发的原始汤池。


没有Transformer,我们本可以用CNN或状态空间模型达到GPT-4.5的水平。

但自GPT-4之后,基础模型再未出现突破性进展。

专用推理模型在垂直领域表现优异,却远不及2023年3月GPT-4带来的震撼级跨越(距今已两年多...)。

RL确实成就斐然,但Kevin Lu对此深切担忧,研究者会重蹈2015-2020年间RL研究的覆辙——沉迷于无关紧要的学术游戏。

如果说互联网是监督预训练的时代搭档,那么什么才能成为强化学习的「共生体」,催生出GPT-1到GPT-4量级的飞跃?

Kevin Lu认为答案在于:研究-产品协同设计。


参考资料:

https://x.com/karpathy/status/1944435412489171119


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
惊爆!央媒官宣45岁霍启刚再次升职,他做梦也没想到妻子如此给力

惊爆!央媒官宣45岁霍启刚再次升职,他做梦也没想到妻子如此给力

手把手带你开新挖机
2025-07-24 16:13:13
好好的机器人,为啥要加个乳房?

好好的机器人,为啥要加个乳房?

不客观实验室
2025-11-10 14:17:22
新型“卖淫方式”出现了!让人防不胜防,日常生活中一定要警惕!

新型“卖淫方式”出现了!让人防不胜防,日常生活中一定要警惕!

坠入二次元的海洋
2025-11-09 10:50:12
随着林诗栋4-0,全运会男单16强出炉,具体对阵如下,梁靖崑爆冷

随着林诗栋4-0,全运会男单16强出炉,具体对阵如下,梁靖崑爆冷

侃球熊弟
2025-11-11 18:37:54
晚年麦克阿瑟谈抗美援朝:不理解中国为何参战,同时祈祷中国参战

晚年麦克阿瑟谈抗美援朝:不理解中国为何参战,同时祈祷中国参战

花仙历史说
2025-11-09 14:13:31
北京一专科医院院区宣布停诊,并入综合医院!

北京一专科医院院区宣布停诊,并入综合医院!

看医界
2025-11-11 11:04:20
杜锋:四年前的全运会历历在目,接过接力棒是篮球传承的意义

杜锋:四年前的全运会历历在目,接过接力棒是篮球传承的意义

懂球帝
2025-11-11 23:51:05
博主:亚马尔和尼科一样受伤病困扰,但巴萨不懂西班牙为何区别对待

博主:亚马尔和尼科一样受伤病困扰,但巴萨不懂西班牙为何区别对待

懂球帝
2025-11-11 22:27:06
癌症去世的人越来越多?医生:宁可打打麻将,也要少做这6件事

癌症去世的人越来越多?医生:宁可打打麻将,也要少做这6件事

游古史
2025-11-11 11:37:32
美国急召郑丽文!赖清德暗中搞事,还是特朗普坐不住了?

美国急召郑丽文!赖清德暗中搞事,还是特朗普坐不住了?

起喜电影
2025-11-12 00:01:38
最高检公布典型案例:生理盐水和蛋白粉配制成的液体,假冒静注人免疫球蛋白!被告人最高被判处有期徒刑十三年

最高检公布典型案例:生理盐水和蛋白粉配制成的液体,假冒静注人免疫球蛋白!被告人最高被判处有期徒刑十三年

每日经济新闻
2025-11-10 15:23:05
上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗?

上海交大发现:不吃酱油和味精的人,血压马上就降低了?真的吗?

南权先生
2025-11-08 14:52:26
“妈妈,你下面怎么有胡子”?妈妈给出的答案,值得我们学习

“妈妈,你下面怎么有胡子”?妈妈给出的答案,值得我们学习

大果小果妈妈
2025-10-23 13:32:33
小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

小伙自驾西藏,遇徒步女学生搭车,同行2天后,才知自己躲过一劫

五元讲堂
2025-10-16 14:41:16
茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

茼蒿立大功!医生调查发现:茼蒿对这5种疾病有好处,建议常吃

阿纂看事
2025-10-13 15:36:03
向佑彻底没救了!现身南昌酒吧,新交的女友又胖又颓,烟酒不离手

向佑彻底没救了!现身南昌酒吧,新交的女友又胖又颓,烟酒不离手

阿伧说事
2025-11-11 09:51:31
钙是牛肉的30倍!建议中老年人:每周吃2次,腿脚有劲,身体硬朗

钙是牛肉的30倍!建议中老年人:每周吃2次,腿脚有劲,身体硬朗

阿龙美食记
2025-11-09 16:31:15
乌克兰全境大停电,俄军核打击之前警告,发射多枚全球禁止导弹!

乌克兰全境大停电,俄军核打击之前警告,发射多枚全球禁止导弹!

Ck的蜜糖
2025-11-12 01:29:17
全运会最新金牌排名揭晓,东道主领跑,3省紧追不舍,上海11金

全运会最新金牌排名揭晓,东道主领跑,3省紧追不舍,上海11金

阿諬体育评论
2025-11-11 09:57:17
“别高估了睡一觉的关系。”

“别高估了睡一觉的关系。”

程一
2025-11-03 21:49:18
2025-11-12 02:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13845文章数 66242关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

亲子
家居
房产
教育
旅游

亲子要闻

没人生娃了?上海一产科医生称:从一晚上8个剖腹产到现在1个没有

家居要闻

国美学子 打造筑梦空间

房产要闻

海口湾,1300亩巨无霸地块登场!

教育要闻

老师们不奢望减轻什么负担,只希望能实行8小时工作制!

旅游要闻

11月11日最佳情报|淄博池上镇山川如画,五龙潭公园泉清柳黄

无障碍浏览 进入关怀版