网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

Karpathy戳破强化学习神话，首提AI复盘式进化！暴力试错将死

2025-07-14 11:06:26　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】强化学习，或许并不能通往AGI终点。Karpathy最新发文提出另一种Scaling范式，像人类一样反思回顾，通过复盘学习取得突破，更多的S形进步曲线等待发现。

Grok 4能站在大模型之巅，全是Scaling强化学习立了大功。

如今，AI大神Karpathy站出来急泼一盆冷水：

RL只是把最终成败的单一数值回传，效率随任务时长急剧下降。

而且，RL与人类「反思-提炼-再应用」迭代机制存在巨大差异。

RL短期有效

真正突破在于「复盘学习」

强化学习的本质是，某次行动表现良好（糟糕），就略微提升（降低）未来类似行动的概率。

这种方法通过验证函数，比显示监督取得了更大的杠杆效应，无疑是其强大之处。

然而，在Karpathy看来，从长远角度来讲，强化学习或许并不是最优策略。

长时程任务，RL局限显现

首先，一旦任务交互时间增加到几分钟乃至几小时，RL就遇到了挑战。

想象一下，一个数小时交互的任务，最终却只得到一个单一的标量奖励，来调整整个过程的梯度。

这样的反馈，能否足以支撑高效学习？

RL机制与人类差异显著

其次，对于大多数智能任务而言，这感觉并不像人类的进步机制。

简言之，RL的机制与人类智能提升方式，存在着显著的差异。

人类会通过一个复盘/反思阶段，从每一次推演中能提取到多得多的监督信息，比如「哪里做得好？哪里不太行？下次该试试什么？」等等。

从这个阶段得到的教训感觉是明确的，就像一个新字符串，可以直接添加到未来的系统提示词里，也可以选择性地在之后被「蒸馏」成权重/直觉，有点像睡眠的作用。

在英语里，我们说通过这个过程，某件事会成为人的「第二天性」，而我们目前正缺少这样的学习范式。

这里，Karpathy提到了ChatGPT「记忆」功能，或许就是这种机制概念的一个雏形，尽管它目前只用于个性化，而非解决问题。

值得注意的是，在Atari游戏这类RL场景中也不存在类似的机制，因为那些领域里没有大语言模型，也没有上下文学习。

算法新设想：回顾-反思范式

为此，Karpathy提出了一个算法框架——

给定一个任务，先跑几次推演，然后把所有推演过程（包括每次的奖励）都塞进一个上下文，再用一个元提示词来复盘/反思哪些地方做得好或不好，从而提炼出一个字符串形式的「教训」，并将其添加到系统提示词中（或者更通用地，更新当前的教训数据库）。

不过，他表示，这里面有很多细节要填充，有很多地方可以调整，具体怎么做并不简单。

举个栗子，大模型计数问题。

我们知道，由于分词（tokenization）的原因，大模型不太容易识别单个字母，也不太容易在残差流里计数。

所以，众所周知，模型很难识别出「strawberry」里的「r」字母。

Claude的系统提示词里就加入了一个「快速修复」patch——添加了一段话，大意是：「如果用户让你数字母，你得先用逗号把字母隔开，每隔一个就给一个显式计数器加一，照这样做完任务」。

这段话就是「教训」，它明确地指导模型如何完成计数任务。

但问题在于，这种教训要如何从智能体的实践中自发产生，而不是由工程师硬编码进去？它该如何被泛化？

以及，这些教训如何随着时间推移被蒸馏，从而避免让上下文窗口无限膨胀？

最后，他总结道，RL会带来更多收益，如果应用得当，它的杠杆效应巨大。

并且，深受「惨痛教训」（bitter lesson）理论的启发，RL优于监督微调（SFT）。

但它并不是完整的答案，尤其是随着推演的流程越来越长。

在这之后，还有更多的S型增长曲线等待发现，这些曲线可能专属于大语言模型，在游戏/机器人这类环境中没有先例，而这，正是我觉得激动人心的地方。

OpenAI研究科学家Noam Brown对此深表赞同，「确实，未来仍有许多研究工作有待完成」。

AI初创公司联创Yuchen Jin提出了一个有趣的观点，全新训练范式——课程学习，是一个自监督记忆+检索+反思的反馈循环，无需任何外部奖励信号。

一位网友很有见地称，强化学习实际上是暴力试错的一种方法，并非是明智的策略。

放弃无效RL研究

最近，关于强化学习的讨论，成为了AI圈的一大热点。

除了Karpathy本人下场，上周前OpenAI研究员Kevin Lu发长文称，Transformer只是配角，放弃无效RL研究！

他直言，真正推动AI规模跃迁的技术是互联网，而非Transformer，这也是你应该停止RL研究，转投产品开发的原因。

众所周知数据才是AI最重要的要素，但研究者们却往往选择回避这个领域...

究竟什么才是规模化地做数据？

互联网提供了天然的数据宝库：海量且多样化的数据源、自然形成的学习路径、反映人类真实需求的能力维度，以及可经济高效规模化部署的技术特性——

它成为下一个token预测的完美搭档，构成了AI爆发的原始汤池。

没有Transformer，我们本可以用CNN或状态空间模型达到GPT-4.5的水平。

但自GPT-4之后，基础模型再未出现突破性进展。

专用推理模型在垂直领域表现优异，却远不及2023年3月GPT-4带来的震撼级跨越（距今已两年多...）。

RL确实成就斐然，但Kevin Lu对此深切担忧，研究者会重蹈2015-2020年间RL研究的覆辙——沉迷于无关紧要的学术游戏。

如果说互联网是监督预训练的时代搭档，那么什么才能成为强化学习的「共生体」，催生出GPT-1到GPT-4量级的飞跃？

Kevin Lu认为答案在于：研究-产品协同设计。

参考资料：

https://x.com/karpathy/status/1944435412489171119

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

港中深-跨维智能提出EVA框架，强化学习让视频世界模型“动”起来

机器之心Pro 2026-03-26 16:08:37
0 跟贴 0
中科院团队提出SparseRL，深度强化学习可自动生成高性能CUDA代码

机器之心Pro 2026-03-25 16:06:25
1 跟贴 1

让生物学家摆脱数据分析之苦，斯坦福团队发布首个开源自进化生物分析AI智能体，实现自动化基因组学发现

生物世界 2026-03-26 16:36:06
0 跟贴 0

英伟达革了自己的命:智能体进化7天,干掉所有算子工程师、GPU专家

机器之心Pro 2026-03-26 11:35:16
47 跟贴 47
Harness发威！Claude被榨干的秘诀公开了

智东西 2026-03-26 20:57:04
0 跟贴 0

千问上车：统一智能中枢隐现

智东西 2026-03-26 18:05:22
0 跟贴 0

华为、商汤等873家机构遭AI顶会“封杀”，中国学界怒了

智东西 2026-03-26 20:49:23
38 跟贴 38
巅峰对话AI时代经济增长：诺奖经济学家彼得·豪伊特抛出增长七要素，中关村学者激辩人机共生新规则

每日经济新闻 2026-03-27 00:36:03
0 跟贴 0

浙大博士造出「机器人界的F1」：不卷脑子卷身体，要比博尔特跑得快

36氪 2026-03-26 22:37:08
4 跟贴 4
长安汽车获得发明专利授权：“一种基于对抗强化学习的汽车热管理智能控制方法”

证券之星 2026-03-26 03:48:12
3 跟贴 3
给女朋友买了件衣服，她好像不太喜欢，只是字母不一样啊

生活玩笑社 2026-03-23 15:38:07
1 跟贴 1
一天蒸发6200亿！谷歌算法黑科技击溃存储股，华尔街痛批市场“不懂技术”

每日经济新闻 2026-03-26 19:00:13
21 跟贴 21
那些满级人类行为大赏，这是进化过后的人类吗？

酒痴说梦 2026-03-25 10:41:28
218 跟贴 218
史上最离谱进化反转！顶级海王团灭，捡漏乞丐逆袭成地球主宰

海棠趣事 2026-03-23 18:50:33
1 跟贴 1
谷歌冲破内存墙！新算法内存占用暴砍83%，速度提升8倍！

智东西 2026-03-26 22:11:09
0 跟贴 0
纽约时报：许多美国官员从未去过中国应该去中国看看

环球网资讯 2026-03-26 00:05:09
1983 跟贴 1983
千万粉丝大V，微博账号被禁止关注

第一财经资讯 2026-03-26 12:19:47
2031 跟贴 2031
快船狂虐雄鹿！字母断档落后伦纳德

老威头 2026-03-25 14:56:02
0 跟贴 0
Netflix狂揽7座奥斯卡，43部片单藏着3个选片陷阱

碳基打工人 2026-03-26 22:25:02
5 跟贴 5
Kimi新架构让马斯克叹服！17岁高中生作者一战成名

量子位 2026-03-17 14:47:09
139 跟贴 139
AReaL v1.0开源，智能体强化学习「一键接入」

机器之心Pro 2026-03-05 14:46:18
0 跟贴 0
这款猜词游戏把5个Wordle串成1串，老玩家却栽在第4关

全栈遛狗员 2026-03-26 13:01:21
1 跟贴 1
《长征组歌》响彻“上海之春”，廖昌永石倚洁同台放歌

澎湃新闻 2026-03-26 23:04:27
2 跟贴 2
Wordle玩家被5轮连环坑：第4关答案竟成第5关陷阱

算力游侠 2026-03-26 13:01:18
0 跟贴 0
Hurdle把5轮答案藏成连环锁，老玩家第4关集体栽了

摸鱼算法 2026-03-26 13:01:23
0 跟贴 0
美媒称美考虑将援助乌克兰的武器转至中东

新华社 2026-03-26 20:05:17
1579 跟贴 1579
中原消费金融为催收“买”借款人手机号码三大运营商均中标或涉买卖个人信息惹争议

信网 2026-03-26 19:12:37
402 跟贴 402
北京师范大学最新Cell

iNature前沿 2026-03-26 09:47:05
0 跟贴 0
霸王龙为什么进化出两只小短手

娱乐小娱儿 2026-03-23 18:16:52
0 跟贴 0
梦幻：云游道人机制已改？如果我是王姨？或用这3招解决！

梦幻天真 2026-03-26 15:38:49
0 跟贴 0
“根本不敢上路”！深圳男子买全新百万豪车，修了15次还是坏的！很多车主受害

南方都市报 2026-03-26 09:26:45
131 跟贴 131
逆天的匹配机制，小孩哥上场立马吓哭，这回真哄不好了！

搞笑的小熊 2026-03-25 11:34:57
2 跟贴 2
收评：沪指跌1.09% 全市场成交额不足2万亿元

证券时报 2026-03-26 15:22:10
835 跟贴 835
微信聊天反复出现“对方正在输入”，说明对方在干什么？

学申论的谈妹 2026-03-26 16:15:26
64 跟贴 64
自行车机器人再进化，带车空翻，还会鲤鱼打挺

极果酷玩 2026-03-22 12:00:00
0 跟贴 0
五年级数学中点模型求阴影部分面积

天天数理学习分享 2026-03-22 13:47:40
4 跟贴 4
首秀库拉索，国足主帅邵佳一：国家队的比赛没有友谊赛

澎湃新闻 2026-03-26 15:58:27
357 跟贴 357
10元/斤，最近这一口“鲜货”正肥！杭州一摊主：一天上百斤不够卖

环球网资讯 2026-03-25 13:22:33
432 跟贴 432
当植物有了足够多的时间进化，它们会变成神话故事中的妖怪吗

趣知小故事 2026-03-26 12:47:20
1 跟贴 1
高铁直达！比起昆明和大理，我更爱这个被严重低估的云南小城！

匿旅 2026-03-25 23:05:23
6 跟贴 6

中国突破禁令的方式简单粗暴！日媒曾狂言：没了日本，中国不行

中国突破禁令的方式简单粗暴！日媒曾狂言：没了日本，中国不行

周哥一影视

2026-03-26 18:01:24

40分钟连挨4轮导弹！以色列遭盟友背叛？中方：支持巴勒斯坦建国

40分钟连挨4轮导弹！以色列遭盟友背叛？中方：支持巴勒斯坦建国

Ck的蜜糖

2026-03-26 09:34:08

广州楼市迅雷不及掩耳，广州天河区房价从3.7万变成3.6万

广州楼市迅雷不及掩耳，广州天河区房价从3.7万变成3.6万

有事问彭叔

2026-03-26 23:46:12

倒计时，1500万还是50万？王俊杰的选择，牵动CBA未来

倒计时，1500万还是50万？王俊杰的选择，牵动CBA未来

李絙在北漂

2026-03-26 08:28:04

日本不再欢迎中国人？3月起日本签证“一刀切”，华人进退两难！

日本不再欢迎中国人？3月起日本签证“一刀切”，华人进退两难！

老嫅尾声体育解说

2026-03-25 19:47:24

突发传闻：封锁霍尔木兹的伊朗关键人物被击毙

突发传闻：封锁霍尔木兹的伊朗关键人物被击毙

桂系007

2026-03-26 16:19:32

马筱梅带娃，满手首饰，奶瓶乱放，与大S差得不是一星半点

马筱梅带娃，满手首饰，奶瓶乱放，与大S差得不是一星半点

科普100克克

2026-03-18 13:04:12

这曾经是多少男人心中女神，她竟然这么苍老，真是岁月不饶人呀

这曾经是多少男人心中女神，她竟然这么苍老，真是岁月不饶人呀

东方不败然多多

2026-03-27 00:11:10

致敬父亲，麦卡利斯特晒寸头照：有其父必有其子

致敬父亲，麦卡利斯特晒寸头照：有其父必有其子

懂球帝

2026-03-26 16:51:21

15家民营医院注销、停业（附名单）

15家民营医院注销、停业（附名单）

赛柏蓝

2026-03-26 20:14:07

Google Messages破100亿下载：苹果迟到1年

Google Messages破100亿下载：苹果迟到1年

爬虫饲养员

2026-03-26 12:21:15

俄教授给自己注射350万年前细菌，寻求长生，10多年后怎样了？

俄教授给自己注射350万年前细菌，寻求长生，10多年后怎样了？

火星一号

2026-03-23 00:49:24

太冤了！巴基斯坦好心斡旋，结果就这么被美国和以色列算计了

太冤了！巴基斯坦好心斡旋，结果就这么被美国和以色列算计了

爱吃醋的猫咪

2026-03-26 22:18:21

国际赛看点拉满！中国男足对决库拉索

国际赛看点拉满！中国男足对决库拉索

闲日记

2026-03-27 01:30:03

【2026.3.26】爆姐的饭后爆料：生命不止，爆料不息！

【2026.3.26】爆姐的饭后爆料：生命不止，爆料不息！

娱乐真爆姐

2026-03-26 23:33:09

人不会无缘无故患糖尿病！研究发现：得糖尿病的人，离不开这5点

人不会无缘无故患糖尿病！研究发现：得糖尿病的人，离不开这5点

医学原创故事会

2026-02-21 23:54:05

张雪峰离世后,妻子真实身份曝光：历史博士、高校副教授,40天闪婚

张雪峰离世后,妻子真实身份曝光：历史博士、高校副教授,40天闪婚

画夕

2026-03-26 20:44:59

山东“老头乐”公司起诉小米汽车，当事企业称已和解

山东“老头乐”公司起诉小米汽车，当事企业称已和解

界面新闻

2026-03-26 16:30:03

日媒曝光强闯我驻日使馆不法之徒照片；案发前行动轨迹公布：乘坐新干线到达东京，在网吧过夜，现场发现的刀具，其称是在车站附近购买

日媒曝光强闯我驻日使馆不法之徒照片；案发前行动轨迹公布：乘坐新干线到达东京，在网吧过夜，现场发现的刀具，其称是在车站附近购买

大风新闻

2026-03-26 12:13:02

51岁孔令辉：为生活奔波，与刘国梁9年未见面，一个电话让他落泪

51岁孔令辉：为生活奔波，与刘国梁9年未见面，一个电话让他落泪

梦史

2026-03-25 11:33:08

AI产业主平台领航智能+时代

14821文章数 66720关注度

往期回顾全部

科技要闻

美团发布外卖大战后成绩单：亏损超200亿

头条要闻

特朗普：伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普：伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了，然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声！称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普？一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

数码

亲子

教育

公开课

家居要闻

傍海而居静观蝴蝶海

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动，支持B70 / B65显卡

亲子要闻

试工育儿嫂被查出传染病，宝妈崩溃！家政服务“健康关”如何保障？

教育要闻

精准研判，提质增效丨我校召开2026届毕业生就业工作研判会

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版