网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

LLM抢人血案：强化学习天才被挖空，一朝沦为「无人区」！

2025-08-04 13:07:26　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】AlphaStar等证明强化学习在游戏等复杂任务上，表现出色，远超职业选手！那强化学习怎么突然就不行了呢？强化学习到底是怎么走上歧路的？

最近，斯坦福的AI+CS博士Joseph Suarez发表了对强化学习的历史回顾。

结果，在上火了！目前，已有38.2万阅读。

封面可谓醒目：一条曲线线先是快速上升，然后平缓爬升，最后却急转直下，暗喻RL领域的研究前途不妙！

从历史角度看，强化学习发生了什么？为什么到现在它才真正开始起飞？

他提供了独特的个人视角。

师出名门

2019年，他本科毕业于斯坦福大学计算机科学专业人工智能方向。

2018年，他利用休学期在OpenAI完成6个月实习，期间正式发布Neural MMO首个公开版本

更早之前，他曾在李飞飞课题组、吴恩达实验室参与过研究项目。

大约从2017年，他开始从事强化学习。

当时，他在麻省理工学院Phillip Isola实验室攻读博士，开始创建开源计算研究平台Neural MMO。

他的研究聚焦于推动现代基于智能体的学习方法向更复杂、更具认知真实性的环境拓展。

后来，这个项目后来成为他整个博士生毕业论文的的主题。

论文链接：https://jsuarez5341.github.io/static/jsuarez_phd_thesis.pdf

这也为他PufferLib的工作奠定了基础。

当时，各大实验室也在做从零开始、非语言模型的强化学习RL。

事实上，这是当时大多数工作的重点：多智能体（multiagent）刚刚兴起，所有核心算法刚刚发布。

AlphaGo让研究者已经看到了强化学习的潜力。OpenAI Five正在开发中，当时他恰好在OpenAI实习，所以亲眼看到了一些工作。

OpenAI的DoTA（Dota 2）项目，则完全让他信服RL的神奇。

论文链接:https://cdn.openai.com/dota-2.pdf

你如果不玩这款游戏，难以想象这个问题有多复杂。

你不会相信人们居然把打DoTA当成爱好。它和围棋并非完全一样，无法直接比较，但它确实涉及许多围棋中没有的、与现实世界相关的推理类型。

比如，高低级策略、控制、团队协调和心智理论（theory of mind），这些只是其中几个例子。

而OpenAI用1.68亿参数的网络，在约1000个GPU上训练，打败了顶尖职业选手。

现在，用64到128个H100 GPU，你也能做到。

而且还不止一个结果。还有AlphaStar、Capture the Flag、Emergent Tool Use……

在训练过程中，AlphaStar最终被选中与职业选手MaNa对抗的智能体（黑点）其策略与竞争对手（彩点）的演化过程。每个彩点代表AlphaStar联赛中的一位竞争对手

短短时间内，有好几个主要的RL展示项目。那么，既然潜力这么明显，领域肯定会继续前进，对吧……对吧？？？

为什么RL衰落了

从2019年到2022年的，有些工作继续在进行，但强化学习明显在走下坡路。

尽管那几年论文更多了，但没有多少像2017-2019年那种水平的持久突破。究竟发生了什么？

首要的因素是学术短视。

整个领域集体决定了一套标准，却没有实际理由。在这些标准下，几乎不可能出现什么进步。

由于历史原因，Agent57成为了最常见的基准，共包含57款雅达利游戏。

由于任务结果波动大，需要运行所有游戏（理想情况下，每款游戏使用多个种子）。同时，学界决定x轴应该是样本数，而不是实际运行时间（墙钟时间）。

背后的想法是，这更接近现实世界的学习，许多问题受限于采样率。而且你不用担心不同论文的硬件设置。

然而，显而易见的问题是没有限制硬件使用量，可以通过投入更多计算资源来提升基准成绩。因此，研究变得愈加耗时，以至于单个游戏的单独运行可能需要耗费数周的GPU时间。

因为学术界对工程很排斥，代码基底也慢得可怕。更不用说有限的预算……

所以，你最终需要1万GPU小时，在利用率不到5%的情况下运行一组消融实验（ablations）。

这样的研究方式根本行不通，跟好的科学更不沾边。

要是没有上万小时的GPU算力，很多人干脆不做消融实验就直接发论文——难怪那时候的研究成果基本无法复现。

另外，学界追名逐利。

大语言模型（LLMs）出现了。

人们经常问他为什么讨厌LLM。他真的不讨厌。他讨厌的是，它们从其他领域吸走了99%的天才，而不是更合理的80%。

他眼看着最有才华的同事一个个离开RL研究领域，被雇去研究LLM。这很难去责怪他们。做RL太糟了。那是艰苦、残酷的工作，对抗一套似乎专门设计来阻碍真正进步。

在一般深度学习中你习以为常的基本东西，甚至2015年的东西，在RL中都不存在。

超参数没道理，模型无法扩展，简单的任务也无法顺利转移。

尽管他们有证据证明RL能在DoTA和围棋之类的惊人问题上奏效，但日常工作的感觉就是绝望。

现在的RL重蹈覆辙

缓慢的实验周期、过度优化的评价体系、迟缓的开发进度……这一切听起来是否耳熟？

现代RL研究不知怎么花了数十亿美元，却再现了最初扼杀RL发展的混乱局面，重蹈覆辙。

David Peterson对此非常认同：强化学习莫名其妙地多次重蹈覆辙，上一次是时序差分。

这一次它会走得更远，毕竟有利可图……但效率极低。

看着该领域重新陷入前人多年前就已经克服的困境，同时为各种概念创造新的术语，令人啼笑皆非。

「多轮RL」意思是「不只是赌博机问题」（not a bandit）。这几乎涵盖了全部的RL新研究，除了某些小众理论研究。

「长期规划」（Long horizons）也不是新东西，这也不是让问题变得如此困难的全貌。

当前对早期RL研究的充满了不信任，Joseph Suarez表示理解——

因为许多发表的内容确实存在问题。

另寻他路

Joseph Suarez还在坚持用小模型从零开始的RL。

只是现在，这不再是衰落的旧势力，他们在以惊人速度突破。

那么，什么改变了？

完成博士学位后，他决定完全从学界的随意的标准中解放出来，从头重建RL。

标准是墙钟训练时间，性能工程将和算法工作一样重要。

他花几个月时间拆除所有慢的基础设施，目标是每秒数百万步的吞吐，而不是几千。

起初，这只是现有方法的加速版本。这对解决行业中因成本过高而难以实施的问题已绰绰有余。

但这还不止——这个过程实际上让他们能够以前所未有的速度开展高质量研究。当你可以运行1000倍的实验时，无需过于精巧的方法论；当所有选项都可以测试时，也无需小心翼翼地挑选变量。

最新基准测试显示，在单个RTX 5090上，强化学习库PufferLib 3.0的训练速度最高可达每秒400万步

一年前，你需要RL博士学位和几周到几个月来处理每个新问题。如果你没有经验，耗时就更长了。现在，新手程序员在几天内让RL在新问题上运行。不是超级难的问题——那些还是需要点经验。但比之前好多了。

他们走在正确方向的迹象：他们在简单环境上的实验能泛化到更难环境。

他们认为之前的batch size和特定退化超参数是罪魁祸首。不是100%——肯定有些技术只有在更难问题上才见效。

但他们现在有足够多在几分钟内运行的技术，开发周期还是很快。

下一步：他们计划能用现有东西解决有价值的问题。

只要能建快模拟器，RL大多能工作。嘿，在很多问题上，它开箱即用。

长期来看，他们会回到旧的样本效率研究。但他们还是会从至少保持flop效率的角度接近它。不再让GPU在5%利用率下跑批量大小8的200万参数网络。

参考资料：

https://x.com/jsuarez5341/status/1946622588891107565

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

机器之心Pro 2026-05-05 14:16:31
0 跟贴 0
「机器学习之父」Jordan：Hinton等思想领袖们正在伤害年轻一代

机器之心Pro 2026-06-22 09:46:00
1 跟贴 1

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟贴 0

不更新参数就能强化学习！翁家翌新范式：决策只需AI写个.py文件

量子位 2026-05-09 16:05:57
0 跟贴 0
智“链”万物！第四届链博会全景呈现中国AI产业崛起外企：汽车、机器人等正成为智能体AI落地发展的关键载体

每日经济新闻 2026-06-26 22:43:06
0 跟贴 0

造ChatGPT的人，已经不用ChatGPT干活了

新智元 2026-06-26 18:49:19
2 跟贴 2

刚刚，全球第一个能同时扫微信和支付宝的AI眼镜，诞生了

智东西 2026-06-26 19:37:16
0 跟贴 0
800万人围观！虾爹给Agent套上循环，让它自己跑起来！

机器之心Pro 2026-06-17 12:13:35
0 跟贴 0

安心养虾！从OpenClaw 看云上AI安全落地路径

量子位 2026-04-18 19:55:39
0 跟贴 0
实锤：Claude Opus 4.8「偷答案」！63%靠抄，AI断网后成绩雪崩

新智元 2026-06-26 18:49:50
22 跟贴 22
宋晓冬、李博加入Meta，超级智能迎来最强“守门人”

DeepTech深科技 2026-06-26 16:47:19
0 跟贴 0
“框架”比“模型”本身对Agent成功的影响大7倍！“推理成本”和“部署效率”才是创业公司的核心竞争优势

华尔街见闻官方 2026-06-26 15:48:01
0 跟贴 0
黄仁勋：Prompt正在过时，Loop才是新范式

量子位 2026-06-25 16:05:47
141 跟贴 141
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
百度沈抖自曝：老忘吃药，用AI做了个小程序

量子位 2026-03-27 11:25:23
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
王晓野：Working Agent将是下一个爆发点

量子位 2026-05-21 08:05:51
0 跟贴 0
美国政府对OpenAI出手！GPT-5.6惨遭“截胡”

智东西 2026-06-26 20:52:12
0 跟贴 0
AI就业冲击已初现裂缝，高盛：1500万美国工人或将经历岗位转移

华尔街见闻官方 2026-06-26 21:37:33
0 跟贴 0
SemiAnalysis：美国电网容量2027年或转负，AI数据中心被迫走向"自备电源"时代

华尔街见闻官方 2026-06-27 00:20:04
0 跟贴 0
图灵奖得主Sutton：用1967年的公式，解决流式强化学习一大缺陷

机器之心Pro 2026-05-11 09:55:21
0 跟贴 0
海峡通航恢复战前六成水平，伊方强化管控，为未来收费做铺垫？

李绍先观察 2026-06-26 14:14:45
1 跟贴 1
就此转运？刘语熙玩世界杯人机大战，准确度已经很可以了

咪咕体育 2026-06-26 06:02:41
0 跟贴 0
知道自己要什么，比考高分更难！广雅优秀生这样做

南方都市报 2026-06-25 19:14:26
0 跟贴 0
德国输球，竟完成对韩国的“间接复仇”

潇湘晨报 2026-06-26 10:27:25
6870 跟贴 6870
韩乔生已就位，当算法数据与脑洞大开同步登场，谁会是最后的赢家？

咪咕体育 2026-06-25 06:03:16
0 跟贴 0
孙继海已就位，当算法数据与硬核实力同步登场，谁会是最后的赢家

咪咕体育 2026-06-24 21:01:09
50 跟贴 50
LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

机器之心Pro 2026-04-22 11:01:55
0 跟贴 0
无故障却肇事，吉利SOTIF专利厘清智驾事故权责边界

商业不许冷 2026-06-26 21:59:23
0 跟贴 0
智能体从「单兵作战」到「精锐团队」 -1

机器之心Pro 2026-04-28 16:55:35
0 跟贴 0

上海女子上厕所闻到一股恶臭，当晚扁桃体发炎，确诊“细菌感染”，医生：大概率是粪便里的一种病菌

上海女子上厕所闻到一股恶臭，当晚扁桃体发炎，确诊“细菌感染”，医生：大概率是粪便里的一种病菌

大象新闻

2026-06-24 09:45:05

蚊子正在吸血，到底能不能一巴掌拍死？

蚊子正在吸血，到底能不能一巴掌拍死？

都市快报橙柿互动

2026-06-26 02:11:08

朝阳群众又立新功！网红印度餐厅上午爆火下午凉透，老板直接遣返

朝阳群众又立新功！网红印度餐厅上午爆火下午凉透，老板直接遣返

爱下厨的阿酾

2026-06-26 13:54:08

姑娘背上这个纹身你们看是啥意思?仔细看了看这是曹孟德的粉丝啊哈哈

姑娘背上这个纹身你们看是啥意思?仔细看了看这是曹孟德的粉丝啊哈哈

经典段子

2026-06-27 02:05:40

超15万人爆仓！霍尔木兹海峡，传来大消息

超15万人爆仓！霍尔木兹海峡，传来大消息

数据宝

2026-06-27 00:12:47

仅陪妻子伏明霞回一次娘家！梁锦松不是瞧不上娘家，实在另有原因

仅陪妻子伏明霞回一次娘家！梁锦松不是瞧不上娘家，实在另有原因

人生录

2026-06-21 16:56:49

14000mAh！新机突然曝光：6月25日，这续航太炸裂了

14000mAh！新机突然曝光：6月25日，这续航太炸裂了

手机讲坛

2026-06-25 10:57:31

47岁廖碧儿新恋情曝光，男方戴眼镜斯文稳重，两人入会所有说有笑

47岁廖碧儿新恋情曝光，男方戴眼镜斯文稳重，两人入会所有说有笑

树娃

2026-06-26 13:37:19

尚无明显进展！刚刚，常州地铁6号线新动态曝光

尚无明显进展！刚刚，常州地铁6号线新动态曝光

常州壹楼市

2026-06-27 02:00:32

大意了！云南58岁男子徒手抓“大麻蛇”，被咬一口后，还和蛇淡定合影，结果历经4次抢救，两度被推进ICU；当事人：再也不敢了

大意了！云南58岁男子徒手抓“大麻蛇”，被咬一口后，还和蛇淡定合影，结果历经4次抢救，两度被推进ICU；当事人：再也不敢了

极目新闻

2026-06-25 21:15:55

一场0-0！让亚洲第2队出线：澳大利亚队4分晋级，韩国队难了

一场0-0！让亚洲第2队出线：澳大利亚队4分晋级，韩国队难了

体育知多少

2026-06-26 12:24:07

阿根廷毒贩为报复，诱骗三名少女到窝点，全程直播侵害虐杀

阿根廷毒贩为报复，诱骗三名少女到窝点，全程直播侵害虐杀

怪味历史连连看

2026-06-24 18:02:28

《昨夜将至》孙海涛给辛欣下药，原来，这才是阿妹当后妈的目的

《昨夜将至》孙海涛给辛欣下药，原来，这才是阿妹当后妈的目的

手工制作阿歼

2026-06-25 16:00:23

20.99万元起，启境GT7正式上市：满配华为乾崑技术重塑智能猎装标杆

20.99万元起，启境GT7正式上市：满配华为乾崑技术重塑智能猎装标杆

TechWeb

2026-06-27 00:00:27

60岁以后，存款超过这三个数，那么恭喜您，你已经超过了大多数人

60岁以后，存款超过这三个数，那么恭喜您，你已经超过了大多数人

猫叔东山再起

2026-06-26 09:45:11

荣格晚年发现：一个人总被边缘化、被人踩在脚下，根本不是你不够强，而是你没有破解掉潜意识里这两套“投射认同”的死循环

荣格晚年发现：一个人总被边缘化、被人踩在脚下，根本不是你不够强，而是你没有破解掉潜意识里这两套“投射认同”的死循环

心理观察局

2026-06-26 07:05:07

鸿蒙只剩华为一家在死磕，不是小米OPPO不懂，是账本一翻不想陪跑

鸿蒙只剩华为一家在死磕，不是小米OPPO不懂，是账本一翻不想陪跑

叮当当科技

2026-06-25 00:38:04

央视曝光奇葩“折叠纸头盔”：实测徒手用力一拧，7根骨架全部被折断

央视曝光奇葩“折叠纸头盔”：实测徒手用力一拧，7根骨架全部被折断

91.6陕西交通广播

2026-06-26 07:05:51

「链博之声」塞尔维亚工商会驻华代表处主任：中国规模和速度无与伦比 “下一个中国”还是中国

「链博之声」塞尔维亚工商会驻华代表处主任：中国规模和速度无与伦比 “下一个中国”还是中国

中国日报网

2026-06-26 18:33:02

不用怀疑，欧阳夏丹这是被坑了

雪中风车

2026-06-16 15:49:02

AI产业主平台领航智能+时代

15540文章数 66937关注度

往期回顾全部

科技要闻

拿了500亿的梁文锋，只挖地基，不信销售

头条要闻

白玉兰史上首个90后视后：爸妈女儿没让你们失望

头条要闻

白玉兰史上首个90后视后：爸妈女儿没让你们失望

体育要闻

我在世界杯的每次奔跑，都为了证明你没看错

娱乐要闻

玥儿不回北京，马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起捷途自由者7 PLUS/山海T1四驱版上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手机

艺术

本地

家居

教育

手机要闻

vivo X Fold6 体验：折叠屏的下一步，是把任务流展开

艺术要闻

莫兰迪不多见的简约风景画！

本地新闻

世界杯球迷节：比球赛更好玩的派对

家居要闻

绿意盎然自然之境

教育要闻

盘点那些上帝都造不出来的单词

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版