网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

LLM抢人血案：强化学习天才被挖空，一朝沦为「无人区」！

2025-08-04 13:07:26　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：KingHZ

【新智元导读】AlphaStar等证明强化学习在游戏等复杂任务上，表现出色，远超职业选手！那强化学习怎么突然就不行了呢？强化学习到底是怎么走上歧路的？

最近，斯坦福的AI+CS博士Joseph Suarez发表了对强化学习的历史回顾。

结果，在上火了！目前，已有38.2万阅读。

封面可谓醒目：一条曲线线先是快速上升，然后平缓爬升，最后却急转直下，暗喻RL领域的研究前途不妙！

从历史角度看，强化学习发生了什么？为什么到现在它才真正开始起飞？

他提供了独特的个人视角。

师出名门

2019年，他本科毕业于斯坦福大学计算机科学专业人工智能方向。

2018年，他利用休学期在OpenAI完成6个月实习，期间正式发布Neural MMO首个公开版本

更早之前，他曾在李飞飞课题组、吴恩达实验室参与过研究项目。

大约从2017年，他开始从事强化学习。

当时，他在麻省理工学院Phillip Isola实验室攻读博士，开始创建开源计算研究平台Neural MMO。

他的研究聚焦于推动现代基于智能体的学习方法向更复杂、更具认知真实性的环境拓展。

后来，这个项目后来成为他整个博士生毕业论文的的主题。

论文链接：https://jsuarez5341.github.io/static/jsuarez_phd_thesis.pdf

这也为他PufferLib的工作奠定了基础。

当时，各大实验室也在做从零开始、非语言模型的强化学习RL。

事实上，这是当时大多数工作的重点：多智能体（multiagent）刚刚兴起，所有核心算法刚刚发布。

AlphaGo让研究者已经看到了强化学习的潜力。OpenAI Five正在开发中，当时他恰好在OpenAI实习，所以亲眼看到了一些工作。

OpenAI的DoTA（Dota 2）项目，则完全让他信服RL的神奇。

论文链接:https://cdn.openai.com/dota-2.pdf

你如果不玩这款游戏，难以想象这个问题有多复杂。

你不会相信人们居然把打DoTA当成爱好。它和围棋并非完全一样，无法直接比较，但它确实涉及许多围棋中没有的、与现实世界相关的推理类型。

比如，高低级策略、控制、团队协调和心智理论（theory of mind），这些只是其中几个例子。

而OpenAI用1.68亿参数的网络，在约1000个GPU上训练，打败了顶尖职业选手。

现在，用64到128个H100 GPU，你也能做到。

而且还不止一个结果。还有AlphaStar、Capture the Flag、Emergent Tool Use……

在训练过程中，AlphaStar最终被选中与职业选手MaNa对抗的智能体（黑点）其策略与竞争对手（彩点）的演化过程。每个彩点代表AlphaStar联赛中的一位竞争对手

短短时间内，有好几个主要的RL展示项目。那么，既然潜力这么明显，领域肯定会继续前进，对吧……对吧？？？

为什么RL衰落了

从2019年到2022年的，有些工作继续在进行，但强化学习明显在走下坡路。

尽管那几年论文更多了，但没有多少像2017-2019年那种水平的持久突破。究竟发生了什么？

首要的因素是学术短视。

整个领域集体决定了一套标准，却没有实际理由。在这些标准下，几乎不可能出现什么进步。

由于历史原因，Agent57成为了最常见的基准，共包含57款雅达利游戏。

由于任务结果波动大，需要运行所有游戏（理想情况下，每款游戏使用多个种子）。同时，学界决定x轴应该是样本数，而不是实际运行时间（墙钟时间）。

背后的想法是，这更接近现实世界的学习，许多问题受限于采样率。而且你不用担心不同论文的硬件设置。

然而，显而易见的问题是没有限制硬件使用量，可以通过投入更多计算资源来提升基准成绩。因此，研究变得愈加耗时，以至于单个游戏的单独运行可能需要耗费数周的GPU时间。

因为学术界对工程很排斥，代码基底也慢得可怕。更不用说有限的预算……

所以，你最终需要1万GPU小时，在利用率不到5%的情况下运行一组消融实验（ablations）。

这样的研究方式根本行不通，跟好的科学更不沾边。

要是没有上万小时的GPU算力，很多人干脆不做消融实验就直接发论文——难怪那时候的研究成果基本无法复现。

另外，学界追名逐利。

大语言模型（LLMs）出现了。

人们经常问他为什么讨厌LLM。他真的不讨厌。他讨厌的是，它们从其他领域吸走了99%的天才，而不是更合理的80%。

他眼看着最有才华的同事一个个离开RL研究领域，被雇去研究LLM。这很难去责怪他们。做RL太糟了。那是艰苦、残酷的工作，对抗一套似乎专门设计来阻碍真正进步。

在一般深度学习中你习以为常的基本东西，甚至2015年的东西，在RL中都不存在。

超参数没道理，模型无法扩展，简单的任务也无法顺利转移。

尽管他们有证据证明RL能在DoTA和围棋之类的惊人问题上奏效，但日常工作的感觉就是绝望。

现在的RL重蹈覆辙

缓慢的实验周期、过度优化的评价体系、迟缓的开发进度……这一切听起来是否耳熟？

现代RL研究不知怎么花了数十亿美元，却再现了最初扼杀RL发展的混乱局面，重蹈覆辙。

David Peterson对此非常认同：强化学习莫名其妙地多次重蹈覆辙，上一次是时序差分。

这一次它会走得更远，毕竟有利可图……但效率极低。

看着该领域重新陷入前人多年前就已经克服的困境，同时为各种概念创造新的术语，令人啼笑皆非。

「多轮RL」意思是「不只是赌博机问题」（not a bandit）。这几乎涵盖了全部的RL新研究，除了某些小众理论研究。

「长期规划」（Long horizons）也不是新东西，这也不是让问题变得如此困难的全貌。

当前对早期RL研究的充满了不信任，Joseph Suarez表示理解——

因为许多发表的内容确实存在问题。

另寻他路

Joseph Suarez还在坚持用小模型从零开始的RL。

只是现在，这不再是衰落的旧势力，他们在以惊人速度突破。

那么，什么改变了？

完成博士学位后，他决定完全从学界的随意的标准中解放出来，从头重建RL。

标准是墙钟训练时间，性能工程将和算法工作一样重要。

他花几个月时间拆除所有慢的基础设施，目标是每秒数百万步的吞吐，而不是几千。

起初，这只是现有方法的加速版本。这对解决行业中因成本过高而难以实施的问题已绰绰有余。

但这还不止——这个过程实际上让他们能够以前所未有的速度开展高质量研究。当你可以运行1000倍的实验时，无需过于精巧的方法论；当所有选项都可以测试时，也无需小心翼翼地挑选变量。

最新基准测试显示，在单个RTX 5090上，强化学习库PufferLib 3.0的训练速度最高可达每秒400万步

一年前，你需要RL博士学位和几周到几个月来处理每个新问题。如果你没有经验，耗时就更长了。现在，新手程序员在几天内让RL在新问题上运行。不是超级难的问题——那些还是需要点经验。但比之前好多了。

他们走在正确方向的迹象：他们在简单环境上的实验能泛化到更难环境。

他们认为之前的batch size和特定退化超参数是罪魁祸首。不是100%——肯定有些技术只有在更难问题上才见效。

但他们现在有足够多在几分钟内运行的技术，开发周期还是很快。

下一步：他们计划能用现有东西解决有价值的问题。

只要能建快模拟器，RL大多能工作。嘿，在很多问题上，它开箱即用。

长期来看，他们会回到旧的样本效率研究。但他们还是会从至少保持flop效率的角度接近它。不再让GPU在5%利用率下跑批量大小8的200万参数网络。

参考资料：

https://x.com/jsuarez5341/status/1946622588891107565

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

强化学习的两个「大坑」，终于被两篇ICLR论文给解决了

机器之心Pro 2025-07-17 18:17:19
0 跟贴 0
RLinf上新πRL：在线强化学习微调π0和π0.5

机器之心Pro 2025-11-06 17:29:51
0 跟贴 0

AGILE：自监督+交互式强化学习助力VLMs感知与推理全面提升

机器之心Pro 2025-10-20 18:30:03
0 跟贴 0

AI六巨头首次同台！纵论四十年AI风云、泡沫之辩与AGI时间表

DeepTech深科技 2025-11-07 18:28:54
0 跟贴 0
开源RL框架Verlog来了，专为LLM智能体打造，400回合不成问题

机器之心Pro 2025-10-08 15:52:12
0 跟贴 0

DeepSeek最会讨好，LLM太懂人情世故了，超人类50%

机器之心Pro 2025-10-27 15:23:21
0 跟贴 0

国产模型新盛况！王座易主：Kimi K2 Thinking开源超闭源

机器之心Pro 2025-11-07 12:55:41
3 跟贴 3
大模型也会赌博上瘾！理智出走！

量子位 2025-11-03 07:06:08
0 跟贴 0

讯飞输入法升级智能体，快来“捏”一款你的个性化AI键盘！

雷科技 2025-11-07 19:57:31
4 跟贴 4
ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

量子位 2025-07-18 18:08:35
0 跟贴 0
在失败中进化？UIUC联合斯坦福、AMD实现智能体「从错误中成长」

机器之心Pro 2025-11-07 13:00:48
0 跟贴 0
波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
0 跟贴 0
PyTorch之父闪电离职，AI半壁江山集体致敬！

新智元 2025-11-07 10:12:51
14 跟贴 14
陶哲轩力推AlphaEvolve：多个难题中超越人类最优解

量子位 2025-11-07 17:13:46
4 跟贴 4
华为云的组合新范式，引爆了Agentic AI应用革命

机器之心Pro 2025-11-07 15:20:44
2 跟贴 2
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
21 跟贴 21
史上首次！机器人当上全运会火炬手

量子位 2025-11-07 12:00:29
3 跟贴 3
李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

量子位 2025-10-13 09:30:54
0 跟贴 0
五八智能四足机器人平台Q20A，适用于千行百业

量子位 2025-09-30 15:35:41
0 跟贴 0
机器人终于有自己的真机评测大考了

量子位 2025-10-15 20:05:44
0 跟贴 0
五八智能四足机器人平台Q20A 不止跑跳整活还能维护公共安全

量子位 2025-09-30 10:01:00
0 跟贴 0
机器狗被锯腿也能继续走，Skild Brain估值45亿美元

量子位 2025-09-27 17:49:32
0 跟贴 0
Ilya、小扎之后，苏莱曼的「超级智能」进入7年倒计时！

新智元 2025-11-07 20:41:49
0 跟贴 0
机器狗跳千手观音，波士顿动力达人秀炸场

量子位 2025-06-13 15:55:52
0 跟贴 0
格斗冠军机器人突然发疯！吓呆研究人员

量子位 2025-07-25 09:10:58
0 跟贴 0
一个叫高斯的AI，只用了三周完成强素数定理

量子位 2025-09-20 00:57:38
0 跟贴 0
AI重塑人机交互方式，下一代终端如何变革？

量子位 2025-09-24 20:17:01
0 跟贴 0
从被群嘲到顶级玩家，阿里AI逆袭之路

华商韬略 2025-07-28 17:27:23
0 跟贴 0
机器人叠衣，灵巧手抓万物，超实用机器人组合来了

量子位 2025-07-29 03:31:41
0 跟贴 0
学术圈最强AI工具：6.9亿专业文献，“搜读创编”全程辅助

量子位 2025-09-11 18:42:26
0 跟贴 0
机器人首次踢5v5足球赛，摔跤是战术？我们和参赛队员聊了聊

量子位 2025-08-21 10:48:04
0 跟贴 0
物流业deepseek时刻，中国无人车火爆全球

华商韬略 2025-06-17 10:58:23
0 跟贴 0
AI带货频频“翻车”，谁应负责？

虎嗅APP 2025-11-08 02:46:10
0 跟贴 0
这一个Tab键，我愿意单独付费：Cursor在线强化学习优化代码建议

机器之心Pro 2025-09-15 10:35:28
14 跟贴 14
小鹏机器人竟是真人假扮？网友：都露馅了

极果酷玩 2025-11-07 08:46:29
3 跟贴 3
从苏-30到苏-35，俄战机迭代复苏航空业，却陷体系空战落后困境

王强老师 2025-11-03 20:41:20
9 跟贴 9
比例模型是如何能准确模拟全尺寸船只行为的？！

大哥搞笑配音 2025-11-07 11:13:12
1 跟贴 1
杭州一小区物业退出不干了，选聘进场4年，称业主拖欠物业费1200多万元

大风新闻 2025-11-07 08:57:02
15395 跟贴 15395
国外小哥用钢丝制造独一无二的飞机模型

奇奇趣世界 2025-11-07 09:45:48
3 跟贴 3
比伊朗还快！中国红旗-9BE已经运抵阿塞拜疆，与枭龙组建中械体系

秦蓁 2025-11-05 22:39:00
0 跟贴 0

终于有个日本将军，把窗户纸给捅破了：再打仗，日本可能就没了

终于有个日本将军，把窗户纸给捅破了：再打仗，日本可能就没了

李子橱

2025-11-06 21:30:03

人前光鲜人后心酸！深圳台主持董超49岁离职，如今转行当网红谋生

人前光鲜人后心酸！深圳台主持董超49岁离职，如今转行当网红谋生

揽星河的笔记

2025-11-07 20:16:16

俄重兵突击，乌拼死抵抗，波克罗夫斯克再现血肉磨坊

俄重兵突击，乌拼死抵抗，波克罗夫斯克再现血肉磨坊

史政先锋

2025-11-07 15:54:33

下馆子，“打死”也不要点这6道菜，厨师自己都不吃，千万别大意

下馆子，“打死”也不要点这6道菜，厨师自己都不吃，千万别大意

简食记工作号

2025-11-07 00:11:38

副院长与眼科副主任不雅视频事件：停诊风波背后的真相曝光！

副院长与眼科副主任不雅视频事件：停诊风波背后的真相曝光！

坠入二次元的海洋

2025-11-08 03:42:26

官宣！欧洲豪门主帅下课，曼联两名冠军主帅，有望下轮欧冠碰面

官宣！欧洲豪门主帅下课，曼联两名冠军主帅，有望下轮欧冠碰面

嗨皮看球

2025-11-07 18:33:30

一天之内7舰服役，中国震撼世界，

一天之内7舰服役，中国震撼世界，

世家宝

2025-11-07 22:04:54

再见皇马！1.2亿巨星醒悟了！拒绝让步，想踢左路，远赴英超证明

再见皇马！1.2亿巨星醒悟了！拒绝让步，想踢左路，远赴英超证明

阿泰希特

2025-11-07 14:21:33

副院长不雅视频后续：手术中单铺沙发、都已停诊！身份被扒有来头

副院长不雅视频后续：手术中单铺沙发、都已停诊！身份被扒有来头

鋭娱之乐

2025-11-06 16:57:30

普京公开重要情报：“全国人民都该了解”

普京公开重要情报：“全国人民都该了解”

环球时报新闻

2025-11-06 23:08:31

新布局！这一重要基地，已在河南揭牌

新布局！这一重要基地，已在河南揭牌

政知新媒体

2025-11-07 21:43:02

杨紫33岁生日晒全家福，杨爸杨妈气质出众好年轻，一家三口好幸福

杨紫33岁生日晒全家福，杨爸杨妈气质出众好年轻，一家三口好幸福

小椰的奶奶

2025-11-08 04:02:08

小米汽车99.4%保值率遭打脸：二手市场无人问津，谁都不敢接

小米汽车99.4%保值率遭打脸：二手市场无人问津，谁都不敢接

麦小柒

2025-11-06 20:40:23

郑州恢复执行机动车限行措施

界面新闻

2025-11-07 20:30:40

42岁刘翔近况曝光，长期在国外旅游，靠终身合同吸金，远离喷子

42岁刘翔近况曝光，长期在国外旅游，靠终身合同吸金，远离喷子

科学发掘

2025-11-08 00:36:00

陈布雷得知地下党女儿被捕,竟要求毛人凤立即枪毙,此举反救她一命

陈布雷得知地下党女儿被捕,竟要求毛人凤立即枪毙,此举反救她一命

宅家伍菇凉

2025-11-06 10:05:03

起风了，郑丽文第五轮人事布局出炉；赵少康或被判入狱，慌忙求饶

起风了，郑丽文第五轮人事布局出炉；赵少康或被判入狱，慌忙求饶

墨兰史书

2025-11-08 04:05:03

全运会乒乓球首场大爆冷！国乒全国冠军0:3被淘汰，陈幸同3:2险胜

全运会乒乓球首场大爆冷！国乒全国冠军0:3被淘汰，陈幸同3:2险胜

国乒二三事

2025-11-07 13:14:55

俄罗斯人很困惑，这么贵的东西，为何中国家家有，还把它当水喝？

俄罗斯人很困惑，这么贵的东西，为何中国家家有，还把它当水喝？

老谢谈史

2025-11-07 13:31:45

西贝“闭店潮”大反转，贾国龙真急了！

西贝“闭店潮”大反转，贾国龙真急了！

李东阳朋友圈

2025-11-07 14:08:10

AI产业主平台领航智能+时代

13811文章数 66238关注度

往期回顾全部

科技要闻

75%赞成！特斯拉股东同意马斯克天价薪酬

头条要闻

奥巴马意外现身庆祝胜利

头条要闻

奥巴马意外现身庆祝胜利

体育要闻

是天才更是强者，18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府：安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心林肯航海家场地试驾

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房产

数码

健康

艺术

家居要闻

现代自由功能美学居所

房产要闻

全国2025唯一“开盘即百亿”在广州诞生

数码要闻

受AI热潮推动全球DRAM内存价格暴涨172% 创下历史新高

超声探头会加重受伤情况吗？

艺术要闻

地球的巨眼？亚洲第一铜矿藏190层深渊，能吞下59个西湖！

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版