网易首页 > 网易号 > 正文 申请入驻

Dwarkesh Patel:下一代AI,可能是干活干出来的

0
分享至

机器之心编辑部

硅谷著名科技播客主持人 Dwarkesh Patel 最近抛出了一个问题:AI 的下一代训练范式会是什么?



Dwarkesh Patel 是硅谷近几年快速走红的科技播客主持人和写作者,年仅 25 岁,却已经凭借 Dwarkesh Podcast 进入 AI 讨论的核心圈层。他的采访对象包括 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis、Mark Zuckerberg 等一众 AI 与科技大牛。TIME 曾将他列入 2024 年 TIME100 AI,称他的播客已经成为许多 AI 从业者的重要收听内容。



在最新一期的播客中,他把当下前沿 AI 实验室正在押注的路线总结为一个关键词:RLVR,也就是 Reinforcement Learning with Verifiable Rewards,可验证奖励强化学习。

简单说,就是让模型在大量可以自动判断对错的任务中反复试错,训练出规划、纠错、迭代和长期执行能力。今天代码、数学等领域的快速进展,很大程度上就来自这种思路。

但 Dwarkesh 真正想追问的是:如果下一代 AI 只靠这种「可验证任务训练」,够不够?

他的答案是:可能不够。

因为一个任务光「可验证」还不够,它还必须「可刷」。

这里的关键概念是grindability,可磨性。放在 AI 训练语境里,是「可反复刷题性」或者「可大规模 rollout 的能力」。

代码任务就是典型的可刷任务。你可以准备一个软件仓库、一个待修复 bug、一个测试用例,然后把同一个环境复制成几千份,让几千个 agent 同时尝试。谁通过测试,谁就得分。这个过程可以并行、可复现、可重置,特别适合 RLVR。

数学题也是类似的。答案对不对可以验证,训练环境也容易复制。

但 Dwarkesh 问了一个很有意思的问题:为什么 AI 在「使用电脑」这件事上,进展反而比代码和数学慢?

表面上看,电脑使用也是可验证的。比如东西有没有下单成功、活动场地有没有订好、税表有没有提交,这些结果都可以判断。但问题在于,它很难被大规模复制和回放。你不能让一千个 agent 同时去 Amazon 上反复跑同一个结账流程,因为真实网站会识别 bot、封禁账户、改变状态。你当然可以克隆 Slack、Gmail、Amazon 这样的应用来做模拟器,但这在当前阶段仍然是高成本、低扩展性的工程。

Dwarkesh 指出:AI 在某个领域进步快,不只是因为这个领域答案可验证,而是因为这个领域能被包装成可复制、可回放、可并行试错的训练环境。

这也解释了为什么代码、数学、游戏类任务会成为 RLVR 的天然温床,而很多真实世界任务却很难直接纳入这套训练范式。

接着,他把问题推向更复杂的现实世界。

  • 如果我们想训练一个 AI 从零开始创业,怎么办?
  • 如果想训练它赢一场官司,怎么办?
  • 如果想训练它在市场中稳定赚钱,或者帮助一个候选人赢得选举,怎么办?

这些任务当然也有结果。公司有没有做起来,官司有没有赢,交易有没有盈利,选举有没有胜出,最终都能判断。

但它们的问题在于:反馈太慢,变量太多,世界不可重置,也无法在数据中心里复制一千遍。

一次创业可能持续数年。一次政治竞选依赖具体地区、候选人、选民情绪、媒体环境和偶然事件。一次法律案件也无法从同一个起点复制成一千个平行宇宙,让不同 agent 分别试错。

这类环境在强化学习里接近所谓 reset-free、non-stationary environment:不能随便重置,而且环境本身还在不断变化。

Dwarkesh 因此提问:RLVR 在可验证、可刷的环境里训练出来的 agent,真的能泛化到这些真实世界任务吗?

这不是一个可以靠口号回答的问题,而是一个实证问题。

乐观派会说,只要 RLVR 环境足够多、足够复杂,模型最终会学到通用的 agent 能力。它在代码、数学、网页、工具使用中练出来的规划和试错能力,最终会迁移到创业、组织管理、政治、法律、科学研究等领域。

但 Dwarkesh 对此保持怀疑。

因为真实世界里最有价值的知识,往往不是以清晰、可验证、可重复的方式出现的。它们可能来自一次含混的客户反馈,一次失败的会议,一个组织内部的隐性流程,一种只有在真实任务中才会暴露的失败模式。模型要学会这些东西,不能只靠「刷题」,还必须具备真正的样本效率。

这就把讨论带到了全文最重要的一点:learning back to the weights,把学习重新写回权重。

今天的大模型已经很擅长 in-context learning。它可以在一个长上下文里读很多资料,理解一个项目背景,临时适应一个用户或组织的需求。但问题是,这种学习大多停留在上下文窗口里。会话结束后,模型并不一定真正「长记性」。

Dwarkesh 认为,这是一种巨大的浪费。

因为模型真正有价值的训练信号,恰恰是在部署后才出现的。模型被真实用户使用,进入真实组织,参与真实任务,暴露真实错误。它会看到公司内部怎么运转,人们实际拿它做什么,哪些地方经常失败,哪些建议在现实中根本行不通。

但如果这些经验无法沉淀回模型权重,那它就只是一次会话里的短暂适应,而不是能力的长期增长。

他用人类学习做了一个类比:人并不是靠把每天发生的所有事情都逐字背下来而变强的。一个员工工作半年后变得有用,不是因为他记得每封邮件、每句会议记录,而是因为他把这些经历压缩成了判断力、直觉、流程理解和问题模式。

模型也应该如此。

真正的 continual learning,不是无限扩大 KV cache,也不是把所有历史记录塞进上下文,而是从真实经验中提炼少量真正有用的知识,再把它们压缩进权重。

这正是 Dwarkesh 认为下一代训练范式必须解决的问题。

那么,具体怎么做?

他提到了一个正在被讨论的方向:on-policy self-distillation,简称 OPSD

可以粗略理解为:让一个已经在长会话中积累了大量经验的模型,充当「老员工」或者 teacher;然后训练基础模型,让它在没有这些完整上下文的情况下,也能做出类似 teacher 的判断。

也就是说,把模型在一次真实任务中通过上下文学到的东西,再蒸馏回模型自身的权重。

这和普通 SFT 不一样。最朴素的 SFT 可能只是让模型去预测会话里出现过的 token,相当于让它复述整个工作日志。但这不是有效学习。真正重要的不是记住全部细节,而是提炼出那些能帮助模型下次做得更好的关键洞见。

OPSD 的优势在于,它不一定需要一个外部可验证奖励。只要模型能在上下文里学到有用东西,就可以把「学过之后的模型」当作 teacher,让基础模型向它靠近。

同时,相比普通 RL 只有最终 reward,OPSD 可以提供更密集的监督信号。它可以在 token 层面对比 teacher 和 student 的概率分布差异,从而把一次真实任务中的稀缺经验压缩成更小、更精准的权重更新。

除了 OPSD,Dwarkesh 还提出了另一个方向:dreaming

这里的 dreaming 是指 AI 根据真实世界观察,自己构造一个模拟环境,然后在里面反复练习、尝试策略、强化有效行为。

这听起来很像强化学习传统里的 model-based RL,也很像 Sutton 一直强调的 agent 通过环境互动积累经验。不同的是,Dwarkesh 把它放进了大模型和真实部署的语境中。

比如,一个 AI 在真实公司里观察到某个业务流程后,不只是写一份总结,而是花费大量计算,构造出这个流程的「游戏版模拟环境」。然后它在里面测试不同沟通策略、执行路径和项目推进方式,看看什么更可能成功。最后,再把这些模拟练习中得到的经验压缩回模型。

如果这种路线成立,它可能会成为新的 scaling axis。

过去 AI 的扩展主要来自三条轴:pretraining、RL 和 inference-time compute。Dwarkesh 设想,未来可能还会多出第四条轴:test-time training,或者说 dreaming。模型不只是推理,而是在推理和任务执行过程中,为特定用户、特定组织、特定项目构造模拟环境,并在其中训练自己。

这也是为什么评论区有人提到 David Silver 和 Richard Sutton 的《Welcome to the Era of Experience》:那篇文章同样强调,AI 不能永远依赖人类数据,下一阶段的关键将是智能体从自身与环境互动中获得经验。



Dwarkesh 则把这个宏观判断具体化到了今天的大模型训练问题上:RLVR 是一个重要过渡阶段,它让模型在可验证任务里练出 agent 能力;但要进入更复杂的现实世界,模型必须学会从真实部署中持续学习,并把经验写回权重。

在 Dwarkesh 设想的 2027 或 2028 年,训练流程可能会变成这样:

  • 首先,RLVR 训练出一个基本 competent 的 agent。这个 agent 被扔到一个陌生问题里,至少能搞清楚情况,尝试不同策略,遇到障碍后继续迭代;
  • 然后,这个 agent 被部署到真实世界中,开始做真实工作。它可能和用户一起连续工作一周,参与一个不在原始训练分布里的项目;
  • 一周结束后,用户给它一个 thumbs up 或 thumbs down,甚至写一段工作评价。如果结果是正向的,模型就会把这次任务中学到的东西蒸馏回基础模型。这个过程可能用 OPSD,可能用 dreaming,也可能用某种现在还没有出现的新技术。

一旦这条路径跑通,AI 的能力边界就不再被最初那些「可验证任务」限制住。

它可以先通过 RLVR 学会代码、数学、网页任务、工具调用;再通过真实部署学习组织管理、业务流程、复杂协作;然后从这些经验出发,继续扩展到相邻领域。

这也意味着,AI 进步的主要来源可能会发生变化。

过去,一个模型发布前训练好了,用户只是使用它。下一代模型可能是:发布前先训练出基础 agent,发布后通过海量真实任务继续学习。每一次与用户交互,每一次真实项目执行,每一次失败和修正,都可能成为下一轮能力提升的材料。

所以,Dwarkesh 所谓的「下一代训练范式」,不是简单地说模型要更大、数据要更多、RL 要更强。

它真正指向的是:AI 从发布前训练,走向发布后学习;从人类数据,走向环境经验;从上下文里的临时适应,走向权重里的长期能力。

未来最重要的 AI 训练数据,可能不再只是互联网上已有的文本,也不只是实验室里构造好的可验证任务,而是 AI 在真实世界里完成真实任务时,自己积累出来的经验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沙特外交大臣费萨尔将访华

沙特外交大臣费萨尔将访华

新京报
2026-06-29 15:10:13
这一次我为日本点赞!

这一次我为日本点赞!

安安说
2026-06-29 10:58:11
今晚开赛,郑钦文温网首轮迎强敌,草地硬仗,证明自己关键一战!

今晚开赛,郑钦文温网首轮迎强敌,草地硬仗,证明自己关键一战!

体坛侃排球
2026-06-29 09:52:12
流浪26年满身污垢的沈巍,如今身价百万还有小15岁女友,他凭的啥

流浪26年满身污垢的沈巍,如今身价百万还有小15岁女友,他凭的啥

从零到一研究所
2026-06-18 16:15:07
又折腾?深圳官宣顾全出任主帅,球迷:忘了周鹏翻车教训?

又折腾?深圳官宣顾全出任主帅,球迷:忘了周鹏翻车教训?

十三哥侃大山
2026-06-29 15:18:31
我国重磅反制后,日本最新反应来了,高市早苗担心的一幕发生

我国重磅反制后,日本最新反应来了,高市早苗担心的一幕发生

DS北风
2026-06-29 16:07:03
期待,中国女排大名单发布,郎平助教带队,新人亮眼冲击冠军!

期待,中国女排大名单发布,郎平助教带队,新人亮眼冲击冠军!

体坛侃排球
2026-06-29 12:22:39
高考分数屏蔽:清华北大任选!办5天升学宴,通知书让父母傻眼了

高考分数屏蔽:清华北大任选!办5天升学宴,通知书让父母傻眼了

菁妈育儿
2026-06-26 11:32:09
“碰我们就把你从地图上抹掉”!巴基斯坦一句话,摩萨德计划吓停

“碰我们就把你从地图上抹掉”!巴基斯坦一句话,摩萨德计划吓停

萧栝记录风土人情
2026-06-28 20:37:03
周星驰《功夫女足》亮相 时隔25年功夫足球题材作品

周星驰《功夫女足》亮相 时隔25年功夫足球题材作品

3DM游戏
2026-06-26 19:25:17
克拉拉泳装照 身材真是夯爆了!

克拉拉泳装照 身材真是夯爆了!

阿废冷眼观察所
2026-06-29 13:55:30
预测胜率出炉!单日三场16强赛:日本延续36年魔咒 德国85%碾压

预测胜率出炉!单日三场16强赛:日本延续36年魔咒 德国85%碾压

颜小白的篮球梦
2026-06-29 14:47:32
云南一奶茶店清晨突发火情,现场火光冲天,老板:贷款几十万元开店,烧了个精光;当地消防:起火原因正在调查

云南一奶茶店清晨突发火情,现场火光冲天,老板:贷款几十万元开店,烧了个精光;当地消防:起火原因正在调查

洪观新闻
2026-06-29 13:59:22
粟裕来西柏坡开会,毛主席一高兴,打破了一个常规,朱德都惊呆了

粟裕来西柏坡开会,毛主席一高兴,打破了一个常规,朱德都惊呆了

兴趣知识
2026-06-29 00:53:43
中国44年来首次试射洲际导弹,全球反应堪比好莱坞大片

中国44年来首次试射洲际导弹,全球反应堪比好莱坞大片

烽火三月佳人三千
2026-06-25 14:21:42
韩红越扒越有!开跑车挪用军牌、带明星去灾区,多次被质疑作秀

韩红越扒越有!开跑车挪用军牌、带明星去灾区,多次被质疑作秀

萌神木木
2026-06-25 17:02:18
马竞为阿尔瓦雷斯标出转会底价,巴萨若想引进需满足极其严苛条件

马竞为阿尔瓦雷斯标出转会底价,巴萨若想引进需满足极其严苛条件

夜白侃球
2026-06-29 11:33:51
当你见识的人多了,你就会明白,凡是那些气质出众,言谈优雅,平时深藏不露的人,绝对不可招惹,他们往往有这两个绝招,招招要命

当你见识的人多了,你就会明白,凡是那些气质出众,言谈优雅,平时深藏不露的人,绝对不可招惹,他们往往有这两个绝招,招招要命

心理观察局
2026-06-29 06:20:04
淘汰赛开打!德法硬碰硬,葡萄牙难进8强,阿根廷一只脚进半决赛

淘汰赛开打!德法硬碰硬,葡萄牙难进8强,阿根廷一只脚进半决赛

十点街球体育
2026-06-28 15:22:12
涡扇15追了十几年,转头一看才发现:全球最强发动机原来是自己?

涡扇15追了十几年,转头一看才发现:全球最强发动机原来是自己?

兵鉴史
2026-06-28 11:32:44
2026-06-29 17:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13386文章数 142683关注度
往期回顾 全部

科技要闻

拟投3.52万亿人民币 韩国公布重大芯片计划

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

头条要闻

美从俄乌战场抽身 金灿荣:美国有个大战略目标已完成

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

时尚
游戏
教育
本地
军事航空

伊姐周日热推:电视剧《千香》;电视剧《非份之罪》......

任天堂今年带头降价?节奏天国新作仅40美刀、NS运动新作50美元

教育要闻

今年志愿应该怎么报?

本地新闻

贵州小城的新目标:举办“村超”世界杯!

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版