网易首页 > 网易号 > 正文 申请入驻

投奔小扎,Jason Wei连发两篇博文公布“屠龙术”:一个公式看透AI,一条心法指引人生

0
分享至


Jason Wei:OpenAI研究科学家,OpenAI思维链研究开创者,《Chain-of-thought prompting elicits reasoning in large language models》论文第一作者,谷歌学术他引17000余次,高中学历,毕业于全美顶级的科技高中:托马斯·杰弗逊科学技术高中,sat 2390(2400满分),强化学习大神

在刚刚爆出被小扎挖走,加入meta超级智能实验室后,Jason Wei 连发两篇文章,一篇是关于 AI 发展的核心驱动力公式——“验证者定律”,另一篇则是从强化学习中悟出的人生哲学——“人生要走 On-Policy 路线”,这可能就是jason wei 在OpenAI最后的遗作了吧

验证者定律说的是:训练人工智能解决一个任务的难易程度与该任务的可验证性成正比。所有可以解决且易于验证的任务都将被人工智能解决

On-policy RL说的是强化学习对人生的启示:要想青出于蓝而胜于蓝,就必须走自己的路,直面环境给予的风险与回报

看起来像是离职感言,哈哈哈,我们来看看具体的两篇文章说的啥

Jason Wei@_jasonwei

第一篇

验证的不对称性——即“验证某些任务远比解决它们更容易”这一理念——正变得日益重要,因为我们终于有了能广泛奏效的强化学习(RL)技术。

验证不对称性的绝佳例子包括:数独谜题、为 Instagram 这样的网站编写代码,以及 BrowseComp 问题(通常需要浏览约100个网站才能找到答案,但一旦有了答案,验证起来就很容易)。

也有些任务的验证具有近乎对称性,比如计算两个900位数字的和,或编写一些数据处理脚本。还有些任务,提出可行的解决方案比验证它们要容易得多(例如,对一篇长文进行事实核查,或提出一种像“只吃野牛”这样的新饮食法)。

关于验证不对称性,需要理解一个要点:你可以通过一些前期工作来增强这种不对称性。例如,如果你手握一道数学题的答案,或者一个 LeetCode 问题的测试用例。这极大地扩展了具有理想验证不对称性的问题集合。

“验证者定律”(Verifier's Law) 指出:训练 AI 解决一个任务的难易程度,与该任务的可验证性成正比。** 所有可能被解决且易于验证的任务,都终将被 AI 解决。训练 AI 解决任务的能力,取决于该任务是否具备以下特性:

  1. 1. 客观真理 :对于什么是好的解决方案,人人都有共识。

  2. 2. 快速验证 :任何给定的解决方案都可以在几秒钟内完成验证。

  3. 3. 可规模化验证 :可以同时验证大量的解决方案。

  4. 4. 低噪声 :验证结果与解决方案的真实质量尽可能高度相关。

  5. 5. 连续奖励 :可以轻松地对同一个问题的多个解决方案进行优劣排序。

验证者定律一个最明显的例证是:AI 领域提出的大多数基准测试(benchmark)都易于验证,并且迄今为止都已被攻克。你会发现,过去十年几乎所有流行的基准测试都符合上述标准1-4;不符合这些标准的基准测试,很难流行起来。

为什么可验证性如此重要?因为当上述标准得到满足时,AI 的学习效率会最大化;你可以进行大量的梯度更新,并且每一步都包含着丰富的信号。迭代速度是关键——这正是数字世界的进步远比物理世界快得多的原因。

谷歌的 AlphaEvolve 是利用验证不对称性的最伟大范例之一。它专注于那些完全符合上述标准的环境设定,并在数学等领域取得了一系列进展。与过去二十年我们在 AI 领域的做法不同,这是一种新的范式:所有问题都在一个训练集与测试集等同的环境中进行优化。

验证的不对称性无处不在,一个“万物皆可衡量,万物皆可被解决”的参差不齐的智能世界,正令人无比兴奋

第二篇

在过去一年里,我成了强化学习(RL)的铁杆粉丝,醒着的大部分时间都在思考RL,这无意中教会了我一个关于如何过好自己人生的重要道理。

RL 中有一个重要的概念,就是你总是希望自己是“同策略的”(on-policy):与其模仿他人的成功轨迹,你更应该采取自己的行动,并从环境给予的奖励中学习。 显然,模仿学习在初期“冷启动”、达到一个非零成功率时很有用,但一旦你能走出合理的轨迹,我们通常会避免模仿学习,因为要最大化发挥模型自身的优势(这与人类不同),最好的方式就是只从它自己的轨迹中学习。一个广为接受的例子是:相比于简单地在人类书写的“思维链”上进行监督微调,强化学习是训练语言模型解决数学应用题的更好方法。

人生也是如此。我们首先通过模仿学习(上学)来完成自我引导,这非常合理。但即使毕业后,我仍然习惯于研究他人如何成功,并试图模仿他们。有时这会奏效,但最终我意识到,我永远无法完全达到别人的高度,因为他们是在发挥自己的长处,而这些长处我并不具备。这可以是任何事,比如一个研究员做起实验(yolo runs)比我更成功,因为代码库是他自己搭建的,我不是;或者一个非AI的例子,一个足球运动员利用我所不具备的力量优势来控球。

On-policy RL给我的启示是:要想青出于蓝而胜于蓝,就必须走自己的路,直面环境给予的风险与回报。 例如,有两件事我比一般研究员更享受:(1)阅读大量数据,以及(2)做消融实验来理解系统中单个组件的效果。有一次在收集数据集时,我花了好几天阅读数据,并给每位人类标注员提供了个性化的反馈,之后的数据质量非常出色,我也对试图解决的任务获得了宝贵的洞察。今年早些时候,我花了一个月时间,系统性地对我之前凭感觉(yolo'ed)做下的每个决定进行消融实验。这花费了相当多的时间,但通过那些实验,我学到了关于哪种 RL 效果好的独到见解。全身心投入自己的热情所在,不仅让我更有成就感,而且我现在感觉自己正走在一条为自己和我的研究开辟更强大生态位(niche)的道路上。

简而言之,模仿是好的,初期你必须这么做。但一旦你完成了冷启动,要想超越老师,你就必须走 on-policy 的强化学习路线,发挥你自己的长处和短处 :)

参考:

https://jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
新一股冷空气今起影响我国,较大范围雨雪来袭,局地有暴雪

新一股冷空气今起影响我国,较大范围雨雪来袭,局地有暴雪

界面新闻
2026-01-29 08:50:48
据报道,湖人队在NBA交易截止日前愿意交易八村塁,但有前提

据报道,湖人队在NBA交易截止日前愿意交易八村塁,但有前提

好火子
2026-01-29 05:41:19
央视春晚第二次联排明星曝光后,网友坐不住了,喊话董卿上热搜

央视春晚第二次联排明星曝光后,网友坐不住了,喊话董卿上热搜

科学发掘
2026-01-29 08:31:28
涉案百亿!国安部深夜亮剑:这一次,内鬼和黑手一个都跑不掉!

涉案百亿!国安部深夜亮剑:这一次,内鬼和黑手一个都跑不掉!

辉辉历史记
2026-01-28 18:52:09
水均益跑泉州给女儿带娃,和前妻罕见同框,主动搭话对方却不理他

水均益跑泉州给女儿带娃,和前妻罕见同框,主动搭话对方却不理他

一娱三分地
2026-01-27 18:15:59
上映27天被观众赶出院线!网播也救不了它,事实证明烂片已无市场

上映27天被观众赶出院线!网播也救不了它,事实证明烂片已无市场

娱乐圈笔娱君
2026-01-27 09:40:32
谢霆锋加拿大留学旧照火了,开法拉利、坐直升机,这才是真少爷

谢霆锋加拿大留学旧照火了,开法拉利、坐直升机,这才是真少爷

可乐谈情感
2026-01-28 19:00:31
女神王祖贤入驻抖音 ,微微一笑收获百万点赞

女神王祖贤入驻抖音 ,微微一笑收获百万点赞

扬子晚报
2026-01-28 21:54:46
52岁复出,她杀回榜首!日本阿姨山口珠理的真实人生!

52岁复出,她杀回榜首!日本阿姨山口珠理的真实人生!

小飞爱生活1987
2026-01-29 07:42:46
重磅!名记:字母哥已向雄鹿表明 是时候分手了

重磅!名记:字母哥已向雄鹿表明 是时候分手了

体坛周报
2026-01-29 09:30:20
上海90岁阿婆突然“两个异常”,社保卡“封停”!触发“医保审核红线”,需配合调查,家人慌了

上海90岁阿婆突然“两个异常”,社保卡“封停”!触发“医保审核红线”,需配合调查,家人慌了

新民晚报
2026-01-28 15:32:17
奇葩亲戚朋友的要求有多离谱?网友:这年头还有想吃绝户的

奇葩亲戚朋友的要求有多离谱?网友:这年头还有想吃绝户的

解读热点事件
2025-12-21 00:05:08
汪小菲也没想到,临近年关,具俊晔竟因一特殊举动,扭转了口碑

汪小菲也没想到,临近年关,具俊晔竟因一特殊举动,扭转了口碑

天天热点见闻
2026-01-29 09:04:37
菲律宾“搅局”

菲律宾“搅局”

陆弃
2026-01-28 09:18:37
英国、法国、加拿大、丹麦等11国发表联合声明

英国、法国、加拿大、丹麦等11国发表联合声明

环球时报国际
2026-01-29 09:34:07
刚毕业的我给富婆当司机,一次她来我家,对我提出了一个要求

刚毕业的我给富婆当司机,一次她来我家,对我提出了一个要求

青青会讲故事
2025-03-29 13:22:24
0-11惨遭剃光头!19岁纵歌曼再战克星张本美和,能否打破心魔?

0-11惨遭剃光头!19岁纵歌曼再战克星张本美和,能否打破心魔?

阿晞体育
2026-01-29 09:43:09
王祖蓝问周深“我们是不是一样高”,并透露自己身高1.625米;周深搞笑回应:王老师“高!您实在是高”

王祖蓝问周深“我们是不是一样高”,并透露自己身高1.625米;周深搞笑回应:王老师“高!您实在是高”

极目新闻
2026-01-28 16:53:26
一夜暴富!男子花15元买体彩中1404万大奖 中奖率仅有1/4285142

一夜暴富!男子花15元买体彩中1404万大奖 中奖率仅有1/4285142

念洲
2026-01-29 08:05:29
2026-01-29 10:43:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1030文章数 395关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

泽连斯基求见普京 媒体:听到此消息不免有些惊奇

头条要闻

泽连斯基求见普京 媒体:听到此消息不免有些惊奇

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

黄金价格太高了吗

汽车要闻

预测一下比亚迪“9系”旗舰SUV 「大唐」 风采

态度原创

健康
艺术
房产
公开课
军事航空

耳石症分类型,症状大不同

艺术要闻

梵高全集(高清350张)震撼……

房产要闻

50米一线海景,实景示范区火热开放!三亚TOP级旅居王牌来了

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版