网易首页 > 网易号 > 正文 申请入驻

思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】离开OpenAI,只是为了Meta天价薪资?Jason Wei离职博客,泄露天机:未来AI更令人向往!

硅谷人才争夺战,火热升级!

过去,是OpenAI从谷歌等公司吸引人才;现在,Meta直接砸钱抢人。

顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价!

思维链之父、华人AI科学家Jason Wei,就是从谷歌跳槽到OpenAI,刚刚又跳槽到Meta。

在AI领域,Jason Wei非常高产。

根据谷歌学术统计,他有13篇被引次数超过1000的论文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究员,参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。

离职消息被媒体爆出之前,他发表了两篇博客,或许能让我们看出他为何选择离开

意外的是,这些灵感都来自强化学习!

RL之人生启示

天生我材必有用

过去一年,他开始疯狂学习强化学习,几乎每时每刻都在思考强化学习。

RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。

当然,在一开始,模仿学习(imitation learning)非常必要,就像我们刚开始训练模型时,必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为,大家更倾向于放弃模仿,因为要最大化模型独特的优势,就只能依靠它自己的经验进行学习。

一个很典型的例子是:相比用人类写的思维链做监督微调,用RL训练语言模型解数学题效果更好。

人生也一样。

我们一开始靠「模仿」来成长,学校就是这个阶段,合情合理。

研究别人的成功之道,然后照抄。有时候确实有效,但时间一长就能意识到,模仿永远无法超越原版,因为每个人都有自己独特的优势。

强化学习告诉我们,如果想超越前人,必须走出自己的路,接受外部风险,也拥抱它可能给予的奖励。

他举两个他自己更享受、却相对小众的习惯:

  • 读大量原始数据。

  • 做消融实验,把系统拆开看每个部件的独立作用。

有一次收集数据集时,他花了几天把每条数据读一遍,然后给每个标注员写个性化反馈;数据质量随后飙升,他也对任务有了独到见解。

今年年初,他还专门花了一个月,把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间,但因此弄清了哪种RL真正好用,也收获了很多别人教不会的独特经验。

更重要的是,顺着自己的兴趣去做研究不仅更快乐,我也感觉自己正在打造一个更有特色、更属于自己的研究方向。

所以总结一下:模仿确实重要,而且是起步的必经之路。但一旦你站稳脚跟,想要超越别人,就得像强化学习那样on-policy,走自己的节奏,发挥你独有的优势与短板

AI的未来

验证非对称性,意指某些任务的验证远比求解更为简单。

随着强化学习(RL)的突破,这一概念正成为AI领域最重要的思想之一。

细察之下,验证非对称性无处不在

  • 数独和填字游戏:解决数独或填字游戏非常耗时,要尝试各种可能性去满足约束条件。但验证一个答案是否正确却非常简单,只需检查是否符合规则即可。

  • 开发网站:比如开发一个像Instagram这样的网站,需要工程师团队数年之功。但验证网站是否正常运行,普通人只需几分钟就能完成,比如浏览页面、检查功能是否可用。

  • BrowseComp问题:要解决这类问题,通常需要浏览数百个网站,但验证给定答案却要快得多,因为可以直接搜索答案是否符合约束条件。

有些任务的验证耗时与求解相当。例如:

  • 验证两个900位数字相加的结果,和自己计算的时间几乎一样。

  • 验证某些数据处理程序的代码是否正确,可能和自己编写代码的耗时相当。

有些任务验证比解决还费时。例如:

  • 核查一篇文章中的所有事实,可能比写文章本身更耗时(引用Brandolini定律:「辟谣所需的精力比制造谣言大一个数量级」)。

  • 提出一个新的饮食疗法只需一句话:「只吃野牛肉和西兰花」,但要验证它对普通人群是否健康,却得做多年大规模实验。

通过前置研究,可以让验证变得更简单。例如:

  • 数学竞赛问题:如果有解答要点,验证答案是否正确非常简单。

  • 编程问题:阅读代码去验证正确性,这很麻烦。如果你有覆盖充分的测试用例,就可以快速检查任何给定的解决方案;实际上,Leetcode就是这样做的。在某些任务中,可以改善验证但不足以使其变得简单。

  • 部分改进:比如「说出荷兰足球运动员的名字」,提前备好名单能大幅加速验证,但仍需人工核对某些冷门名字。

为什么验证非对称性如此重要?

深度学习史证明:凡是能被测量的,都能被优化

在RL框架下,验证能力等同于构建训练环境的能力。由此诞生验证者定律

AI解决任务的训练难度,与任务可验证性成正比。所有可解且易验证的任务,终将被AI攻克。

具体来说,AI训练的难易程度取决于任务是否满足以下条件:

  1. 客观真相:所有人对什么是“好答案”有共识。

  2. 快速验证:验证一个答案只需几秒钟。

  3. 可扩展验证:可以同时验证多个答案。

  4. 低噪声:验证结果与答案质量高度相关。

  5. 连续奖励:可以对多个答案的质量进行排序

过去十年,主流AI基准测试均满足前四项——这正是它们被率先攻克的原因。尽管多数测试不满足第五项(非黑即白式判断),但通过样本平均仍可构造连续奖励信号。

为什么可验证性重要?

根本原因是:当上述条件满足时,神经网络每一步梯度都携带高信息量,迭代飞轮得以高速旋转——这也是数字世界进步远快于物理世界的秘诀。

AlphaEvolve的案例

谷歌开发的AlphaEvolve堪称「猜想-验证」范式的终极形态。

以「求容纳11个单位六边形的最小外接六边形」为例:

  • 完美契合验证者法则五项特性

  • 虽看似对单一问题的「过拟合」,但科学创新恰恰追求这种训练集=测试集的极致优化——因为每个待解问题都可能蕴含巨大价值

悟透此理后,方觉验证之不对称,宛如空气无孔不入。

试想这样一个世界:凡能衡量的问题,终将告破。

智能的边界必将犬牙交错:在可验证任务中,AI所向披靡,只因这些领域更易被驯服。

这般未来图景,怎不令人心驰神往?

参考资料:

https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law

https://www.jasonwei.net/blog/life-lessons-from-reinforcement-learning

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
下山的神!38岁德约遭逆转+澳网决赛首次输球 失第25冠最后机会?

下山的神!38岁德约遭逆转+澳网决赛首次输球 失第25冠最后机会?

我爱英超
2026-02-01 19:53:13
太难了!3次复出4次伤,铁人变玻璃人,联盟最脆榜眼诞生

太难了!3次复出4次伤,铁人变玻璃人,联盟最脆榜眼诞生

球童无忌
2026-02-01 11:39:08
爸妈!真的不要再往马桶里倒水了!

爸妈!真的不要再往马桶里倒水了!

果壳
2026-01-31 12:15:41
4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

每日经济新闻
2025-12-28 23:52:06
瞠目结舌!咱历史深不可测!江苏一工程急停,竟是挖出7000年遗址

瞠目结舌!咱历史深不可测!江苏一工程急停,竟是挖出7000年遗址

记录生活日常阿蜴
2026-02-01 14:29:14
陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

八斗小先生
2025-12-08 11:07:02
贪财好色、薄情寡义、直播哭穷,近期这4位老戏骨翻车理由太离谱

贪财好色、薄情寡义、直播哭穷,近期这4位老戏骨翻车理由太离谱

说历史的老牢
2026-01-05 15:07:58
火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

火箭军查采购旧账,九年问题集中爆雷,到底谁在装备链上动手脚?

青烟小先生
2026-01-28 22:22:57
张雪峰:本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机…考研是唯一出路!

张雪峰:本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机…考研是唯一出路!

李东阳朋友圈
2025-08-22 09:31:34
弟弟婚宴上,弟媳羞辱我给8万太少,我当场宣布:给我弟换个媳妇

弟弟婚宴上,弟媳羞辱我给8万太少,我当场宣布:给我弟换个媳妇

程哥讲堂
2026-01-30 18:03:22
17岁高中生熬夜刷剧用“小太阳”取暖突发脑梗偏瘫!医生:这个细节是大忌

17岁高中生熬夜刷剧用“小太阳”取暖突发脑梗偏瘫!医生:这个细节是大忌

环球网资讯
2026-02-01 13:59:52
对富勒姆后,谢什科等曼联替补球员在助教带领下进行赛后训练

对富勒姆后,谢什科等曼联替补球员在助教带领下进行赛后训练

懂球帝
2026-02-02 00:39:37
大爆冷!申真谞,申真谞首尝年度败绩,1.5目惨败,不敌老将!

大爆冷!申真谞,申真谞首尝年度败绩,1.5目惨败,不敌老将!

L76号
2026-02-01 08:49:05
沃特福德官方:我们悲伤且失望地确认主教练格拉西亚已辞职

沃特福德官方:我们悲伤且失望地确认主教练格拉西亚已辞职

懂球帝
2026-02-01 20:57:28
2-1,38岁梅西妙传遭浪费,中柱+造进球,迈阿密国际迎新年首胜

2-1,38岁梅西妙传遭浪费,中柱+造进球,迈阿密国际迎新年首胜

侧身凌空斩
2026-02-01 08:11:46
理论坐牢高达175年!谷歌前工程师丁林葳窃密案一审判了!网友:尊湃案判6年

理论坐牢高达175年!谷歌前工程师丁林葳窃密案一审判了!网友:尊湃案判6年

大白聊IT
2026-02-01 11:11:02
挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

挣再多钱有啥用,61岁崔培军如今的现状,给所有企业家提了醒

鲸探所长
2026-02-01 16:09:35
前几天在贾鲁河自杀的26岁女孩是郑州一大医院神经外科护士?

前几天在贾鲁河自杀的26岁女孩是郑州一大医院神经外科护士?

金水路7号站
2026-02-01 08:14:50
美国向印度提议用委内瑞拉石油替代俄罗斯原油,若不同意将加关税

美国向印度提议用委内瑞拉石油替代俄罗斯原油,若不同意将加关税

山河路口
2026-01-31 22:52:15
痛心!河南30岁男子上厕所去世,为省钱胸痛没治疗,家有三个孩子

痛心!河南30岁男子上厕所去世,为省钱胸痛没治疗,家有三个孩子

观察鉴娱
2026-02-01 15:13:07
2026-02-02 00:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14457文章数 66559关注度
往期回顾 全部

科技要闻

10亿元宝红包突袭 复刻微信支付还是微视?

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

头条要闻

爱泼斯坦追逐女孩、安德鲁跪爬女子身上画面全公布

体育要闻

德约大度祝贺阿卡 幽默互动逗笑纳达尔

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

教育
艺术
旅游
手机
房产

教育要闻

鼓楼、玄武、建邺、秦淮多区教育局发布提醒!

艺术要闻

上海“高技派”地标:华润中心竣工,LV总部入驻!

旅游要闻

豫园灯会“扩容”至外滩!今晚六大灯区首次全景点亮,BFC联合泡泡玛特打造新春游园会

手机要闻

消息称一加16长焦镜头将升级至2亿像素,有望支持长焦微距功能

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

无障碍浏览 进入关怀版