网易首页 > 网易号 > 正文 申请入驻

o1基石论文火爆传阅,Ilya仍是关键先生!核心项目清北校友闪光

0
分享至

白小交 西小风 发自 各自家里
量子位 | 公众号 QbitAI

自从Ilya Sutskever的名字出现在OpenAI o1背后团队名单中,他在o1中发挥了哪些作用,一时间成为不少网友的关注焦点。

这不,机器学习工程师Rohan Paul刚刚发帖表示,去年5月份Ilya合著的一篇论文不能错过。

论文题为“Let’s Verify Step by Step(一步步来验证)”。

不光是Ilya,其中还有不少作者同样是OpenAI o1的背后贡献者。

甚至有网友将这篇论文称作是AI领域仅次于“Attention is all you need”的第二著名论文。

除此之外,在关于OpenAI o1背后团队的热议中,OpenAI科学家Noam Brown最近发帖澄清并没有主导草莓/OpenAI o1。

但同时也透露o1项目是一个多年研究的成果,从去年10月开始真正加速发展。

这么来看,Ilya Sutskever会是OpenAI o1的“基础贡献者”也就更不令人意外了。

接下来深入看看“Let’s Verify Step by Step”这篇论文以及OpenAI o1背后的贡献者。

Ilya在o1的作用

OpenAI o1主打进行通用复杂推理,在输出回答之前,会在产生一个很长的思维链,以此增强模型能力。

而Ilya此前合著的这篇论文主要就是探讨了提高大语言模型多步推理能力的方法。

他们主要比较了结果监督(outcome supervision)和过程监督(process supervision)两种方法在训练奖励模型上的效果。

结果监督侧重于模型最终输出的正确性。

而过程监督则关注模型在推理过程中每一步的正确性,能够指出答案中具体哪一步是错的:

团队使用GPT-4基础模型,在MATH数据集上进行了实验。

由于过程监督没有简单的自动化方法,所以只能依靠人工数据标注者来标记模型生成解决方案中每个步骤的正确性。

他们收集了大量人类反馈数据,创建了PRM800K数据集,包含80万个步级标签。

实验分为大规模和小规模两种体制,各有优势并提供不同视角。

研究结果发现:过程监督显著优于结果监督,能够训练出更可靠的奖励模型。

使用过程监督训练的最佳模型在MATH测试集具有代表性的子集上解决了78.2%的问题,明显优于结果监督模型(72.4%)和多数投票基线(69.6%)。

研究还证明了大型奖励模型能够可靠地近似人类监督对较小奖励模型的效果,并且能够高效地进行大规模数据收集的消融分析。

主动学习(active learning)还可以显著提高过程监督的数据效率,大约提升了2.6倍。

团队还讨论了过程监督的几个关键优势。

首先,它提供了更精确的反馈,使得功劳归因更加容易。其次,在AI对齐方面,过程监督更有可能产生可解释的推理。

为了评估模型的泛化能力,团队还在AP物理、AP微积分、AP化学和AMC考试题目上进行了测试。

结果显示,过程监督训练的模型在这些新问题上仍然表现优异,证明了其对适度分布偏移的鲁棒性。

大模型飞速发展一年后的今天,再来看这篇论文,有学者指出现在来看没有太多新的想法:

关键idea就是过程奖励模型,它可以单独评估每个步骤或token,而不仅是最终结果。

但也正如网友所说,这篇论文总归来说是迈向OpenAI o1的一步。

o1则代表了“从记忆答案到记忆推理的范式转变”。

清北校友o1-mini主要负责人

除了Ilya Sutskever,关于o1背后团队也引发了不少关注。

官网给出的全名单,分成了推理研究和推理技术安全两块。粗略一看已经远远超一百人。(好多人啊,GIF)

咱们主要看看研究这块。

  • 基础贡献者:21人;Leadership:7人;
  • 核心贡献者:46人;
  • 贡献者:82人;
  • 项目经理:2人;
  • 执行领导:8人;
  • 支持领导:8人。

在基础贡献者中我们也看到了不少熟悉的影子以及华人面孔。

Jason Wei,OpenAI研究员,此前曾在谷歌大脑工作,他是思维链的提出者,也曾参与大模型涌现能力以及GPT-4的研究。

Shengjia Zhao,本科毕业于清华,随后前往斯坦福攻读博士学位,22年毕业之后就来到OpenAI。个人介绍中显示,热衷于训练大模型,他是ChatGPT、GPT-4、GPT-4o mini的核心作者之一。

任泓宇,2018年毕业于北京大学,随后来到斯坦福攻读计算机博士学位,当时方向就是大语言模型。加入OpenAI之前曾在微软英伟达谷歌苹果这些科技巨头待过。他是GPT-4o 的核心贡献者,GPT-4o mini 的领导者,主要教模型如何更快、更努力、更敏锐的思考。

当模型第一时间发布时,他曾表示o1-mini是他最喜欢的一款模型。

以上这两位清华北大校友,应该是o1-mini的主要负责人没跑了。

Francis Song,本博分别毕业于耶鲁和哈佛,曾在NYU担任助理研究员,方向是计算神经科学。在DeepMind待了四年后,22年来到了OpenAI。

Wenda Zhou,本科毕业于剑桥大学,在哥伦比亚大学获得博士学位,来到OpenAI之前曾在Simons/NYU当研究院,去年加入OpenAI。

Kevin Yu,毕业于UC伯克利,曾就职于NASA。

在Leadership里还有位华人面孔。

Mark Chen,目前是OpenAI(前沿)研究副总裁。曾就读于MIT数学与计算机科学专业,曾在Integral Technology担任量化研究合伙人。

最后,也附上全体名单。

奥特曼:已掌握未来几年主动权

话说回来,前两天奥特曼又去接受公开采访了,聊了聊最新的这个模型。

他表示o1模型虽然能在IOI、IMO这样的竞赛中取得优异成绩,但重点不应该放在AI擅长考试这一点上。而是它能帮助研究人员,比如更快发现新材料、找到治疗疾病的方法等等。

这是个新范式的开始,非常早期但非常重要。

谈到未来的愿景,他提到,未来将有两种基本商品,那就是是智慧和能源——拥有创意的能力,完成智力工作的能力,以及能源,即在世界上实现这些目标的能力。

至于大模型进展,他表示不仅没有放缓,而且已经掌握了未来几年的主动权。

参考链接:
[1]https://arxiv.org/abs/2305.20050[2]https://openai.com/openai-o1-contributions/
[3]https://x.com/rohanpaul_ai/status/1835427161370738983?s=46&t=iTysI4vQLQqCNJjSmBODPw
[3]https://x.com/EarningsNugget/status/1834800151598453085

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为亲人喊冤14年的河南农妇,终于把自己也喊进了监狱

为亲人喊冤14年的河南农妇,终于把自己也喊进了监狱

塔子山评说
2026-06-29 16:49:51
突发!以色列宣布:打死伊斯梅尔·马斯里!以防长:明天就可能与伊朗进入战争状态,已选定针对伊朗境内的打击目标

突发!以色列宣布:打死伊斯梅尔·马斯里!以防长:明天就可能与伊朗进入战争状态,已选定针对伊朗境内的打击目标

每日经济新闻
2026-06-30 11:36:05
热死也不能买中国空调?德国媒体:中国正“摧毁”欧洲

热死也不能买中国空调?德国媒体:中国正“摧毁”欧洲

热血江湖旧
2026-06-29 10:42:41
一张入学表撕开教育遮羞布:凭什么要填家长职务、车辆价格?

一张入学表撕开教育遮羞布:凭什么要填家长职务、车辆价格?

故事范卖机
2026-06-30 17:13:44
比缅北更恐怖!曾经的旅游胜地,现在黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,现在黄赌毒俱全,性交易随处可见

晓帝爱八卦
2026-06-30 10:45:19
福建峡谷5人遇难!原因曝光,最后画面还在笑,群主一句话害死人

福建峡谷5人遇难!原因曝光,最后画面还在笑,群主一句话害死人

小鋭有话说
2026-06-29 22:31:44
5-0!葡萄牙造惨案!C罗独中两元!C罗“生死”战创造四大纪录!

5-0!葡萄牙造惨案!C罗独中两元!C罗“生死”战创造四大纪录!

江启
2026-06-30 10:54:18
央视:12架F-2挂载48枚反舰导弹,日本模拟攻击辽宁舰,挑衅升级

央视:12架F-2挂载48枚反舰导弹,日本模拟攻击辽宁舰,挑衅升级

止戈军是我
2026-06-30 12:34:12
姜萍再登热搜!涟水企业家再访姜萍家,网传其已在苏州某高校就读

姜萍再登热搜!涟水企业家再访姜萍家,网传其已在苏州某高校就读

火山詩话
2026-06-30 11:34:28
1955年,卫生部要废除中医,毛主席得知消息,直接撤掉两位副部长

1955年,卫生部要废除中医,毛主席得知消息,直接撤掉两位副部长

雍亲王府
2026-06-30 13:45:03
缅怀 | 画家李宝林逝世,享年90岁

缅怀 | 画家李宝林逝世,享年90岁

中国美术报
2026-06-30 16:41:04
近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

近500万粉吃播宝宝米乐翻车!拿娃健康换流量太离谱

一口娱乐
2026-06-30 09:15:46
原地解散!德国世界杯16强出局,全队返程下机时情绪低落,球队将于周二召开发布会,球员可自由离队

原地解散!德国世界杯16强出局,全队返程下机时情绪低落,球队将于周二召开发布会,球员可自由离队

大风新闻
2026-06-30 19:28:07
韩红已退出名下多家公司

韩红已退出名下多家公司

雷达财经
2026-06-30 16:13:15
举国之力也找不到完整夏朝,为何?网友的神预言正在被考古证实

举国之力也找不到完整夏朝,为何?网友的神预言正在被考古证实

抽象派大师
2026-06-24 16:34:57
韩红“走个面”翻出旧账:《天路》《青藏高原》,她一直不是原唱

韩红“走个面”翻出旧账:《天路》《青藏高原》,她一直不是原唱

李晚书
2026-06-30 19:35:02
保时捷女销冠再获2026年上半年销冠,本人回应:虽然累,但从未经历倦怠期,希望冲刺全球销量排名

保时捷女销冠再获2026年上半年销冠,本人回应:虽然累,但从未经历倦怠期,希望冲刺全球销量排名

极目新闻
2026-06-30 15:19:55
日本亲手搞砸名古屋亚运会,自断千亿财路,网友:纯属自作自受!

日本亲手搞砸名古屋亚运会,自断千亿财路,网友:纯属自作自受!

故事终将光明磊落
2026-06-30 13:43:58
无人机攻防正酣,乌克兰打算收手?

无人机攻防正酣,乌克兰打算收手?

新民晚报
2026-06-30 12:53:16
突传噩耗!陈翔六点半“妹爷”去世,享年82岁,最后露面瘦脱相

突传噩耗!陈翔六点半“妹爷”去世,享年82岁,最后露面瘦脱相

叨唠
2026-06-30 20:23:25
2026-06-30 21:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12873文章数 176508关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

家居
时尚
旅游
游戏
本地

家居要闻

传奇筑 日常诗

“复古波点”又流行回来了!夏天简单穿就很时髦

旅游要闻

军事博物馆夜间参观服务正式开启,在这几日

大的来了!《仙剑4重制版》版号获批:离发售不远了

本地新闻

贵州小城的新目标:举办“村超”世界杯!

无障碍浏览 进入关怀版