网易首页 > 网易号 > 正文 申请入驻

o1研发团队首次集体访谈:教AI数r用了一年半

0
分享至

克雷西 明敏 发自 凹非寺
量子位 | 公众号 QbitAI

笑死,原来o1也像人类一样喜欢赶ddl(手动狗头)。

这是在o1团队的“大型见面会”上,OpenAI创始成员Wojciech Zaremba揭开的o1“黑历史”。

包括Zaremba在内的18名团队成员,在首席研究官Bob McGrew的带领之下围坐一团。

o1核心贡献者Hyung Won Chung、Noam Brown等关键人物,也都在此列。

随着成员们的踊跃发言,o1的发展历程也逐渐被揭开——受AlphaGo和早期GPT模型的启发,想到了将两张背后的范式结合。

后来,团队训练出了第一个可以生成连贯思维链的模型,标志着研究方向开始逐渐明朗和聚焦……

在充满松弛感的气氛当中,众人还分享了有关o1研发的许多趣事:

  • 在OpenAI内部,也喜欢用“数r”来测试大模型能力
  • 为了解决“数r”的问题,OpenAI花费了一年半
  • 技术人员会把代码报错信息直接丢给o1去debug
  • o1曾经说过,生命的意义是“42”,还试图用代数来定义“love”

同时在研究过程中他们还发现,o1不仅比人类更善于发现新的CoT推理步骤,并且还涌现出了自我批评能力。

有网友称赞说,这的确是一个出色的团队,非常喜欢听他们的发言,并且模型的推理能力也确实比以前强。

量子位整理了这次访谈的实录,下面就一起来看~

o1是什么?推理又是啥?

Bob McGrew:我是OpenAI研究团队的负责人,我们刚刚发布了o1和o1-mini模型。

对此我们感到非常激动,今天我们的整个团队聚集在此,来介绍这两个模型。

★什么是o1?

Bob McGrew:所以,(第一个问题),到底什么是o1?

Hyung Won Chung:我们开启了新的模型系列,并且起了一个新的名字叫o1。

这是为了强调,与GPT-4o等之前的模型相比,o1有很大的不同,稍后会有人详细解释。

o1是一个推理模式,所以它在回答问题之前思考的会更多。

我们发布了两个模型——(满血)o1的o1-preview,以及更小、更快的o1-mini,它和(满血)o1采用的是相同的训练框架。

我们希望大家喜欢我们的新命名方式。

★推理又是什么?

Bob McGrew:那么推理又是什么意思?

Giambattista Parascandolo:对于简单问题来说,我们希望提问之后立刻就能得到答案。

比如你问意大利的首都在哪,你不用思考很多也知道答案是罗马。

但如果你想知道一个复杂问题的答案,或者写出一份好的商业计划,或者写一部小说,你可能就要思考一段时间了,并且你思考的越多,最后得到结果也就越好。

而推理就是把思考时间化为更好的成果的能力。

研发过程的那些事

★你们在o1上工作多长时间了?

Bob McGrew:你们在o1上工作多长时间了?

Jakub Pachocki:在OpenAI早期,我们深受AlphaGo的成绩的启发,看到了深度强化学习的潜力,因此我们对其进行了深入研究,并看到了数据和机器人技术的大规模扩展。

我们也开始思考如何才能在通用领域进行强化学习,从而实现非常强大的人工智能。

然后我们看到了GPT范式中扩展和监督学习带来的惊人成果,从那时起,我们就一直在思考如何将这两种不同的范式合二为一

Mark Chen:项目开始的确切时间很难确定,但已经与Yaku和Shimon进行了早期探索,与Lukash、Ilya进行了早期探索。

一个重要的时刻是Jerry的加入,他推动了这个大型项目的进展。

★研究过程中的“Aha moment”

Bob McGrew:我认为在研究过程中最精彩的就是哪些“Aha moment”,你们的工作当中有哪些高光时刻呢?

Jerry Tworek:我们训练了 GPT-2、GPT-3 和 GPT-4,每一次都成为了媒体上的热点。

但第一次有这种感觉是当模型出来的时刻,所有人都称赞很棒。

对于我而言,这样的时刻是当我们投入了更多计算资源,并第一次生成了连贯的思维链时。

当时我们心想,这和以前的模型看起来真的很不一样。

Trapit Bansal:当我们考虑训练一个推理模型时,我立即想到的一件事是,用人类的思维过程进行训练。

但我发现,使用RL训练模型来生成己的思维链,结果可以做得比人类写的思维链更好

在我看来这就是一个“Aha moment”,它告诉我们可以通过这种训练方式,让扩展模型的推理能力得到扩展。

Hunter Lightman:我们花了很长的时间,一直尝试让模型更好地解决数学问题。

为此我们付出了很多努力,我们想出了很多不同的方法,但有一件事让我一直很沮丧,

每次我读到这些模型的输出时,发现模型似乎永远不会质疑自己哪里出了问题,什么时候犯了错误。

但当我们训练早期的o1模型并与之对话时,发现它在数学测试中得分更高了。

通过观察它的推理方式,我们发现它开始质疑自己,并进行了非常有趣的反思

那一刻我感觉哇,我们发现了一些不同的东西。

★感觉模型像人还是像机器?

Bob McGrew:你们在看模型的思考过程时,觉得他们是更像真人还是更像机器人?

Liam Fedus:这更像是一种“精神体验”。

你可以看到模型也会犯很多人类经常犯的错误,又能看到它对一些常识提出质疑。

很奇怪,模型会带有人类的行为。

Wojciech Zaremba:在模型被设定了ddl的情况下,往往会在快due的时候迅速得出结论

好像大模型也知道自己必须立刻给出答案。

Karl Cobbe:我年轻的时候花了很多时间参加数学竞赛,而我进入人工智能领域的原因,就是试图实现这个过程的自动化。

所以对我来说,这是一个非常重要的转折点,因为我看到这个模型实际上能够遵循我解决这些问题时使用的步骤

虽然这不是完全相同的思路,但非常非常可靠。

Wojciech Zaremba:可以相信,这些模型正在成为真正推动工程和科学发展的因素。

如果它们似乎能解决即使专家也难以解决的问题,那么将能够推动科学进步。

★研发过程中的困难

Bob McGrew:我们谈了很多令人兴奋的时刻,那么在工作过程中又遇到了什么障碍?

Jerry Tworek:训练大型模型从根本上来说就是一件非常非常困难的事情。

有成千上万的事情可能出错,而且在每个领域都有事情确实出错了。

所以几乎这里的每个人都像你们知道的一样,在训练这些事情上付出了很多心血和汗水,并想出了如何让模型继续学习和进步的方法。

实际上,成功的道路非常狭窄,而失败的方式却有很多。

Wojciech Zaremba:就像发射火箭一样,如果你偏离了一个角度,你就无法到达目的地,而这就是我们的工作。

Ilge Akkaya:这个模型非常好,通常比人类好几倍,能达到博士的水平。

但是这有时是一个挑战,因为我们必须经常去验证模型没有偏离轨道。

但我们已经饱和了所有行业级的评估,我们不知道下一步该研究什么。

Mark Chen:这也是一种成就感,就像每次遇到难题一样。

这就像这个团队要克服的另一个障碍,我真的很高兴我们克服了所有这些小障碍。

OpenAI内部这样用o1

★如何测试模型表现

Bob McGrew:你们测试模型的方法有哪些,有没有什么喜欢的问题,并发现模型在这些问题上变得越来越好?

Shengjia Zhao:Strawberry里有几个r?

Wojciech Zaremba:不管是什么原因,ChatGPT无法可靠地解决这些问题。

我们花了一年半的时间,现在我们可以计算出strawberry中的“r”的数量。

Hunter Lightman:我有一个习惯,我想其他人也有。

每当上推特时,都会看到一些帖子说大模型无法解决这类问题。

我就把它复制粘贴进去,然后发现我们的模型可以做到。

★内部o1使用方法

Bob McGrew:为了让人们了解他们可以使用这个模型做什么,我很想听听你们使用o1的一些方法。

Hyung Won Chung:我使用o1的方式主要是用来写代码。

我的很多工作都是关于代码的,我越来越关注问题定义,并使用TDD(测试驱动开发)。

因此,我不再编写实现功能的代码,而是专注于编写单元测试。

因为o1可以实现东西,所以我可以专注于重要的、需要解决的高级问题,这真的是一种转移我注意力的重要方式。

另一个领域是debug,现在当我收到一些错误消息时,我只需传递给o1,有时它会立即解决。

即使没有,它至少会给出一些更好的问题,提供一些更好地思考这个问题的方法。

所以对我来说,这是一个非常重要的工作变化,我希望这也能帮助其他人。

★o1-mini的诞生过程

Bob McGrew:o1-mini的故事是怎样的?它是如何诞生的?

Hongyu Ren:我们想把o1系列带给更多人,它有更低的成本,所以做了o1 mini。它是o1框架的最小演示,是“推理专家”。它不一定能知道你喜欢的名人的生日,但是它能有效地推理,并且很智能。

实际上它真的很聪明,比我们之前最好的模型都要聪明很多,几乎与o1相当,但是成本和时延比它低很多。

不过也确实有局限性,可能不知道很多外部世界知识。这与技术本身无关,我们试图让它达到和此前最好模型最小版本差不多的水平,并且仍旧在努力进一步改进它。

用户尝试了o1 mini会很兴奋,因为它推理和思考的速度真的很快。

★是什么激励你做这些研究?

Łukasz Kaiser:我只是觉得在这个世界上,有一些可以做推理、有智能的东西,比想象中小很多。它们可以以不同方式做到这一点,这就非常迷人了。

Giambattista Parascandolo:我觉得这是向模型范式转变的第一步。以前花很长时间才能解决的问题,现在做到了分钟级,这只是漫长道路的第一步。我们希望能在几个月或几年后,迈出第二步。

Wojciech Zaremba:我觉得这很有意义,我们可以对世界产生一些实质性的积极影响。

而且这很有趣,我喜欢对着电脑“说话”,喜欢在集群上开始一项工作,也非常喜欢合作。

Jerry Tworek:我认为科技可以改善人类生活,我喜欢我们的模型能为人工作,帮助我们解决日常问题,赋予它推理能力让它做事。

Liam Fedus:我认为这一范式解决了一些模型无法解决的问题,所以不仅仅是回答变好一点,而是通过规划、通过错误纠正,它解锁了全新能力,在世界上创造新知识的能力,比如科学发现,我认为这是最令人兴奋的部分。

短时间内,它的自身进化会越来越快,这真的很棒。

Mark Chen:我们团队中一些成员有数学等方面的背景,这驱动我们自己想去创造一个最好的系统。

Hyung Won Chung:我认为推理比人们想象中的还要强大。当人类想要完成某项任务时,最基本的方法就是推理,你会遇到困难,你必须要找到解决方法。

我觉得AI研究员的工作好像是要找到一种方法来投入更多的计算。硬件方面的研究者在这方面做的很好,很长一段时间硬件成本都在指数级下降。

需要的计算量越来越多,就好像肩膀上的重量越来越重。这个新模式找到了一种方法,来帮我们卸下一些重量。

★在这项研究中,你们还观察到什么吗?

Jason Wei:我们发现一个有趣的现象是,每个模型都有自己的“怪癖”。

训练的每个模型在每个任务上的表现都不完全相同。所以模型可能有些任务表现得更好,有些表现得更差。每个模型都有它自己的个性和优点。

原视频地址:
https://www.youtube.com/watch?v=tEzs3VHyBDM

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
毁三伤二!伊朗突袭科威特基地,五架“台风”战机遭重创

毁三伤二!伊朗突袭科威特基地,五架“台风”战机遭重创

武器纵论
2026-03-21 15:47:05
“这下西方显得更加短视,看看中国”

“这下西方显得更加短视,看看中国”

观察者网
2026-03-22 15:11:22
泰山队0比4惨败的背后:曝外籍助教是学生物的,韩鹏被坑惨了

泰山队0比4惨败的背后:曝外籍助教是学生物的,韩鹏被坑惨了

姜大叔侃球
2026-03-22 20:06:07
贝壳的事情,这次闹大了!

贝壳的事情,这次闹大了!

地产人言
2026-03-22 09:53:08
15.68万起!丰田官宣:3月29日,新车正式上市

15.68万起!丰田官宣:3月29日,新车正式上市

高科技爱好者
2026-03-21 23:06:58
饿死事小,失节事大!冯德莱恩表态:即使电力中断,也不用俄能源

饿死事小,失节事大!冯德莱恩表态:即使电力中断,也不用俄能源

小舟谈历史
2026-03-22 12:02:40
WCBA全明星正赛:南区险胜北区陈明伶22+10MVP 杨舒予仅5分

WCBA全明星正赛:南区险胜北区陈明伶22+10MVP 杨舒予仅5分

醉卧浮生
2026-03-22 21:50:05
独臂中将死活不去石油部,毛主席大笑:你转业回家,搞不好会发财

独臂中将死活不去石油部,毛主席大笑:你转业回家,搞不好会发财

百年历史老号
2026-03-21 09:05:57
轰30分+关键分制胜!中国女排23岁1米89MVP闪耀:进决赛冲两连冠

轰30分+关键分制胜!中国女排23岁1米89MVP闪耀:进决赛冲两连冠

李喜林篮球绝杀
2026-03-22 11:24:41
再爆大冷4-6!世界第1无缘决赛,火箭争冠对手有变,吴宜泽获盛赞

再爆大冷4-6!世界第1无缘决赛,火箭争冠对手有变,吴宜泽获盛赞

小火箭爱体育
2026-03-21 23:33:31
砸 1 亿镑!曼城疯抢世界顶级边锋,瓜帅王朝重建第一签来了

砸 1 亿镑!曼城疯抢世界顶级边锋,瓜帅王朝重建第一签来了

澜归序
2026-03-22 02:19:15
从“仅退款”到“强制上门”:拼多多的刀,终于砍向了快递员头上

从“仅退款”到“强制上门”:拼多多的刀,终于砍向了快递员头上

颗粒度财经1
2026-03-22 20:13:29
“‘梅姨’在广州三元里落网”为不实信息!相关部门辟谣

“‘梅姨’在广州三元里落网”为不实信息!相关部门辟谣

南方都市报
2026-03-22 10:42:23
古代的公主出嫁前,宫女为何要先去驸马家过一夜?原因其实很简单

古代的公主出嫁前,宫女为何要先去驸马家过一夜?原因其实很简单

千秋文化
2026-03-17 22:17:10
什么样的食物可以让广东人感到愤怒?网友:把巨辣的菜做成白色

什么样的食物可以让广东人感到愤怒?网友:把巨辣的菜做成白色

夜深爱杂谈
2026-03-21 19:46:44
丁彦皓:人民币兑美元汇率升值会直接推动中国核心城市的房价上涨

丁彦皓:人民币兑美元汇率升值会直接推动中国核心城市的房价上涨

丁彦皓博士聊投资
2026-03-22 18:35:25
安徽一幼儿园园长被查,涉嫌严重违纪违法!

安徽一幼儿园园长被查,涉嫌严重违纪违法!

网易安徽
2026-03-22 18:21:30
1比54压倒性劣势之下被弹劾,杜特尔特父女要被人“算总账”了?

1比54压倒性劣势之下被弹劾,杜特尔特父女要被人“算总账”了?

乐天闲聊
2026-03-21 22:28:43
章若楠新剧今晚播出对打《逐玉》,白敬亭霸气应援秀爱,全网嗑翻

章若楠新剧今晚播出对打《逐玉》,白敬亭霸气应援秀爱,全网嗑翻

半身Naked
2026-03-22 19:33:53
2026-03-22 22:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12323文章数 176418关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

以色列防空神话被击穿损失惨重核圈失守 伊朗表态

头条要闻

以色列防空神话被击穿损失惨重核圈失守 伊朗表态

体育要闻

郑钦文连续迎战大满贯冠军 “双教练”团队正式亮相

娱乐要闻

今晚首播!央视年代剧《冬去春来》来了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

时尚
游戏
本地
数码
教育

伊姐周六热推:电视剧《隐身的名字》;电视剧《正义女神》......

IGN8分赛车新游横空出世!最强聚会赛车游戏?

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

数码要闻

游戏本性能再加强!12GB显存RTX 5070移动版再现:4月底见

教育要闻

考研也有信用分?进了这个名单没学上!

无障碍浏览 进入关怀版