网易首页 > 网易号 > 正文 申请入驻

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
  • 在某种程度上,GPT-5可以被视作是o3.1。

该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。



在他看来,相比GPT-4,GPT-5更像是o3的迭代,而OpenAI接下来要做的,就是再创造一个“o3奇迹”——构建能力更强、思考时间更长、能自主与多系统互动的模型。

在长达一小时的访谈中,Jerry Tworek侃侃而谈自己对GPT系列模型的思考。

从o1到GPT-5的模型演变历程讲起,介绍OpenAI的模型推理过程、公司内部架构、强化学习对OpenAI的意义,中间还穿插了他个人进入OpenAI的经历,以及对OpenAI未来走向AGI的想法。

  • 如果向10年前的人展示今天的ChatGPT,他们可能会称之为AGI。

另外,他也着重肯定了DeepSeek提出的GRPO算法贡献,推动了美国RL研究。



有趣的是,当他谈及自己也是ChatGPT的重度“发烧友”,每月都会花200美元充值在上面时,网友发现了华点:

  • 万万没想到,OpenAI自家员工也要为ChatGPT付费。(doge)



不过有一说一,这场访谈的知识密度爆炸,非常值得一看,连他本人在社媒发帖,也说:

  • 如果你想要深入了解RL,那么这个播客不容错过。



GPT-5如何思考

主持人Matt Turk首先抛出了一个所有人都很好奇的问题:

  • 当我们和ChatGPT聊天时,它们正在思考些什么?

简单来说就是,什么是模型的推理

Jerry Tworek当即一语中的,模型的推理过程类比于人类的思考,本质上都是寻找未知答案的过程,期间可能涉及执行计算、查找信息或自我学习。



推理过程具体表现在思维链上,自从OpenAI发布o1模型以来,这个概念开始变得广为人知。

它是将模型的思维过程用人类的语言口语化表述出来,整个过程就是:语言模型在大量人类知识上训练、学习如何像人类一样思考,然后通过思维链“翻译”回人类。

早期如果想要激发思维链,需要在提示词中描述“让我们一步步解决它”,因为如果直接提问,模型可能会推理失败,但只要让它分步进行,它就会生成一系列思维链,并最终得出结果。

所以通常情况下,模型在推理中花费的时间越长,结果往往会更好

但OpenAI在实际用户反馈中发现,一般用户并不喜欢花费大量时间在等待上,这在一定程度上也影响了他们构建模型的决策路线。

现在OpenAI会同时将高推理模型与低推理模型通通都开放给用户,将模型思考时长的选择权交还用户,同时内部尝试编码启发式方法以找到合适的平衡。

而OpenAI推理模型的伊始还得从o1说起。



这也是OpenAI发布的第一个正式的推理模型。

不过作为o1的主要负责人,Jerry也相当坦诚地表示,o1主要擅长解决谜题,所以与其说它是真正有用的产品,更像是一次技术演示。

随后是o3的出现改变了这种局面,它也代表了AI发展过程中的结构性转变。

它是真正意义上有用的,能够熟练使用工具以及各种来源的上下文信息,并在寻求答案的过程中呈现出坚持不懈刨根问底的状态。



Jerry本人自己也是从o3开始完全信赖推理模型的。

所以从某种程度上讲,GPT-5更像是o3的迭代——o3.1,拥有一脉相承的思考过程。

在之后,OpenAI也会继续寻求下一个重大飞跃,即能力更强、思考更优,也更自主的推理模型。

加入OpenAI是自然而然的过程

但正是这样一个主导OpenAI推理模型的关键人物,Jerry Tworek最初进入这个领域却颇有一种命定感,独属于天才的灵光一现。

Jerry将这个过程比喻为一颗水晶的诞生,与生俱来想要从事科学研究的想法,在随后的学习工作生涯中逐渐明确,然后当OpenAI出现的那一刻,叮咚,时机已到。

而这一切还得从他儿时说起,Jerry在波兰长大,从小表现出超越同龄人的天赋,包括数学和科学,用他自己的话来说就是:

  • 它们是自然而然适合我的东西。

18岁的时候想要成为一名数学家,于是进入华沙大学学习数学,渴望追求真理,但“叛逆”的他因为厌倦学术界的死板和严苛,放弃了这个理想。

为了养家糊口,他决定成为一名交易员,利用自己的数学技能谋生,曾在摩根大通的股票衍生品交易部门实习,随后又离职创立对冲基金。

几年之后,对交易工作再次感到厌倦的他,陷入了职业期瓶颈。



直到DeepMind的DQN智能体的出现打破了这一僵局,他被其中的强化学习深深吸引,此前他认为分类器其实并不智能,但DQN展示出学习复杂行为的能力。

于是在2019年他加入了OpenAI,但最开始他在里面从事的是机器人项目,专注于灵巧操作。而这个项目也正是OpenAI著名的“用机器人解决魔方”项目,是强化学习与仿真实体交互的代表作之一。

随后就是众所周知的领导o1项目、推动OpenAI模型能力进步,而目前他的主要工作内容是和其他研究人员交流,集思广益完善研究计划。

在OpenAI内部,据Jerry所说,工作结构相当独特,是自上而下自下而上的结合。



具体来说就是,公司整体专注于三到四个核心项目,集中精力押注,而研究人员在项目内部享有相对自下而上的自由。

整个研究部门总计约600人,但每个人都知道项目的所有内容,因为在OpenAI看来,让研究人员因为无法获取全部信息而不能做出最佳研究,这个风险远高于知识产权泄

而OpenAI之所以能够快速发布产品,一年时间就从o1到GPT-5,归根结底是因为他们拥有良好的运营结构、巨大的发展势头,以及顶尖人才的高效产出,他们都相信自己所做工作的意义:

  • AI在历史上只会被构建和部署一次。

另外员工们也会大量使用内部工具,Jerry自己就是ChatGPT的深度用户,每个月都会为其支付费用,另外例如CodeX也被广泛应用在内部的代码编写中。

RL对OpenAI的关键一击

对Jerry本人来说,强化学习是引领他走进OpenAI的钥匙,而放眼看OpenAI整个公司,RL也是多次转折的关键。

今天的语言模型可以被认为是预训练和强化学习的结合:先进行预训练,然后在其之上进行强化学习,二者缺一不可。这也是OpenAI自2019年起的研究计划核心。

不过要想进一步了解RL在OpenAI的地位,首先要先清楚什么是RL。

Jerry认为,RL类似于训练狗,当狗表现良好时,可以给予“奖励”(零食或微笑),当狗做错事时,给予“惩罚”(例如转移注意力、表达不悦情绪)。

RL就是在模型中提供类似作用,如果模型的行为正确就给予积极奖励,反之行为不正确就给予负面奖励,其中的关键在于策略和环境:

  • 策略:指模型的行为,是一个将观察结果映射到行动的数学函数。
  • 环境:模型所看到的一切,必须是交互式的,而环境会根据模型的行动而演变,比如学习弹吉他时,会根据拨弦发出的声音获得反馈。RL就是教模型对环境变化做出反应的唯一途径。

随后DeepMind的DQN将RL带到了新的阶段——Deep RL,它将神经网络与强化学习相结合,诞生出真正有意义的智能体。



Jerry也分享了当年GPT-4刚训练完成的故事,那时内部团队对其表现并不满意,因为GPT-4在较长的回答中始终缺乏连贯性。

后续是通过RLHF(基于人类反馈的强化学习)解决了这个问题,即让人类对模型输出的内容提供反馈,并以此作为奖励。

也正是因为GPT-4碰到了RLHF,世界才拥有了“ChatGPT时刻”



最近OpenAI在编程竞赛中出乎意料的优异表现,Jerry说也是因为研究人员长期使用编程谜题作为测试平台,来尝试他们的RL想法。

无心插柳柳成荫,在他们研究RL的进程中,也为OpenAI带来了阶段性荣誉。

所以只要能够评估当前结果并计算反馈信号,RL就能应用在任何领域,即使答案不只是简单的对与错。

但目前要想规模化RL,还是很有难度的,因为RL在实际运行中会出现很多可能出错的地方,相比预训练会有更多的瓶颈和故障类型。

它是一个非常精细的过程,类比RL和预训练,就是制造半导体要比制造钢铁要复杂得多。



另外,Jerry也对DeepSeek团队提出的全新的强化学习算法GRPO(组相对策略优化)表示了认可:

  • GRPO的开源,让许多缺乏高级RL研究项目的美国实验室,可以更快地启动并训练推理模型。
RL+预训练才是通往AGI的正确道路

关于AI的未来,Jerry Tworek也在最后提出了自己的见解。

首先是Agent,Jerry认为AI带来的积极影响,是可以通过自动化解决人类问题。

模型目前提供答案的速度非常之快,大概需要几分钟,而他们内部测试显示,在某些任务上模型其实可以独立思考30分钟、1小时或者更久,所以当前模型遇到的挑战是如何建立合适的产品来部署长时间的思考过程。

其中由基础推理驱动的Agent能够允许模型更长时间的独立思考,并解决更为复杂的任务,例如编程、旅游预订、设计等,所以AI智能体化是大势所趋

模型对齐也是大众比较关心的问题之一,也就是引导模型行为符合人类价值观。

Jerry表示对齐问题本质上其实就是一个RL问题,要让模型深入理解其行为和可能导致的后果,才能让模型做出正确的选择。它将是永无止境的,因为对齐的概念将随着人类文明的演进而不断发展。



如果要通往AGI,当前的预训练和RL肯定是必不可少的,当然后续肯定需要添加更多元素一起发力。

Jerry明确反对当前业界一些关于“纯RL是通往AGI的唯一途径”的观点,他坚信:

  • RL需要预训练才能成功,而预训练也需要RL才能成功,二者缺一不可。

虽然对于AGI,他也很难描述,具体什么时候模型可以在没有大量外部输出和人类干预的情况下,实现自我改进。

但他相信,OpenAI目前走在正确的道路上,未来的变化将会是新的复杂组件的添加,而绝非完全推翻现有的架构。

参考链接:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
逼单依纯道歉只是表象,李荣浩不慎说漏嘴,另一目的让他如吞苍蝇

逼单依纯道歉只是表象,李荣浩不慎说漏嘴,另一目的让他如吞苍蝇

木子爱娱乐大号
2026-03-30 10:33:04
金额超40亿美元!NBA董事会批准开拓者出售,交易本周内完成

金额超40亿美元!NBA董事会批准开拓者出售,交易本周内完成

懂球帝
2026-03-31 15:31:27
90岁牛犇住上海高端养老院!独居卧室摆双人床、客厅超30平:有钱

90岁牛犇住上海高端养老院!独居卧室摆双人床、客厅超30平:有钱

一盅情怀
2026-03-31 07:52:59
单依纯演唱会好精彩!杨千嬅噘着嘴,陈奕迅全程黑脸,陈辉阳也在

单依纯演唱会好精彩!杨千嬅噘着嘴,陈奕迅全程黑脸,陈辉阳也在

舍长阿爷谈事
2026-03-30 11:25:34
斯坦福、哈佛公认:人生回报率最高的3件小事,每天5分钟就够

斯坦福、哈佛公认:人生回报率最高的3件小事,每天5分钟就够

千秋文化
2026-03-24 21:37:02
广东队再传坏消息,爆料超级锋线被喷赛季报销,大外援没戏了

广东队再传坏消息,爆料超级锋线被喷赛季报销,大外援没戏了

宗介说体育
2026-03-31 17:17:46
伊朗弹道导弹精准斩首,美军指挥中心被炸,200多名军官生死未卜

伊朗弹道导弹精准斩首,美军指挥中心被炸,200多名军官生死未卜

Ck的蜜糖
2026-04-01 08:01:37
田曦薇直播“露肤违规”遭强制中断,20分钟后“另类造型”回归

田曦薇直播“露肤违规”遭强制中断,20分钟后“另类造型”回归

半糖甜而不腻
2026-03-31 11:22:42
公园打花后续:保洁老人被开除,更多细节流出,网友评论一针见血

公园打花后续:保洁老人被开除,更多细节流出,网友评论一针见血

以茶带书
2026-03-31 16:18:06
江宏杰回应前妻福原爱再婚怀孕:我是知道的,但就是祝福

江宏杰回应前妻福原爱再婚怀孕:我是知道的,但就是祝福

懂球帝
2026-03-31 22:59:01
它是“菜中人参”春天遇到我从不手软,买20斤囤起来,从春吃到夏

它是“菜中人参”春天遇到我从不手软,买20斤囤起来,从春吃到夏

阿龙美食记
2026-03-29 13:17:58
女儿不听话妈妈怒砸Switch!网友秒开无限火力

女儿不听话妈妈怒砸Switch!网友秒开无限火力

游民星空
2026-04-01 08:08:14
武汉萝卜快跑车辆疑因故障在道路上临停 乘客:客服称属网络故障 12345称收到相关反映

武汉萝卜快跑车辆疑因故障在道路上临停 乘客:客服称属网络故障 12345称收到相关反映

红星新闻
2026-04-01 00:14:31
狂言引争议!小S小女儿护姐翻车,嚣张言论遭全网吐槽

狂言引争议!小S小女儿护姐翻车,嚣张言论遭全网吐槽

述家娱记
2026-03-31 22:47:35
冯提莫"魔音岛"因擦边被举报!大司马进入后做了这件事

冯提莫"魔音岛"因擦边被举报!大司马进入后做了这件事

游民星空
2026-03-31 20:31:10
回顾:身份全造假,靠干爹升至副厅!石家庄王亚丽争遗产丑闻曝光

回顾:身份全造假,靠干爹升至副厅!石家庄王亚丽争遗产丑闻曝光

朗威谈星座
2026-03-30 17:00:08
基辛格论断发人深省,中国可再出毛泽东?答案唯二字!

基辛格论断发人深省,中国可再出毛泽东?答案唯二字!

疯狂的小历史
2026-03-31 11:28:01
早期于谦一家与德云社成员的合影,多朴实的画面,孙越已经够胖了

早期于谦一家与德云社成员的合影,多朴实的画面,孙越已经够胖了

大江
2026-03-30 15:07:52
伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

伊朗大捷!用一场标志性大胜,打出美国 81 年最大战损的记录?

青途历史
2026-03-30 10:26:03
白宫当众摊牌!特朗普发言人表态:战争开销很可能算在阿拉伯头上

白宫当众摊牌!特朗普发言人表态:战争开销很可能算在阿拉伯头上

浮光惊掠影
2026-04-01 08:02:01
2026-04-01 08:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12386文章数 176434关注度
往期回顾 全部

科技要闻

营收翻倍、巨亏31亿!中国大模型太烧钱了

头条要闻

牛弹琴:战争开始烂尾 特朗普要跑了以色列目瞪口呆

头条要闻

牛弹琴:战争开始烂尾 特朗普要跑了以色列目瞪口呆

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

欧央行行长与美财长G7会议上交锋!

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

手机
旅游
艺术
数码
公开课

手机要闻

iPhone 13半价换电池没货 网友感觉被骗了

旅游要闻

听说中小学朋友们要放春假啦,济宁景区也放“价”啦!

艺术要闻

蓝瑛『兰竹石册』

数码要闻

iPhone将内置呼气传感器 可筛查糖尿病与高胆固醇

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版