网易首页 > 网易号 > 正文 申请入驻

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
  • 在某种程度上,GPT-5可以被视作是o3.1。

该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。



在他看来,相比GPT-4,GPT-5更像是o3的迭代,而OpenAI接下来要做的,就是再创造一个“o3奇迹”——构建能力更强、思考时间更长、能自主与多系统互动的模型。

在长达一小时的访谈中,Jerry Tworek侃侃而谈自己对GPT系列模型的思考。

从o1到GPT-5的模型演变历程讲起,介绍OpenAI的模型推理过程、公司内部架构、强化学习对OpenAI的意义,中间还穿插了他个人进入OpenAI的经历,以及对OpenAI未来走向AGI的想法。

  • 如果向10年前的人展示今天的ChatGPT,他们可能会称之为AGI。

另外,他也着重肯定了DeepSeek提出的GRPO算法贡献,推动了美国RL研究。



有趣的是,当他谈及自己也是ChatGPT的重度“发烧友”,每月都会花200美元充值在上面时,网友发现了华点:

  • 万万没想到,OpenAI自家员工也要为ChatGPT付费。(doge)



不过有一说一,这场访谈的知识密度爆炸,非常值得一看,连他本人在社媒发帖,也说:

  • 如果你想要深入了解RL,那么这个播客不容错过。



GPT-5如何思考

主持人Matt Turk首先抛出了一个所有人都很好奇的问题:

  • 当我们和ChatGPT聊天时,它们正在思考些什么?

简单来说就是,什么是模型的推理

Jerry Tworek当即一语中的,模型的推理过程类比于人类的思考,本质上都是寻找未知答案的过程,期间可能涉及执行计算、查找信息或自我学习。



推理过程具体表现在思维链上,自从OpenAI发布o1模型以来,这个概念开始变得广为人知。

它是将模型的思维过程用人类的语言口语化表述出来,整个过程就是:语言模型在大量人类知识上训练、学习如何像人类一样思考,然后通过思维链“翻译”回人类。

早期如果想要激发思维链,需要在提示词中描述“让我们一步步解决它”,因为如果直接提问,模型可能会推理失败,但只要让它分步进行,它就会生成一系列思维链,并最终得出结果。

所以通常情况下,模型在推理中花费的时间越长,结果往往会更好

但OpenAI在实际用户反馈中发现,一般用户并不喜欢花费大量时间在等待上,这在一定程度上也影响了他们构建模型的决策路线。

现在OpenAI会同时将高推理模型与低推理模型通通都开放给用户,将模型思考时长的选择权交还用户,同时内部尝试编码启发式方法以找到合适的平衡。

而OpenAI推理模型的伊始还得从o1说起。



这也是OpenAI发布的第一个正式的推理模型。

不过作为o1的主要负责人,Jerry也相当坦诚地表示,o1主要擅长解决谜题,所以与其说它是真正有用的产品,更像是一次技术演示。

随后是o3的出现改变了这种局面,它也代表了AI发展过程中的结构性转变。

它是真正意义上有用的,能够熟练使用工具以及各种来源的上下文信息,并在寻求答案的过程中呈现出坚持不懈刨根问底的状态。



Jerry本人自己也是从o3开始完全信赖推理模型的。

所以从某种程度上讲,GPT-5更像是o3的迭代——o3.1,拥有一脉相承的思考过程。

在之后,OpenAI也会继续寻求下一个重大飞跃,即能力更强、思考更优,也更自主的推理模型。

加入OpenAI是自然而然的过程

但正是这样一个主导OpenAI推理模型的关键人物,Jerry Tworek最初进入这个领域却颇有一种命定感,独属于天才的灵光一现。

Jerry将这个过程比喻为一颗水晶的诞生,与生俱来想要从事科学研究的想法,在随后的学习工作生涯中逐渐明确,然后当OpenAI出现的那一刻,叮咚,时机已到。

而这一切还得从他儿时说起,Jerry在波兰长大,从小表现出超越同龄人的天赋,包括数学和科学,用他自己的话来说就是:

  • 它们是自然而然适合我的东西。

18岁的时候想要成为一名数学家,于是进入华沙大学学习数学,渴望追求真理,但“叛逆”的他因为厌倦学术界的死板和严苛,放弃了这个理想。

为了养家糊口,他决定成为一名交易员,利用自己的数学技能谋生,曾在摩根大通的股票衍生品交易部门实习,随后又离职创立对冲基金。

几年之后,对交易工作再次感到厌倦的他,陷入了职业期瓶颈。



直到DeepMind的DQN智能体的出现打破了这一僵局,他被其中的强化学习深深吸引,此前他认为分类器其实并不智能,但DQN展示出学习复杂行为的能力。

于是在2019年他加入了OpenAI,但最开始他在里面从事的是机器人项目,专注于灵巧操作。而这个项目也正是OpenAI著名的“用机器人解决魔方”项目,是强化学习与仿真实体交互的代表作之一。

随后就是众所周知的领导o1项目、推动OpenAI模型能力进步,而目前他的主要工作内容是和其他研究人员交流,集思广益完善研究计划。

在OpenAI内部,据Jerry所说,工作结构相当独特,是自上而下自下而上的结合。



具体来说就是,公司整体专注于三到四个核心项目,集中精力押注,而研究人员在项目内部享有相对自下而上的自由。

整个研究部门总计约600人,但每个人都知道项目的所有内容,因为在OpenAI看来,让研究人员因为无法获取全部信息而不能做出最佳研究,这个风险远高于知识产权泄

而OpenAI之所以能够快速发布产品,一年时间就从o1到GPT-5,归根结底是因为他们拥有良好的运营结构、巨大的发展势头,以及顶尖人才的高效产出,他们都相信自己所做工作的意义:

  • AI在历史上只会被构建和部署一次。

另外员工们也会大量使用内部工具,Jerry自己就是ChatGPT的深度用户,每个月都会为其支付费用,另外例如CodeX也被广泛应用在内部的代码编写中。

RL对OpenAI的关键一击

对Jerry本人来说,强化学习是引领他走进OpenAI的钥匙,而放眼看OpenAI整个公司,RL也是多次转折的关键。

今天的语言模型可以被认为是预训练和强化学习的结合:先进行预训练,然后在其之上进行强化学习,二者缺一不可。这也是OpenAI自2019年起的研究计划核心。

不过要想进一步了解RL在OpenAI的地位,首先要先清楚什么是RL。

Jerry认为,RL类似于训练狗,当狗表现良好时,可以给予“奖励”(零食或微笑),当狗做错事时,给予“惩罚”(例如转移注意力、表达不悦情绪)。

RL就是在模型中提供类似作用,如果模型的行为正确就给予积极奖励,反之行为不正确就给予负面奖励,其中的关键在于策略和环境:

  • 策略:指模型的行为,是一个将观察结果映射到行动的数学函数。
  • 环境:模型所看到的一切,必须是交互式的,而环境会根据模型的行动而演变,比如学习弹吉他时,会根据拨弦发出的声音获得反馈。RL就是教模型对环境变化做出反应的唯一途径。

随后DeepMind的DQN将RL带到了新的阶段——Deep RL,它将神经网络与强化学习相结合,诞生出真正有意义的智能体。



Jerry也分享了当年GPT-4刚训练完成的故事,那时内部团队对其表现并不满意,因为GPT-4在较长的回答中始终缺乏连贯性。

后续是通过RLHF(基于人类反馈的强化学习)解决了这个问题,即让人类对模型输出的内容提供反馈,并以此作为奖励。

也正是因为GPT-4碰到了RLHF,世界才拥有了“ChatGPT时刻”



最近OpenAI在编程竞赛中出乎意料的优异表现,Jerry说也是因为研究人员长期使用编程谜题作为测试平台,来尝试他们的RL想法。

无心插柳柳成荫,在他们研究RL的进程中,也为OpenAI带来了阶段性荣誉。

所以只要能够评估当前结果并计算反馈信号,RL就能应用在任何领域,即使答案不只是简单的对与错。

但目前要想规模化RL,还是很有难度的,因为RL在实际运行中会出现很多可能出错的地方,相比预训练会有更多的瓶颈和故障类型。

它是一个非常精细的过程,类比RL和预训练,就是制造半导体要比制造钢铁要复杂得多。



另外,Jerry也对DeepSeek团队提出的全新的强化学习算法GRPO(组相对策略优化)表示了认可:

  • GRPO的开源,让许多缺乏高级RL研究项目的美国实验室,可以更快地启动并训练推理模型。
RL+预训练才是通往AGI的正确道路

关于AI的未来,Jerry Tworek也在最后提出了自己的见解。

首先是Agent,Jerry认为AI带来的积极影响,是可以通过自动化解决人类问题。

模型目前提供答案的速度非常之快,大概需要几分钟,而他们内部测试显示,在某些任务上模型其实可以独立思考30分钟、1小时或者更久,所以当前模型遇到的挑战是如何建立合适的产品来部署长时间的思考过程。

其中由基础推理驱动的Agent能够允许模型更长时间的独立思考,并解决更为复杂的任务,例如编程、旅游预订、设计等,所以AI智能体化是大势所趋

模型对齐也是大众比较关心的问题之一,也就是引导模型行为符合人类价值观。

Jerry表示对齐问题本质上其实就是一个RL问题,要让模型深入理解其行为和可能导致的后果,才能让模型做出正确的选择。它将是永无止境的,因为对齐的概念将随着人类文明的演进而不断发展。



如果要通往AGI,当前的预训练和RL肯定是必不可少的,当然后续肯定需要添加更多元素一起发力。

Jerry明确反对当前业界一些关于“纯RL是通往AGI的唯一途径”的观点,他坚信:

  • RL需要预训练才能成功,而预训练也需要RL才能成功,二者缺一不可。

虽然对于AGI,他也很难描述,具体什么时候模型可以在没有大量外部输出和人类干预的情况下,实现自我改进。

但他相信,OpenAI目前走在正确的道路上,未来的变化将会是新的复杂组件的添加,而绝非完全推翻现有的架构。

参考链接:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
退休党员注意!党费就按这个标准,别乱交、别多交

退休党员注意!党费就按这个标准,别乱交、别多交

娱乐的硬糖吖
2026-03-29 18:01:00
中方发布通报,日本开始抓人,闯馆暴徒改口,中方:继续给我查

中方发布通报,日本开始抓人,闯馆暴徒改口,中方:继续给我查

纪中百大事
2026-03-30 09:31:13
送别张雪峰!汪涵亲自到场,张睿托人送花,学生拿录取书赶赴悼念

送别张雪峰!汪涵亲自到场,张睿托人送花,学生拿录取书赶赴悼念

离离言几许
2026-03-28 15:02:25
这跟不穿有啥区别?宋茜真空上阵、裙摆开叉到大腿根,身材好丰腴

这跟不穿有啥区别?宋茜真空上阵、裙摆开叉到大腿根,身材好丰腴

无处遁形
2026-03-30 02:06:39
国务院任命香港特别行政区政府政制及内地事务局局长

国务院任命香港特别行政区政府政制及内地事务局局长

新京报
2026-03-30 09:29:16
开战30天!伊朗议长重磅发声:美军敢发动地面进攻,必定有来无回

开战30天!伊朗议长重磅发声:美军敢发动地面进攻,必定有来无回

春序娱乐
2026-03-30 14:32:47
李荣浩再次喊话吴向飞:查清楚了吗?不能没有下文就撤了,“我和律师都在等您”;此前吴向飞质疑李荣浩侵权

李荣浩再次喊话吴向飞:查清楚了吗?不能没有下文就撤了,“我和律师都在等您”;此前吴向飞质疑李荣浩侵权

大象新闻
2026-03-29 20:45:03
孕妇做阴超下体被男医生看光,丈夫大闹医院寻死,现场画面太闹心

孕妇做阴超下体被男医生看光,丈夫大闹医院寻死,现场画面太闹心

潮鹿逐梦
2026-03-28 10:59:56
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
演员李尚宝去世终年45岁,曾患抑郁症街头狂奔精神异常,公司回应

演员李尚宝去世终年45岁,曾患抑郁症街头狂奔精神异常,公司回应

韩小娱
2026-03-28 13:31:17
突然集体拉升!霍尔木兹海峡,大消息!以军参谋长说以军常规部队已崩溃

突然集体拉升!霍尔木兹海峡,大消息!以军参谋长说以军常规部队已崩溃

证券时报e公司
2026-03-28 22:22:58
被骗160万,中国老板把日本公司挂闲鱼!被7万人围观后,对方慌了

被骗160万,中国老板把日本公司挂闲鱼!被7万人围观后,对方慌了

行者聊官
2026-03-30 12:46:28
“杭州六小龙”第一股,要来了

“杭州六小龙”第一股,要来了

第一财经资讯
2026-03-30 11:50:38
秦皇岛阿那亚现罕见“带状”海市蜃楼,拍摄者:像积木搭成的火车,还有船只在浮动

秦皇岛阿那亚现罕见“带状”海市蜃楼,拍摄者:像积木搭成的火车,还有船只在浮动

极目新闻
2026-03-29 12:15:15
史诗级惨案!31-0+惨败52分,直接创历史,5年2.5亿先生9分5失误

史诗级惨案!31-0+惨败52分,直接创历史,5年2.5亿先生9分5失误

球童无忌
2026-03-30 14:28:52
山西一儿媳住院公公陪床,趁护士换药塞纸条,护士看后直接报警

山西一儿媳住院公公陪床,趁护士换药塞纸条,护士看后直接报警

五元讲堂
2024-10-24 10:54:37
世界上最有用的数学思维之一——贝叶斯定理大白话讲解

世界上最有用的数学思维之一——贝叶斯定理大白话讲解

新浪财经
2026-03-29 12:33:29
难怪红霉素软膏越来越好,这7大用途超厉害,早知道早受益!

难怪红霉素软膏越来越好,这7大用途超厉害,早知道早受益!

妙招酷
2026-03-26 22:33:25
想拿中国尿素救春耕?先还钱!中国锁定俄油巨单,印度彻底出局

想拿中国尿素救春耕?先还钱!中国锁定俄油巨单,印度彻底出局

青烟小先生
2026-03-30 11:33:34
比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

比赖清德更狂的人出现了,只要她当上台湾领导人,解放军必定收台

共工之锚
2026-03-29 18:26:19
2026-03-30 15:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12370文章数 176428关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

美国如果发动地面战 本次战事军费或突破10万亿美元

头条要闻

美国如果发动地面战 本次战事军费或突破10万亿美元

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

房产
家居
教育
数码
军事航空

房产要闻

32亿,三开三罄!谁在硬控海口楼市高端局?

家居要闻

东方法式美学 现代简约

教育要闻

关注!西城市重点中学招聘教师啦

数码要闻

荣耀MagicBook 14/16 2026笔记本开启新品预约

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版