网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

GPT-5≈o3.1！OpenAI首次详解思考机制：RL+预训练才是AGI正道

2025-10-20 15:37:13　来源: 量子位

北京举报

0

分享至

鹭羽发自凹非寺
量子位 | 公众号 QbitAI
在某种程度上，GPT-5可以被视作是o3.1。

该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访，而Jerry其人，正是o1模型的主导者之一。

在他看来，相比GPT-4，GPT-5更像是o3的迭代，而OpenAI接下来要做的，就是再创造一个“o3奇迹”——构建能力更强、思考时间更长、能自主与多系统互动的模型。

在长达一小时的访谈中，Jerry Tworek侃侃而谈自己对GPT系列模型的思考。

从o1到GPT-5的模型演变历程讲起，介绍OpenAI的模型推理过程、公司内部架构、强化学习对OpenAI的意义，中间还穿插了他个人进入OpenAI的经历，以及对OpenAI未来走向AGI的想法。

如果向10年前的人展示今天的ChatGPT，他们可能会称之为AGI。

另外，他也着重肯定了DeepSeek提出的GRPO算法贡献，推动了美国RL研究。

有趣的是，当他谈及自己也是ChatGPT的重度“发烧友”，每月都会花200美元充值在上面时，网友发现了华点：

万万没想到，OpenAI自家员工也要为ChatGPT付费。（doge）

不过有一说一，这场访谈的知识密度爆炸，非常值得一看，连他本人在社媒发帖，也说：

如果你想要深入了解RL，那么这个播客不容错过。

GPT-5如何思考

主持人Matt Turk首先抛出了一个所有人都很好奇的问题：

当我们和ChatGPT聊天时，它们正在思考些什么？

简单来说就是，什么是模型的推理。

Jerry Tworek当即一语中的，模型的推理过程类比于人类的思考，本质上都是寻找未知答案的过程，期间可能涉及执行计算、查找信息或自我学习。

推理过程具体表现在思维链上，自从OpenAI发布o1模型以来，这个概念开始变得广为人知。

它是将模型的思维过程用人类的语言口语化表述出来，整个过程就是：语言模型在大量人类知识上训练、学习如何像人类一样思考，然后通过思维链“翻译”回人类。

早期如果想要激发思维链，需要在提示词中描述“让我们一步步解决它”，因为如果直接提问，模型可能会推理失败，但只要让它分步进行，它就会生成一系列思维链，并最终得出结果。

所以通常情况下，模型在推理中花费的时间越长，结果往往会更好。

但OpenAI在实际用户反馈中发现，一般用户并不喜欢花费大量时间在等待上，这在一定程度上也影响了他们构建模型的决策路线。

现在OpenAI会同时将高推理模型与低推理模型通通都开放给用户，将模型思考时长的选择权交还用户，同时内部尝试编码启发式方法以找到合适的平衡。

而OpenAI推理模型的伊始还得从o1说起。

这也是OpenAI发布的第一个正式的推理模型。

不过作为o1的主要负责人，Jerry也相当坦诚地表示，o1主要擅长解决谜题，所以与其说它是真正有用的产品，更像是一次技术演示。

随后是o3的出现改变了这种局面，它也代表了AI发展过程中的结构性转变。

它是真正意义上有用的，能够熟练使用工具以及各种来源的上下文信息，并在寻求答案的过程中呈现出坚持不懈刨根问底的状态。

Jerry本人自己也是从o3开始完全信赖推理模型的。

所以从某种程度上讲，GPT-5更像是o3的迭代——o3.1，拥有一脉相承的思考过程。

在之后，OpenAI也会继续寻求下一个重大飞跃，即能力更强、思考更优，也更自主的推理模型。

加入OpenAI是自然而然的过程

但正是这样一个主导OpenAI推理模型的关键人物，Jerry Tworek最初进入这个领域却颇有一种命定感，独属于天才的灵光一现。

Jerry将这个过程比喻为一颗水晶的诞生，与生俱来想要从事科学研究的想法，在随后的学习工作生涯中逐渐明确，然后当OpenAI出现的那一刻，叮咚，时机已到。

而这一切还得从他儿时说起，Jerry在波兰长大，从小表现出超越同龄人的天赋，包括数学和科学，用他自己的话来说就是：

它们是自然而然适合我的东西。

18岁的时候想要成为一名数学家，于是进入华沙大学学习数学，渴望追求真理，但“叛逆”的他因为厌倦学术界的死板和严苛，放弃了这个理想。

为了养家糊口，他决定成为一名交易员，利用自己的数学技能谋生，曾在摩根大通的股票衍生品交易部门实习，随后又离职创立对冲基金。

几年之后，对交易工作再次感到厌倦的他，陷入了职业期瓶颈。

直到DeepMind的DQN智能体的出现打破了这一僵局，他被其中的强化学习深深吸引，此前他认为分类器其实并不智能，但DQN展示出学习复杂行为的能力。

于是在2019年他加入了OpenAI，但最开始他在里面从事的是机器人项目，专注于灵巧操作。而这个项目也正是OpenAI著名的“用机器人解决魔方”项目，是强化学习与仿真实体交互的代表作之一。

随后就是众所周知的领导o1项目、推动OpenAI模型能力进步，而目前他的主要工作内容是和其他研究人员交流，集思广益完善研究计划。

在OpenAI内部，据Jerry所说，工作结构相当独特，是自上而下与自下而上的结合。

具体来说就是，公司整体专注于三到四个核心项目，集中精力押注，而研究人员在项目内部享有相对自下而上的自由。

整个研究部门总计约600人，但每个人都知道项目的所有内容，因为在OpenAI看来，让研究人员因为无法获取全部信息而不能做出最佳研究，这个风险远高于知识产权泄漏。

而OpenAI之所以能够快速发布产品，一年时间就从o1到GPT-5，归根结底是因为他们拥有良好的运营结构、巨大的发展势头，以及顶尖人才的高效产出，他们都相信自己所做工作的意义：

AI在历史上只会被构建和部署一次。

另外员工们也会大量使用内部工具，Jerry自己就是ChatGPT的深度用户，每个月都会为其支付费用，另外例如CodeX也被广泛应用在内部的代码编写中。

RL对OpenAI的关键一击

对Jerry本人来说，强化学习是引领他走进OpenAI的钥匙，而放眼看OpenAI整个公司，RL也是多次转折的关键。

今天的语言模型可以被认为是预训练和强化学习的结合：先进行预训练，然后在其之上进行强化学习，二者缺一不可。这也是OpenAI自2019年起的研究计划核心。

不过要想进一步了解RL在OpenAI的地位，首先要先清楚什么是RL。

Jerry认为，RL类似于训练狗，当狗表现良好时，可以给予“奖励”（零食或微笑），当狗做错事时，给予“惩罚”（例如转移注意力、表达不悦情绪）。

RL就是在模型中提供类似作用，如果模型的行为正确就给予积极奖励，反之行为不正确就给予负面奖励，其中的关键在于策略和环境：

策略：指模型的行为，是一个将观察结果映射到行动的数学函数。
环境：模型所看到的一切，必须是交互式的，而环境会根据模型的行动而演变，比如学习弹吉他时，会根据拨弦发出的声音获得反馈。RL就是教模型对环境变化做出反应的唯一途径。

随后DeepMind的DQN将RL带到了新的阶段——Deep RL，它将神经网络与强化学习相结合，诞生出真正有意义的智能体。

Jerry也分享了当年GPT-4刚训练完成的故事，那时内部团队对其表现并不满意，因为GPT-4在较长的回答中始终缺乏连贯性。

后续是通过RLHF（基于人类反馈的强化学习）解决了这个问题，即让人类对模型输出的内容提供反馈，并以此作为奖励。

也正是因为GPT-4碰到了RLHF，世界才拥有了“ChatGPT时刻”。

最近OpenAI在编程竞赛中出乎意料的优异表现，Jerry说也是因为研究人员长期使用编程谜题作为测试平台，来尝试他们的RL想法。

无心插柳柳成荫，在他们研究RL的进程中，也为OpenAI带来了阶段性荣誉。

所以只要能够评估当前结果并计算反馈信号，RL就能应用在任何领域，即使答案不只是简单的对与错。

但目前要想规模化RL，还是很有难度的，因为RL在实际运行中会出现很多可能出错的地方，相比预训练会有更多的瓶颈和故障类型。

它是一个非常精细的过程，类比RL和预训练，就是制造半导体要比制造钢铁要复杂得多。

另外，Jerry也对DeepSeek团队提出的全新的强化学习算法GRPO（组相对策略优化）表示了认可：

GRPO的开源，让许多缺乏高级RL研究项目的美国实验室，可以更快地启动并训练推理模型。

RL+预训练才是通往AGI的正确道路

关于AI的未来，Jerry Tworek也在最后提出了自己的见解。

首先是Agent，Jerry认为AI带来的积极影响，是可以通过自动化解决人类问题。

模型目前提供答案的速度非常之快，大概需要几分钟，而他们内部测试显示，在某些任务上模型其实可以独立思考30分钟、1小时或者更久，所以当前模型遇到的挑战是如何建立合适的产品来部署长时间的思考过程。

其中由基础推理驱动的Agent能够允许模型更长时间的独立思考，并解决更为复杂的任务，例如编程、旅游预订、设计等，所以AI智能体化是大势所趋。

模型对齐也是大众比较关心的问题之一，也就是引导模型行为符合人类价值观。

Jerry表示对齐问题本质上其实就是一个RL问题，要让模型深入理解其行为和可能导致的后果，才能让模型做出正确的选择。它将是永无止境的，因为对齐的概念将随着人类文明的演进而不断发展。

而如果要通往AGI，当前的预训练和RL肯定是必不可少的，当然后续肯定需要添加更多元素一起发力。

Jerry明确反对当前业界一些关于“纯RL是通往AGI的唯一途径”的观点，他坚信：

RL需要预训练才能成功，而预训练也需要RL才能成功，二者缺一不可。

虽然对于AGI，他也很难描述，具体什么时候模型可以在没有大量外部输出和人类干预的情况下，实现自我改进。

但他相信，OpenAI目前走在正确的道路上，未来的变化将会是新的复杂组件的添加，而绝非完全推翻现有的架构。

参考链接：
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

DeepMind老兵，正在离开伦敦

机器之心Pro 2026-06-25 13:29:31
0 跟贴 0
90 后正在掌管中国 AI，凭实力活成了「爽文」主角

爱范儿 2026-01-19 18:14:14
0 跟贴 0

并购激励金都不要了？Windsurf核心工程师离开DeepMind

机器之心Pro 2026-05-25 20:37:38
0 跟贴 0

活久见，时代少年团给大模型上了一课

机器之心Pro 2026-05-09 12:48:20
1 跟贴 1
OpenAI曝作弊门！GPT-5.6创史上最高作弊率

新智元 2026-06-27 12:50:47
0 跟贴 0

老黄：Prompt已死，整个AI圈都在疯狂追Loop

新智元 2026-06-27 12:50:19
0 跟贴 0

FlashAR：仅用0.05%数据，让预训练好的自回归图像模型飞起来

机器之心Pro 2026-05-24 17:52:21
0 跟贴 0
世界引擎：Post-Training开启Physical AGI新纪元

机器之心Pro 2026-04-19 20:00:03
0 跟贴 0

AI 批量造 App，也在批量埋雷

钛媒体APP 2026-06-27 10:05:13
0 跟贴 0
AI软递归自我提升，Hassabis夜不能寐：人类已至奇点山脚

新智元 2026-06-25 09:44:44
13 跟贴 13
安心养虾！从OpenClaw 看云上AI安全落地路径

量子位 2026-04-18 19:55:39
0 跟贴 0
持续领跑世界模型驱动物理AGI，极佳视界再获10亿元B2轮融资

36氪 2026-06-19 17:24:18
0 跟贴 0
我把昨晚的梦输入AI，它居然直接把我拉进去玩儿了一把？！

量子位 2026-06-19 16:40:27
3 跟贴 3
GenBio AI宋乐：在虚拟细胞中寻找 AI 制药的 AlphaFold 时刻 | 达沃斯观察

钛媒体APP 2026-06-27 09:21:13
0 跟贴 0
Jumper跳槽Anthropic后复盘：AlphaFold成功不靠堆算力

DeepTech深科技 2026-06-27 13:26:14
0 跟贴 0
PhysForge框架来了，让3D资产从静态模型变成可交互对象

机器之心Pro 2026-06-09 18:14:06
0 跟贴 0
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
微软年度AI职场报告：员工已经准备好了，公司还没有

量子位 2026-06-27 12:49:55
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
王晓野：Working Agent将是下一个爆发点

量子位 2026-05-21 08:05:51
0 跟贴 0
谷歌「推理之王」也跑路Meta了，当年还是李飞飞挖来的

量子位 2026-06-26 16:07:15
2 跟贴 2
不用一个字，MIT团队让细胞自动机教会了大模型推理

DeepTech深科技 2026-03-23 18:28:08
1 跟贴 1
全球首次单机降服万亿巨模DeepSeek-V4！RL后训练框架Orbit开源！

机器之心Pro 2026-05-28 11:48:03
25 跟贴 25
VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

机器之心Pro 2026-05-25 17:32:45
0 跟贴 0
79岁老奶奶在病房一枪崩了自己老伴... 被警察包围她却说：我不后悔！

英国那些事儿 2026-01-30 23:26:58
338 跟贴 338
就此转运？刘语熙玩世界杯人机大战，准确度已经很可以了

咪咕体育 2026-06-26 06:02:41
0 跟贴 0
韩乔生已就位，当算法数据与脑洞大开同步登场，谁会是最后的赢家？

咪咕体育 2026-06-25 06:03:16
0 跟贴 0
Shop-R1: 给AI补上「内心戏」，在RL博弈中复刻人类网购脑

机器之心Pro 2026-03-23 15:04:44
0 跟贴 0
OpenAI又动了数亿人的默认模型：没更聪明，却更黏你

新智元 2026-06-27 06:03:26
0 跟贴 0
孙继海已就位，当算法数据与硬核实力同步登场，谁会是最后的赢家

咪咕体育 2026-06-24 21:01:09
61 跟贴 61

曝湖人有意纳兹-里德但黄蜂无意交易他

曝湖人有意纳兹-里德但黄蜂无意交易他

北青网-北京青年报

2026-06-27 13:04:02

破天荒！美国赌气缺席中国APEC会议，终于有人治得了美国的霸权病

破天荒！美国赌气缺席中国APEC会议，终于有人治得了美国的霸权病

爱下厨的阿酾

2026-06-27 09:10:23

曝马刺和公牛是科林斯的主要竞争者森林狼已退出竞价

曝马刺和公牛是科林斯的主要竞争者森林狼已退出竞价

北青网-北京青年报

2026-06-27 13:04:03

王菲西安城墙散步，谢霆锋面馆吃面，网友：期待二人演唱会合体

王菲西安城墙散步，谢霆锋面馆吃面，网友：期待二人演唱会合体

东方不败然多多

2026-06-27 12:21:32

意甲三笔重磅交易让国米被讽追梦失败！改变方案4-5笔签约可期

意甲三笔重磅交易让国米被讽追梦失败！改变方案4-5笔签约可期

国际足球冷雪

2026-06-27 07:11:11

正常男人吃一颗伟哥是什么体验？网友们的分享让人脸红心跳加快！

正常男人吃一颗伟哥是什么体验？网友们的分享让人脸红心跳加快！

黯泉

2026-06-25 12:10:30

热浪席卷欧洲多国屡破高温纪录，在英华人：没有空调晚上无法入睡，风扇价格翻3倍还无现货

热浪席卷欧洲多国屡破高温纪录，在英华人：没有空调晚上无法入睡，风扇价格翻3倍还无现货

极目新闻

2026-06-27 11:59:02

啥情况？李在明穿防弹背心，突然对中国强硬表态：韩国不会不管！

啥情况？李在明穿防弹背心，突然对中国强硬表态：韩国不会不管！

云舟史策

2026-06-26 07:06:24

法国主力中场引全豪门争抢，维埃拉：其综合实力碾压楚阿梅尼

法国主力中场引全豪门争抢，维埃拉：其综合实力碾压楚阿梅尼

夜白侃球

2026-06-27 09:40:55

35亿铂金级肉签公布中签结果，阳光普照奖，股民中签太开心！

35亿铂金级肉签公布中签结果，阳光普照奖，股民中签太开心！

数据挖掘分析

2026-06-27 08:29:59

卡尔亮相湖人将穿43号！首要目标增重希望用空接分担三巨头压力

卡尔亮相湖人将穿43号！首要目标增重希望用空接分担三巨头压力

罗说NBA

2026-06-27 06:09:54

有那钱不如刷刷墙！一场农村生日仪式被群嘲，家长被迫看清现实！

有那钱不如刷刷墙！一场农村生日仪式被群嘲，家长被迫看清现实！

林林先生

2026-06-26 22:40:32

三角恋实锤！姆巴佩约会西班牙超模，维尼修斯曾疯狂点赞？

三角恋实锤！姆巴佩约会西班牙超模，维尼修斯曾疯狂点赞？

绿茵八卦君

2026-06-27 11:00:03

两性生活中，娇喘到底有多重要？

两性生活中，娇喘到底有多重要？

花影凰

2026-06-26 09:02:26

雷军用私家车装600斤车厘子，是一次失败的营销

雷军用私家车装600斤车厘子，是一次失败的营销

东方智音

2026-06-26 06:37:07

外媒：中国不可怕，可怕的是中国用太阳能电池板，消灭了沙漠！

外媒：中国不可怕，可怕的是中国用太阳能电池板，消灭了沙漠！

离离言几许

2026-06-26 00:36:23

2002 年李春平世纪骗局内情曝光：所谓百亿遗产继承权全是谎言

2002 年李春平世纪骗局内情曝光：所谓百亿遗产继承权全是谎言

磊子讲史

2026-06-23 17:22:32

baby带小海绵逛迪士尼，嘴巴长好多水泡，3部手机工作遛娃两不误

baby带小海绵逛迪士尼，嘴巴长好多水泡，3部手机工作遛娃两不误

无处不风景love

2026-06-27 10:38:07

中国科学家也没料到：沙漠的太阳能电池板，可以唤醒荒漠生态系统

中国科学家也没料到：沙漠的太阳能电池板，可以唤醒荒漠生态系统

咸鱼金脑袋

2026-06-22 21:13:28

千亿婴儿卫生市场崩坏：21款湿巾20款含毒，9成产品沦陷背后代工模式自噬

千亿婴儿卫生市场崩坏：21款湿巾20款含毒，9成产品沦陷背后代工模式自噬

薛定谔的BUG

2026-06-27 03:57:07

追踪人工智能动态

12850文章数 176505关注度

往期回顾全部

科技要闻

GPT-5.6发布，你暂时用不了！Mythos也放行

头条要闻

女子与大爷发生关系将自己娃留他家大爷殴打婴儿致死

头条要闻

女子与大爷发生关系将自己娃留他家大爷殴打婴儿致死

体育要闻

世界杯最火门将，站到了阿根廷和梅西面前

娱乐要闻

杨紫获白玉兰最佳女主角奖，泪洒现场

财经要闻

OpenAI推迟IPO重创软银！

汽车要闻

11.99万起捷途自由者7 PLUS/山海T1四驱版上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

时尚

本地

游戏

艺术

教育要闻

山东2026高考成绩一分一段表公布！【分数筛选版可下载】

“这件衣服”今年夏天越来越流行！简单穿就很好看

本地新闻

世界杯球迷节：比球赛更好玩的派对

PS老总再暗示！PS6将包含一款掌机在更便携环境游玩

艺术要闻

李晓林 2026年人物写生新作

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版