网易首页 > 网易号 > 正文 申请入驻

GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
  • 在某种程度上,GPT-5可以被视作是o3.1。

该观点出自OpenAI研究副总裁Jerry Tworek的首次播客采访,而Jerry其人,正是o1模型的主导者之一。



在他看来,相比GPT-4,GPT-5更像是o3的迭代,而OpenAI接下来要做的,就是再创造一个“o3奇迹”——构建能力更强、思考时间更长、能自主与多系统互动的模型。

在长达一小时的访谈中,Jerry Tworek侃侃而谈自己对GPT系列模型的思考。

从o1到GPT-5的模型演变历程讲起,介绍OpenAI的模型推理过程、公司内部架构、强化学习对OpenAI的意义,中间还穿插了他个人进入OpenAI的经历,以及对OpenAI未来走向AGI的想法。

  • 如果向10年前的人展示今天的ChatGPT,他们可能会称之为AGI。

另外,他也着重肯定了DeepSeek提出的GRPO算法贡献,推动了美国RL研究。



有趣的是,当他谈及自己也是ChatGPT的重度“发烧友”,每月都会花200美元充值在上面时,网友发现了华点:

  • 万万没想到,OpenAI自家员工也要为ChatGPT付费。(doge)



不过有一说一,这场访谈的知识密度爆炸,非常值得一看,连他本人在社媒发帖,也说:

  • 如果你想要深入了解RL,那么这个播客不容错过。



GPT-5如何思考

主持人Matt Turk首先抛出了一个所有人都很好奇的问题:

  • 当我们和ChatGPT聊天时,它们正在思考些什么?

简单来说就是,什么是模型的推理

Jerry Tworek当即一语中的,模型的推理过程类比于人类的思考,本质上都是寻找未知答案的过程,期间可能涉及执行计算、查找信息或自我学习。



推理过程具体表现在思维链上,自从OpenAI发布o1模型以来,这个概念开始变得广为人知。

它是将模型的思维过程用人类的语言口语化表述出来,整个过程就是:语言模型在大量人类知识上训练、学习如何像人类一样思考,然后通过思维链“翻译”回人类。

早期如果想要激发思维链,需要在提示词中描述“让我们一步步解决它”,因为如果直接提问,模型可能会推理失败,但只要让它分步进行,它就会生成一系列思维链,并最终得出结果。

所以通常情况下,模型在推理中花费的时间越长,结果往往会更好

但OpenAI在实际用户反馈中发现,一般用户并不喜欢花费大量时间在等待上,这在一定程度上也影响了他们构建模型的决策路线。

现在OpenAI会同时将高推理模型与低推理模型通通都开放给用户,将模型思考时长的选择权交还用户,同时内部尝试编码启发式方法以找到合适的平衡。

而OpenAI推理模型的伊始还得从o1说起。



这也是OpenAI发布的第一个正式的推理模型。

不过作为o1的主要负责人,Jerry也相当坦诚地表示,o1主要擅长解决谜题,所以与其说它是真正有用的产品,更像是一次技术演示。

随后是o3的出现改变了这种局面,它也代表了AI发展过程中的结构性转变。

它是真正意义上有用的,能够熟练使用工具以及各种来源的上下文信息,并在寻求答案的过程中呈现出坚持不懈刨根问底的状态。



Jerry本人自己也是从o3开始完全信赖推理模型的。

所以从某种程度上讲,GPT-5更像是o3的迭代——o3.1,拥有一脉相承的思考过程。

在之后,OpenAI也会继续寻求下一个重大飞跃,即能力更强、思考更优,也更自主的推理模型。

加入OpenAI是自然而然的过程

但正是这样一个主导OpenAI推理模型的关键人物,Jerry Tworek最初进入这个领域却颇有一种命定感,独属于天才的灵光一现。

Jerry将这个过程比喻为一颗水晶的诞生,与生俱来想要从事科学研究的想法,在随后的学习工作生涯中逐渐明确,然后当OpenAI出现的那一刻,叮咚,时机已到。

而这一切还得从他儿时说起,Jerry在波兰长大,从小表现出超越同龄人的天赋,包括数学和科学,用他自己的话来说就是:

  • 它们是自然而然适合我的东西。

18岁的时候想要成为一名数学家,于是进入华沙大学学习数学,渴望追求真理,但“叛逆”的他因为厌倦学术界的死板和严苛,放弃了这个理想。

为了养家糊口,他决定成为一名交易员,利用自己的数学技能谋生,曾在摩根大通的股票衍生品交易部门实习,随后又离职创立对冲基金。

几年之后,对交易工作再次感到厌倦的他,陷入了职业期瓶颈。



直到DeepMind的DQN智能体的出现打破了这一僵局,他被其中的强化学习深深吸引,此前他认为分类器其实并不智能,但DQN展示出学习复杂行为的能力。

于是在2019年他加入了OpenAI,但最开始他在里面从事的是机器人项目,专注于灵巧操作。而这个项目也正是OpenAI著名的“用机器人解决魔方”项目,是强化学习与仿真实体交互的代表作之一。

随后就是众所周知的领导o1项目、推动OpenAI模型能力进步,而目前他的主要工作内容是和其他研究人员交流,集思广益完善研究计划。

在OpenAI内部,据Jerry所说,工作结构相当独特,是自上而下自下而上的结合。



具体来说就是,公司整体专注于三到四个核心项目,集中精力押注,而研究人员在项目内部享有相对自下而上的自由。

整个研究部门总计约600人,但每个人都知道项目的所有内容,因为在OpenAI看来,让研究人员因为无法获取全部信息而不能做出最佳研究,这个风险远高于知识产权泄

而OpenAI之所以能够快速发布产品,一年时间就从o1到GPT-5,归根结底是因为他们拥有良好的运营结构、巨大的发展势头,以及顶尖人才的高效产出,他们都相信自己所做工作的意义:

  • AI在历史上只会被构建和部署一次。

另外员工们也会大量使用内部工具,Jerry自己就是ChatGPT的深度用户,每个月都会为其支付费用,另外例如CodeX也被广泛应用在内部的代码编写中。

RL对OpenAI的关键一击

对Jerry本人来说,强化学习是引领他走进OpenAI的钥匙,而放眼看OpenAI整个公司,RL也是多次转折的关键。

今天的语言模型可以被认为是预训练和强化学习的结合:先进行预训练,然后在其之上进行强化学习,二者缺一不可。这也是OpenAI自2019年起的研究计划核心。

不过要想进一步了解RL在OpenAI的地位,首先要先清楚什么是RL。

Jerry认为,RL类似于训练狗,当狗表现良好时,可以给予“奖励”(零食或微笑),当狗做错事时,给予“惩罚”(例如转移注意力、表达不悦情绪)。

RL就是在模型中提供类似作用,如果模型的行为正确就给予积极奖励,反之行为不正确就给予负面奖励,其中的关键在于策略和环境:

  • 策略:指模型的行为,是一个将观察结果映射到行动的数学函数。
  • 环境:模型所看到的一切,必须是交互式的,而环境会根据模型的行动而演变,比如学习弹吉他时,会根据拨弦发出的声音获得反馈。RL就是教模型对环境变化做出反应的唯一途径。

随后DeepMind的DQN将RL带到了新的阶段——Deep RL,它将神经网络与强化学习相结合,诞生出真正有意义的智能体。



Jerry也分享了当年GPT-4刚训练完成的故事,那时内部团队对其表现并不满意,因为GPT-4在较长的回答中始终缺乏连贯性。

后续是通过RLHF(基于人类反馈的强化学习)解决了这个问题,即让人类对模型输出的内容提供反馈,并以此作为奖励。

也正是因为GPT-4碰到了RLHF,世界才拥有了“ChatGPT时刻”



最近OpenAI在编程竞赛中出乎意料的优异表现,Jerry说也是因为研究人员长期使用编程谜题作为测试平台,来尝试他们的RL想法。

无心插柳柳成荫,在他们研究RL的进程中,也为OpenAI带来了阶段性荣誉。

所以只要能够评估当前结果并计算反馈信号,RL就能应用在任何领域,即使答案不只是简单的对与错。

但目前要想规模化RL,还是很有难度的,因为RL在实际运行中会出现很多可能出错的地方,相比预训练会有更多的瓶颈和故障类型。

它是一个非常精细的过程,类比RL和预训练,就是制造半导体要比制造钢铁要复杂得多。



另外,Jerry也对DeepSeek团队提出的全新的强化学习算法GRPO(组相对策略优化)表示了认可:

  • GRPO的开源,让许多缺乏高级RL研究项目的美国实验室,可以更快地启动并训练推理模型。
RL+预训练才是通往AGI的正确道路

关于AI的未来,Jerry Tworek也在最后提出了自己的见解。

首先是Agent,Jerry认为AI带来的积极影响,是可以通过自动化解决人类问题。

模型目前提供答案的速度非常之快,大概需要几分钟,而他们内部测试显示,在某些任务上模型其实可以独立思考30分钟、1小时或者更久,所以当前模型遇到的挑战是如何建立合适的产品来部署长时间的思考过程。

其中由基础推理驱动的Agent能够允许模型更长时间的独立思考,并解决更为复杂的任务,例如编程、旅游预订、设计等,所以AI智能体化是大势所趋

模型对齐也是大众比较关心的问题之一,也就是引导模型行为符合人类价值观。

Jerry表示对齐问题本质上其实就是一个RL问题,要让模型深入理解其行为和可能导致的后果,才能让模型做出正确的选择。它将是永无止境的,因为对齐的概念将随着人类文明的演进而不断发展。



如果要通往AGI,当前的预训练和RL肯定是必不可少的,当然后续肯定需要添加更多元素一起发力。

Jerry明确反对当前业界一些关于“纯RL是通往AGI的唯一途径”的观点,他坚信:

  • RL需要预训练才能成功,而预训练也需要RL才能成功,二者缺一不可。

虽然对于AGI,他也很难描述,具体什么时候模型可以在没有大量外部输出和人类干预的情况下,实现自我改进。

但他相信,OpenAI目前走在正确的道路上,未来的变化将会是新的复杂组件的添加,而绝非完全推翻现有的架构。

参考链接:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
29岁网红口子姐去世后续!早年黑料被扒,自曝得梅毒只是冰山一角

29岁网红口子姐去世后续!早年黑料被扒,自曝得梅毒只是冰山一角

李健政观察
2026-01-13 11:00:10
合川杀猪宴后续:呆呆收入曝光,红衣女搅局遭反噬,央媒亲自下场

合川杀猪宴后续:呆呆收入曝光,红衣女搅局遭反噬,央媒亲自下场

史行途
2026-01-13 11:54:59
起风了!郑丽文重用张亚中,参与罢免赖清德,侯友宜发表内奸言论

起风了!郑丽文重用张亚中,参与罢免赖清德,侯友宜发表内奸言论

时时有聊
2026-01-12 21:40:49
京沪最快高铁G25来了,中途只停靠南京南站

京沪最快高铁G25来了,中途只停靠南京南站

现代快报
2026-01-13 13:37:03
1984年贺子珍在上海病逝,市委不敢定丧葬规格,邓小平看后只说了一句话,结局出人意料

1984年贺子珍在上海病逝,市委不敢定丧葬规格,邓小平看后只说了一句话,结局出人意料

历史回忆室
2026-01-11 22:43:10
2025年全球电动车“王座”易主 比亚迪登顶 终结特斯拉霸榜时代

2025年全球电动车“王座”易主 比亚迪登顶 终结特斯拉霸榜时代

中视汽车
2026-01-12 20:29:20
比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

比结婚还有排场!对话2026年第一个闯大祸的杀年猪女孩,合川文旅称考虑设刨猪汤节

潇湘晨报
2026-01-13 10:04:40
拿400万赔偿金走人!阿隆索忠告皇马:别给球员巨大的权力

拿400万赔偿金走人!阿隆索忠告皇马:别给球员巨大的权力

叶青足球世界
2026-01-13 10:31:08
短短24小时惊天反转,特朗普对31国发出通牒后,英法德当“逃兵”

短短24小时惊天反转,特朗普对31国发出通牒后,英法德当“逃兵”

策略述
2026-01-13 12:29:35
百万粉丝网红“你的渡口”去世,知情人:系熬夜猝死,遗体已火化;是多年潮流圈博主,曾参赛《说唱听我的》

百万粉丝网红“你的渡口”去世,知情人:系熬夜猝死,遗体已火化;是多年潮流圈博主,曾参赛《说唱听我的》

大风新闻
2026-01-13 08:02:04
22岁安徽女医学生被前男友杀害案一审宣判:被告人林某强获死刑 当庭上诉

22岁安徽女医学生被前男友杀害案一审宣判:被告人林某强获死刑 当庭上诉

黑龙江网
2026-01-13 14:32:44
泽连斯基引发的链式反应:叙利亚、哈马斯、黎巴嫩真主党、委内瑞拉、伊朗

泽连斯基引发的链式反应:叙利亚、哈马斯、黎巴嫩真主党、委内瑞拉、伊朗

高博新视野
2026-01-08 20:22:29
度日如年:三名皇家马德里球员是阿隆索下课的导火索

度日如年:三名皇家马德里球员是阿隆索下课的导火索

油泼辣不辣
2026-01-13 06:07:44
悲催!珠海一33年工厂破产,几百人饭碗没了,涉及司法案件363条

悲催!珠海一33年工厂破产,几百人饭碗没了,涉及司法案件363条

火山诗话
2026-01-13 13:15:14
茅台:一场迟到多年的自救

茅台:一场迟到多年的自救

YOUNG财经
2026-01-12 21:59:13
才从皇马下课!阿隆索就成香饽饽,英超豪门抢人,激活1.4亿爱徒

才从皇马下课!阿隆索就成香饽饽,英超豪门抢人,激活1.4亿爱徒

阿泰希特
2026-01-13 13:36:39
闫学晶儿子被持续举报!毕业大合影曝光,疑似侵占名额进入中戏

闫学晶儿子被持续举报!毕业大合影曝光,疑似侵占名额进入中戏

萌神木木
2026-01-13 11:25:49
自讨苦吃?没想到新年刚开始,中国游客的日本住宿预订量增加六成

自讨苦吃?没想到新年刚开始,中国游客的日本住宿预订量增加六成

梦录的西方史话
2026-01-12 16:40:41
手机收到这类短信立刻删!一关机钱就被隔空转走,87人已中招

手机收到这类短信立刻删!一关机钱就被隔空转走,87人已中招

复转这些年
2026-01-12 23:46:00
湖南女子模仿呆呆喊网友杀猪:帮杀10头猪,网友反响非常热烈,建了16个群都满了,可能会弄一个流水席

湖南女子模仿呆呆喊网友杀猪:帮杀10头猪,网友反响非常热烈,建了16个群都满了,可能会弄一个流水席

大风新闻
2026-01-13 11:10:02
2026-01-13 16:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
12009文章数 176358关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

78岁陶华碧"出山救子" 老干妈"触底反弹"1年大卖54亿

头条要闻

78岁陶华碧"出山救子" 老干妈"触底反弹"1年大卖54亿

体育要闻

CBA还能众筹换帅?

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

中国一口气申报20万颗卫星,意味着什么?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

数码
健康
旅游
时尚
军事航空

数码要闻

2025全球Mini LED背光市场达143亿美元 中国贡献近六成份额

血常规3项异常,是身体警报!

旅游要闻

冬日济南腊梅飘香

走过那个夏天,甜茶终于站上金球奖之巅

军事要闻

特朗普拿中俄当幌子被北欧官员拆穿:完全不属实

无障碍浏览 进入关怀版