
![]()
近日,OpenAI 研究副总裁Jerry Tworek 接受海外播客The Mad的访谈,本次对话围绕 AI 如何进行“推理”这一核心展开,深入探讨了从 O1 到 O3 再到 GPT-5 的模型演进、思维链的幕后机制、模型如何权衡思考时长,以及强化学习在现代 AI中的关键作用。
Jerry Tworek指出,AI 的推理能力正通过规模化强化学习实现快速迭代;推理质量与模型“思考”时间存在明确的 Scaling Law,RLHF (基于人类反馈的强化学习) 是 GPT-4 取得成功的关键技术;以及 AI Agent是推理能力在工具使用和自主性上的自然延伸。
Jerry Tworek坦言,O1 主要是“技术演示”,而 O3 才是推理模型真正“有用”的开始,是 AI 发展轨迹的一次根本性转变,GPT-5 则更像是 O3.1 的迭代。Jerry 透露,GPT-4 刚训练出来时,OpenAI 内部曾感到“失望”,觉得它“挺蠢的”,直到应用了 RLHF 技术才使其大放异彩。Jerry 透露,OpenAI 的研究文化是“激进透明”的。研究部门“每个人都知道所有事情”, OpenAI 极其专注,全公司只押注“三到四个”核心研究项目,而非广泛撒网。
关于思维链,Jerry 指出,“思维链”并非模型在运行逻辑树,而是模型在海量人类思维过程数据上训练后,学会了“像人类一样思考并得出答案”的能力,是将其思考过程“语言化”的表达。
关于 AGI 路径, Jerry 反对“纯粹强化学习”的路径,他认为强化学习需要预训练才能成功,预训练也需要强化学习才能成功。通往 AGI 的正确路径是在现有的 LLM 基础上不断增添新事物(如大规模强化学习),而非彻底转向。
01
推理的本质
在概念上,“推理”到底意味着什么?当我们和 ChatGPT 聊天,它说它在“思考”时,幕后究竟发生了什么?
Jerry Tworek: 我认为“思考过程”至少是一个恰当的类比。在 AI 发展的早期,我们始终怀揣着一个目标和梦想,那就是教会模型去推理,我们设想的是模型通过花费更多时间来获得更好的结果。当一个人面对一个非常棘手的问题时,他们很少能立即给出答案。他们有时需要去寻找答案,有时需要执行特定计算,有时需要查阅资料,甚至需要先自学某些知识。
推理的过程,就是得出一个你尚未知晓的答案。在某种程度上,这可以被称为搜索,但它并非天真的搜索。“搜索”这个词在特定语境下含义比较丰富,但推理是获取答案的过程,并且你为此需要付出的工作量,通常比传统意义上的“回答问题”要大得多。我认为区别在于:“回答问题”通常意味着你已经知道了答案,你只是把你知道的答案呈现出来;而“推理”的过程是得出你本不知道的答案,并且通常你为得出这个答案所花费的时间越长,无论付出多少努力,结果就会越好。
02
思维链的魔力
自从你们发布O1 (2024 年 9 月) 以来,我们都对思维链这个概念非常熟悉了。通俗来讲,就是当你向 ChatGPT 提问时,它会显示一些信息,告诉你它正在做什么,展示它的“解题步骤”。这到底是怎么回事?它是在运行一个逻辑树,然后逐一排除选项吗?实际发生了什么?
Jerry Tworek: 大语言模型在根本上做的事情,是它们通常被称为“下一个 Token 预测机器”。当然,在强化学习时代,这种说法不完全准确,但它们的核心操作仍然是基于 Token 进行的。现在的语言模型也已经是多模态的,它们能处理文本,但为简便起见,我们暂且认为语言模型是在生成文本。而思维链,就是模型使用人类的词汇和概念,将它们自己的思考过程“语言化”地表达出来。
我们能目睹这一切,其魔力在于:当你在整个互联网、在海量的人类知识和人类思维过程上训练模型时,模型在某种程度上就开始学习人类是如何思考的,并学习如何像人类那样得出答案——这是因为它在训练数据中看到了大量由人类预先生成的、展示了思考过程的文本。因此,思维链基本上就是激发了语言模型中那种“像人类一样思考并得出答案”的能力。
早期的思维链工作,很多是关于解决数学难题的。当时,用于激发语言模型产生思维链的最著名的提示词是“让我们一步一步地解决它”。语言模型领域有一个非常经典的研究结果:如果你直接问模型某个数学表达式或谜题的答案,它会试图给你一个答案,也就是预测下一个 Token,但它会失败。这是一个难题,它无法通过一步就计算出来。但如果你对它说“请一步一步地做”,它就会开始思考:“好吧,我不知道答案,但得出答案的第一步是这个。” 接着,它会写下一条思维链,也就是一系列文本、一系列 Token,执行计算的第一部分、第二部分、最后一部分,然后把这些部分连接起来,最终得出答案。所以,思维链本质上就是一个思考过程,它被编码在词语中,就像人类在纸上从头到尾、一步一步解决问题那样。
03
思考时长的权衡
既然用于思考的时间对于推理这个概念如此重要,那么模型是如何决定要思考多长时间的呢?当我们在ChatGPT 5 中使用自动模式,系统提示它将“自动决定思考时长”时,背后发生了什么?
Jerry Tworek: 这基本上是我们优化过程的一部分,其中部分考量是为了用户的满意度和他们的预期。因为当你启用一个思考过程时,你需要在两件事之间取得平衡:一是结果的质量。正如我们所说,并且我们在发布O1 时也展示了那些很棒的 Scaling Law:模型思考的时间越长,你得到的结果就越好。但另一方面,人们不喜欢等待。等待就是时间的浪费,每个人都希望尽快得到结果。
有句老话说,你要想“便宜、快速、好”,三者最多只能取其二。这同样适用于大语言模型。这里存在一个微妙的权衡。因此,我们也向用户开放了部分权衡选项,你可以选择“高推理模型”或“低推理模型”。这最终是同一个模型,我们只是调整了参数,告诉它“我们希望你思考得更长还是更短”。我们试图加入一些启发式规则,来判断在特定情况下,用户是否愿意多等待一会儿以换取更好的答案。但这有点像在猜测用户的预期:在当前情境下,对他们来说多长的思考时间才是“恰到好处”的。
04
O3 是 AI 轨迹的根本性转变
世界上第一个推理模型O1 发布至今已经一年多了,那也是你领导的一个项目。从那时起,整个进展是怎样的?先是 O1,然后是 O3,再到最近的 ChatGPT 5。你如何概括过去一年里,这三代模型在“推理能力”上的演进?
Jerry Tworek: 在某种程度上,我把我们的推理,或者说“规模化强化学习研究项目”,描述为一系列逐步扩大规模的训练实验,每一次都比上一次更具雄心。每一次我们都试图做更多的事、上更大的规模,旨在训练出比上一个更好的模型。显然,我们不会发布所有训练过的模型。有些我们会发布,有些我们认为需要再等等,等待它们在用户手中大放异彩的时机。O1 是我们决定发布的第一个模型,算是向世界展示这类模型的存在。
老实说,O1 真的主要擅长解决谜题,可能还能处理一些零星的思考类问题,但它还算不上一个非常有用的模型。它更像是一个技术演示,而非一个真正打磨过的产品。我们当时觉得我们做出了一些很酷的东西,作为 OpenAI,我们想和世界分享。
而 O3,我认为,极大地改变了这一点。在某种程度上,它是一个真正有用的模型。这可能有点自卖自夸,但 O3 发布正是我开始大量使用 ChatGPT 的时刻,我现在基本是一个完全依赖 ChatGPT 推理模型的用户。我几乎只使用推理模型,因为它们是我唯一信任其输出和结果的模型。
我认为 O3 的能力——它使用工具、利用来自不同来源的大量上下文信息来获取答案、并为达成目标而坚持不懈的能力——确实取得了了不起的成就。我认为 AI 的发展轨迹在此刻发生了一次根本性的转变,我们在那个节点上确实做出了非常杰出的工作。
GPT-5 在某种程度上可以被视为 O3.1,它更像是对同一事物和同一概念的迭代。
而我和我的团队目前正在追求的是下一个突破,这将是我们与模型交互方式的又一次非常、非常重大的飞跃:模型将拥有更强的能力、能思考更长的时间,并在它们自主探索的路径上与更多的系统和信息源进行交互。但与此同时,我们也在 O3 技术的基础上继续构建很多东西,比如 Codex。我认为编码代理是目前在 AI 基础上构建的第一批非常成功的 AI Agent 产品。此外还有像ChatGPT agent、Deep Research,以及其他一些我们将继续在 O3 这一代技术上构建的应用。
05
Jerry Tworek加入 OpenAI 与机器人项目
你是在2019 年加入 OpenAI 的吗?那还是在非常早期,很大程度上还处于 OpenAI 的非营利时代。你是如何与他们建立联系的?你加入时是带着对强化学习的热情,大概是在 Dota 2 那个时期吗?你具体参与了那个 (Dota 2) 项目,还是当你加入时,那个项目已经进展到很后期了?
Jerry Tworek: 我只是通过网站申请的。我做了最按部就班的事:访问openai.com 的招聘页面,点击申请,发送简历,然后期望他们回复。幸运的是,我收到了回复。我不知道当时 OpenAI 收到了多少简历。我想肯定比现在少得多。但我当时去面试时,我的想法是:我做什么都无所谓,只要是强化学习就行。
(关于Dota 2与机器人项目)我参与的项目是 OpenAI 的机器人项目,它与 Dota 项目共享相同的代码和方法。一方面,Dota 项目是 OpenAI 向世界展示扩大强化学习规模能做什么的方式。在某种程度上,它借鉴了 2013 年的 DQN 智能体,并投入了所有艰苦的工作,使其规模越来越大,解决越来越难的问题。而 OpenAI 从一开始就意识到——这是一个简单但天才般的洞察,你需要有大规模的系统才能学习到真正有趣的复杂行为。Dota 项目就是一种方式,试图表明通过扩大强化学习的规模,我们可以解决相当复杂的环境。
当时还有另一个项目。我想到那时 OpenAI 大概有三个强化学习项目。第二个是机器人技术,它试图应用我们当时已知或正在证明可以解决相当复杂的电脑游戏的方法,来看它们能否解决所有实际问题?OpenAI 总是非常乐观和雄心勃勃,试图看看我们是否能扩展强化学习 来解决 Dota,那它能帮我把碗装进洗碗机吗?它能帮我叠衣服吗?它能盖房子吗?这就是我们当时在做的。我参与的项目专注于灵巧操作,这在当时,并且现在仍然是训练策略面临的一个难以捉摸的挑战。我们做过一个演示,展示了一个由神经网络控制的手能够解开魔方,这是一项相当精细和复杂的任务。
快进到今天,聊聊你们在OpenAI 的幕后和日常生活。Jerry 你的一天是怎么样的?像你这样的人都做些什么?阅读论文、训练模型,还是管理团队?
Jerry Tworek: 我的日程出奇地规律。我送孩子上学后,一早就来到办公室。我一整天所做的,就是和其他研究人员交谈。我每天、一整天都和其他研究人员交谈,这几乎是我工作的全部内容。我收集人们的想法,与他们碰撞交流,与一个伙伴进行头脑风暴,然后转向另一个伙伴,周而复-始地做同样的事情,以此不断完善我们的研究计划。有时也会开小组会议,小组会议有自己的运作方式,但这依然是我工作的核心。唯一改变的是,不同会议、不同人之间讨论的研究主题。
06
OpenAI 的研究策略与工作文化
研究的优先级是如何确定的?是自上而下,还是自下而上?是人们提出想法,然后其他人来审查吗?这个流程是怎样的?
Jerry Tworek: 构建、组织和领导一个研究项目的艺术,这是我在OpenAI 的经历和我的职业生涯中很快就学会欣赏的东西。我们擅长构建研究项目。而且我认为这是一种独特的混合体。你不能说是自上而下,也不能说是自下而上。它是这两者的结合,平衡了所有重要的方面。
OpenAI 体现并坚持的一件事是:我们所有人总共只专注于极少数的项目。项目并不多。OpenAI 并非试图做所有事情。我们不是试图建立一个产品组合,也不是试图进行多个不同的押注。我们的理念始终是,我们把少数核心事情做得极好,并在那里投入大量精力。这意味着需要有很多人在同一个大规模、高抱负的项目上共同努力。我们就有几个这样的项目。总数大概三四个,取决于你怎么定义,仅此而已。
从这个角度来看,人们没有绝对的自由。并不是说人们来到 OpenAI 说,“我想做这个”,然后他们就可以去做。因为你需要做一些朝着那三四个项目之一的目标努力的事情。然后在这些项目内部,我们试图相对自下而上,只要它再次服务于那些总体目标。研究主管最重要的职责就是不断确保所有研究人员都在朝着这一个共同的目标努力,确保他们不会在自己的思维和做事方式上产生分歧。这是一件极其困难的事情。这是一项非常艰巨的工作,而它的微妙之处并不总是显而易见。但这在很大程度上就是现实。我不认为自上而下的研究架构在研究型组织中有效。我坚信这行不通,因为你雇佣了世界上最聪明的一批人——而 OpenAI 拥有极其、极其聪明的人才——不是为了指挥他们做什么。他们需要自己弄清楚该做什么,但他们不能在所有可能的领域中去随意寻找“酷”的事情来做。他们需要从项目需求出发,从什么能最大程度地推进 OpenAI 研究目标这个范围内,来弄清楚该做什么。
那些同时进行的三个或四个项目团队之间,合作程度如何?我可以想象,一方面大家普遍希望合作,但另一方面,这可能是世界上最重要的IP,你可能想确保不是每个人都了解所有项目的所有细节。你如何看待这种合作与 IP 保护之间的关系?
Jerry Tworek: 你可能会感到惊讶,但事实是,在OpenAI 的研究部门 (目前大约有不到 600 人),每个人都了解所有事情。事实就是如此。我们一直都是完全透明的。在某种程度上,如果有一个研究人员连了解所有事情的机会都没有,那你就是在作茧自缚,因为他们没有最好的信息来以最好的方式完成他们的工作。
这确实存在 IP 流失的风险,但我个人认为,不去做正确的事情、让人们不了解研究进展、从而不能做出最好研究的风险要高得多。这就是我处理这些事情的方式。所以我们在研究内部是极其透明的,这是我们的运营原则之一,因为我们的目标是尽我们所能做最好的研究,并因此训练出最好的模型。
(关于协作文化)这里的文化通常是非常协作的。当然,当你有 600 个人,有不同的小组时,总会发生这样的情况:这个人不喜欢那个人,可能只是因为对方奇怪地看了他一眼;或者这个人觉得那个人闻起来不好,或者就是不喜欢他的想法。这种情况确实会发生。大家都是人,这是人之常情。但总体而言,我认为我们真的有这种信念:我们在这个比我们任何个体都更宏伟的目标中是站在一起的。这是一个非常正和的游戏,因为 AI 似乎正变得越来越重要,而 OpenAI 的成功远非囊中之物。这取决于我们每天是否都做出了色的工作。所以大家有很强的命运共同体意识,我们都需要相互依赖来完成各自的工作,以实现这个共同的使命。所以我普遍认为,尽管人性有时会成为阻碍,但在很大程度上,OpenAI 是非常协作的。
你们是如何设法保持那样的发布节奏的?从外部看,在研究和发布之间似乎存在另一种紧张关系。研究可能需要长期投入,但你们似乎在不断地交付产品,包括在核心模型方面(O1、O3 和 GPT-5 都在一年左右推出)。你们是如何平衡这一切的?为什么你们能够如此迅速地交付产品?
Jerry Tworek: 我认为根本原因在于,总的来看,OpenAI (至少在我的世界观里) 是一家划时代的公司,我们背后有令人难以置信的势头。我们知道我们过去做得相当出色,我们需要继续保持下去。我们拥有极其聪明的人才。毫不夸张地说,世界上最有才华的人现在都想来 OpenAI 工作,这意味着每个人的平均产出都非常高,而且每一个人的贡献都非常大。因此,我们有推动我们前进的势头,我们有真正优秀的人才协同工作,我们有很好的构建研究的运营方式,并且可以从硅谷借鉴大量关于如何快速完成任务的方法。
而且人们通常对工作充满热情。每个人都感受到了我们正在做的事情、我们试图实现的目标的分量和潜力,正因为如此,OpenAI 的人倾向于非常努力地工作。拥有一群优秀的人才,对他们所做的事情充满热情,并且所有人都能合理地协同工作,这通常就会带来丰硕的成果。而且我们明白,历史上只有这一次机会来构建、部署和发展 AI,人们希望以可能最好的方式来完成这件事。
你们会大量使用自己的工具吗?我记得Sam 几天前在推特上说,你们今天在开发者日上宣布的最新内容,很多都是由 Codex 编写的。这是你们日常体验的一部分吗?你们会使用一个模型来为新模型构思新想法吗?你们会使用 Codex 来编写代码吗?这是如何运作的?
Jerry Tworek: 我们在编码时的确大量使用Codex,而且它正变得越来越好。就像我说的,我经常使用 ChatGPT,虽然不太会用它来真的用来构思,但是对于我遇到的很多问题,我认为我现在是 ChatGPT 的重度用户,很乐意每月为它支付 200 美元,而且我觉得物有所值。
他们确实让我付钱,而且我对此完全接受,因为这样你就能获得非常慷慨的使用额度,而不会真的受到限制。
07
AI的核心:预训练与强化学习
要理解OpenAI 截至 2025 年 10 月的现代 AI,正确的理解方式是将其视为预训练和强化学习(RL) 的结合吗?如果是这样,在宏观层面上,这两者之间是如何衔接的?
Jerry Tworek: 今天的语言模型可以被认为是:首先它们被预训练,然后你对它进行强化学习。没有预训练,强化学习就行不通。而且我认为,同样地,预训练模型有很多局限性,如果不采取一些类似强化学习的方法,就很难解决。所以我认为这两个部分都将继续存在。
我认为它们如何组合和执行的方式可能而且很可能会在未来演变。没有什么是应该被视为教条和固定不变的,我们需要不断地找出训练更好模型的方法,这就是我们正在努力做的。有趣的是,我必须称赞 Ilya 非凡的远见。当我 2019 年初刚加入 OpenAI 时,我记得当时有一个研究部门的全员会之类的,Ilya 走上台,谈论 OpenAI 的研究计划是什么?我们试图追求什么?
他在 2019 年初所说的是:用我们能获得的所有数据训练一个大型生成式模型,然后对它进行强化学习。这就是 2019 年初 OpenAI 的研究计划,而这正是我们今天正在做的事情。当然,现在的算法改变了,架构也改变了。我想他那时甚至没有在考虑 Transformer。当时 GPT 已经有了,但它更像是一个玩具示例,某人在随意摆弄。但是,用世界上所有数据训练大型生成式模型,然后用它进行强化学习的目标,已经存在于 OpenAI 的核心 DNA 中了,而这就是现在正在发生的事情。
08
什么是强化学习?
什么是强化学习?
Jerry Tworek: 我通常用来比喻和类比强化学习的是训练一只狗。这非常接近。我青少年时期养过一只狗,我甚至还记得我父母当时的做法——我当时对养狗一无所知——但他们通过朋友的朋友,邀请了一位消防员,我想他是和搜救犬一起工作的。他来找我,基本上告诉了我一些关于如何训练狗的知识。大多数对训练狗狗雄心勃勃的主人都知道,口袋里总有一袋零食是极其重要的。你必须一直带着。无论何时你看到你的狗表现良好,你都应该微笑,并给你的狗一块零食。无论何时你看到你的狗做了坏事,你基本上就不再关注它,转过身去,表现出不高兴。而狗通过观察 (你的视觉表现) 会发现这是一种负面反馈和不良行为。我们对模型做的也完全一样。我们在模型中引发很多不同的行为,把它们放在具有挑战性的情境中,然后如果它们做了我们想让它们做的事情 (做了正确的事),我们就给它们一块“曲奇饼”,如果它们做了我们不想要、我们不喜欢的事情,我们就给它们某种惩罚和负面奖励。一个好的方式,执行强化学习的好方式是平衡这两者。所以如果你大概一半时间给“曲奇饼”,另一半时间给惩罚,当然这更像是一个数学层面的问题。但那是最重要的部分:引发行为,奖励好的行为。这样一来,未来模型将更有可能做你想要它做的事,更不可能做你不想让它做的事,并通过这种方式不断改进。这就是训练模型以引发实际行为的方式,而不是“预测下一个 Token”。如果你预训练一个模型,你实际上是在训练模型预测下一个 Token。强化学习是一个完全不同的梯度,是我们想从模型中得到的一套完全不同的东西。
在强化学习中,有智能体、环境、行动、奖励和策略这些术语。“策略” (Policy) 具体是什么?它是指一种战略还是模型的行为?另外,近来有很多关于为 RL 设计合适“环境”的讨论,这具体是什么意思?
Jerry Tworek: “策略”就是模型的行为,因为模型的权重代表了它在不同情境下的具体反应。模型最终是一个数学对象,你可以定义它。而“策略”就是一个数学函数,它将观察“映射”到行动——也就是你看到了什么,然后你根据你看到的去做什么。
(关于“环境”)“环境”在某种程度上,是模型看到的一切。但强化学习环境与大多数其他类型 (比如你可以称之为监督学习或无监督学习) 的环境,其间的有趣区别在于,你希望强化学习环境是具有交互性的。你希望它们随着模型的行动而演变。总而言之,这就像如果你想学弹吉他,你拿起吉他弹奏它,你会听到声音,然后你根据听到的声音 (也就是吉他发生的实际反馈),来学习如何弹奏。以类似的方式,你需要的“环境”是世界如何对你的“行动”作出反应,而驱动你行动的很多因素,正是你的环境和你的世界中正在发生的事情。而通过强化学习,是教会智能体学会对环境变化作出反应的唯一方式。
09
强化学习的演进之路
您能为我们简要介绍一下强化学习这些年的演变历程吗?最主要的是,现代RL与过去的 RL 有何不同?
Jerry Tworek: RL 的历史其实非常悠久,但我们现在谈论的很多东西也没那么古老。最主要的一次“构造性转变” (tectonic shift) 是将神经网络与强化学习结合起来。作为一种在数学定义的环境中优化行为的通用数学方法,以及作为一种研究方法,强化学习的出现早于神经网络...
这就是所谓的深度强化学习?
Jerry Tworek: 是的。后来就有了深度强化学习,即DeepMind 将神经网络与强化学习相结合的发明,也就是我跟您提过的 DQN 时刻。从那时起,有一段时间,将强化学习用于游戏是一个非常活跃的研究领域。就像我 2019 年刚入行时,强化学习在当时颇为流行,虽然算不上非常成功,但它确实能解决很多游戏问题。但瓶颈在于,那时的模型没有经过任何形式的预训练。我们训练了大量的行为,比如玩游戏,我们甚至还迎来了 AlphaGo 时刻,这让很多人兴奋不已。但那仍是在模型本身对这些行为没有真正理解的情况下学习行为。模型虽然受到了大量强化,但仍然非常,怎么说呢,你可能不想称之为“原始智能”,但差不多是那个意思,模型本身并不具备真正的智能。
围绕这一点曾有过长期的研究,许多很酷的成果和对强化学习的理论理解都源于那个时期,因为当时人们在积极地研究强化学习。但在某种程度上,不经预训练就去做强化学习,是一条死胡同。后来,当我完成了机器人的项目后,我开始转向教语言模型编写代码。这时,拥有预训练模型就变得至关重要了。GPT 时代带来的规模化能力,以及大规模注入海量数据来训练真正出色的模型,使得我们在那时就已经可以开始应用强化学习——这几乎是我(转向语言模型后)立刻着手的第一批工作之一。基本上 GPT-3 一训练好,我就尝试在它上面应用RL。
但我们总是遇到瓶颈。系统运行起来有些笨拙。很难弄清楚什么是正确的算法,应该在哪些问题上应用它,以及用什么算法来训练它才是正确的。OpenAI 当时的做法,也基本反映了研究的普遍路径,就是我们“囫囵吞枣”般地照搬了许多用于游戏的方法,几乎同样的东西也用在了机器人上。我最早在 大语言模型 上做的强化学习,用的就是我们之前广泛使用的 PPO。这确实产生了一些结果,但那些 RL 的早期成果并不完全令人震撼。在很长一段时间里,我们持续在上面投入。我个人始终坚信 RL 会在语言模型领域迎来一个高光时刻,但早期的不断试错并不算非常成功。
到了我们训练 GPT-4 的时候,发生了一件有趣的事。我们训练出了 GPT-4,如今每个人都觉得“哇,GPT-4 是个多么棒的模型”。但在当时,我们内部其实颇感失望。我们常常觉得,“天啊,我们训练了这个模型,花了这么多钱,但它感觉还是挺蠢的。”至少,我们已经有 GPT-3 了,GPT-3 已经能做所有那些事了,而 GPT-4 看起来似乎也没强到哪里去。我们就面临一个问题:这个模型,它在那些单 Token 的评估上似乎表现得有点聪明。当它只输出一个 Token 时,它似乎能对复杂问题给出非常详细的回答,可一旦你让它多说一点,它的回答就变得很不连贯,或者根本给不出很长的答案。我们必须解决这个问题:我们到底该如何让这个在权重中似乎蕴藏着智慧的语言模型,听起来也同样聪明,并且在对话时表现出色?
就在那时,一项几年前就已开发出来的技术真正大放异彩,它被称为 RLHF。这基本上就是在 大语言模型 上运行 PPO,其奖励来自于人类对(模型生成的)两段不同文本的偏好。
就是点赞和点踩。
Jerry Tworek: 是的,点赞、点踩,无论人类的偏好是什么。这是一种非常好的奖励,因为模型可能在很多方面生成糟糕的文本,早期的GPT-4 确实在很多方面都表现不佳。RLHF 能够捕捉到这些问题并加以纠正,它会强化好的行为,强化生成优质文本,同时惩罚劣质文本。最终,GPT-4 加上 RLHF 这个组合,共同为世界带来了大家今天所看到的 ChatGPT 时刻。因此,这既是预训练的巨大成功,实际上也是强化学习以RLHF 形式取得的巨大成功。
10
基于人类反馈的强化学习(RLHF)
我想再深入确认一下RLHF。实际的 RLHF 过程是发生在(模型)训练之后,对吗?这项工作具体是怎么开展的?是让一大群人,比如行业专家,坐在模型前,然后给它反馈吗?
Jerry Tworek: RLHF 作为一个研究项目,其实已经在后台悄悄进行了好一阵子。我记得我们做过RLHF,至少我印象中 GPT-2 就被 RLHF 了相当长一段时间。所以这项技术早已存在,并且一直在推进。为 RLHF 收集数据本身就是一个独立的研究领域。基本上,你总要思考,什么是训练模型的正确数据?什么是用来训练你的奖励(模型)和塑造你的奖励的正确数据?这是我们一直在做的研究,它在许多不同层面上都非常开放且具有深度。我想已经有论文阐述过 RLHF 是什么,但这个领域依然深奥。简而言之,你有一群我们现在称之为“AI 训练师”的人,他们负责审阅模型的输出并给它们打分,然后你基于这些分数来学习一个模型(即奖励模型),再用这个模型去(指导)训练。
这是否就是整个数据标注行业的一部分?比如Scale AI 和其他许多公司,它们做的就是这个?
Jerry Tworek: 是的,没错。我认为在某种程度上,随着模型变得越来越智能,(人工标注)正日益成为历史,它的重要性在下降。但我认为在几年前,尤其是在GPT-4 时代,这在当时绝对是核心环节。关于数据标注行业,我不太确定我们想聊多深,但有趣的一点是,这个行业必须不断地自我革新。因为 AI 越来越聪明,到了某个节点,如果 AI 已经能做某些事了,你就不想再用人类去标注了。因此,你必须不断推动前沿,在你对前一个阶段(的任务)完成 RLHF 之后,就要去改变你所标注的数据类型。
11
预训练:非监督学习 vs 自监督学习
我们一直在讨论RL,但所有这一切的第一阶段是创建模型,也就是预训练。那属于非监督学习,对吧?您是否愿意,为我们定义一下非监督学习与监督学习?以及在什么意义上,预训练是非监督的,还是自监督的,或者它们之间有什么细微差别?
Jerry Tworek: 是的,我认为这些都是细微的差别,它们之间的界限并不像某些人喜欢定义的那样非黑即白。不过,预训练之所以被称为“非监督”,是因为在它的某种定义下,你喂给模型的数据不需要任何额外的标签。你只是把原始文本喂进去。当然,从某种意义上说,你也可以认为这些数据已经是被标注过的,因为它是“自标注”的。如果你给模型一段文本,让它预测文本的下一部分,这在某种程度上就是个“标签”。但它之所以被称为“自监督”,是因为我们没有明确告诉模型什么是对、什么是错,或者我们想从它那里得到什么、不想要什么。我们只是想让它预测数据的另一部分。你对图像也可以做同样的事情。你可以遮住图像的一部分,然后告诉模型,去预测图像的下一部分。
不过,在经典的机器学习概念中,有“目标”和“标签”之分。就像我们谈论分类器时,监督学习是指,你对你的“目标”是什么有一些概念,对“标签”也有一些概念。监督学习就是从“目标”去预测那些“标签”,这好比是一种映射关系。但实际上,有趣的地方在于,“目标”中包含的信息通常远多于“标签”。研究“目标”本身的结构,比仅仅学习那个映射关系能带来多得多的学习(成果)和智能。因此,把所有算力都用来研究数据本身,而不依赖标签,是正确的做法,这通常被称为表示学习,即研究数据及其内在属性。
12
DeepSeek 的启发
您前几天发推文说:“GRPO 的发布..在很大程度上加速了大多数美国研究实验室的(强)学习研究项目。” 那么 GRPO 是什么?
Jerry Tworek: 那条推文有点开玩笑的成分。我在这里其实是根据我的一些心智模型,对实际发生的事情做了一点推断,因为我毕竟没有待在所有美国的实验室里。简而言GRPO 是DeepSeek 开源的一个东西。凡是长期泡在网上、关注 AI 动态的人,应该都知道“DeepSeek 时刻”,就是那家看起来做得非常非常棒的公司发布了一个新模型。那也是一个预训练模型,一个推理模型。他们开源了算法,开源了他们做的很多工作。总而言之,那是一次非常了不起、技术上极其出色的发布。
当时有很多讨论,焦点之一是他们预训练模型的成本特别低,那是关于“DeepSeek 时刻”讨论的一部分。但讨论的另一部分是,他们发布了他们的推理过程。那次发布距离我们的 O1 发布并没有隔多久。据我所知,我们的 O1 发布让许多美国实验室措手不及。据我了解,他们当时并没有一个类似先进的 RL 研究项目,基本上一个也没有。
而且我认为世界上唯一的公司,据我所知,当然可能有很多我不知道内情,但你总会和人聊天,听到些小道消息。所以这是我认知的世界版本:如果你去看 DeepSeek 这家公司早期的论文,你会发现他们在某些方面所做的 RL 研究,和我们正在做的非常相似。我必须澄清一点,OpenAI 正在做的并不完全是 GRPO,它在很多方面都有细微的不同。但最重要的是,它们都属于大规模的策略梯度算法。
DeepSeek 这家公司,一直在一个稍微相邻的领域进行研究。他们的研究方向和我们相距不远。当我们发布 O1,告诉全世界你可以通过在语言模型上扩展强化学习来获得那些非常棒的结果时,我认为 DeepSeek 公司很快就意识到,“好吧,我们距离获得同样好的结果已经不远了。”这对他们而言并非一个巨大的飞跃。然后他们就做到了。他们训练了他们的推理模型,发布了它,并且告诉了全世界他们是怎么做的。这距离我们发布 O1 真的没过多久。所以我想,对于很多(美国)研究实验室来说,他们当时还不知道怎么训练推理模型,也没有相关的研究项目,当他们看到“哦,有这家公司,他们发布了具体做法”,这帮助他们得以更快地启动和训练推理模型。如果没有 GRPO,他们将不得不自己去摸索所有这些细节,那会慢得多。
13
强化学习像制造半导体,预训练像炼钢
要规模化强化学习需要具备什么?如果说OpenAI 之前有一个阶段是专注于预训练,那么,如果我理解正确的话,在过去的 12 到 18 个月里,重点转向了规模化 RL。那么这仅仅是给 RL 投入更多算力、更多数据、更多我们之前提到的标注的问题吗?究竟需要什么?
Jerry Tworek: 首先需要知道和理解的重要一点是,强化学习非常难。从概念上讲,当然,强化学习领域仍有很深的内涵,但从非常概念化和数学的角度来说,预训练是极其简单的。它是你能做的最简单的事情。而且业界已经在这上面投入了大量的思考和优化,花了好几年时间在非常大的规模上把这个非常简单的数学运算优化到极致。
而强化学习,则要复杂得多得多。在一次强化学习的运行过程中,有更多的事情在同时发生。在执行过程中,有更多环节可能出错,尤其是当你扩大规模时,会遇到更多类型的瓶颈和失败。这是一件更精细的工作,有大得多的出错空间。在某些方面,我不想过度引申这个类比,因为它有点夸张,但打个比方,你可以有一家钢铁厂,它生产钢铁,过程相对标准化,你生产出钢块,它们均匀、漂亮,定义明确。而与此相对的是制造半导体,全世界只有极少数公司能做到,因为有太多可能出错的环节,你必须对细节倾注大量的关注才能制造出顶级的半导体,它的内部结构极其复杂。
在很多方面,预训练和强化学习的对比有点像,当然我不是想贬低预训练,因为在大规模上把预训练做好,本身也有巨大的技术难度,但是,强化学习的整个技术栈中,有太多的活动组件和太多变量需要你全部做对,才能保证一次大规模运行的成功。
14
AI Agent 与推理、RL 是如何融合的
您提到了你们正在研究的ChatGPT agent,也就是 AI Agent。这些内容(比如工具使用、AI Agent 的自主性)与推理、RL 是如何融合的?请帮我们梳理一下,各自的功能是什么,它们之间又有什么相互影响。
Jerry Tworek: 我认为,重要的一点是,我坚信AI 可以通过自动化、通过解决问题、通过 AI 为我们做我们想让它做的好事,从而对我们的世界和生活产生巨大的积极影响。在很长一段时间里,其实也没那么长,大概过去两三年吧,我们一直生活在这样一个世界:我们向 AI 提问,它给我们一个答案。起初是即时回答的。现在它可以思考个一两分钟,这已经让人感觉挺久了。但仔细想想,两分钟你能做什么?如果你想想人类能解决多少问题,AI 在它能解决的事情上可能比人快一点,但这仍然是它能力的极限。
你很清楚,还有很多任务是需要 AI 花费更长时间去完成的。比如当我提示 Codex 时,它会运行一段时间,也就几分钟。我们内部现在有很多技术和项目正在做,允许模型运行更长的时间。我们还没想好以怎样的产品形态来部署它们,但现在的模型已经可以在某些类型的任务和问题上思考 30 分钟、一个小时、两个小时,甚至更久。它们是具备这种能力的。我们需要弄清楚的是,如何让长时间思考的过程变得更有用,如何让它能真正应用于现实生活中的各种问题,无论是编码、预订差旅、制定计划,甚至是设计房屋或新的电子设备,以及任何其他我们希望模型最终能为我们做的事情。而要实现这些,很大程度上依赖于模型能够更长时间地独立思考,能够考虑更多的替代方案和细节,有时甚至需要耐心处理完一长串繁琐的任务清单。
所以AI Agent 的能力是由底层的推理能力驱动的。那么,是否存在“在线强化学习”这样的概念?比如,当 AI Agent 执行某个任务并从现实世界中学习时,强化学习会实时发生?
Jerry Tworek: 总的来说,你听到的大多数用于语言模型的RL,都是“在线”的,但它的“在线”方式仍然是一次训练运行。它(模型的训练)仍然是与用户(的交互)相分离的。世界上确实有过几个这样的模型,我最近了解到,Perplexity 好像正尝试在他们有用户在环的情况下在线训练某些模型。理论上讲,在 ChatGPT 或其他任何产品中,通过响应用户(的反馈)并利用你从中获得的任何奖励来进行强化(训练),是完全可能的。但据我所知,这至少不是 OpenAI 目前在做的方式。这种(实时在线训练)方式可能很棒,但也可能很危险,因为在那个循环中,你很难真正控制你到底在强化什么,以及可能会导致什么后果。因此,至少在我们拥有非常好的安全防护措施之前,我认为我们不应该在像 ChatGPT 这样复杂和大规模的系统上尝试那样做。
15
模型擅长编程是一种“副产品”
RL 似乎在数学和编码方面表现尤其出色,但在其他领域表现如何呢?我们深入探讨一下数学这个话题。就在 9 月,你们在 ICPC 世界总决赛上取得的成就令人难以置信。您愿意谈谈具体情况,以及从模型技术角度来看,幕后发生了什么吗?
Jerry Tworek: 从我们的的角度来看,我们做的(特定调整)少得惊人。我们只是拥有了非常聪明的模型。当我们要求它们解决编程问题时,它们总能给出正确答案。这背后的一点背景故事是,在一段时间里,我们专门使用编程谜题作为验证我们想法的一个绝佳研究试验平台。这些是很好的实验问题,它们从未被视为产品的一部分,但它们是相当复杂的问题,需要大量思考,也非常适合用来提供奖励信号。因此,许多研究人员喜欢研究这些问题,以此作为尝试他们强化学习想法的一种方式。比如:“哦,我需要一个数据集,那我就用编程谜题的数据集来试试。”
我认为,在某种程度上,正因为如此,我们的模型在竞争性编程方面总是表现得非常出色,这算是一种副产品。我们从未刻意追求在这方面表现出色,但研究人员会用它来检验自己的想法。因此,无论我们进行何种训练,每一次训练运行最终都会在解决这类谜题上表现得非常出色。所以对我们来说,去参加比赛并提交结果,在很大程度上只是一种形式,主要是向世界展示这些模型的能力达到了什么水平。
但我认为,必须承认一个重要事实:并非在所有领域,我们都能达到与编程竞赛中相媲美的卓越水平(至少与人类基线相比)。在许多方面都做不到,因为编程问题已经被众多研究人员长时间反复尝试和研究过了。而研究人员们并没有总像他们本可以,或者像我希望的那样,花足够的时间去解决那些人们在 ChatGPT 或我们的模型上寻求帮助的非常实际的问题。
(关于ICPC竞赛背景) 我们确实参加了一系列各种各样的比赛。我们参加了 ICPC,今年早些时候还参加了 IOI (国际信息学奥林匹克竞赛),以及 AtCoder 启发式竞赛。在 AtCoder 比赛中,我们获得了第二名,仅次于一位人类选手,巧的是,他也是波兰人,还曾在 OpenAI 工作过一段时间。但我认为,我们一直在寻找一个时机,在那个时机,我们的模型已经足够聪明,能够在这些竞赛中与那些极其聪明、才华横溢的人类一较高下。但这从来都不是我们的特定目标或重点。我们更像是在想,如果我们能做好研究、训练出聪明的模型,它们理应足够聪明去做这些事。现在我们达成了这个里程碑,便继续前行了。
我希望,并且我也认为,我们正看到越来越多实际且有形的成果涌现。几乎每隔一两周,我都能在 Twitter 上看到一些可信的报告,显示有真正的科学家在利用我们的一些推理模型帮助他们进行计算,用我们的模型解决棘手的技术难题。我认为这才是我们想要达到的目标。赢得竞赛很酷,但人们参加竞赛是为了证明他们有能力胜任真正前沿水平的工作,解决新的技术问题。这在某种程度上,也正是我们希望从模型身上看到的。
16
强化学习的泛化与“奖励破解”
你如何将强化学习应用到其他领域?在那些答案并非非黑即白,界限更模糊的情境和学科中?比如GDP-Val 评估中涉及的其他经济领域。对于将 强化学习 作为一条通往其他领域取得成功的泛化路径,您有什么看法?
Jerry Tworek: 我认为最直接的答案是,人类总归有办法学会所有这些东西。只要有任何方法可以评估表现,判断对错,并且你能计算出这种反馈,那么你就可以对其进行优化,也就可以应用强化学习。可以这样说,如果连对错的概念都没有,那么人类也无法改进和学习,因为终究需要有某种学习信号作为来源。
这主要是一个获取反馈的便利性和难易度的问题。每个从事强化学习的人都应该努力尝试在日益复杂和有趣的训练信号上进行训练。在这个过程中,一个常见的概念就是所谓的 奖励破解。这是在进行强化学习时经常发生的一个重要问题。你设计了某种奖励机制来鼓励某些行为,但有时你会发现,你所奖励的,并非你真正想要的。一方面,你需要训练模型去执行你所奖励的行为;另一方面,你给予模型的奖励和你真正期望的目标之间,天然就存在错配。有时模型的确做了你奖励它的事,但这却违背了你最初的意图,这时我们就需要去修正它。
这几乎像是在教育孩子时面临的挑战。在某种程度上,你可以说这是强化学习的局限性。但当我思考这个问题时,我意识到这种情况在人类社会体系中也大量存在。社会中有很多激励系统和奖励系统,无论是在工作场所还是其他人类群体中,为人类设定的奖励也并不总是与系统的最终目标完全一致,于是人们也会以各种方式不断地“破解奖励”。在设定正确的奖励与观察系统实际表现之间,永远存在着一场持续的“打地鼠游戏”。这在几乎所有的政策制定和激励计划中都是一个巨大的难题。这与强化学习研究中面临的“打地鼠游戏”如出一辙——不断努力,确保你设定的奖励能越来越好地反映你真正希望模型去做的事情。
17
通往 AGI 之路
您前几天发推文说:“我们都一致认为 AGI 昨天就该建成了。而它之所以还没建成,主要是一个需要被修正的简单错误所致。”您认为 预训练 和规模化的 强化学习 相结合,能带领我们实现 AGI 吗?
Jerry Tworek: 这里总有一个有趣的问题:我们该如何界定什么不属于预训练和强化学习?界限在哪里?我普遍认为,像我们今天所做的预训练是必需的。像我们今天所做的强化学习也是必需的。当然肯定还需要其他一些东西,我们围绕其中一些方向已经制定了非常雄心勃勃的研究计划。而且我不认为,该怎么说呢,在研究领域中,“距离”是很难衡量的。对于一些人来说,我们正在做的事、想要做的事以及计划构建的东西,与(实现 AGI 所需的)那些东西相距不远。但换了另一些人,他们会说:“哦,这完全是两码事,”并且坚决否认。所以我不想陷入关于它们是否相同的辩论。
但我们正在,并且也希望不断地改变我们训练模型的方式,使其更能体现我们所认为的智能的正确形态和最有效的学习形式,并且我们也在不断研究各种可能性。至于距离 AGI 还有多远,也是一个非常复杂的问题。我非常赞同别人对我说过的一句话:如果你和 10 年前的人交谈,给他们看今天的 ChatGPT,他们很可能会称之为 AGI。但身处今天的我们并不会这么认为,因为它依然存在很多局限性,我们都非常清楚这些局限性。而且我们坚信我们能够解决这些局限性。未来诞生的模型可能还会有其他新的局限性需要被修复。
有一个最终极的问题非常难以回答:模型何时才能在没有大量外部输入、没有人类持续介入和修复的情况下,实现自我改进?我认为这是一个极其困难的问题。这是一个我们(全人类)都必须严肃对待并努力解答的问题。因为到了那个时刻,模型虽然仍将高度依赖我们的基础设施和系统,但它们将能够开始自我修复,不再需要我们的干预。而到那时,对于 AI 究竟能做什么、能解决什么问题的预测,将开始变得比我们现在所能做出的预测要模糊得多——我认为我们现在的预测能力还是相当不错的。
从哲学的角度来看,Rich Sutton 在 Dwarkesh 播客上表示,通往 AGI 的唯一路径是 纯粹的强化学习,而 大语言模型从根本上说是模仿现实,是一个有缺陷的前提。您对这个问题在哲学上有什么看法吗?
Jerry Tworek: 我还没机会完整听完那期节目,所以还不了解他观点的全部细节。但我能说的是,我们目前正在对语言模型进行非常深入的强化学习研究。而且我,就“纯粹的强化学习”而言,我并不认为“纯粹的”强化学习 真的有什么意义。强化学习 需要 预训练 才能成功。而正如我之前所说,我认为 预训练 也需要 强化学习 才能成功。如果缺少 强化学习,我不认为我们正在推进的研究计划会有意义。但是,OpenAI,以及我敢肯定所有其他 AI 实验室,都在非常认真地对我们的模型应用大量的强化学习。
而且我认为,很多人在讨论 LLMs 究竟是通往 AGI 的快车道还是死胡同时,他们所指的往往是 预训练。但很明显,我们目前采用的方式还不够,也还不是全部。我们还需要对整个技术方案进行进一步的改进。但有时人们会说:“哦,如果你在做 强化学习,那它就不是一个 LLMs 了,它是别的东西。”有时又会说:“哦,如果你能在模型的 推演 过程中编写程序,使其形成一条 思想链,那它就不只是一个神经网络了,而是一个 神经符号系统。”所以很容易,人们对于什么是 LLMs,什么不是,看法不一。
但我个人的观点是,我们现在所拥有的是一个非常好的基础,足以迈向下一步。我们确实先有了 Transformers,最初用于翻译;然后我们用大规模数据对它们进行 预训练;接着我们又在它们身上应用了 基于人类反馈的强化学习。现在我们正在进行大规模的强化学习。未来我们还会做一些更复杂的事情。有可能在发展过程中的某个节点,模型架构会开始发生或大或小的重大变化。但我个人认为,我们正走在正确的道路上。这种感觉与其说是彻底掉头转向,不如说更像是在不断地增添新事物,并逐步淘汰那些陈旧的元素——那些曾经带我们达到某个特定智能水平,但现在已不再被需要的东西。
| 文章来源:数字开物
【AI技术与应用交流群|仅限受邀加入】
AI算力领域TOP级从业者专属圈层
√ 与头部算力企业深度对话
√ 与AI上下游企业深度对话
√ 获取一手全球AI与算力产业信息
√ 获取AI热点及前沿产业独家信息
√ 随时了解全球AI领域高管最新观点及实录全文
√ 有机会参与AI主题产业交流活动
扫码验证身份(需备注姓名/公司/职务
不止有 DeepSeek,更有 AI产业的未来!
• END •
【专栏】精品再读
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.