OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密|算法|智能体|预训练|openai|深度思考模型

分享至

新智元报道

编辑：编辑部 YZHN

【新智元导读】SemiAnalysis全新硬核爆料，意外揭秘了OpenAI全新模型的秘密？据悉，新模型介于GPT-4.1和GPT-4.5之间，而下一代推理模型o4将基于GPT-4.1训练，而背后最大功臣，就是强化学习。

OpenAI的o4，已经在训练了？

就在最近，SemiAnalysis发表了一篇硬核长文博客，爆料了不少大模型圈的内幕消息。

其中，一些最核心的亮点，先一睹为快：

OpenAI正在训练一个规模介于GPT-4.1和GPT-4.5之间的新模型
下一代推理模型o4将基于GPT-4.1展开RL训练
强化学习改变了实验室结构，甚至是大厂未来研究的侧重方向和优先级
定义奖励函数难上加难，往往AI钻空子之后，漏洞才能被发现
不牺牲LLM任何性能，不用合并权重，RL另一条路——数据混合
与预训练不同，RL可持续更新Scaling模型能力，DeepSeek-R1是典例
高质量数据是Scaling强化学习的护城河
训练小模型，蒸馏效果要比RL更好

新一轮预训练已开始

首先，让我们看看其中最硬的内容——关于OpenAI的全新模型。

因为现在星际之门超算还未建成，所以今年OpenAI的计算集群规模不会有显著增长，因此显然无法在算力上进一步扩大预训练规模。

不过，这并不意味着，OpenAI会停止预训练新模型。

如今，预训练已经比任何时候都更为重要。在不牺牲模型智能水平的前提下，哪怕只是小幅降低推理成本，都能极大节约开销，加快RL的反馈循环，催生更大的进步。

多个实验室的研究表明，中等规模模型的RL反馈循环速度已经超过了大型模型。

而如开头所提，OpenAI的新模型规模就在GPT-4.5和GPT-4/GPT-4.1之间。

随着RL规模的持续扩大，这些稍大的模型不仅会拥有更强的学习能力，MoE的稀疏度也会更高。

OpenAI o4要来了

而o4模型，就非常有望成为OpenAI在推理领域的下一款重磅产品。

可以说，o4标志着OpenAI策略的转变，核心原因就在于，他们更换了训练所用的基础模型。

因为基础模型决定了性能的下限，因此，用于进行RL的基础模型越好，最终效果也越好。

然而，要在模型强度和RL训练的实用性之间找到完美的平衡点，是非常棘手的事。

因为RL需要海量的推理计算和大量的序列采样，如果目标模型过于庞大，RL的成本将极其高昂。

此前，OpenAI一直在GPT-4o的基础上为o1和o3模型进行RL训练，但到o4时，情况将发生变化。

o4系列模型将基于GPT-4.1。

GPT-4.1的推理成本很低，同时具备强大的基准代码性能，无疑是未来推理产品的理想基础模型。

而且，GPT-4.1的实力显然被严重低估了——它非常实用，在Cursor上得到了广泛应用，为许多强大的新产品开启了大门。

目前，Anthropic已经在代码能力显出绝对优势，OpenAI显然也不甘落后。转向GPT-4.1，显然就是非常重要的一步行动。

虽然SWE-Bench这样的基准可以衡量模型能力，但最终的商业收入，还是要取决于定价策略。

在SemiAnalysis看来，Cursor的实际使用情况，才是检验模型应用价值的终极试金石。

推理模型大跃进，RL是最大功臣

如今，推理时Scaling的范式，正在蓬勃发展，推理模型也在快速进步。

在衡量现实世界软件工程任务（如SWE-Bench）的评估中，模型正在以更低的成本，获得更高的分数。

这背后的功臣，当然就是强化学习。它通过生成CoT，解锁了模型的推理能力。

此外，因为模型现在能够维持长时间的连贯思考，也就顺势解锁了AI智能体的潜力。

它们能胜任更复杂的计算机任务，比如全自动化的远程办公和系统工程/架构设计。

不过，在扩展强化学习算力上，整个基础设施都面临着新的瓶颈。

在AGI到来前，RL可能是我们需要的最后一个关键范式。

因为蕴含着巨大机遇，它所需的投资规模也同样庞大。现在，已经有十数亿美元资金投入，未来还会有更多。

不过，强化学习对于基础设施的要求，却是截然不同的。

我们究竟需要为此付出什么？

RL的工作原理

RL的概念很简单。

一个RL模型会从任意环境的当前状态中获取信息，为选择一个动作生成一组概率，然后执行该动作。

模型的目的，是达成一个由「奖励函数」定义的目标。

强化学习的过程，就是通过改变模型权重，使其更有可能生成那些能带来更高奖励的动作。

可以说，RL是一项古老的技术，比LLM出现得更早。当年战胜围棋与国际象棋冠军的系统背后，RL都是背后支柱。

不过直到最近，RL才终于成功应用于LLM。这对模型能力和普及，都产生了深远的影响。

可验证的奖励

在LLM中，RL在那些拥有可验证奖励的领域表现最佳。

这意味着，对于编码和数学这类任务，RL所必需的奖励函数有着明确的定义。而在那些奖励函数定义较为模糊的领域，推理模型就难以取得进步。

当OpenAI在GPT-4o的基础上通过RL训练出o1时，性能提升最显著的，也正是在这些拥有可验证奖励的领域。

我们都知道，OpenAI的o3可以放大图片，根据所见内容进行推理、计算、再次推理，最后给出答案。

因此，它识别照片拍摄地的超凡能力，惊艳了一大批网友。

最令人意外的是，o3模型并未针对这种任务进行过专门训练。

不过，跟预训练的投入相比，各大实验室投入在RL上的资金却并不多。

在这里，SemiAnalysis就提出了关键问题——

要让RL的计算资源投入追上甚至超过预训练，瓶颈何在？

那些奖励不可验证的领域，未来能否被攻克？

推理开销巨大

通过研究一种最流行的RL算法，我们能一窥其巨大的推理开销。

组相对策略优化（Group Relative Policy Optimization, GRPO）是一种常用算法，因为DeepSeek用它来训练R1模型而名声大噪。

在GRPO算法中，模型需要回答一个问题，并针对该问题生成多个候选答案。每个答案都可以看作一次「推演 (rollout)」，本质上是模型在尝试寻找解决方案。

针对每个问题的推演次数从几次到上百次不等，虽然没有技术上限，但推演次数越多，占用的内存和计算资源就越多。

由于每个问题都要生成海量答案，这使得RL成为一种推理密集型任务。这一点的影响尤其重大，因此将在后续部分被反复提及。

接下来，模型生成的答案会与一个标准答案进行比对评分。在GRPO中，每个答案都会获得一个奖励分数。

计算出奖励分数后，模型会通过梯度下降算法进行更新，以提高生成那些能获得正向奖励的答案的概率。

GRPO 是近端策略优化（PPO）的一种变体，它不需要PPO中的评论家模型（critic model），因此内存效率更高。

PPO和GRPO既可以采用学习出来的奖励模型，也可以使用基于规则的奖励系统来评判答案质量。

由于内存需求较低，GRPO在开源社区被广泛采用，但顶尖实验室应该大多会继续使用PPO的各种变体。

PPO由OpenAI 发明，其内部使用的版本与GRPO通常对标的公开版本已有实质性不同，而且这些实验室面临的计算资源限制也更少。

其核心思想在于，RL通常需要一个问题、一个用于核对的标准答案，以及一种向模型传递信号以指导其行为调整方向的机制。

模型探索答案的方式多种多样，但都要求以多次不同推演的形式生成多个候选答案，因此对推理端的资源要求很高。

随后，模型会被更新，以提高正确答案的出现概率，所以这个过程也隐含了训练的环节。

奖励函数难定

如前所述，强化学习在可验证奖励的领域已取得长足进步，原因之一在于这类任务的奖励函数很容易定义——例如，数学题的答案非对即错。

然而，从技术上讲，奖励函数可以是用户想要优化的任何目标。

从概念上讲，强化学习模型的主要目标是最大化总奖励。

以训练模型下国际象棋为例，首要目标就是在不违规的前提下赢得比赛。模型可以通过在不同棋局中学习哪些走法有助于获胜，来不断提升棋力，还能从所处环境中获得反馈。

不过，如果涉及到更宽泛的任务定义奖励，就更像是一门「玄学」了，因为它实在难以恰到好处地把握。

即便是在目标明确的环境中，要设定一个理想的奖励函数，也需要大量的研究、测试和优化。

芯片设计就是一个很好的例子。

谷歌为辅助芯片设计而开发的AlphaChip模型，就采用了强化学习训练。

这个模型协助设计了谷歌的TPUv6芯片，并成功将其线长（wirelength）缩短了 6.2%。在这个案例中，奖励函数被明确定义为：

这个函数引导模型去精确地最小化几个关键因素：线长、拥塞度和密度。

值得注意的是，即便是这样一个相对简单的奖励函数，其设置过程也绝非易事。拥塞度和密度都带有一个标量值（α和γ）来调整其权重。

这些数值是工程师们基于期望的权衡取舍，通过大量实验得出的最终结论，即线长是首要优化因素。

而在写作、策略规划这些领域，往往并不存在明确的标准答案，属于不可验证的领域。

曾有人怀疑：是否有可能在这些领域应用强化学习？SemiAnalysis认为，这完全可行，而且已经实现了。

要做到这一点并不难，只需要改变奖励机制：不再依赖形式化的验证器进行检查，而是利用其他模型，依据一套评分标准（rubric）来判断答案的优劣。

OpenAI正是使用强化学习来调整模型行为，这比数学问题更为抽象。

在关于审慎对齐（deliberative alignment）的论文中，OpenAI用了一个LLM作为「评判员」，并依据一套评分标准，通过强化学习来确保模型更安全、减少对无害请求的错误拒绝。

并且，这个过程完全使用的合成数据。

正如前文所述，他们还发现此方法「在分布外的安全场景中展现出强大的泛化能力」。

因此，这种方法已被用于训练o1、o3-mini和o4-mini，还会继续应用于未来的推理模型。

推理能力不仅对解决数学问题至关重要，对于那些不可验证的任务也大有用处。

比如在很多情况下，更强的推理能力能帮助模型更好地判断何时应该拒绝用户的请求。

但不可否认，在不可验证领域，某些因素的影响会更大，比如模型的「个性」会极大影响其写作风格。

此外，应用于不可验证领域的强化学习也更加多变。

比如之前被热议的GPT-4o「谄媚」行为，部分原因就是OpenAI基于用户偏好数据进行强化学习的结果。

这就说明，一个本意良好的奖励函数，也可能会导致不良行为。

o3善用工具，核心在这儿

o3模型已清晰地展示了强化学习的有效性，尤其是对外部工具的高级运用上。

o3的表现证明：拥有智能固然重要，但能够接触并善用工具则更为关键。

为了实现这一能力，OpenAI采取了几个关键措施。

首先，要确保模型能接入工具。这可以作为更广泛基础设施的一部分来实现（例如，让模型能访问特定环境）。

在模型层面，工具的调用可以通过特殊的Token来触发。

例如，让模型使用像这样的特殊Token来启动外部搜索，搜索结果以结构化的形式返回，可直接用于其推理过程。

通过赋予模型访问多种不同特殊Token的能力，它便能快速便捷地接入不同的环境。

另一项核心挑战在于，该选择恰当的问题集进行训练？

即便模型能访问工具，如果问题本身并不需要，它也可能选择完全不使用。

因此，为了有效地训练模型，需要提供足够困难、必须借助工具才能解决的问题，从而确保模型学会自然地利用外部资源。要把握好这个度非常困难，需要大量测试来验证。

同时，过度使用工具也可能降低性能，使奖励信号变得复杂，从而影响整体效果。

其他关键因素还包括：确保每次「推演」都有丰富的初始状态，且每个起点都能生成多种响应，以提升稳定性和学习效率；对格式错误的输出施加惩罚；以及对正确使用的标签给予奖励。

总而言之，打造一个o3级别的模型，关键在于两点——

一是通过特殊Token等方式，为模型提供访问多种工具的权限；二是在那些能「迫使」模型使用这些工具的问题上进行训练。

变相奖励，o3幻觉严重

尽管在信息查找和研究方面能力出众，o3却因其严重的幻觉问题而饱受诟病。

它会频繁地无中生有，并且随着rl计算规模的增加，这个问题甚至变得更加严重。这究竟是为什么？

高级分析师认为，这归根结底在于这些模型的训练方式。

模型通常只因最终结果正确而获得奖励，其推理过程是否正确却不被考量，这使得它们能够通过有缺陷的逻辑「蒙混过关」，得到正确答案。

比如，一个模型即便误解了规则，也可能在一个简单的棋盘游戏中获胜，从而错误地认为其有缺陷的推理是可接受的。

这种机制不仅没有惩罚模型的错误思维，反而对其进行了变相的奖励。

SemiAnalysis推测，这种情况不仅限于棋盘游戏。

这无意中让模型学会在新的、未经训练的场景中产生幻觉，将有缺陷的推理能力泛化到更广泛的领域。

让推理更强模型作为评判员，能起到一定效果，因为它们可以纠正整个推理链（reasoning trace）。

其他的思路包括，设计更精细的奖励信号，比如对每个输出Token给予不同奖励，从而在奖励正确答案的同时，惩罚不正确的逻辑。

需要明确的是，这种不当的奖励行为也会影响到代码生成等任务。

一个模型可能编写出质量很差的代码，却依然能通过单元测试。这更加凸显了设计正确奖励函数的必要性。

AI自进化，用RL优化RL

强化学习不仅能提升LLM性能，还能优化自身，形成一个良性循环。

这种「RL优化RL」的方式，依赖于大语言模型评判员（LLM-Judge）和评分标准（rubric），来提供强化学习信号。

当一个推理能力更强的模型被用作评判员时，它能更好地理解评分标准，并从其他模型的回答中识别出更细微的差别。

比如，OpenAI的Deep Reaearch项目中，展示了RL如何推动不可验证领域的进步，成为了一个典范。

无论是可验证任务，还是不可验证的任务，OpenAI都通过另一个LLM依据评分标准进行评判。

同样，Qwen-3也采用了类似的方法，利用海量合成数据结合LLM-Judge，在没有参考答案的情况下提供学习信号。

SemiAnalysis认为，「评分标准」这种模式为许多领域开启了新的可能性。

再比如，OpenAI曾邀请超260名医生来编写评估标准——HealthBench ，用于评估模型在医疗问答任务中的表现。

作为公开的评估标准，HealthBench反映出LLM-Judge，在衡量那些奖励不可验证的任务性能方面非常强大。

一旦性能可以被衡量，它就可以通过强化学习来提升。

这突显了RL与评估之间一种被低估了的关系——后者能够清晰地揭示RL的训练进展和效果。

「递归自我改进」已经展开

上面提到，通过让更强的模型在强化学习中担任更出色的评判员，可以实现自我改进。

但这里还有另一个重要维度值得考量：让模型本身来帮助训练和编写下一个模型。

Anthropic在其Claude 4的系统卡片中，就具体展示了顶尖实验室的这种思考。他们对编译器开发、内核工程，甚至是一个四足机器人的强化学习任务都进行了评估。

事实上，目前各大实验室所做的，正是那些旨在榨干硬件每一分性能的、艰难的工程工作。

编译器、内核、内存管理优化、超参数调优等等，这些都是可以被量化和改进的编程任务，并且每一项都对模型的效率有着巨大影响。

「递归自我改进」常常被描述成一个听起来充满诱惑、前景宏大的术语，但现实是，它在一定程度上已经发生。

实验室还可以通过针对这些具体任务进行强化学习来持续加码，并拥有大量专攻于此的内部模型变体。

这种自我改进最初将主要围绕那些不易察觉的、繁重枯燥的底层工作，然后逐步渗透到新模型架构的研究中去。

当前的模型还无法极大地加速开发进程。

但OpenAI的Codex工具已经在帮助员工构建下一个版本的模型。

理解自我改进的关键在于，模型将让工程师们花更少的时间在编码上，从而能投入更多时间去思考研究和数据等核心问题。只要模型开发的瓶颈在于工程投入，这些瓶颈终将被化解。

不过，现实中的模型开发还受制于计算资源等多种因素。

真正的递归自我提升将显著加速研究与数据进程。

环境

要进行强化学习，就需要对某个行为或结果进行「强化」。

实现这一点前提是，模型/AI智能体必须在一个「环境」中，获得反馈，从而理解下一步该采取什么行动。

这催生了「强化学习执行反馈」（Reinforcement Learning from Execution Feedback, RLEF）的出现，即在环境中运行模型生成的代码，并将执行结果作为奖励信号。

所谓「环境」，就是模型采取行动并接收反馈的场景或模拟系统，比如国际象棋、围棋棋盘游戏，便是环境的绝佳范例。

它们目标明确，规则清晰。

随着通用性的提升，AI进入了更广阔的领域，比如在电子游戏中赛车，或在生物反应器模拟中控制一组特定参数。

在此之外，它们还会遇到数学、编程甚至浏览器，这样更为开放的环境。

环境的配置不同，可能导致AI智能体的行为大相径庭。

若环境配置不当，可能使模型误解任务或无法正确地泛化其能力，会导致「奖励黑客」（reward hacking）。

也就是说，模型在此学会了钻函数的空子，并非真正去完成任务。

比如，一个注重通过单元测试的编程环境，可能导致模型专注于「应付测试」，而非编写出高质量代码。

因此，构建一个稳健的环境，并确保其奖励函数能够精确反映预期目标，是一项极其困难的工程挑战。

一个合格的环境需要满足诸多要求。

延迟就是其中一个关键因素，延迟过高可能会导致资源浪费，「推演」（rollout）效率低下。

其他考量还包括：连接必须持续可靠，避免系统崩溃中断进程；同时需要设置容错机制和检查点机制，确保故障能被平稳处理；还必须能够妥善处理多个并行的推演或轨迹。

除此之外，还需要一整套安全基础设施作为支撑，以保护模型免遭外部渗透，或防止其试图「逃离」环境。

模型本身的一些失误模式也让问题变得复杂，比如它可能会采取耗尽机器资源的行动。

同时，环境必须能准确地模拟真实场景，让智能体明白该从何处改进，并且要杜绝被智能体黑客利用的可能性。

所有这些要求，使得环境的规模化变得异常困难，尤其是初次尝试时。

尽管基础设施工程看似平淡无奇，但它对强化学习的成功至关重要。如果推演过程耗时过长，用于验证的模型就会闲置，造成资源浪费。

因此，如何让这些模型在等待期间执行其他任务，比如评判另一个LLM推演结果，就成了一个重要问题。

这些软件层面的限制，还必须与硬件层面的约束相适配，比如多数环境在CPU而非GPU上运行，进一步增加了工程复杂性。

更重要的是，环境必须放置模型利用漏洞。

像o3这类模型，是基于支持多次工具调用的复杂环境，随着工具调用增加，环境复杂度也随之上升，带来了一系列新挑战。

奖励黑客

如前所述，设定一个恰当的奖励可能非常困难，因为模型可能会误解目标，并以一种不理想的方式进行优化。

当模型利用环境或奖励结构中的漏洞，在并未真正完成预期任务的情况下获得高分时，就发生了「奖励黑客」（Reward Hacking）。

早在2016年，现Anthropic创始人Dario Amodei就指出了「奖励黑客」这一问题。

举个例子，一个机械臂的任务是将红色积木叠在蓝色积木上方，并以此获得奖励。

但在演示中，它直接翻转倒置了红色积木，并非按照堆叠方式完成任务，钻了奖励的空子。

这便是因为，奖励的评判标准仅仅是红色积木底面的高度。

另一个失败模式的例子是，在教机器人行走的物理模拟中，一个智能体发现了软件漏洞——

完全不用迈步，水平移动也可以，实属有点6。

在LLM案例中，Claude 3.7 Sonnet也表现出了奖励黑客行为：修改测试用例，而非改进自身代码来通过原始测试。

Anthropic虽采取了部分缓解措施，但这种行为模式在Claude 3.7中依然存在。

尽管这些案例听起来有趣，但真正的问题在于：

工程师们往往无法精确地定义奖励函数，而且往往是在AI智能体已经利用了环境中的漏洞之后，他们才能发现。

也就是说，许多奖励黑客的路径，都是设计者从未设想过的。

虽然在训练过程中可以迭代修正，但这对于LLM来说却异常困难。

机器人的环境目前尚处于起步阶段，调整起来相对容易，但LLM拥有巨大而复杂的行动空间，使得防止奖励黑客变得难上加难。

因此，解决奖励黑客问题是所有顶尖实验室的重中之重，这需要借鉴许多来自安全与对齐团队的想法。

在Claude 4中，Anthropic通过改进环境、明确奖励信号和实施主动监控，显著减少了奖励黑客行为。这绝非易事，需要大量的专业知识和实践经验。

然而，强化学习和奖励黑客并非唯一的瓶颈，基础设施本身也是一个巨大的瓶颈。而这个瓶颈始于强化学习所需的数据。

数据与样本效率

乍一看，强化学习的样本效率似乎很高。

在训练Qwen模型的「推理强化学习」阶段，研究者仅用了不到4000组问答对，就实现了相较于基础模型的显著性能提升，并因此声称其样本效率极高。

然而，实际情况要复杂得多。

因为4000组问答对中的每一组，都必须满足极其严苛的条件：不能是模型冷启动阶段已经用过的数据；必须尽可能地有挑战性，覆盖广泛的细分领域，同时又要恰好在模型当前的能力范围之内。

要满足这些要求绝非易事。

生成合适的合成数据，需要经历大量的筛选和反复的模型推理。

此外，要确保问题「有挑战性但又不过于困难」，这本身就需要通过实验和验证，以确认问题难度恰好落在那个狭窄的区间内。

在某些无法通过合成数据生成的场景中，实验室甚至需要招聘STEM领域的博士，来专门为模型编写足够有挑战性的问题和答案。而他们的另一项工作，就是为LLM评判员编写可供参考的评分标准。

这也就是为什么，像ScaleAI、Mercor和Handshake这样的招聘和数据服务公司，能从各大AI实验室获得源源不断的业务，赚得盆满钵满。

此外，Qwen模型还进行了另一阶段的强化学习，而他们没有公布这一阶段所用的样本数量，因为这个数字远不止4000。

在后续阶段，他们在超过20个不同领域进行了强化学习，并且同时使用了所有三种类型的奖励模型（基于规则的、有标准答案的 LLM-Judge、以及无标准答案的 LLM-Judge）。

这背后，都需要极为复杂的工程技术和计算资源支持。

长远来看，SemiAnalysis预计，各大实验室将在数百个专业领域上进行强化学习，以求大幅提升模型性能。

在此过程中，质量比数量更重要——因为模型会精确地拟合其训练数据。

因此，尽管最终用于训练的样本仅有4000个，但筛选出它们的过程却消耗了巨大的计算资源。

可以说，强化学习在数据层面是「样本高效」的，但在计算层面绝对是「样本低效」的。

这也就是为什么，与预训练相比，要有效地部署强化学习需要规模大得多的工程团队。

数据即护城河

总之，Qwen的案例表明：高质量数据是规模化应用RL的一种至关重要的资源。

高质量数据能为模型提供足够清晰的强化学习信号，使其能精确地提升完成特定任务的能力，而生成这类数据，往往需要海量的推理计算。

更广义地看，普通公司或企业可以整合自身数据，并利用 OpenAI 推出的强化微调（RFT）等服务。

RFT允许企业使用自定义的评分器，并根据评分结果或特定数据来更新模型。显然，这个功能目前被低估了，在未来它将产生深远的影响。

事实上，任何能够聚合或收集用户行为的产品都极具价值，因为用户行为数据最终构成了最重要的数据集。

由此，就能得到一个有趣的推论：拥有用户数据的AI初创公司，未来可以在不依赖庞大计算预算来合成数据的情况下，利用强化学习训练出自己的定制模型。

如果企业真能搭建起合适的强化学习环境，那么显然，一个为企业深度定制模型的时代就真的到来了。

而相比于基础模型势不可挡的发展步伐，单纯为企业进行微调的路线，如今基本已宣告失败。

AI智能体持续编码，7个月翻一番

模型现在能够长时间保持连贯性。

更长的任务需要长时间内稳定运行的环境和基础设施，这对工程的要求更高了。

下面的图表显示，独立编码任务的持续时间每7个月翻倍，预计非编码任务的翻倍速度会更快。

OpenAI的深度研究是第一个能连贯工作超过几分钟的模型，我们预计这个能力的上限会显著且快速提升。

这里存在一个矛盾。

智能体任务经济价值极高，但由于其复杂性和资源密集度，对强化学习（RL）提出了很高的挑战。

任务持续时间延长意味着每次强化学习迭代也需要更长的时间，而这会拖慢整个训练过程。

以计算机使用（Computer use）为例，很好地说明了长时程任务的许多问题。

首先，作为一种智能体任务，它更接近现实世界的问题和行为，这带来了新的挑战。

比如，在计算机使用中，智能体会遇到许多反机器人的网页脚本、验证码，以及复杂的Cloudflare保护功能。

这些问题会时不时就会出现。这样的细节给环境调试增加了之前不存在的复杂性。

此外，计算机使用需要大量的虚拟机（VM）和浏览器连接等基础设施，这些基础设施不仅要长时间稳定运行，还要满足之前提到的环境工程要求。

计算机使用任务通常会持续数小时。这意味着任务的执行时间变长，奖励变得稀疏。

换句话说，智能体可能多走十倍的步骤，但只有最后一步才会获得奖励，这使得强化学习的信号变得更弱。

不仅如此，计算机使用还依靠图像和视频来向模型展示正在发生的事情。

虽然有人尝试通过传输HTML文件或者设置网页的文本表示来实现计算机使用，但在这种情况下，模型不能理解图像的含义。

如果能让文本表示正常工作，将会大大降低计算机使用的内存需求。

环境计算也要斥巨资

SemiAnalysis认为，在环境计算上投入资金而不是仅仅专注于强化学习会有巨大的潜力。

一个例子是高度真实且难以获得奖励的黑客环境，它利用数十或数百个CPU协同工作。

这是一个全新的领域，非常适合扩展。这种真实性可以因为纯净的信号而带来令人难以置信的性能提升。

未来，这些环境也会运行在GPU上，模拟真实世界的数字孪生。

值得注意的是，这些GPU需要具备图形渲染能力，比如RTX Pro GPU或消费级GPU。而专门为AI设计的GPU和ASIC芯片（如H100、B200、TPU、Trainium等）在图形渲染方面明显不足。

因此，大量资源正被投入到为强化学习（RL）环境构建的AI世界模型上，而非其他提及的常规RL环境。

这将简化扩展过程，否则面对众多软硬件，环境复杂度会急剧上升。

可靠、可扩展、易于实现的环境将会有极大需求，预计这会成为初创公司蓬勃发展的领域，已经有一些公司开始涉足了。

目前的瓶颈不在于模型的能力——像Grok 3已经足够聪明，能处理大部分任务——而在于与现实世界互动并获取上下文语境的能力。

SemiAnalysis认为这对AI在科学领域的应用尤其令人兴奋。

比如，可以构建与实验室中任何可测量事物相连的环境。这种设置能让AI智能体控制现实世界，根据环境的反馈来调整和改变各种因素。在某些情况下，比如控制炉子的温度，反馈循环可能很快，模型可以快速迭代。

然而，在其他高价值的任务中，如果实验耗时很长，模型就需要有相应的长时间连贯性。加上需要多次试验，这种设置可能在计算和物理上都非常苛刻。

在生物学、半导体制造和材料科学等领域，考虑模型运行和测试的反馈循环（比如试验和消融研究）非常重要。这些生物、制造和工业过程的速度和验证都有其极限。

某些领域对强化学习计算的影响需要更长的时间，其他领域则由于可以快速反馈而迅速变化。

物理AI的反馈回路比数字世界慢，因此需要真正强大的数字孪生环境。

一个关于「评估」的类比

打个粗略的比方：即便是概念上相对简单的模型评估，实际运行起来也困难重重。

Docker镜像会频繁崩溃；选择题中一个简单的格式变动（比如将选项从A改为1），就可能让模型的评估分数产生高达5%的波动。

在评估基础设施规模化的初期，Anthropic就曾公开讨论过其背后巨大的工程挑战。

GPQA是一个常用的评估基准，用于测试模型在物理、化学和生物学领域研究生水平的问题，但它似乎存在一个「噪声上限」——尽管它显示出模型的性能已停滞不前，但由于数据集中存在错误标注的答案，模型实际上不可能达到100%的准确率。

随着智能体任务的周期越来越长，问题在很多方面都变得愈发严峻。

模型的行动空间（action space）已大幅增加，其行为的连贯时间（coherence time）也在变长，而要创建能够衡量这种长周期能力的评估方法，本身就极具挑战，同时也使得评估的成本显著升高。

总而言之，评估基础设施的建设，虽然概念不新且看似简单，但其过程中的繁琐细节足以让人崩溃。

而搭建并扩展大规模的强化学习基础设施，其难度则要高出几个数量级，面临的琐碎问题只多不少。

超算GPU配置，RL一并优化了

英伟达为GB200和GB300设计的NVL72系统，为推理领域带来了关键性的进步。

其更强的计算能力可以在更低的延迟下实现更高的吞吐量，而共享内存则为KV缓存提供了更大的扩展空间。这不仅让推理模型在推理阶段能进行更高效的批处理，也对强化学习产生了深远影响。

对于强化学习而言，增加的内存带来了多方面的能力提升。

首先，它允许针对一个给定的问题进行更多轮次的推演。

其次，它能更好地处理长周期智能体任务（long horizon agentic tasks）。

再次，它能支持更大、推理能力更强的模型来担任评判员，这对于那些结果难以直接验证的领域尤其有帮助。

最后，强化学习这种新范式高度依赖合成数据的生成和筛选，而这又离不开海量的推理计算，NVL72系统在这方面表现极为出色。

然而，在实践中，算力未被充分利用是一个难题。

例如在线强化学习中，不同采样副本之间难以做到完美的负载均衡。

当最后一个推演任务完成时，第一个可能早已结束，造成时间差和资源闲置。

此外，由于不同的采样器和训练器可能采用不同的网络拓扑结构，权重的广播也可能导致显著的算力闲置。

强化学习的各个阶段都需要推理，但与预训练时代不同，这些推理任务不必集中进行。

虽然强化学习需要大量计算，但这些计算任务不必部署在同一地点。

例如，一个领域的合成数据可以在一个数据中心生成和验证，而模型的训练过程则可以在另一个完全不同的数据中心进行。

随着强化学习在总计算量中的占比越来越大，可能会看到数据中心建设格局的转变。尽管最大规模的、数千兆瓦级的超大型数据中心对于预训练的规模化扩展仍然是必需的，但强化学习究竟能在多大程度上实现去中心化，目前尚无定论。

预训练一次性可能占用数万块GPU，但用于强化学习的推理算力却可以根据可用容量灵活调配。

这意味着，实验室现在可以利用非高峰时段的闲置GPU，来执行其强化学习流程中的合成数据生成等任务。

事实上，SemiAnalysis了解到至少有一家实验室正在利用其闲置的推理集群来运行这一流程，通过生成合成数据，相当于为模型训练免费提供计算资源。

未来，推理和训练之间的界限将在各大实验室中变得越来越模糊，这将使得除大型训练集群之外的更多计算资源，也能够被用于模型能力的提升。

这些闲置算力之所以能「免费」地服务于训练，根本原因在于推理集群的建设必须按照峰值需求进行配置。

Prime Intellect公司的Intellect-2模型就展示了强化学习的这种去中心化特性，这是一个全球分布式运行的推理模型。

从硬件设计的角度看，日益增长的推理需求和长周期智能体任务使得内存变得愈发重要。

强化学习所消耗的浮点运算（FLOPs）次数虽少于预训练，但其内存负载却依然很高。

长远来看，硬件发展将进行调整以适应这一变化，这其中也包括对网络拓扑等因素的考量。

SemiAnalysis看到，强化学习带来的改变已远不止硬件设计，它同样在重塑研究的组织与协同方式。

AI实验室重组，RL造成的

语言模型的强化学习中，推理（inference）首次与训练过程发生了深度的融合。

现在，推理的性能直接影响着训练的速度。

这意味着，生产级别的推理能力（即快速、高效、低成本的推理）已成为模型训练过程中不可或缺的一环。

以往，每个实验室都明确区分「面向产品服务的推理」和「内部推理」（例如，用于模型评估）。

然而，正因为强化学习需要进行海量的推理计算，将一个高度优化的推理堆栈直接内置于训练堆栈之中，变得至关重要。

这一趋势也体现在了公司的组织架构调整上。

OpenAI 为此合并了其研究团队与应用研究推理团队。同样，Anthropic和谷歌也因此对其产品团队和内部研究团队进行了重大的组织架构调整。

RL让模型不断「换血」

预训练时代与当前模式的一个显著区别在于，强化学习可以在模型发布后持续进行。

这意味着模型可以先发布，然后通过持续的强化学习来扩展其能力，并在此基础上进行版本更新。

这种迭代式的开发方法可以为现有模型不断增添新功能。新版DeepSeek R1的发布正是如此。

实际上，这种发布后的持续优化已是常态——例如，当前的GPT-4o就已经历了多次更新，早已不是最初发布的版本了。

SemiAnalysis预计，在这种新范式下，Anthropic将会对Claude模型进行远比以往更频繁的更新。

不用牺牲编码，数据混合是种解

一种常见的「RL训练」方法是：以一个目标模型为基础，创建多个副本，分别在特定领域进行 RL，最后再合并这些副本的权重。

尽管这一方法受到多数人质疑，但在Cohere的Command-A模型中得到了应用。

通过这种方式，不同团队可以按各自的节奏并行工作，从而加快开发进程并简化整体流程。

然而挑战在于，权重合并后可能导致模型在某些领域的能力，不同程度的下降。

比如，Cohere的模型在合并后，RAG和通用性保持稳定，但编码能力却有所减弱。

这便带来了一个核心问题：是否值得为了提升RAG性能，牺牲编码能力呢？

为了解决此问题，另一种方法是利用批处理（batching）技术。

它将来自不同环境的数据混合在一起进行训练，因此无需进行模型合并。

这种多环境批处理方法并非一次只专注于一个环境，而是通过构建包含所有领域（如数学、代码、搜索等）混合样本的训练批，在多个不同的RL环境中同步训练单一模型。

它的优势显而易见，无需合并模型，并保留了模型的编码等领域的能力。

不过，这一方法对团队协作和基础设施的要求也更高。

RL训练，大厂站在了分岔口

与预训练相比，RL阶段技术路径更为复杂。

在预训练阶段，行业的技术路径相对清晰，主要是通过提升参数规模和算法效率推动LLM性能提升。

然而，RL阶段的战略选择，直接体现了各家公司权衡取舍的优先级。

比如，Cohere非常看重RAG，并为了保住这一优势而做出相应选择。

OpenAI、Anthropic、谷歌的激励机制与目标各不相同，这直接影响了他们的数据组合策略、RL投入的方式。

这也意味着，在scaling模型路径上，整个AI圈百家争鸣。

过去，预训练的竞赛重点在于如何最快地提升模型规模，并通过算法创新来提高计算效率。

但在RL领域，规模化的方式远不止扩大算力这一种。例如，可以专注于扩大某一特定领域的数据量。

举个例子，Anthropic明显将重心完全放在代码性能上。

其他实验室则将资源投向了不同领域——OpenAI在推出其代码工具Codex之前，优先发布了Deep Research。

随着这一范式不断演进，各家实验室的真实侧重点将变得愈发清晰，而这些差异在预训练阶段往往难以察觉的。

Thinking Machines的核心主张之所以引人注目，正是因为他们的关注点与其他实验室截然不同。

小模型，更适合蒸馏

对于小模型而言，强化学习并非是最佳选择。

Qwen的实践表明，在开发小模型时，蒸馏的效果极其显著。

具体来说，蒸馏是指通过比较对同一问题的回答，让小模型（学生模型）的概率分布向教师模型的概率分布靠拢。

蒸馏通常不像RL那样，需要进行「推演」，这意味着它的资源利用效率要高得多。

Qwen发现，通过蒸馏，他们能用更少的GPU取得更好的效果。

同样，OpenAI近期发布的mini系列模型，也采用了这种方法。

然而，这类小模型的一个缺点是性能「参差不齐」，或呈现「尖峰效应」，即在某些方面表现极其出色，而在其他方面则不然。

相比之下，像GPT-4o这样的大模型则表现得更为全面。

当然，蒸馏的成功离不开一个强大的「教师」模型，这一点是必不可少的。

参考资料：

https://semianalysis.com/2025/06/08/scaling-reinforcement-learning-environments-reward-hacking-agents-scaling-data/

https://x.com/Prashant_1722/status/1932244771436929492

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

OpenAI新模型，被曝秘密训练中！万字硬核长文直指o4核心秘密

阿里除夕发布千问3.5，性能媲美Gemini 3

日方宣称向中方提出交涉 中使馆驳斥

日方宣称向中方提出交涉 中使馆驳斥

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

王菲六登春晚献唱 水滴钻石耳环再出圈

2025，中国商业十大意外，黄金只排第九

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

记录最近收获很大的一次深度链接

不承认有差生，就是教育进步？

名家笔下话过年，别有风味！

转头就晕的耳石症，能开车上班吗？

苹果可能多年不会对iPad Pro进行重大升级

日方宣称向中方提出交涉中使馆驳斥

日方宣称向中方提出交涉中使馆驳斥

短道男子接力半决赛失误后刘少昂多次说"抱歉"

王菲六登春晚献唱水滴钻石耳环再出圈

叫停纯屏操作工信部拟推车内实体操作件强制国标