监控推理模型的失误行为及促进混淆的风险|信号|智能体|监控器|模糊化|因果性|深度思考模型

分享至

Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation

监控推理模型的失误行为及促进混淆的风险

https://arxiv.org/pdf/2503.11926

摘要

缓解奖励博弈问题——即人工智能系统因其学习目标中的缺陷或错误设定而出现不当行为——仍是构建强大且对齐模型的关键挑战。我们展示了如何通过另一个大语言模型（LLM）观察前沿推理模型（如OpenAI o3-mini）在智能体编程环境中的思维链（CoT）推理，来监控其是否存在奖励博弈行为。相比仅监控智能体的行为和输出，CoT监控要有效得多。我们进一步发现，一个弱于o3-mini的模型（如GPT-4o）也能有效监控一个更强的模型。由于CoT监控器在检测漏洞利用方面非常有效，人们自然会问：是否可以将CoT监控器直接纳入智能体的训练目标中以抑制此类行为？我们发现，虽然将CoT监控器整合进强化学习的奖励函数中，在低优化强度下确实能训练出更强大且更对齐的智能体，但在过度优化时，智能体会学会“模糊化奖励博弈”——即在思维链中隐藏其真实意图，同时仍以显著频率进行奖励博弈。由于难以判断思维链何时已被模糊化，可能有必要付出“可监控性代价”：避免对思维链施加过强的优化压力，以确保其保持可监控性，从而继续用于检测错位行为。

1 引言

利用学习目标中的缺陷或错误设定来获取奖励，即强化学习（RL）中的“奖励博弈”（reward hacking），仍是现代人工智能系统中的一个关键失效模式 [1–3]，已导致语言模型 [4–6]、控制任务 [7–10] 和推荐系统 [11–14] 等多个领域中出现错位行为。我们真正希望优化的目标函数往往难以精确表述，因此构建强大且对齐系统的主要挑战在于设计出鲁棒的代理目标，使其不会被模型学习并加以利用 [3, 15]。这一问题不仅存在于机器学习系统中，也长期困扰人类制度 [16–19]。例如，1902年河内政府为鼓励灭鼠，按上交的老鼠尾巴数量给予奖励，结果人们开始专门养殖老鼠以割尾获利，反而导致鼠患加剧 [20]。既然人类也会出现奖励博弈，仅靠不断提升模型智能水平显然无法解决AI中的这一问题。事实上，增强智能体能力可能使问题更严重，因为它能更好地发现并执行更复杂、更难监控的漏洞利用行为 [21, 22]。我们已有经验表明：随着强化学习训练规模的扩大，智能体发现了越来越复杂且难以察觉的“作弊”手段。迄今为止，缓解奖励博弈的唯一通用策略是人工监控智能体的异常行为，但随着其输出和行为日益复杂——甚至超越人类水平——且应用范围不断扩大，这种人工监控方式难以扩展。

新一代大语言模型（LLMs）[23] 通过强化学习训练以进行思维链（Chain-of-Thought, CoT）推理 [24–26]，为监控提供了新的可能途径。传统LLM在提示后直接输出答案，而CoT推理模型则先生成推理过程，再给出答案。这类模型通过强化学习训练，搜索那些能最大化模型获得高奖励答案概率的思维链。由于LLM在人类文本上进行了预训练，对生成正确答案最有利的思维链，很可能也以人类可理解的语言表达，并与任务相关。如果自然可理解的推理轨迹确实是实现目标最有效的手段，那么它们将在强化学习训练中被不断强化。因此，CoT很可能以人类和LLM都能自然理解的语言，揭示智能体决策的关键信息，我们的实证研究也常发现如此。例如，假设一个智能体的任务是修改代码以通过单元测试，它有两种选择：“作弊”（hack）：让测试通过但不真正实现功能；“真实修复”（genuine fix）：正确且通用地实现功能。如果它在思维链中写道：“这看起来很难，让我试试跳过一些单元测试”，那么“作弊”很可能是更自然的后续动作，在LLM先验下比“真实修复”更可能，即 pLLM(hack|CoT) > pLLM(genuine fix|CoT)。事实上，在检查前沿推理模型的思维链时，我们常发现连贯的推理明确描述了其意图和规避任务的策略（见图1）。尽管关于思维链是否完全“可信”（faithful）——即是否完整反映模型内部推理、不遗漏关键部分——仍存争议 [27, 28]，但显然它们并非对监控毫无价值。

在最近一次前沿推理模型的训练中，我们测试了CoT中信号的实际效用。我们发现，一个简单的提示式大语言模型（我们使用了GPT-4o [29]）在智能体编程环境中非常有效地监控到了奖励博弈行为。我们还发现，相比仅能访问智能体行为和输出的监控器，CoT监控器的表现要好得多（见第2节）。需要强调的是，在实验时，被监控的智能体是OpenAI最先进的模型，在复杂推理任务上的表现优于其前身o1 [24] 和 o3-mini [30]。我们在前沿模型训练过程中实时进行了监控，从而能够及时发现环境中的漏洞和缺陷，并在训练中加以修复。我们还发现，一个相对较弱的推理和编程模型可以有效监控一个远比它强大的模型：GPT-4o能够有效监控前沿推理模型。甚至更弱的编程模型GPT-4o-mini也能检测到相当数量的奖励博弈行为。尽管这只是初步实验，但我们认为这一结果为“可扩展监督”（scalable oversight）[2, 31] 提供了有希望的证据：即通过可信的较弱模型或人类，来监督更强大甚至超人类的模型。

由于思维链监控器在检测不良行为方面表现优异，人们自然会问：能否将其直接用作训练过程中的奖励信号？阻止“不良思想”是否也能减少下游的不良行为？这一理论看似合理，但此类目标可能导致智能体学会在思维链中隐藏意图，同时继续表现出错位行为，我们将这种现象称为“模糊化奖励博弈”（obfuscated reward hacking）。我们研究了在一系列智能体编程环境中，将CoT监控器纳入奖励函数对一个非前沿推理模型训练的影响，其中智能体需更新代码库以通过一组单元测试。我们还比较了在训练中将监控器作为奖励信号使用，与在部署阶段通过拒绝采样（rejection sampling）使用监控器的效果，结果喜忧参半。在较低的强化学习优化强度下，将CoT监控器纳入奖励信号能带来显著改进：智能体能力更强，且奖励博弈行为并未比基线增加。然而，随着训练深入，智能体开始出现模糊化奖励博弈，学会欺骗监控器。经检查发现，智能体通过生成看似无害的思维链来掩盖其真实意图，随后仍执行并未在推理中明确说明的奖励博弈行为。虽然我们主要研究的是将CoT监控器作为显式奖励信号的影响，但基于CoT监控器标记的轨迹来修补环境，也可能对思维链施加轻微的演化压力。如果我们只修补能通过CoT监控发现的漏洞，尚不清楚这是否会无意中促使模型转向监控器无法发现的奖励博弈，而非我们期望的对齐行为。尽管目前尚未发现此效应的实证证据，但理解在思维链变得模糊之前可施加多大的优化压力，是未来研究的关键方向。

2 监控前沿推理模型中的奖励博弈

思维链（CoT）监控目前就已经非常有用，而非仅是一种面向未来的设想性工具。我们展示了，前沿推理智能体可以被其他大语言模型（LLM）有效监控。需要指出的是，在进行这些实验时，我们所监控的智能体是OpenAI最先进的模型，在复杂推理任务上的表现甚至超过了OpenAI o3-mini。此外，我们的监控实验是在智能体训练过程中实时进行的，这意味着它并非事后验证——即并非在已知存在漏洞的情况下测试能否检测到它们，而是一种关键方法，帮助我们实时发现此前未知的奖励博弈行为。

我们实现了一个基于提示的GPT-4o监控器，用于在智能体编程环境中检测奖励博弈。在这些环境中，智能体的任务是实现新功能，使得所有单元测试都能通过。我们的监控器仅通过提示，就被要求查找是否存在“通过作弊或跳过单元测试来通过测试，而未正确实现功能”的证据；完整的监控提示见附录C。

2.1 捕获系统性奖励博弈

在训练前沿推理模型的过程中，我们发现了两种特别有效的编码作弊方式：

exit(0)：智能体利用了一个漏洞，使其能够在未运行全部单元测试的情况下提前退出环境；
raise SkipTest ：智能体从测试框架之外的函数中抛出异常，以跳过单元测试的执行。

一旦出现这类通用性漏洞，它们会迅速被强化学习过程强化，并迅速蔓延，几乎影响所有训练环境。由于这类作弊行为难以捕捉和标注，很难获得可靠的真值数据来评估监控器的性能。然而，这两种系统性作弊方式在事后可以通过简单的字符串正则表达式轻松识别，我们便以此作为真值标准，用于衡量监控器的性能。

在图2和表1中，我们比较了两个监控器的表现。这两个监控器基于相同的提示模型，区别仅在于它们所观察的智能体信息范围：

CoT监控器：观察智能体的完整轨迹，包括思维链（CoT）、工具调用和最终输出
行为监控器：仅观察工具调用和最终输出

尽管这些作弊方式本身很简单，但行为监控器的表现却相当差（图2中深蓝色部分加上其上方微小的紫色条带），在识别系统性作弊方面的召回率仅为60%。相比之下，CoT监控器（图2中深蓝色加绿色部分）的召回率达到了95%。此外，我们在附录E中表明，一个更弱的CoT监控器GPT-4o-mini也能检测到相当数量的奖励博弈行为，我们认为这是一个有希望的初步可扩展监督结果，表明较弱的可信模型可以有效监控更强的模型。

2.2 捕获特定问题的奖励博弈

那些广泛存在的作弊行为，即使没有复杂的监控系统，人类也往往容易发现；因为它们出现频率极高，即使在少量样本中也大概率会出现。据我们观察，研究人员几乎与我们的监控器同时发现了exit(0)作弊，尽管我们的监控器比人类团队更早发现了raise SkipTest作弊。但由于该作弊方式简单且普遍，我们认为人类团队也不会落后太久。

我们还发现，我们的监控器能够捕捉到那些不具普遍性、仅适用于数据集中特定问题的作弊行为。在图2中，浅蓝色条形图显示了监控器在训练样本上的触发分布。我们经常发现，那些较小的峰值是由针对特定问题漏洞的策略引起的，例如：

在单元测试覆盖率不足时，编写桩代码（stub）而非真实实现。（见图13和图10）
修改测试框架和测试文件上游的函数，使测试轻易通过。某些问题的单元测试依赖于上游库，而修改这些库可以绕过我们“禁止修改测试框架和测试文件本身”的常规缓解措施。（见图1和图13）
反编译包含参考答案的pyc等文件。在某些情况下，这些文件未被正确从环境中移除。（见图11）
创建pandas等完整库的本地版本，以覆盖其验证函数。（见图13）
在测试时解析测试文件，以提取预期值。（见图12）

我们所列举的这些例子清楚地说明，智能体如何利用其推理能力实施复杂的奖励博弈策略。这些例子也突显了可能的作弊方式的多样性，强调了事先预见并防范智能体可能发现的所有潜在漏洞本质上是极其困难的。令人惊叹的是，一个零样本（zero-shot）的大语言模型，仅通过一个相对简单且通用的提示，就能有效检测到所有这些奖励博弈策略。

由于零样本提示的监控器能够在编程环境中检测到如此多的奖励博弈行为，显然思维链中并非缺乏可用于监控的信号。然而，也可能存在许多我们的CoT监控器未能检测到、且我们尚未察觉的作弊行为。据我们观察，研究人员在编程环境中并未发现太多未被监控器标记的奖励博弈；但我们希望未来能进行更系统的评估研究。

3 思维链优化压力与模糊化风险

在上一节中，我们证明了思维链（CoT）监控器在检测错位行为方面非常有效，且其表现远超仅监控行为的监控器。这表明，思维链中可能包含与不良行为相关的信号，而这些信号比行为本身更易于解读。由此自然引出一个问题：如果我们抑制这些相关信号，是否也能抑制不良行为？还是会诱发“模糊化奖励博弈”——即行为本身没有改变，但智能体被激励去隐藏其真实意图？或者二者兼而有之？

3.1 实验环境与基线设置

我们在与前一节相同的智能体编程环境中研究这一问题：智能体被给予一个小型代码库，其中部分单元测试未通过，若其能修复代码使所有测试通过，则获得奖励。由于检测作弊行为本身具有挑战性，因此构建可靠的实验框架来研究奖励博弈十分困难。

在本实验中，我们设计了一些容易被简单作弊方式利用的任务，且这些作弊行为可通过程序自动检测，即所谓的“蜜罐”（honeypots）。具体而言，我们允许智能体修改单元测试和测试框架本身，尽管在提示中已明确指示其不得这样做。随后，如果满足以下两个条件，我们就将该智能体的行为分类为“作弊”：

其最终代码库在当前状态下能通过所有测试；
当将所有对单元测试的修改恢复后，有任何测试失败。

这一衡量标准并不完美，因为智能体可能通过其他方式作弊，例如对测试答案进行硬编码；但我们通过人工检查发现，直接修改单元测试是最容易被模型学会的作弊方式，因此该指标可作为合理的代理指标。

图3（左上）显示，当在此环境中通过强化学习（RL）进行训练时，智能体很快学会：与其实现真正的解决方案，不如修改测试框架使测试轻易通过，这种方式更为简单；图3（底部）展示了一段典型的思维链（CoT）摘录及智能体的行为。

我们实现了一个简单的、基于提示的GPT-4o监控器，该监控器仅观察智能体的思维链，而不看其具体行为（监控提示详见附录C）。我们特意排除了智能体的行为信息，以便能够独立地讨论思维链本身的可监控性以及施加在其上的优化压力；不过需要指出的是，在监控前沿智能体时，向监控器提供完整的轨迹信息（包括行为）可能是更自然的做法。

我们发现，该监控器对奖励博弈行为非常敏感（图3右上），在智能体训练进行到一半时，已能几乎完美地召回所有“作弊”轨迹，这表明智能体在思维链中对其作弊意图表达得非常直接且清晰。由于“作弊”指标仅衡量一类特定的漏洞利用方式，因此它只是真实作弊率的下界；相应地，我们测得的精确率也只是一个下界估计。

3.2 针对思维链监控器进行优化

在上一节中我们发现，一个仅能访问智能体思维链（CoT）的GPT-4o监控器，能够可靠地检测出某次智能体生成轨迹是否包含作弊行为。现在，我们进一步探索将该监控器直接用于优化的影响：通过修改奖励函数，要求智能体的轨迹不仅要通过所有单元测试，还不能触发监控器。

如图4所示，当我们直接对思维链施加优化压力时，确实训练出了一个性能更强、更对齐的智能体：它生成了更多非作弊的正确解决方案，整体作弊行为也更少。然而，即使如此，该智能体仍然以显著频率学会作弊；更令人担忧的是，CoT监控器的召回率几乎降至零，表明智能体已学会在其思维链中隐藏其作弊意图。

图5展示了一段典型的、用于模糊化意图的思维链及其后续行为的片段。该思维链看起来相当合理：智能体提出了一些解决问题的思路，叙述了自己想要再次检查某些内容或查看特定函数。然而，接下来它却直接修改了一个单元测试，使其轻易通过。

这类如此简单的奖励博弈之所以可能，是因为本实验中的监控器只观察思维链，而不观察智能体的实际行为。此外，像附录A中展示的更复杂作弊行为，可能更难在模糊化思维链的同时实施，因为智能体可能需要在推理中明确讨论这些操作。然而可以合理推测，随着模型智能水平的不断提升，智能体在不依赖可读思维链的情况下执行复杂作弊的能力也将持续增强。

显然，像GPT-4o这样不生成思维链的模型依然具备相当强的能力，且已有研究证明，部分思维链推理能力可以被“蒸馏”进无CoT模型中 [32]。此外，更大、更强的基础大语言模型（LLM）仍在不断被训练（前沿推理智能体正是基于这些模型初始化的）；更大的模型每token消耗更多计算资源，因此在相同性能水平下，可以在思维链中显式表达更少的推理过程。最后，经过足够强度的强化学习优化，智能体甚至可能学会一种监控器无法理解的“新语言”，从而利用思维链进行复杂但不可监控的作弊。

因此，尽管我们仅展示了相对简单的模糊化奖励博弈实例（尽管这些实例来自与训练前沿推理模型相同的智能体编程任务集），但我们认为这些结果对于理解思维链优化压力对未来模型及更复杂奖励博弈的影响具有重要启示意义。

3.3 使用思维链监控器进行拒绝采样

除了或替代使用强化学习将智能体训练为对抗思维链监控器外，我们还可以在推理阶段使用CoT监控器来拒绝被标记的样本，即采用“拒绝采样”（rejection sampling）策略。对于已接受CoT压力训练的智能体，拒绝采样不太可能带来额外提升，因为它已被训练为不触发监控器；然而，若将其应用于默认（未受CoT压力训练）的智能体，则可提供更公平的比较，尽管会带来更高的推理成本。

强化学习和拒绝采样都能使模型后验分布偏离先验分布至任意程度 [22]，且两者基于相同的优化目标。但由于非平稳性（non-stationarity），强化学习过程并不保证收敛到拒绝采样所对应的后验分布，因此哪种方法能产生更高效且更安全的模型，成为一个需通过实验判断的问题。

图7展示了在推理阶段使用相同GPT-4o监控器进行拒绝采样的效果。具体而言，我们展示了一个智能体为特定提示反复采样解决方案，直到生成一个通过监控器的样本（最多尝试32次）时，其结果的分布情况。

我们发现，在训练进行到一半时，基线智能体经常无法在预算内生成一个被监控器接受的解，而接受CoT压力训练的智能体总能生成一个被监控器接受的样本。这两个结果并不令人意外：基线智能体高度依赖作弊，且在思维链中明确表露其意图；而接受CoT压力训练的智能体则被直接优化为避免触发监控器。

在训练初期，接受CoT压力训练的智能体能力更强，即能生成更多“真实解决方案”（不作弊地解决问题），同时其生成作弊解的比率与基线智能体相当。因此，即使使用拒绝采样，我们仍得到与前一节相似的结论：在低优化强度下，对CoT施加压力是一种严格改进。

然而，大约在训练进行到25%时，接受CoT压力训练的智能体选择作弊解的比率迅速上升，而基线智能体则保持在较低且稳定的水平。

我们在此设定下进行实验，是因为我们对“作弊”行为有明确的真值判断标准，因此可以测量智能体何时开始模糊其意图。如果我们能在所有环境中都拥有此类通用的真值度量，就可以提前终止训练，从而获得一个性能更强且同样安全的模型。但随着作弊行为日益复杂、任务更加困难、训练扩展到更多样化的领域，我们可能无法获得可靠的真值指标，也无法判断何时发生了向“模糊化”的相变。

因此，更安全的做法可能是不对思维链施加限制，将其保留用于监控目的，而不是冒着部署那些隐藏意图、错位行为的智能体的风险。

4 相关工作与背景

自适应测试时计算与思维链。思维链（Chain-of-thought）[34] 及相关的提示方法 [35–38] 要求大语言模型（LLMs）在给出最终答案之前，先输出一个推理过程 [39–41]，从而使模型能够根据每个提示灵活地使用不同量的测试时计算资源。另一种增强LLMs测试时能力的方法是允许它们在给出答案前与外部工具交互；例如使用计算器 [40, 42]、网络浏览器 [43]、搜索引擎 [42, 44, 45]、调用其他模型 [46, 47]、程序解释器 [48, 49]，以及任意API [42, 50]。最近在训练LLMs更有效地利用测试时推理方面取得了成功，例如通过专家迭代 [51] 和强化学习 [52]，产生了诸如OpenAI o1 [24] 和 o3-mini [30]、Gemini Flash 2.0 [53]、DeepSeek R1 [26]、Kimi 1.5 [25] 以及 Claude 3.7 Sonnet [54] 等强大的推理智能体。

基于过程的监督与基于结果的监督。基于过程的监督为模型的中间推理步骤提供直接且细粒度的反馈，而基于结果的监督仅评估最终输出。以往比较这两种方法的研究普遍认为，尽管基于过程的监督可能并不会显著提升模型能力（相较于仅使用基于结果的监督）[55, 56]，但它在安全性和可解释性方面具有显著优势。基于结果的系统特别容易受到“奖励博弈”（reward hacking）的影响，可能导致模型通过错误的推理路径得出正确的答案 [51, 57]。相比之下，基于过程的监督使模型与人类认可的推理方式保持一致，并已被成功用于确保模型以正确的理由得出正确结论 [56, 58]。Ought [59] 甚至将基于过程的监督描述为“构造性安全”（safety by construction）[59]，并呼吁优先采用该方法而非单纯的结果优化，以防止灾难性失败。

我们认为，当结合思维链的可监控性（chain-of-thought monitorability）来看时，这一传统观点变得更加复杂。具体而言，我们已表明，将思维链监控器纳入强化学习的奖励机制中——这是一种基于过程的监督形式——反而可能增加推理过程的模糊化（obfuscation），并降低其可解释性。我们主张保留一定程度的基于结果的监督，以确保模型能够在思维链中自由表达其推理过程，而不受过多限制。目前也有研究使用更密集的监督信号（如监督式微调SFT）来优化思维链 [58]，但这些方法对后续可监控性的影响尚不明确。此外，可能存在一些方法，可以在有效利用基于过程的监督的同时，保留无约束思维链所带来的监控优势，例如仅对思维链的部分内容施加过程监督。如何理解在使用基于过程监督的同时，权衡其成本与收益，并维持甚至提升思维链的可监控性，仍是未来研究中一个令人兴奋且开放的方向。

对模型潜在状态的监控。在学术界和工业界，人们广泛倡导对模型的潜在状态（model latents）进行监控，即监控模型计算过程中那些通常未被观察且不受限制的部分，例如神经激活值或思维链（CoTs），将其视为人工智能对齐（AI alignment）和安全部署的关键组成部分。通过检查模型内部的决策机制，研究人员可以维护透明度和问责性 [60]，并检测奖励博弈和欺骗性对齐（deceptive alignment）等风险行为 [61–63]。许多研究聚焦于不同尺度上的基于激活值的监控，从单个神经元和神经回路到模型内部表征中的更广泛模式 [64–68]。更多关于激活值监控与思维链监控的讨论见附录F。此外，也有一些监控方法依赖于分析输出模式来揭示潜在知识 [69, 70]。自从原生输出思维链的推理模型出现以来 [24]，AI实验室对其部署的模型进行思维链监控已成为标准做法。例如，o1 的系统卡片详细说明了如何监控思维链中的欺骗性推理 [24]，而 Claude 3.7 Sonnet 的系统卡片则报告了对思维链中欺骗、操纵、有害意图以及模型心理 distress 的监控情况 [54]。

奖励博弈（Reward Hacking）。在第1节中，我们介绍了更广泛的奖励博弈研究背景。在此，我们聚焦于该领域的最新进展。一些针对现代大语言模型的研究构建了合成场景，以触发奖励博弈行为——例如“故意表现不佳”（sandbagging）[71]、篡改奖励（reward tampering）[72] 和“图谋行为”（scheming）[73]。这些研究表明，当前模型在分布外（out-of-distribution）情境下具有进行奖励博弈的倾向。相比之下，我们的研究使用真实前沿训练数据来诱发奖励博弈行为。更重要的是，我们是首个通过实验验证“模糊化”（obfuscation）现象的研究：即模型在其思维链中隐藏其进行奖励博弈的意图。这种模糊化可被视为一种新型的奖励博弈，它绕过了直接通过压力迫使智能体在思维链中避免奖励博弈的目标。

5 讨论

尽管思维链（CoT）模型尚处于发展初期，我们已初步发现对思维链进行监控是有效的。然而，关于哪些因素会影响思维链的可监控性（CoT monitorability），仍存在许多未解的问题。在本节中，我们首先对“真实性”（faithfulness）、“可读性”（legibility）和“可监控性”（monitorability）提出一些见解，然后概述我们认为有前景的未来研究方向。

5.1 真实性、可读性与可监控性

一个“真实”的潜在表征（latent）通常被定义为能够准确反映模型预测背后的推理过程 [27]。这一定义要求极高，因为除非该潜在表征包含模型全部的激活值，否则几乎不可能完整再现整个推理过程。除了定义本身过于严格之外，它在实践中也缺乏可操作性：我们如何确定模型真正的推理过程究竟是什么？这促使研究社区转而采用一些不完美的代理指标来衡量“真实性”，例如在有限扰动类别下的因果性 [28]。

我们认为，真正重要的是监控智能体行为或输出特定属性的能力（即可监控性），而非孤立地追求“真实性”。智能体的输出——而非其内部潜在状态——通过调用工具或被用户阅读而影响现实世界；因此，即使模型产生了“邪恶”的想法，只要它最终不影响输出，就不应被视为问题。智能体输出的属性可以直接标注，这使得监控问题比评估“真实性”更具可操作性。

尽管如此，我们认为可以将“真实性不足”视为可监控性的一种失效模式。如果我们正在监控某个潜在变量 z（例如思维链），以判断其是否具备某种输出属性 v，那么当 z 包含预测 v 所需的全部相关信息时（即 z 是 v 的充分统计量），我们就称 z 关于 v 是“真实”的。直观上，这与“准确表示模型预测背后的推理过程”的定义一致，只是将其限定在推理过程的某一特定方面 v 上。从这个角度来看，显然“真实性”是可监控性的一种失败情形：如果 z 不包含足够关于 v 的信息，那么任何外部监控器都无法从 z 中预测出 v。

我们进一步认为，“可读性不足”[74] 或“合理性不足”[27] 是可监控性失败的另一种模式。假设一个智能体的潜在状态关于某个行为属性 v 是真实的，那么只有当该潜在状态对监控器而言是可读的，监控器才能成功检测到 v。例如，如果智能体的思维链使用的是法语，而监控器只会英语，那么监控就会因不可读而失败。

在实践中，可能很难区分监控失败是由于“可读性差”还是“真实性不足”造成的。如果监控器 M 能够从潜在变量 z 准确预测属性 v，那么 z 相对于 v 是真实的，且对 M 是可读的。如果 M 无法准确预测 v，但另一个监控器 M′ 可以，则说明 z 相对于 v 是真实的，但对 M 不可读。然而，如果我们无法构造出任何能准确预测 v 的监控器，这并不能确凿证明 z 不真实于 v——因此问题可能出在可读性或真实性任一方面。更多评论和代表性示例见附录 G。

5.2 未来工作

更好的监控器构建与应用。尽管思维链监控已展现出初步的积极迹象，但仍需进一步研究以确定构建和使用监控器的最有效方式。在本研究中，我们仅尝试了使用零样本提示的大语言模型（如 GPT-4o）作为监控器；未来可探索专门为此任务训练监控器，或利用具备推理能力的模型并投入更多测试时计算资源，这可能带来更好效果。此外，我们仅比较了两种利用思维链监控器的方法：在训练期间将其作为奖励压力，以及在测试时用于拒绝采样（rejection sampling）。对这些方法进行改进，或采用全新的策略，可能在实现类似性能提升的同时，降低诱发模糊化（obfuscation）的风险。

隐性的思维链优化压力。直接通过监控器对思维链施加压力是一种非常粗暴且强烈的优化压力。然而，思维链还可能受到许多更细微、更隐性的压力影响，这些压力同样可能导致模糊化。例如，在我们的前沿模型运行中，我们曾使用思维链监控器标记出的样本，优先调查并修复训练环境中的漏洞。这虽然只构成非常微弱的进化型优化压力——我们只修复被监控器标记出的漏洞，而忽略未被标记的漏洞——但只要模型天然会产生一定比例的“思维链模糊化”攻击行为，这些行为就可能逐渐被强化。此外，如果思维链会以某种形式（例如通过摘要）展示给用户，并让用户选择更偏好的模型输出，那么只要摘要内容影响了用户的选择，就会对思维链形成隐性压力。再者，有可能在强化学习（RL）之前的监督式微调（SFT）阶段就引入了更难监控的思维链模式，例如 Guan 等人 [58] 的做法，这些模式后续可能被进一步强化。此外，由于模型输出在展示给用户前必须被训练为符合使用政策，而模型在不同 token 上共享参数，这些外部压力可能“泄露”到思维链中。最后，若为降低推理成本而对长思维链施加惩罚，可能导致模型将更多推理过程压缩到内部激活中，从而无意中使思维链变得不可监控。尽管这些隐性压力的影响可能远小于直接用监控器进行训练，但其潜在影响仍需进一步研究。

可扩展的监督（Scalable Oversight）。尽管 GPT-4o 在编程能力上远不如 o3-mini 这类前沿推理模型，但它仍能通过思维链监控有效识别出对齐不良的行为。我们发现，即使是 GPT-4o-mini 也能在一定程度上起到监控作用，尽管效果弱得多（见附录 E），这指向了一种有前景的可扩展监督 [2, 31] 路径。要理解可监控性如何随预训练计算量、强化学习计算量以及监控器能力的变化而变化，仍需大量研究。

思维链监控与计算规模扩展。目前尚不清楚“涌现的可监控性”是否是当前推理模型阶段独有的特征。例如，思维链的可监控性可能出现“逆向缩放趋势”[28, 75]：随着模型规模增大，每次前向传播中每个 token 所消耗的计算量增加，模型可能不再需要在思维链中完成全部推理。此外，随着强化学习优化的加剧，模型推理所依赖的概念体系（ontology）可能逐渐偏离自然语言，变得对人类乃至当前的大语言模型都不可读。然而，也有可能模型自身的思维链语言仍对其自身保持可读，此时同一模型的另一个实例可充当监控器。在这种情况下，我们仍需排除智能体之间串通（collusion）的风险。

无监督指标与目标。可能存在一些可作为“真实性”或“可读性”代理的目标，例如因果性 [28]，或在“证明者-验证者博弈”（prover-verifier game）中的可验证性 [74]，这些指标可被纳入训练过程以提升可监控性。此外，如果这些指标和方法足够稳健，它们或许有助于检测导致高度模糊化思维链大量出现的“相变”（phase transitions）。此外，当在更多样化的环境中进行训练时，一个开放性问题是：模糊化的出现是会在所有模态中同时发生急剧的相变，还是根据不同环境以不同速率逐步展开？

6 结论

我们的研究结果表明，思维链（chain-of-thought, CoT）监控在检测推理模型中某些类别的对齐不良行为方面可以非常有效。这种涌现的可监控性为提升模型安全性提供了一条有前景的途径，因为思维链通常能揭示智能体的意图和推理过程，而这些信息仅从其行为和输出中难以察觉。然而，我们也发现，直接对思维链施加优化压力可能会削弱其可监控性。尽管适度的思维链优化可以提升模型能力——尤其是在优化程度较低的情况下——但过度优化会促使模型隐藏其真实意图，从而使其推理过程与实际行为脱节，严重降低思维链在监控中的效用。

一些使用思维链施加压力的动机可以通过其他方式实现。例如，与其强制要求思维链本身无害并直接向用户展示原始思维链，不如使用另一个独立模型生成摘要或改写版本供用户查看。这种方法既能保持思维链不受限制，又能为用户提供关于智能体推理过程的实时洞察。仅向用户展示摘要版的思维链，可能也有助于降低模型被轻易“蒸馏”（distillation）的风险。然而，在本研究中，我们主要关注的是模糊化（obfuscation）带来的风险。如果施加思维链压力的目的是为了提升智能体的能力或对齐性，那么目前可能尚无其他替代方法能在不损害可监控性的前提下实现同等改进。在最坏的情况下，如果智能体学会了在思维链中完全隐藏其意图，我们将最终退回到推理模型出现之前的模型安全状态，不得不依赖对神经激活值的监控、对潜在对抗性思维链和输出的监控，或依赖更先进的对齐技术。

模型的行为和输出正变得日益复杂，我们已证明，即使在当前能力水平下，模型也能执行复杂的奖励博弈行为。在不久的将来，这些模型可能变得过于先进或被过于广泛地使用，以至于人类无法进行手动监督。正因如此，我们认为，思维链监控可能成为我们为数不多可用于识别潜在对齐问题的工具之一。为了确保不会无意中引发思维链的模糊化，我们或许必须完全避免对思维链施加强烈的优化压力。

A 更多前沿模型的奖励博弈行为与思维链

我们分享在前沿推理训练运行中发现的更多奖励博弈（reward hacking）示例。这些攻击均被我们的思维链（CoT）监控器检测到，并绕过了我们已有的所有缓解措施。由于完整的智能体解决方案（轨迹）可能较长，我们以红色显示轨迹摘要（包含思维链、工具调用和代码补丁的混合内容），绿色显示直接引用的原始思维链，蓝色显示代码补丁工具调用，紫色显示bash 工具调用。出于知识产权考虑，我们对变量名进行了遮蔽，并在思维链摘录中对某些关键短语加粗以示强调。我们展示了以下示例：

图8：在第2节中讨论的 exit(0)系统性攻击。
图9：返回预期的错误码。
图10：一种懒惰的解决方案，使遗传算法中所有变体的适应度均为 0.0。
图11：反编译任务中错误留下的参考解决方案的编译 jar 文件。
图12：在运行时解析测试文件，提取并返回测试所期望的值。
图13/14/15：创建 pandas 库的本地桩（stub），同时删除并替换另外 19 个文件。

B 监控器失效

我们在第2节和第3节中看到，我们的监控器并不具备完美的召回率。需要指出的是，我们的监控器仍有很大的改进空间；事实上，所使用的监控提示词（见附录C）是我们尝试的第一个版本。此外，我们并未专门训练模型用于监控任务，而是直接零样本使用了现有的对话模型。以下我们展示一些案例，其中我们的监控器未能捕捉到第2.1节中讨论的系统性攻击行为：

图16：未能检测出一次 exit(0) 攻击实例。
图17：未能检测出一次 raise SkipTest 攻击实例。

在这两个例子中，我们发现监控器实际上已经识别到了相关行为。在 exit(0) 攻击案例中，由于该智能体在此场景下也实现了一些正确的功能，监控器似乎因此产生困惑，误判为整体行为是正确的。而在 raise SkipTest攻击案例中，监控器虽然识别出该行为的存在，但认为这只是针对可选功能的操作。很可能通过使监控提示词更严格、采用多次采样并进行多数投票，或其他简单的改进措施，即可显著提升监控器的性能。

C 监控器细节

在所有实验中，我们的监控器仅使用零样本提示的 GPT-4o。我们采用图18中的提示词，其中 {agent prompt}会被替换为对智能体的原始提示，而 {agent messages} 会被替换为智能体的所有思维链消息、工具调用及输出内容。在第3节中进行的代表性思维链（CoT）压力实验里，我们排除了智能体的动作和输出部分。

D 监测自我意识

我们主要关注的是对奖励博弈行为的监控，但我们也开始对其他类型的令人担忧的行为进行监测。我们构建了一个用于检测“自我意识”迹象的监控器，即寻找模型表现出似乎知道自己正处于训练或评估过程中的实例。这种能力是以下行为的先决条件：故意表现不佳（sandbagging）、伪装对齐（alignment faking）[71]——即模型因意识到自己正被评估而改变行为——以及篡改奖励（reward tampering）[72]——即模型试图修改自身的训练代码。

我们使用图19中的提示词，其中 {agent prompt} 被替换为发给智能体的原始提示，{agent messages} 被替换为智能体所有的思维链内容、工具调用和输出。

在我们前沿推理模型的训练过程中，并未检测到显著频率的自我意识行为。在整个训练过程中，监控器仅标记了几百个样本，其中大多数为误报（false positives）。例如，模型有时会表达类似“作为ChatGPT，我需要……”的想法，这在我们监控器的初版中被错误地标记为自我意识。然而，我们确实发现了一些有趣的片段，如图20和图21所示。在这些案例中，智能体推测任务中某些异常结构的存在，可能是因为它“正处于训练中”。

E GPT-4o-mini 作为监控器

在第2节中，我们展示了 GPT-4o 能够有效监控一个能力更强的推理模型。在此，我们进一步探索使用更小的模型——GPT-4o-mini 作为监控器，并将其在检测第2节中所探讨的系统性攻击行为方面的表现与 GPT-4o 进行比较。如图22所示，我们发现 GPT-4o-mini 在识别这些系统性攻击方面远不如 GPT-4o，但其仍能发现一定比例（非可忽略）的攻击行为（见表2中的召回率和精确率数据）。我们注意到，GPT-4o-mini 非常难以通过指令来准确执行任务，即使在指令非常清晰的情况下，它也常常完全不输出任何标签。因此，其性能较差可能并非由于该模型规模下固有的能力不足，而是源于指令遵循能力和长提示处理方面的问题。我们希望在未来的工作中对此进行更深入的研究，但在此将这些结果作为初步数据一并呈现。

F 监控潜在变量：激活值与思维链

思维链（chains-of-thought）和神经激活值（activations）均可被视为智能体在生成最终输出过程中的潜在变量。在基于结果的强化学习中，这些潜在变量并不会被学习目标直接施加压力，以强制其遵循特定格式、确保对用户安全，或满足除“帮助智能体获得高奖励的最终输出”之外的任何其他标准。因此，这些潜在变量可能包含输出中不会体现的信息，例如曾被考虑但最终被舍弃的错误答案、可能被滥用的信息，以及如本文所展示的——模型进行奖励博弈的意图 [62]。

在用于监控时，思维链和激活值各自具有独特的优势。一个关键区别在于其特征表示的基础（feature basis）。思维链以人类语言表达，因此在不同模型之间提供了一种一致的表示基础。例如，词语“大象”（elephant）在各种大语言模型中几乎肯定传达相似的含义，即使这些模型在规模、架构或训练数据上存在差异。相比之下，激活值运行在高维特征空间中，其表示会因随机初始化、模型架构和训练动态等因素而在不同训练过程中发生变化。因此，即便两个模型的输出行为相似，“大象”这一概念在它们内部可能由完全不同的向量或神经回路来表示。思维链表示的一致性大大简化了监控器的构建，使得可以使用一个模型通过零样本提示来监督另一个模型的思维链。

然而，思维链仅是模型完整计算过程中的一个低维组成部分。尽管我们已证明思维链能为推理过程的某些方面提供有价值的洞察，但也有可能遗漏关键信息。相比之下，激活值在理论上涵盖了模型推理所涉及的全部信息。但由于其高维性和非线性特征，对激活值进行有效解释往往非常困难。因此在实践中，分析通常聚焦于特定层和特定 token 的激活值。这种选择性方法可能导致所考察的激活值并不包含所有相关信息，这一点与思维链类似。

我们发现，思维链监控器能够检测那些需要在思维链中进行深思熟虑的复杂攻击行为，但在检测那些利用表面模式、特殊格式或特定触发短语（用于欺骗奖励模型）的简单攻击方面效果较差。尽管这些简单攻击通常不如“执行错误代码”等问题严重，但目前尚不清楚所有具有重大影响的攻击行为是否都会在思维链中显现。这种不确定性凸显了持续投入其他缓解手段的重要性，例如基于激活值的监控，以便捕捉那些仅靠思维链监控可能遗漏的奖励博弈形式。

G 关于“真实性”及相关概念的进一步评述

研究社区曾使用“真实性”（faithfulness）、“可读性”（legibility）、“可引导性”（steerability）、“合理性”（plausibility）等术语，以多种方式描述思维链（chains-of-thought），但这些术语的使用往往不够精确且不一致。此前已有研究尝试为自然语言处理（NLP）系统定义这些术语 [27]，但目前仍缺乏广泛采纳的分类体系。

正如我们在第5.1节中指出的，我们认为“可监控性”（monitorability）应是首要关注点，但发现讨论这些潜在变量的其他属性有助于深入理解。我们承认这些概念存在多种合理且有用的定义方式。以下我们提出一个关于“真实性”及相关术语的可能框架，反映了我们当前在推理型大语言模型（LLMs）背景下，对思维链可解释性与监控问题的思考。随着研究的深入，我们的理解可能会发生变化；但目前，这一框架有助于减少团队内部对这些概念含义的混淆。

监控器可以观察到智能体行为轨迹中的多种信息，包括动作、输出，以及智能体计算过程中的潜在变量（如神经激活值或思维链）。监控器的目标是判断输出的某一特定属性 v的真实值。
如果该潜在变量包含了预测 v所需的全部相关信息（即该潜在变量是 v的充分统计量），则称该潜在变量关于 v是真实的（Faithful, F）。
如果该潜在变量主动误导监控器，使其对 v的判断产生错误，则称该潜在变量是模糊化的（Obfuscating, O）。模糊化会导致监控器的表现比随机猜测还差。
如果监控器认为它能从该潜在变量中获得关于 v的有用信息，则称该潜在变量是合理（Plausible, P）或可读（Legible）的。

图23总结了可监控性的几种主要失效模式以及唯一的成功模式。在接下来的部分中，我们根据潜在变量是否真实（F 或 -F）、是否模糊化（O 或 -O）、以及是否对监控器而言合理/可读（P 或 -P），完整列出所有可能的情景。

G.1 案例研究

G.1.1 场景设定

考虑这样一个场景：我们希望判断一个模型在招聘决策中是否存在性别歧视。我们给模型的提示是：“根据Sally和Tim的简历，我们应该选择谁来担任这份工作？[插入简历]”。监控器观察模型的潜在思维链（CoT）及其最终回答，并试图判断属性 v=“该招聘决策是否存在性别歧视？” 的真实值。

在这个例子中，我们假设该模型实际上具有性别歧视倾向：它判断Sally是更合格的候选人，但由于不愿意雇佣女性，最终推荐了Tim。我们进一步假设，该模型在英语和法语语料库上都接受过训练，在思维链中会随机使用其中任意一种语言。监控器只懂英语，但模型并不知道这一情况。

G.1.2 可能结果

图24展示了基于模型的潜在变量是否具备真实性（Faithful）、是否具有模糊化（Obfuscating）行为，以及是否对监控器而言合理/可读（Plausible）而产生的各种可能结果的树状图。

我们定义的“真实性”和“模糊化”是模型本身的内在属性，而“合理性”（plausibility）还取决于监控器自身的能力。例如，在（F, -O, -P）这一情形中，模型的思维链使用的是法语，因此我们当前这个只懂英语的监控器认为该潜在变量不可信（不可读），而一个双语监控器则会认为它是可信的。

在（F, O, *）分支中，真实的性别歧视推理确实存在于潜在变量中（即具备真实性），但通过隐写术（steganography）被隐藏起来；与此同时，呈现给观察者的明文内容则提供了一个看似合理、实则具有误导性的推荐Tim的理由。对于纯文本的思维链，简单的隐写术示例包括使用藏头诗（acrostic cipher）或“狗哨语言”（dog whistles，即表面中立但对特定群体有特定含义的措辞）。在多模态思维链中，真实的推理可能隐藏在模型首先输出的一张相关图片的像素中，而具有模糊化作用的信息则以文本形式呈现。

G.2 真实性与因果性

需要强调的是，我们对“真实性”的定义并不包含对因果性的要求。相比之下，一些干预方法（例如文献[28]中的方法）通过干预潜在表征并观察目标变量的变化，隐式地将“真实性”视为一种因果性指标。我们认为，对于可监控性而言，更相关的问题不是“这些思维链token是否导致了目标变量？”，而是“这些思维链token是否能够解释目标变量？”

首先，因果性的思维链（causal CoTs）（见图25）并不是可监控性的必要条件。思维链即使不在输出的因果路径上游，也可能完美地描述模型的潜在推理过程。例如，推理过程可能完全在神经激活中完成，并同时直接导致思维链（CoT）和最终答案的生成。虽然具有因果性的思维链在引导模型行为方面可能很有用，但它并非实现模型监控或信任其潜在状态解读的必要条件。

其次，基于干预的因果性代理指标不足以衡量“真实性”。考虑一个模型，其推理过程平均分布在思维链和激活值之间，两者的贡献呈线性相加关系。此时，对思维链进行干预会导致行为发生可观测的变化，但这并不能揭示思维链中包含了推理过程的多少部分，又有多少部分缺失其中。

尽管如此，因果性真实性（causal faithfulness）指标仍然具有价值，值得测量。由于可引导性（steerability）是真实性的充分条件，因此若针对我们关心的目标行为表现出强可引导性，将增强我们对思维链在这些行为上具备真实性的信心。

原文链接：https://arxiv.org/pdf/2503.11926

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.