就在今天,小扎的 Meta 公司「挖角」了一个大的,将思维链(CoT)论文的第一作者 Jason Wei 招至他们的超级智能团队。作为参与 OpenAI o1 和 deep research 模型的知名研究员,Jason Wei 的离开,或让 OpenAI 损失巨大。
同时,今天另一件与 CoT 相关的新闻是,OpenAI、Google DeepMind、Anthropic公司“罕见同台”,与来自其他高校、知名企业和非营利性组织的AI研究员们共同发表了一份立场文件,呼吁“有必要对监控 AI 推理模型‘思维’的技术(即 CoT)进行更深入的研究”。
值得一提的是,AI 教父、图灵奖得主、蒙特利尔大学教授Yoshua Bengio的名字也出现在了名单中。
![]()
文件链接:
https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf
众所周知,推理模型是驱动 AI agent 的核心技术,作者认为,随着 AI agent 的普及和能力提升,CoT monitoring 可能成为控制其行为的核心方法。
“然而,目前这种可见性程度能否持续尚无保证。我们鼓励研究界和前沿AI开发者充分利用CoT可监测性,并研究如何保持其透明度。”
在立场文件中,作者要求领先的 AI 模型开发者研究使 CoT 可监测的因素——换言之,哪些因素会增加或减少对AI模型实际得出答案过程的透明度。
此外,他们还呼吁 AI 模型开发人员跟踪 CoT 可监测性,并研究该方法未来如何作为安全措施加以实施。
为何 CoT 需要且可被监控?
Tomek Korbak、Mikita Balesni 等作者在立场文件中写道,AI 系统以人类语言进行“思考”为 AI 安全提供了独特机会:我们可以通过监控它们的 CoT 来察觉其不良意图。和其他监管方法一样,CoT monitoring 并不完美,某些不当行为仍会被忽略。然而,它展现出希望,我们建议进一步研究 CoT 的可监控性,并在现有安全方法之上增加对 CoT monitoring 的应用。
由于大语言模型(LLM)以人类语言进行处理和行动,人们希望它们比其它类型 AI 更容易理解。CoT 的发现进一步提高了这种可能性:通过提示模型“大声思考”(即在产生最终输出前生成中间推理步骤),不仅提升了模型能力,还使更多相关计算以自然语言形式呈现。
然而,对于未经专门训练进行推理的语言模型,仅靠提示产生的 CoT 依然受限于迎合表面有用和无害性的倾向,其内容不一定真实可靠。因此,单纯通过提示生成的 CoT 输出存在信任问题。
对于推理模型,CoT 与模型内部激活状态类似,可能包含一些不会直接体现在输出中的信息,例如模型蓄意不当行为的意图。
他们在文件引出了一个关键观点:如果我们能够读取模型的CoT,就有机会发现模型意图中的危险信号。
CoT monitoring,即由自动系统读取推理模型的 CoT 以及其他相关信息,标记可疑或潜在有害的决策,从而拦截不良行为、替换为更安全的动作或进行更深入的人工审查。广泛得说,研究 CoT 可以帮助我们了解 agent “如何思考”以及“有哪些目标”。
他们在文中解释了为何CoT 可以被监控,包括以下两点:
必要性:模型为完成困难任务必须“出声”进行推理。如果某些任务难度足够大,模型无法在不使用 CoT 的情况下完成任务,则它势必需要将部分推理过程外化为自然语言。若模型始终以自然语言展开推理,而最严重的风险行为又需要这种扩展推理,那么我们就有机会可靠地检测到明显的不当意图。
倾向性:即使模型并非严格必须依赖 CoT 完成任务,它也可能倾向于将推理过程外显。虽然这种倾向并不鲁棒、可靠,但基于倾向的监控仍可能发现某些本来难以觉察的违规意图。
导致CoT可监控性降低的可能因素
他们还指出,当前推理模型的 CoT 之所以可监控,可能很大程度上取决于当今模型的训练方式。而随着训练范式和模型设计的演变,这种可监控性可能被削弱或丧失。
首先,大规模强化学习导致 CoT 可读性下降。在早期的预训练和基于人类反馈的强化学习(RLHF)范式下,大部分优化压力来自人类生成或评价的数据,训练高度依赖基于结果的强化学习,缺乏此属性,模型未必再有动力保持 CoT 的可读性。
其次,当模型使用纯基于结果的强化学习进行训练时,它们只会因为正确的输出而得到奖励,它们的推理过程除了帮助得出正确的答案之外,不会受到任何优化压力的影响。过程监督有希望让模型以更安全的方式进行推理并有利于监督困难任务,但这样的优化可能会使 CoT 无法忠实地反映模型作出决策的过程。
除此之外,即使没有直接把奖励建立在 CoT 上,训练过程也会对 CoT 施加间接的优化压力。
LLM 只有在使用显式 CoT 时才能完成复杂的多步推理。研究者已经开始探索提高模型连续潜在空间推理能力的新架构。此类潜在推理模型可能不需要将任意想法语言化,因此会失去 CoT 赋予的安全优势。
CoT 监控的研究方向
作者认为,我们对 CoT 可监控性的理解仍处于起步阶段,在把它作为可靠的安全措施之前,还有许多关键问题回答,为此,他们列出了一系列重要的研究问题和方向:
1.如何评估CoT的可监控性?
当前有学者提出用“忠实度”等指标作为 CoT 可监控性的替代指标。但此类评估存在无法区分模型“倾向”与“必要”外化推理的因素,因此建议开发新的评估方案,包括直接测量 CoT 可监控性的指标,以及针对支撑可监控性的特定属性进行测试的指标
2.CoT可监控性达到何种程度才能作为主要安全依靠?
知道监控器本身的准确率仍不足以判断其能否有效防止 AI 造成危害。许多严重风险可能出现在存在对抗者(人类攻击者或不良 agent)试图规避监控的情境中。监控有效性的评估可能需要考虑此类对抗者,例如通过红队测试安全措施。
3.哪些训练时优化压力会降低CoT可监控性?
训练过程的属性可能影响可监测性,我们还缺乏清晰认识:究竟哪些类型和强度的直接或间接优化压力,在不明显损害 CoT 可监控性的前提下是“安全”的。
4.模型是否有意隐藏其推理过程?
当使用 CoT monitoring 作为一种安全措施时,一个明显的问题是,如果模型知道他们的 CoT 受到监控(从训练中或由于在提示中被告知),CoT 是否会变得不那么可监控。研究人员可以对模型进行压力测试,即使不专门训练模型反监控,也要看看它们是否已经有能力通过改变 CoT 来掩盖恶意意图。
5.何种模型架构会降低CoT的可监控性?
在连续潜在空间中推理的模型自然限制了其思维过程的可见性。因此,可以研究各种非传统架构对 CoT monitoring 的影响,探明在何种条件下仍能部分保留对推理过程的可见性。可以设计混合方案,在提升模型内部推理效率的同时,仍让一部分推理外化供监控。
6.如何构建更好的CoT监控器?
先前的工作侧重于用零样本提示让较弱的语言模型充当监视器。未来的工作可以探索利用测试时计算资源提升监控性能。例如,监控器可以基于一个推理模型,或允许其通过提问来审问 agent。此外,还可考虑对抗式训练监控器,对抗试图隐藏不良行为的 agent。
即使 CoT monitoring 带来了很多机会,作者同时也作出强调:“所有监控和监管方法都有局限,会让一些不良行为漏网。”
如果模型在执行某些任务时不需要外化 CoT,那么 CoT 监控虽然可能侦测到部分不当行为,但本身并不能提供强有力的安全保证。模型完全可以在内部激活中进行恶意推理,而 CoT 看上去仍然良好,必须注意不要基于此类监控就产生虚假的安全感。
对需要推理的危险任务的监控可能无法捕捉到所有相关的危害。有些危险任务也许并不需要太多推理,因此 CoT 监控未必能捕获所有相关危害。此外,随着模型在内部激活中完成越来越复杂的推理(无需外化),具备外化推理特征的任务将越来越少。
CoT 监控可能也会在更先进的情境感知模型中停止工作。更先进、具有环境意识的未来模型也许能够主动规避CoT监控。它们可能抑制自身“出声思考”的倾向,必要时甚至故意将真实意图藏匿或混淆在 CoT 中。
某些形式的过程监督可以大大提高模型的一致性,有效地干预模型推理。但如果我们过于执着于维持现有的 CoT 行为以方便监控,可能会错失其它潜在更有效的安全干预。
保护和利用CoT可监控性的具体建议
由于 CoT 可监控性提供了一个独特的安全窗口,面向 AI 模型开发者,作者提出了在模型开发与部署中保护和利用 CoT 可监控性的具体建议,如下:
应对 CoT 的可监测性进行有效评估。前沿模型开发人员以及更广泛的研究社区应该共同尝试并统一标准化的评估方案,以判定模型的 CoT 何时足够可监控。
应在 System Card 中公布 CoT 监控评估结果。一旦对 CoT 可监控性进行了可靠的评估,开发人员应定期在其模型上运行这些评估,并在这些模型的系统卡中报告评估结果、方法和局限。
应在训练和部署决策中使用可监控性分数:在决定训练或部署给定模型时,开发人员应将 CoT 可监控性的测度与其他能力、安全评估一道考虑。最终的决策应基于对风险的整体评估,包括模型的 CoT 监控性、监控系统本身的性能,以及模型发生不良行为的倾向。
最后,他们呼吁:“未来 AI agent 的安全措施可能需要采用多层监控,CoT 监控是这些安全措施的补充,提供了一个难得的视角来观察 AI agent 如何决策。然而,无法保证当前的可见性会持续。鼓励研究社区和前沿开发者充分利用目前CoT 可监控性,并研究如何保持它。”
整理:小羊
如需转载或投稿,请直接在公众号内留言
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.