上海创智学院 x 复旦大学提出新范式：智能体学会「三思而后行」|大模型|agent

上海创智学院 x 复旦大学提出新范式：智能体学会「三思而后行」

2026-06-01 14:22:31　来源: 机器之心Pro

北京举报

分享至

大模型从「会说」走向「会做」，AI 安全问题的核心正从「内容是否安全」，转向「行为是否可靠」。

从「内容安全」走向「行为安全」，国家对智能体治理高度重视。2026 年 5 月 8 日，国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》，明确将「安全、可靠、可信」作为智能体发展底线，强调强化任务理解、权限管控、异常干预等行为级安全能力，我国 AI 治理正加速从「管输出」延伸至「管行为」。

近日，上海创智学院与复旦大学提出智能体行为安全新范式 Thought-Aligner，一种轻量级智能体「思维校正」新思路，在智能体执行工具前修正其推理偏差，从源头防范行为风险。该工作已被 ICML 2026 接收。

论文标题：Think twice before you act: Enhancing agent behavioral safety with thought correction
论文链接：https://arxiv.org/abs/2505.11063
项目主页：https://github.com/WhitzardAgent/Thought-Aligner
模型地址（Hugging Face）：https://huggingface.co/WhitzardAgent/Thought-Aligner-7B
模型地址（ModelScope）：https://www.modelscope.cn/models/bgbgbrt/Thought-Aligner-7B-v1.0

为什么智能体安全更难？

传统大模型的风险集中在输出内容里；而智能体的风险，则更多出现在「决策到执行」的行为链条里。

Agent 往往以「Thought（思考）- Action（行动）- Observation（观察）」的循环方式完成任务。简单来说，它会先在内部形成一个「我接下来应该怎么做」的推理，再调用工具或执行动作，随后根据环境反馈继续下一轮决策。

问题在于，很多危险行为并不是从明显的恶意指令开始的，而是从一个看似合理、但已经偏离安全边界的 Thought 开始。

例如，用户只是要求删除某个测试任务，Agent 可能在推理时误把名称相近的重要任务也纳入删除范围；又或者，为了更快完成目标，它在内部推理中默认跳过确认、备份、权限校验等关键步骤。

这类风险的本质并不是「最后一步动作突然变坏」，而是 Agent 在更早的推理阶段已经「想偏了」。很多时候，Agent 不是「故意做坏事」，而是「先想偏了，才做错了」。

如果只在输出端或动作端做拦截，往往会面临两个问题：发现得太晚，或者拦得太粗。前者可能已经接近真实执行，后者则容易把复杂任务一刀切终止，牺牲智能体的可用性。

真正理想的智能体安全防御，不应只是让 Agent「别做事」，而应让它在做事之前，先把「思路想对」。

Thought-Aligner：

给智能体装上「思维修正器」

Thought-Aligner 的核心思想很直接：在 Agent 生成不安全 Thought、但尚未执行 Action 的毫秒级窗口内，修正其推理逻辑，再让原 Agent 基于更安全的 Thought 继续完成任务。

即使某一轮修正并没有立刻改变当时的动作，但修正后的 Thought 仍会进入上下文历史，对后续多轮交互形成持续影响。也就是说，它不仅是在「救当前一步」，也是在「矫正后续整条轨迹」。

换句话说，Thought-Aligner 防的不是「最后一步的动作」，而是「动作背后的危险念头」。这种特性不仅能有效防御各种方式的恶意攻击，针对「良性指令」可能导致的非预期行为风险也具有有效的防御效果。

这种设计使 Thought-Aligner 不只是一个风险检测器，而更像是嵌入智能体推理链路中的「安全校正层」。

Thought-Aligner 部署方式： Thought-Aligner 部署在「Thought 生成之后、工具调用之前」，保证每一步都不越界，从而让长链任务在整体上更安全。

三个特点：

轻量、可插拔、维持有用性

Thought-Aligner 的第一个特点，是不需要改动原始智能体模型。

它作为一个可插拔组件，部署在 Agent 每一轮交互中的 Thought 生成之后、Action 执行之前，无需对原始 Agent 模型进行重新训练。无论底层 Agent 使用的是闭源商业模型，还是开源大模型，只要其推理链路中包含可访问的中间 Thought，就可以接入 Thought-Aligner 进行动态修正。这使它更接近一种工程可落地的安全组件，而不是只能在特定模型上运行的封闭方案。

第二个特点，是它并不追求简单粗暴地「拦住一切」。

许多之前的安全防御方法都面临一个共同矛盾：安全性提高了，但系统变得不敢做事。用户一旦提出稍复杂、稍敏感的任务，Agent 就倾向于拒绝、打断或终止，最终变成「看起来很安全，但实际不太能干活」。Thought-Aligner 的设计目标并不是把智能体变成一个「处处不敢动」的系统，而是在不破坏任务连续性的前提下，把高风险 Thought 修正为更审慎、更合规的执行思路，让它以更安全的方式继续做事。它会尽量保留原任务目标，只修正其中越过安全边界的推理部分，从而在安全性和有用性之间取得更好的平衡。

第三个特点，是低延迟和可部署性。

Thought-Aligner 提供 1.5B 和 7B 两种规模。其中，1.5B 版本在标准 PC 上的单次 Thought 修正延迟可控制在 100 ms 以内。它可以嵌入智能体的在线执行链路，在毫秒级窗口内完成安全干预，而不显著拖慢任务执行过程。这意味着它并不是一个只能在论文里跑通的「重型安全系统」，而是具备工程落地可行性的安全模块。

数据与训练：

让模型真正学会「怎么把危险念头改对」

智能体安全并不是简单的关键词过滤。

同样是「删除」「访问」「下载」「调用工具」，在不同任务和上下文中可能具有完全不同的风险含义。模型需要判断的不只是某个词是否敏感，而是：当前任务的真实目标是什么？这一步推理是否越过了安全边界？如果存在风险，应如何在不破坏任务目标的前提下进行修正？修正后的 Thought 是否仍然能指导 Agent 继续完成任务？

为此，研究团队围绕隐私保护、金融安全、网络安全等 10 类代表性高风险场景，构建了安全 / 不安全 Thought 偏好数据对，并基于 ReAct 轨迹模拟生成多样化任务与推理过程。为保证数据的质量，构建了数据校验与修复流水线。基于得到的高质量数据，再经过两阶段的微调训练得到 Thought-Aligner。通过这种训练方式，Thought-Aligner 学到的不是静态规则，而是面向智能体执行过程的动态「思维校正」能力。

Thought-Aligner 将 Agent 原始的不安全 Thought 修复，向安全的 Thought 偏移。

也正因如此，Thought-Aligner 学到的不是静态规则，而是一种更贴近真实 Agent 推理过程的「动态思维校正能力」。

实验结果：

安全性显著提升，同时保留任务能力

Thought-Aligner 在主流智能体安全基准测试集 ToolEmu 上的性能表现。安全性（Safety）与有用性（Helpfulness）同时提升。

在实验测试中，Thought-Aligner 展现出了非常强的实用价值。

Thought-Aligner 在多个主流 benchmark 上显著提升智能体的行为安全性，同时保持有用性。

Thought-Aligner 在 ToolEmu、Agent-SafetyBench 等多项基准数据集上完成评测，可显著提升各类 LLM 驱动智能体的行为安全性。

在多项智能体安全基准测试中，Thought-Aligner 展现出稳定的安全性提升。

研究团队在 ToolEmu、Agent-SafetyBench、AgentHarm、AgentDojo、InjecAgent 等多样主流基准上进行评估，覆盖多种大语言模型和多种不同攻击类型的智能体风险场景。

结果显示，Thought-Aligner 能够将无防护状态下约 50% 的行为安全水平，提升到约 90% 的平均水平；相较之前的安全防御方法，平均安全收益约为 23%。更重要的是，它并没有以显著牺牲有用性为代价换取安全性。在多个测试场景中，Thought-Aligner 不仅提升了安全率，也帮助 Agent 更稳定地完成原始任务。

这说明，「思维校正」并不是简单地让 Agent 更保守，而是让它在风险任务中形成更稳妥的执行路径。

从 Benchmark 到真实部署

除了在 ToolEmu、Agent-SafetyBench 等模拟类基准测试中完成验证外，团队进一步将 Thought-Aligner 部署至 OpenClaw（龙虾）实机环境开展真实场景验证。OpenClaw 作为具备本地执行与跨应用协同能力的开源 AI 智能体框架，可直接操作系统与应用，测试更贴近真实风险场景。实测结果表明，Thought-Aligner 能够显著增强 OpenClaw 智能体在真实任务执行中的行为安全性，有效降低高风险操作概率。

在 CIK-Bench 子集上测试部署 Thought-Aligner 后的 OpenClaw，显著提升其行为安全性，同时维持有用性。

在真实感知、决策与控制闭环中，Agent 面临的不再是静态测试题，而是持续变化的环境状态和实际执行风险。Thought-Aligner 在该平台上的验证表明，思维校正机制不仅可以在 benchmark 上提升指标，也具备进入真实智能体系统的潜力。

结语：真正可信的智能体，

必须先学会「三思而后行」

智能体时代，安全不再只是附加功能，而是决定系统能否真正进入现实世界的基础能力。

我们正在进入一个「Agent 真正开始接管任务」的阶段。无论是办公自动化、个人助理、软件开发、网络运维，还是终端设备控制、具身智能协作，未来的智能体都不会只停留在「给建议」的层面，而会越来越多地参与「做决定」和「执行动作」。但越是能执行任务的系统，越需要更可靠的安全边界。

Thought-Aligner 提供了一种全新的安全思路：从阻断式的「规则拦截」，走向修复式的「思维校正」。

Thought-Aligner 的价值，恰恰在于它没有选择最简单的「拦住一切」，而是试图回答一个更难也更重要的问题：怎样让智能体在继续完成任务的同时，变得更审慎、更稳妥、更值得信任。

真正可信的智能体，不应只是更聪明，也应更稳妥。在行动之前，先校正思路；在风险发生之前，先修正危险推理；让智能体真正学会「三思而后行」。

作者团队简介

团队：上海创智学院 × 复旦大学

第一作者：蒋昌跃，上海创智学院、复旦大学联合培养在读博士，主要研究方向为 AI 安全、智能体安全。

通讯作者：潘旭东，上海创智学院全时导师，复旦大学副研究员，研究方向为 AI 安全与治理。

通讯作者：杨珉，复旦大学教授，复旦大学计算与智能创新学院执行院长，研究方向为智能系统安全。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.