![]()
大模型从「会说」走向「会做」,AI 安全问题的核心正从「内容是否安全」,转向「行为是否可靠」。
从「内容安全」走向「行为安全」,国家对智能体治理高度重视。2026 年 5 月 8 日,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,明确将「安全、可靠、可信」作为智能体发展底线,强调强化任务理解、权限管控、异常干预等行为级安全能力,我国 AI 治理正加速从「管输出」延伸至「管行为」。
近日,上海创智学院与复旦大学提出智能体行为安全新范式 Thought-Aligner,一种轻量级智能体「思维校正」新思路,在智能体执行工具前修正其推理偏差,从源头防范行为风险。该工作已被 ICML 2026 接收。
![]()
- 论文标题:Think twice before you act: Enhancing agent behavioral safety with thought correction
- 论文链接:https://arxiv.org/abs/2505.11063
- 项目主页:https://github.com/WhitzardAgent/Thought-Aligner
- 模型地址(Hugging Face):https://huggingface.co/WhitzardAgent/Thought-Aligner-7B
- 模型地址(ModelScope):https://www.modelscope.cn/models/bgbgbrt/Thought-Aligner-7B-v1.0
为什么智能体安全更难?
传统大模型的风险集中在输出内容里;而智能体的风险,则更多出现在「决策到执行」的行为链条里。
Agent 往往以「Thought(思考)- Action(行动)- Observation(观察)」的循环方式完成任务。简单来说,它会先在内部形成一个「我接下来应该怎么做」的推理,再调用工具或执行动作,随后根据环境反馈继续下一轮决策。
问题在于,很多危险行为并不是从明显的恶意指令开始的,而是从一个看似合理、但已经偏离安全边界的 Thought 开始。
例如,用户只是要求删除某个测试任务,Agent 可能在推理时误把名称相近的重要任务也纳入删除范围;又或者,为了更快完成目标,它在内部推理中默认跳过确认、备份、权限校验等关键步骤。
这类风险的本质并不是「最后一步动作突然变坏」,而是 Agent 在更早的推理阶段已经「想偏了」。很多时候,Agent 不是「故意做坏事」,而是「先想偏了,才做错了」。
如果只在输出端或动作端做拦截,往往会面临两个问题:发现得太晚,或者拦得太粗。前者可能已经接近真实执行,后者则容易把复杂任务一刀切终止,牺牲智能体的可用性。
真正理想的智能体安全防御,不应只是让 Agent「别做事」,而应让它在做事之前,先把「思路想对」。
Thought-Aligner:
给智能体装上「思维修正器」
Thought-Aligner 的核心思想很直接:在 Agent 生成不安全 Thought、但尚未执行 Action 的毫秒级窗口内,修正其推理逻辑,再让原 Agent 基于更安全的 Thought 继续完成任务。
即使某一轮修正并没有立刻改变当时的动作,但修正后的 Thought 仍会进入上下文历史,对后续多轮交互形成持续影响。也就是说,它不仅是在「救当前一步」,也是在「矫正后续整条轨迹」。
换句话说,Thought-Aligner 防的不是「最后一步的动作」,而是「动作背后的危险念头」。这种特性不仅能有效防御各种方式的恶意攻击,针对「良性指令」可能导致的非预期行为风险也具有有效的防御效果。
这种设计使 Thought-Aligner 不只是一个风险检测器,而更像是嵌入智能体推理链路中的「安全校正层」。
![]()
Thought-Aligner 部署方式: Thought-Aligner 部署在「Thought 生成之后、工具调用之前」,保证每一步都不越界,从而让长链任务在整体上更安全。
三个特点:
轻量、可插拔、维持有用性
![]()
Thought-Aligner 的第一个特点,是不需要改动原始智能体模型。
它作为一个可插拔组件,部署在 Agent 每一轮交互中的 Thought 生成之后、Action 执行之前,无需对原始 Agent 模型进行重新训练。无论底层 Agent 使用的是闭源商业模型,还是开源大模型,只要其推理链路中包含可访问的中间 Thought,就可以接入 Thought-Aligner 进行动态修正。这使它更接近一种工程可落地的安全组件,而不是只能在特定模型上运行的封闭方案。
第二个特点,是它并不追求简单粗暴地「拦住一切」。
许多之前的安全防御方法都面临一个共同矛盾:安全性提高了,但系统变得不敢做事。用户一旦提出稍复杂、稍敏感的任务,Agent 就倾向于拒绝、打断或终止,最终变成「看起来很安全,但实际不太能干活」。Thought-Aligner 的设计目标并不是把智能体变成一个「处处不敢动」的系统,而是在不破坏任务连续性的前提下,把高风险 Thought 修正为更审慎、更合规的执行思路,让它以更安全的方式继续做事。它会尽量保留原任务目标,只修正其中越过安全边界的推理部分,从而在安全性和有用性之间取得更好的平衡。
第三个特点,是低延迟和可部署性。
Thought-Aligner 提供 1.5B 和 7B 两种规模。其中,1.5B 版本在标准 PC 上的单次 Thought 修正延迟可控制在 100 ms 以内。它可以嵌入智能体的在线执行链路,在毫秒级窗口内完成安全干预,而不显著拖慢任务执行过程。这意味着它并不是一个只能在论文里跑通的「重型安全系统」,而是具备工程落地可行性的安全模块。
数据与训练:
让模型真正学会「怎么把危险念头改对」
智能体安全并不是简单的关键词过滤。
同样是「删除」「访问」「下载」「调用工具」,在不同任务和上下文中可能具有完全不同的风险含义。模型需要判断的不只是某个词是否敏感,而是:当前任务的真实目标是什么?这一步推理是否越过了安全边界?如果存在风险,应如何在不破坏任务目标的前提下进行修正?修正后的 Thought 是否仍然能指导 Agent 继续完成任务?
为此,研究团队围绕隐私保护、金融安全、网络安全等 10 类代表性高风险场景,构建了安全 / 不安全 Thought 偏好数据对,并基于 ReAct 轨迹模拟生成多样化任务与推理过程。为保证数据的质量,构建了数据校验与修复流水线。基于得到的高质量数据,再经过两阶段的微调训练得到 Thought-Aligner。通过这种训练方式,Thought-Aligner 学到的不是静态规则,而是面向智能体执行过程的动态「思维校正」能力。
![]()
Thought-Aligner 将 Agent 原始的不安全 Thought 修复,向安全的 Thought 偏移。
也正因如此,Thought-Aligner 学到的不是静态规则,而是一种更贴近真实 Agent 推理过程的「动态思维校正能力」。
实验结果:
安全性显著提升,同时保留任务能力
![]()
Thought-Aligner 在主流智能体安全基准测试集 ToolEmu 上的性能表现。安全性(Safety)与有用性(Helpfulness)同时提升。
在实验测试中,Thought-Aligner 展现出了非常强的实用价值。
![]()
Thought-Aligner 在多个主流 benchmark 上显著提升智能体的行为安全性,同时保持有用性。
![]()
![]()
Thought-Aligner 在 ToolEmu、Agent-SafetyBench 等多项基准数据集上完成评测,可显著提升各类 LLM 驱动智能体的行为安全性。
在多项智能体安全基准测试中,Thought-Aligner 展现出稳定的安全性提升。
研究团队在 ToolEmu、Agent-SafetyBench、AgentHarm、AgentDojo、InjecAgent 等多样主流基准上进行评估,覆盖多种大语言模型和多种不同攻击类型的智能体风险场景。
结果显示,Thought-Aligner 能够将无防护状态下约 50% 的行为安全水平,提升到约 90% 的平均水平;相较之前的安全防御方法,平均安全收益约为 23%。更重要的是,它并没有以显著牺牲有用性为代价换取安全性。在多个测试场景中,Thought-Aligner 不仅提升了安全率,也帮助 Agent 更稳定地完成原始任务。
这说明,「思维校正」并不是简单地让 Agent 更保守,而是让它在风险任务中形成更稳妥的执行路径。
从 Benchmark 到真实部署
除了在 ToolEmu、Agent-SafetyBench 等模拟类基准测试中完成验证外,团队进一步将 Thought-Aligner 部署至 OpenClaw(龙虾)实机环境开展真实场景验证。OpenClaw 作为具备本地执行与跨应用协同能力的开源 AI 智能体框架,可直接操作系统与应用,测试更贴近真实风险场景。实测结果表明,Thought-Aligner 能够显著增强 OpenClaw 智能体在真实任务执行中的行为安全性,有效降低高风险操作概率。
![]()
在 CIK-Bench 子集上测试部署 Thought-Aligner 后的 OpenClaw,显著提升其行为安全性,同时维持有用性。
在真实感知、决策与控制闭环中,Agent 面临的不再是静态测试题,而是持续变化的环境状态和实际执行风险。Thought-Aligner 在该平台上的验证表明,思维校正机制不仅可以在 benchmark 上提升指标,也具备进入真实智能体系统的潜力。
结语:真正可信的智能体,
必须先学会「三思而后行」
智能体时代,安全不再只是附加功能,而是决定系统能否真正进入现实世界的基础能力。
我们正在进入一个「Agent 真正开始接管任务」的阶段。无论是办公自动化、个人助理、软件开发、网络运维,还是终端设备控制、具身智能协作,未来的智能体都不会只停留在「给建议」的层面,而会越来越多地参与「做决定」和「执行动作」。但越是能执行任务的系统,越需要更可靠的安全边界。
Thought-Aligner 提供了一种全新的安全思路:从阻断式的「规则拦截」,走向修复式的「思维校正」。
Thought-Aligner 的价值,恰恰在于它没有选择最简单的「拦住一切」,而是试图回答一个更难也更重要的问题:怎样让智能体在继续完成任务的同时,变得更审慎、更稳妥、更值得信任。
真正可信的智能体,不应只是更聪明,也应更稳妥。 在行动之前,先校正思路; 在风险发生之前,先修正危险推理; 让智能体真正学会「三思而后行」。
作者团队简介
团队:上海创智学院 × 复旦大学
第一作者:蒋昌跃,上海创智学院、复旦大学联合培养在读博士,主要研究方向为 AI 安全、智能体安全。
通讯作者:潘旭东,上海创智学院全时导师,复旦大学副研究员,研究方向为 AI 安全与治理。
通讯作者:杨珉,复旦大学教授,复旦大学计算与智能创新学院执行院长,研究方向为智能系统安全。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.