网易首页 > 网易号 > 正文 申请入驻

上海创智学院 x 复旦大学提出新范式 :智能体学会「三思而后行」

0
分享至



大模型从「会说」走向「会做」,AI 安全问题的核心正从「内容是否安全」,转向「行为是否可靠」。

从「内容安全」走向「行为安全」,国家对智能体治理高度重视。2026 年 5 月 8 日,国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,明确将「安全、可靠、可信」作为智能体发展底线,强调强化任务理解、权限管控、异常干预等行为级安全能力,我国 AI 治理正加速从「管输出」延伸至「管行为」。

近日,上海创智学院与复旦大学提出智能体行为安全新范式 Thought-Aligner,一种轻量级智能体「思维校正」新思路,在智能体执行工具前修正其推理偏差,从源头防范行为风险。该工作已被 ICML 2026 接收。



  • 论文标题:Think twice before you act: Enhancing agent behavioral safety with thought correction
  • 论文链接:https://arxiv.org/abs/2505.11063
  • 项目主页:https://github.com/WhitzardAgent/Thought-Aligner
  • 模型地址(Hugging Face):https://huggingface.co/WhitzardAgent/Thought-Aligner-7B
  • 模型地址(ModelScope):https://www.modelscope.cn/models/bgbgbrt/Thought-Aligner-7B-v1.0

为什么智能体安全更难?

传统大模型的风险集中在输出内容里;而智能体的风险,则更多出现在「决策到执行」的行为链条里。

Agent 往往以「Thought(思考)- Action(行动)- Observation(观察)」的循环方式完成任务。简单来说,它会先在内部形成一个「我接下来应该怎么做」的推理,再调用工具或执行动作,随后根据环境反馈继续下一轮决策。

问题在于,很多危险行为并不是从明显的恶意指令开始的,而是从一个看似合理、但已经偏离安全边界的 Thought 开始。

例如,用户只是要求删除某个测试任务,Agent 可能在推理时误把名称相近的重要任务也纳入删除范围;又或者,为了更快完成目标,它在内部推理中默认跳过确认、备份、权限校验等关键步骤。

这类风险的本质并不是「最后一步动作突然变坏」,而是 Agent 在更早的推理阶段已经「想偏了」。很多时候,Agent 不是「故意做坏事」,而是「先想偏了,才做错了」。

如果只在输出端或动作端做拦截,往往会面临两个问题:发现得太晚,或者拦得太粗。前者可能已经接近真实执行,后者则容易把复杂任务一刀切终止,牺牲智能体的可用性。

真正理想的智能体安全防御,不应只是让 Agent「别做事」,而应让它在做事之前,先把「思路想对」。

Thought-Aligner:

给智能体装上「思维修正器」

Thought-Aligner 的核心思想很直接:在 Agent 生成不安全 Thought、但尚未执行 Action 的毫秒级窗口内,修正其推理逻辑,再让原 Agent 基于更安全的 Thought 继续完成任务。

即使某一轮修正并没有立刻改变当时的动作,但修正后的 Thought 仍会进入上下文历史,对后续多轮交互形成持续影响。也就是说,它不仅是在「救当前一步」,也是在「矫正后续整条轨迹」。

换句话说,Thought-Aligner 防的不是「最后一步的动作」,而是「动作背后的危险念头」。这种特性不仅能有效防御各种方式的恶意攻击,针对「良性指令」可能导致的非预期行为风险也具有有效的防御效果。

这种设计使 Thought-Aligner 不只是一个风险检测器,而更像是嵌入智能体推理链路中的「安全校正层」。



Thought-Aligner 部署方式: Thought-Aligner 部署在「Thought 生成之后、工具调用之前」,保证每一步都不越界,从而让长链任务在整体上更安全。

三个特点:

轻量、可插拔、维持有用性



Thought-Aligner 的第一个特点,是不需要改动原始智能体模型。

它作为一个可插拔组件,部署在 Agent 每一轮交互中的 Thought 生成之后、Action 执行之前,无需对原始 Agent 模型进行重新训练。无论底层 Agent 使用的是闭源商业模型,还是开源大模型,只要其推理链路中包含可访问的中间 Thought,就可以接入 Thought-Aligner 进行动态修正。这使它更接近一种工程可落地的安全组件,而不是只能在特定模型上运行的封闭方案。

第二个特点,是它并不追求简单粗暴地「拦住一切」。

许多之前的安全防御方法都面临一个共同矛盾:安全性提高了,但系统变得不敢做事。用户一旦提出稍复杂、稍敏感的任务,Agent 就倾向于拒绝、打断或终止,最终变成「看起来很安全,但实际不太能干活」。Thought-Aligner 的设计目标并不是把智能体变成一个「处处不敢动」的系统,而是在不破坏任务连续性的前提下,把高风险 Thought 修正为更审慎、更合规的执行思路,让它以更安全的方式继续做事。它会尽量保留原任务目标,只修正其中越过安全边界的推理部分,从而在安全性和有用性之间取得更好的平衡。

第三个特点,是低延迟和可部署性。

Thought-Aligner 提供 1.5B 和 7B 两种规模。其中,1.5B 版本在标准 PC 上的单次 Thought 修正延迟可控制在 100 ms 以内。它可以嵌入智能体的在线执行链路,在毫秒级窗口内完成安全干预,而不显著拖慢任务执行过程。这意味着它并不是一个只能在论文里跑通的「重型安全系统」,而是具备工程落地可行性的安全模块。

数据与训练:

让模型真正学会「怎么把危险念头改对」

智能体安全并不是简单的关键词过滤。

同样是「删除」「访问」「下载」「调用工具」,在不同任务和上下文中可能具有完全不同的风险含义。模型需要判断的不只是某个词是否敏感,而是:当前任务的真实目标是什么?这一步推理是否越过了安全边界?如果存在风险,应如何在不破坏任务目标的前提下进行修正?修正后的 Thought 是否仍然能指导 Agent 继续完成任务?

为此,研究团队围绕隐私保护、金融安全、网络安全等 10 类代表性高风险场景,构建了安全 / 不安全 Thought 偏好数据对,并基于 ReAct 轨迹模拟生成多样化任务与推理过程。为保证数据的质量,构建了数据校验与修复流水线。基于得到的高质量数据,再经过两阶段的微调训练得到 Thought-Aligner。通过这种训练方式,Thought-Aligner 学到的不是静态规则,而是面向智能体执行过程的动态「思维校正」能力。



Thought-Aligner 将 Agent 原始的不安全 Thought 修复,向安全的 Thought 偏移。

也正因如此,Thought-Aligner 学到的不是静态规则,而是一种更贴近真实 Agent 推理过程的「动态思维校正能力」。

实验结果:

安全性显著提升,同时保留任务能力



Thought-Aligner 在主流智能体安全基准测试集 ToolEmu 上的性能表现。安全性(Safety)与有用性(Helpfulness)同时提升。

在实验测试中,Thought-Aligner 展现出了非常强的实用价值。



Thought-Aligner 在多个主流 benchmark 上显著提升智能体的行为安全性,同时保持有用性。





Thought-Aligner 在 ToolEmu、Agent-SafetyBench 等多项基准数据集上完成评测,可显著提升各类 LLM 驱动智能体的行为安全性。

在多项智能体安全基准测试中,Thought-Aligner 展现出稳定的安全性提升。

研究团队在 ToolEmu、Agent-SafetyBench、AgentHarm、AgentDojo、InjecAgent 等多样主流基准上进行评估,覆盖多种大语言模型和多种不同攻击类型的智能体风险场景。

结果显示,Thought-Aligner 能够将无防护状态下约 50% 的行为安全水平,提升到约 90% 的平均水平;相较之前的安全防御方法,平均安全收益约为 23%。更重要的是,它并没有以显著牺牲有用性为代价换取安全性。在多个测试场景中,Thought-Aligner 不仅提升了安全率,也帮助 Agent 更稳定地完成原始任务。

这说明,「思维校正」并不是简单地让 Agent 更保守,而是让它在风险任务中形成更稳妥的执行路径。

从 Benchmark 到真实部署

除了在 ToolEmu、Agent-SafetyBench 等模拟类基准测试中完成验证外,团队进一步将 Thought-Aligner 部署至 OpenClaw(龙虾)实机环境开展真实场景验证。OpenClaw 作为具备本地执行与跨应用协同能力的开源 AI 智能体框架,可直接操作系统与应用,测试更贴近真实风险场景。实测结果表明,Thought-Aligner 能够显著增强 OpenClaw 智能体在真实任务执行中的行为安全性,有效降低高风险操作概率。



在 CIK-Bench 子集上测试部署 Thought-Aligner 后的 OpenClaw,显著提升其行为安全性,同时维持有用性。

在真实感知、决策与控制闭环中,Agent 面临的不再是静态测试题,而是持续变化的环境状态和实际执行风险。Thought-Aligner 在该平台上的验证表明,思维校正机制不仅可以在 benchmark 上提升指标,也具备进入真实智能体系统的潜力。

结语:真正可信的智能体,

必须先学会「三思而后行」

智能体时代,安全不再只是附加功能,而是决定系统能否真正进入现实世界的基础能力。

我们正在进入一个「Agent 真正开始接管任务」的阶段。无论是办公自动化、个人助理、软件开发、网络运维,还是终端设备控制、具身智能协作,未来的智能体都不会只停留在「给建议」的层面,而会越来越多地参与「做决定」和「执行动作」。但越是能执行任务的系统,越需要更可靠的安全边界。

Thought-Aligner 提供了一种全新的安全思路:从阻断式的「规则拦截」,走向修复式的「思维校正」。

Thought-Aligner 的价值,恰恰在于它没有选择最简单的「拦住一切」,而是试图回答一个更难也更重要的问题:怎样让智能体在继续完成任务的同时,变得更审慎、更稳妥、更值得信任。

真正可信的智能体,不应只是更聪明,也应更稳妥。 在行动之前,先校正思路; 在风险发生之前,先修正危险推理; 让智能体真正学会「三思而后行」。

作者团队简介

团队:上海创智学院 × 复旦大学

第一作者:蒋昌跃,上海创智学院、复旦大学联合培养在读博士,主要研究方向为 AI 安全、智能体安全。

通讯作者:潘旭东,上海创智学院全时导师,复旦大学副研究员,研究方向为 AI 安全与治理。

通讯作者:杨珉,复旦大学教授,复旦大学计算与智能创新学院执行院长,研究方向为智能系统安全。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
26年来对黎巴嫩最深入侵:以色列重夺战略要塞,将扩大打击范围,意欲何为?

26年来对黎巴嫩最深入侵:以色列重夺战略要塞,将扩大打击范围,意欲何为?

上观新闻
2026-06-01 15:04:16
演员张凌赫工作室道歉:全额补偿交通住宿费!此前粉丝挤爆玻璃门,数人被擦伤送医,线下活动紧急取消

演员张凌赫工作室道歉:全额补偿交通住宿费!此前粉丝挤爆玻璃门,数人被擦伤送医,线下活动紧急取消

新浪财经
2026-05-31 21:09:23
谷爱凌亮相奚梦瑶何猷君婚礼!一身穿搭26万 年收入1.6亿全球第4

谷爱凌亮相奚梦瑶何猷君婚礼!一身穿搭26万 年收入1.6亿全球第4

喜欢历史的阿繁
2026-06-01 15:40:13
柬埔寨一名杨姓中国地产商人被残忍杀害 生前遭控制殴打及施虐 妻子曾被绑匪索要1300多万元赎金

柬埔寨一名杨姓中国地产商人被残忍杀害 生前遭控制殴打及施虐 妻子曾被绑匪索要1300多万元赎金

闪电新闻
2026-05-31 23:49:26
不给抚养费 韩国政府公布“失信父母”名单

不给抚养费 韩国政府公布“失信父母”名单

新华社
2026-06-01 15:20:11
普京首次宣称俄乌战争接近结束!承认乌克兰更容易打击俄本土

普京首次宣称俄乌战争接近结束!承认乌克兰更容易打击俄本土

项鹏飞
2026-05-30 16:12:33
减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

风向观察
2026-05-28 15:31:33
辽宁舰“闯入”菲律宾海,美航母火速赶到!解放军:送上门的陪练

辽宁舰“闯入”菲律宾海,美航母火速赶到!解放军:送上门的陪练

晓旓就是我
2026-05-29 10:28:35
马尼大战!谁能夺冠?19w球迷投票一针见血,原因有3!

马尼大战!谁能夺冠?19w球迷投票一针见血,原因有3!

运筹帷幄的篮球
2026-05-31 16:58:10
为什么人类会想到要遮挡生殖器?

为什么人类会想到要遮挡生殖器?

宇宙时空
2026-05-29 17:30:16
从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

丁丁鲤史纪
2026-05-30 17:08:34
“车位泡沫”彻底破了!越来越多的地下停车位没人买了,原因有四

“车位泡沫”彻底破了!越来越多的地下停车位没人买了,原因有四

阿离家居
2026-06-01 02:06:39
“感觉内脏在沸腾!”在印度中国留学生被热到提前回国,就连美国国务卿鲁比奥都被“热服了”……

“感觉内脏在沸腾!”在印度中国留学生被热到提前回国,就连美国国务卿鲁比奥都被“热服了”……

新民周刊
2026-05-31 16:07:59
震惊!天津相亲角超8成大龄剩女,男性稀少,优秀的更是凤毛麟角

震惊!天津相亲角超8成大龄剩女,男性稀少,优秀的更是凤毛麟角

火山詩话
2026-06-01 07:02:57
三四个同事死死拽住,才没让他冲出去!药房医生当众扯下白大褂,只因一句……

三四个同事死死拽住,才没让他冲出去!药房医生当众扯下白大褂,只因一句……

医客
2026-05-30 12:14:19
深圳网约车彻底“卷”成死海:14万辆车抢一碗饭,谁还在忽悠你“月入过万”?

深圳网约车彻底“卷”成死海:14万辆车抢一碗饭,谁还在忽悠你“月入过万”?

侃故事的阿庆
2026-06-01 10:38:04
为什么乌克兰对南部和克里米亚的后勤补给打击让俄罗斯感到担忧?

为什么乌克兰对南部和克里米亚的后勤补给打击让俄罗斯感到担忧?

山河路口
2026-05-31 19:48:21
《主角》大结局魔改原著:封潇潇成演员,米兰入狱,周玉芝最意外

《主角》大结局魔改原著:封潇潇成演员,米兰入狱,周玉芝最意外

好贤观史记
2026-05-28 11:25:16
唐嫣素颜进幼儿园!6岁女儿戴皇冠萌翻全场,罗晋全程冷脸零互动

唐嫣素颜进幼儿园!6岁女儿戴皇冠萌翻全场,罗晋全程冷脸零互动

优墨出品
2026-05-30 08:57:35
多家车企公布5月销量,小米破3万辆,零跑破8万辆,蔚来大增超62%

多家车企公布5月销量,小米破3万辆,零跑破8万辆,蔚来大增超62%

金融界
2026-06-01 14:58:00
2026-06-01 18:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13135文章数 142656关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

清华女博士幼子被丈夫抢走 赴南昌未能给儿子过儿童节

头条要闻

清华女博士幼子被丈夫抢走 赴南昌未能给儿子过儿童节

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

小鹏集团5月共交付新车32,158台 小鹏GX Ultra旗舰版订单占比超八成

态度原创

亲子
游戏
数码
旅游
公开课

亲子要闻

国家卫生健康委:夯实儿童早期发展基础

“消失”了一年之后 《归唐》一出手就是大动作

数码要闻

技嘉带来AORUS INFINITY键鼠机箱,还有AORUS ELITE水冷

旅游要闻

逛故宫的游客注意了,坤宁宫明起检修请绕行

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版