网易首页 > 网易号 > 正文 申请入驻

不安全指令,一拒了之?TRIAD用三路决策:修复AI智能体的危险计划

0
分享至


新智元报道


【新智元导读】TRIAD是为AI智能体设计的一种新型安全框架,通过三类决策(继续、更新、拒绝)和自然语言反馈,帮助Agent在被误导时修正计划,完成用户真实需求。相比传统方法,TRIAD更智能,能区分任务污染程度,既防风险又不误任务。

随着AI智能体(Agent)逐渐走向能够调用搜索、邮件、文件、数据库和代码执行等外部工具的自动化系统,其能力边界不断扩展,安全风险也随之放大:一段看似普通的网页内容、一封邮件、一条工具返回结果,都可能成为影响Agent决策的外部风险源,诱导其偏离用户原本的任务。

现有护栏模型(guardrail)通常只能在执行前判断「安全」或「不安全」,但真实 Agent 场景中的风险往往并不是整个任务都有害,而是正常任务中混入了不可信指令;直接放行可能导致攻击成功,直接拒绝又会牺牲用户的正常需求。

为此,墨尔本大学团队开源TRIAD(Tripartite Response for Iterative Agent Guardrailing),一个面向 LLM Agent 的反馈驱动护栏框架:它不再只做二分类安全判断,而是将决策扩展为Proceed、Update和Refuse三类——安全时继续执行,完全有害时拒绝,对于被提示注入污染但仍可修复的任务,则通过自然语言反馈引导 Agent 修改行动计划,回到用户的原始目标。


论文链接:https://arxiv.org/abs/2606.05805

代码链接:https://github.com/YUHAOSUNABC/TRIAD

项目主页:https://yuhaosunabc.github.io/TRIAD/

研究背景

随着大语言模型智能体(LLM Agent)从「回答问题」走向「调用工具、执行任务」,它们正在被应用到邮件处理、网页浏览、文件管理、数据库查询、代码执行等更加复杂的场景中。

相比传统聊天模型,Agent 不仅会生成文本,还会根据上下文制定计划、选择工具,并在多轮交互中根据工具返回结果继续行动。这种能力让 LLM Agent 更接近真实的自动化助手,但也显著扩大了安全风险。

这一问题在提示注入攻击(Prompt Injection Attack)中尤为突出。真实场景下,风险往往不是来自一个完全有害的用户请求,而是来自「正常任务中混入了不可信指令」

例如,用户只是希望Agent帮忙搜索酒店并发送邮件,但搜索结果或邮件正文中可能混入恶意内容,诱导 Agent 将会议地点发送给无关收件人、泄露客户邮箱,或调用非必要工具访问敏感信息。

此时,Agent面临的并不是简单的「安全 / 不安全」二分类问题:它既需要拒绝恶意部分,又应尽可能完成用户原本的正常任务。

现有 Agent 护栏通常会在执行前检查输入、行动计划或工具调用,并给出允许、拒绝、风险类别或解释性理由。然而,这类方法往往更擅长「发现风险」,却不一定能有效指导Agent接下来如何行动。

对于被污染但仍可修复的任务,简单拒绝虽然可以阻断攻击,却会牺牲用户的正常需求;直接放行则可能让 Agent 执行攻击者指定的工具调用。

换言之,Agent安全不仅需要风险检测,还需要在检测到风险后,对行动计划进行修复。

为此,本文作者团队提出了TRIAD(Tripartite Response for Iterative Agent Guardrailing),一个面向 LLM Agent 的反馈驱动护栏框架。TRIAD将传统的二元护栏决策扩展为三类:ProceedUpdateRefuse

当行动计划安全时,Agent可以继续执行;当用户请求本身有害时,Agent 应拒绝完成;而当任务中存在提示注入或不可信指令、但原始用户目标仍然合理时,TRIAD会生成自然语言反馈(Natural-Language Feedback),引导 Agent 修改计划、避开恶意部分,并回到用户原本的任务目标。

也就是说,TRIAD不只是告诉Agent「这里有风险」,而是通过自然语言反馈强调风险来源和任务偏离点,引导下游Agent重新规划并回到原始用户目标。


图 1:TRIAD流程与baseline对比。 在Agent执行工具前,Tri-Guard 会检查其行动计划(action plan),并给出Proceed、Update或Refuse三类决策;对于被提示注入污染但仍可修复的任务,TRIAD 将自然语言反馈写回上下文,引导 Agent 修改计划并回到原始目标。

Agent被带偏后重新回到原任务

传统Agent护栏通常采用「检测 — 拦截」的思路:在工具执行前判断当前行动是否安全,如果发现风险,就阻止Agent继续执行。

这种方式对于完全有害的请求是有效的,但在提示注入场景下会遇到困难。因为很多任务并不是整体有害,而是正常任务中夹杂了恶意指令。此时,简单拒绝会让 Agent 放弃原本可以完成的正常任务,而简单放行又可能导致攻击成功。

TRIAD 的核心思路是把护栏从一个「二分类裁判」变成一个「反馈提供者」。如图 1所示,Agent在每一步工具调用前,都会先生成当前的行动计划和拟调用工具。

随后,Tri-Guard会在工具真正执行前检查这一计划,并根据当前上下文、历史交互、可用工具和拟执行动作,给出自然语言反馈以及三类决策:Proceed、Update和Refuse

其中,Proceed表示当前计划安全且与用户目标一致,Agent可以继续执行工具;Refuse表示用户请求本身有害,或当前任务无法通过修改计划安全完成,Agent应直接拒绝;

Update则用于处理最关键的中间情况:当前计划受到了提示注入或不可信内容影响,但用户原始目标仍然合理。

此时,TRIAD不会直接终止任务,而是将Tri-Guard生成的自然语言反馈写回Agent的临时上下文,明确指出风险来源、任务偏离点和当前工具调用的问题,从而引导下游Agent重新规划。

这一设计形成了一个闭环:Agent 先提出计划,Tri-Guard 检查计划;如果需要更新,反馈会被注入回 Agent 的上下文,Agent 再生成新的计划;新的计划会再次经过 Tri-Guard 检查,直到被允许执行、被拒绝,或达到最大更新次数。通过这种方式,TRIAD 将护栏输出从静态的风险标签转化为可影响后续规划的上下文信号,使 Agent 在面对部分污染的任务时,不只是「停下来」,而是有机会「回到正确方向」。

为了让 Tri-Guard 具备这种判断和反馈能力,研究者构建了一个包含多轮 Agent 轨迹的数据集,并通过知识蒸馏(knowledge distillation)利用教师模型(teacher model)为轨迹生成结构化自然语言反馈和三类决策标签。训练后的 Tri-Guard 不仅需要识别当前行动是否存在风险,还要区分三种情况:正常任务应继续执行,直接有害任务应拒绝,而被提示注入污染但仍可修复的任务应进入更新流程。


图 2:训练数据构造流程。

实验结果

我们在 ASB 和 AgentHarm 两个 benchmark 上进行评测。

其中,ASB 用于测试 Agent 在直接提示注入(DPI)和间接提示注入(IPI)下是否会被攻击者带偏;AgentHarm则用于评估Agent面对直接有害任务时的拒绝能力以及对正常任务的保留能力。

实验覆盖了四个Agent backbone,包括两个开源模型 Qwen3-32B、Kimi-2.5,以及两个前沿闭源模型GPT-5.1和Gemini-2.5-Pro,结果如下。


表1:TRIAD在四类Agent上的实验结果。实验覆盖ASB-DPI、ASB-IPI和AgentHarm,比较无防护 ReAct、ToolSafe、TRIAD + TS-Guard和TRIAD + Tri-Guard。

主实验结果显示,TRIAD + Tri-Guard 在不同 Agent上都能显著降低攻击成功率(ASR),同时保留更高的正常任务完成率(TSR)。相比没有防护的 ReAct,TRIAD + Tri-Guard 将平均 ASR 从 74.45% 降至 10.42%,同时将平均 TSR 从 28.45% 提升到 68.60%。这一结果说明,TRIAD 不只是简单拦截风险,还能在提示注入污染任务时引导 Agent 回到原始用户目标。

一个重要现象是,低 ASR 并不一定代表更好的护栏。ToolSafe 和 TRIAD + TS-Guard 在部分设置下也能压低 ASR,但往往伴随很高的拒绝率和较低的 TSR,说明它们更多是通过「拦截或放弃执行」来降低攻击成功率。相比之下,TRIAD + Tri-Guard 在 ASB-DPI 和 ASB-IPI 上普遍取得更高的 TSR,说明它更擅长处理「任务部分被污染但仍可修复」的场景。


表2:在同一 TRIAD 框架下替换不同 护栏(guardrail)模型的结果。实验基于 Qwen3-32B,比较现有护栏(guardrail)、Qwen3.5-9B base model 和经过训练的 Tri-Guard。

为了区分「框架本身」和「护栏模型能力」的影响,研究者进一步在 TRIAD 框架中替换不同 guardrail 模型。结果显示,直接接入现有 guardrail 并不足以获得理想的安全-效用平衡。许多模型可以检测风险并降低 ASR,但它们倾向于把部分污染的任务整体视为危险任务,从而导致高拒绝率和低任务完成率。

以 TS-Guard 为例,它在 ASB-DPI 和 ASB-IPI 上都能明显压低 ASR,但拒绝率分别达到 88.80% 和 94.63%,对应的 TSR 只有 1.33% 和 0.59%。这意味着 Agent 虽然更少执行攻击者目标,但也几乎放弃了用户原本的正常任务。

相比之下,Tri-Guard 的 ASR 略高,但在 DPI 和 IPI 下分别达到 60.83% 和 61.59% 的 TSR,同时拒绝率明显更低。这说明 TRIAD 的效果并不只是来自「多加一个护栏」,而是来自 Tri-Guard 对 Proceed、Update、Refuse 三类决策的学习。


表3:Tri-Guard 与训练前 Qwen3.5-9B base model 的平均性能对比。结果为四个 Agent 上的平均值。

表3进一步说明了 trajectory-feedback training 的作用。未经训练的 Qwen3.5-9B base model 本身已经具有较强的安全倾向,因此可以把 ASR 压得很低;但它的问题是过于保守,经常把可修复的提示注入任务直接判为拒绝,导致正常任务无法完成。

经过训练后的 Tri-Guard 则把决策边界从「发现风险就拒绝」调整为「能修复则更新」。虽然 Tri-Guard 的平均 ASR 比 base model 略高,但它在ASB-DPI上将TSR从 26.30% 提升到 64.52%,在ASB-IPI上将TSR从26.53% 提升到 72.68%;同时,拒绝率也明显下降。

这说明训练后的 Tri-Guard 更符合 TRIAD 的核心目标:不是最大化拒绝,而是在降低攻击成功率的同时尽可能保留用户的正常任务。


图3:训练前后 guardrail 决策分布变化。相比 Qwen3.5-9B base model,Tri-Guard 更倾向于将 PIA 污染的行动计划路由到 Update,而不是直接 Refuse。

饼图从决策分布层面解释了对于正常行动计划,Tri-Guard 仍然能够保持较高的 Proceed 比例,说明它不会对正常任务过度干预;对于提示注入污染的行动计划,Tri-Guard 明显更多地选择 Update,而不是像 base model 那样直接 Refuse;对于直接有害任务,Tri-Guard 仍然保留拒绝能力。

这正是 TRIAD 相比传统护栏的关键变化:它不是把所有风险都导向同一个「拒绝」出口,而是根据任务是否仍可修复,选择继续执行、更新计划或拒绝执行。换句话说,Tri-Guard 的训练让护栏从「保守拦截器」变成了「反馈驱动的规划调节器」。

总结与展望

TRIAD通过 Proceed、Update 和 Refuse 三类决策,以及自然语言反馈驱动的闭环修正机制,为 LLM Agent 安全提供了一种新的护栏思路。它不再停留在简单的「安全/ 不安全」判断,而是进一步关注在检测到风险后,如何引导 Agent 识别计划中的偏离点,并尽可能保留用户的原始任务目标。

在提示注入和有害任务场景下,TRIAD 展示了更平衡的安全与效用表现。尤其是在正常任务被恶意内容部分污染时,它通过 Update 决策引导 Agent 重新规划,实现了从风险分类到行动计划修复的转变。我们希望这一工作能为 Agent 护栏设计提供新的参考,并与社区共同探索更可靠、更可解释的 LLM Agent 安全框架。

作者简介

第一作者Yuhao Sun 为墨尔本大学计算机与信息系统学院博士生一年级,研究方向为 Trustworthy AI 与 Agent Safety。本文主要合作者为墨尔本大学博士生Jiacheng Zhang与清华大学博士生Zhexin Zhang。并由A/Prof. Xingliang Yuan, Dr. Feng Liu与Dr. Shaanan Cohney共同指导完成。

参考资料:

https://arxiv.org/abs/2606.05805

编辑:LRST

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秋别离
2026-06-13 15:50:00
巴西vs挪威伤停名单与预测首发:拉菲尼亚伤缺、卡塞米罗存疑

巴西vs挪威伤停名单与预测首发:拉菲尼亚伤缺、卡塞米罗存疑

懂球帝
2026-07-05 12:20:08
世界杯宿命对决!28年魔咒缠身,巴西迎战不败克星挪威

世界杯宿命对决!28年魔咒缠身,巴西迎战不败克星挪威

砚底沉香
2026-07-05 17:06:13
28-23!这就是八村塁和库明加的区别,湖人被曝不想让他回来

28-23!这就是八村塁和库明加的区别,湖人被曝不想让他回来

奕辰说球
2026-07-05 11:18:49
法国1比0晋级,巴拉圭门将一句话惹出更大争议

法国1比0晋级,巴拉圭门将一句话惹出更大争议

常威暴DA来福
2026-07-05 10:44:57
捂嘴骂人会被罚下!姆巴佩直接开骂VAR未介入 阿媒:用阿根廷国骂

捂嘴骂人会被罚下!姆巴佩直接开骂VAR未介入 阿媒:用阿根廷国骂

念洲
2026-07-05 09:16:20
何庭波更新了“韬(τ)定律”论文:进一步完善了以时间常数τ为核心的后摩尔时代缩放理论体系

何庭波更新了“韬(τ)定律”论文:进一步完善了以时间常数τ为核心的后摩尔时代缩放理论体系

政知新媒体
2026-07-04 15:45:41
芯片大局已定:不出意外的话,2026年起中国半导体或迎来3大变化

芯片大局已定:不出意外的话,2026年起中国半导体或迎来3大变化

粤语音乐喷泉
2026-07-05 14:31:19
名嘴:陈幸同0-4放水孙颖莎?4强8强奖金差了8万块钱谁跟钱过不去?

名嘴:陈幸同0-4放水孙颖莎?4强8强奖金差了8万块钱谁跟钱过不去?

818体育
2026-07-05 13:52:30
一粒药撑一个月:长效口服药技术落地,这家小市值药企赌对了

一粒药撑一个月:长效口服药技术落地,这家小市值药企赌对了

摸鱼算法
2026-07-04 03:47:56
看懂抗美援朝,也就懂了伊朗总统莱希死后,中国为啥在台海掀桌子

看懂抗美援朝,也就懂了伊朗总统莱希死后,中国为啥在台海掀桌子

深挖全球热点
2026-07-05 13:32:17
送走艾顿后湖人交易计划曝光:打包范德彪、克内克特追逐顶级侧翼

送走艾顿后湖人交易计划曝光:打包范德彪、克内克特追逐顶级侧翼

夜白侃球
2026-07-04 23:48:12
周末疯狂发酵!影响太大了,明天A股要见证历史!

周末疯狂发酵!影响太大了,明天A股要见证历史!

星图金融研究院
2026-07-05 15:05:36
韩红深陷危机!百人援蒙送别现场舆论升级,网友怒斥不容造神作秀

韩红深陷危机!百人援蒙送别现场舆论升级,网友怒斥不容造神作秀

火山詩话
2026-07-04 09:40:29
库巴西:西葡赛后我想找C罗换球衣,我和佩德里关系最好

库巴西:西葡赛后我想找C罗换球衣,我和佩德里关系最好

懂球帝
2026-07-05 17:29:10
在设计院,性能力才是第一生产力

在设计院,性能力才是第一生产力

黯泉
2025-07-06 21:54:56
纯属意外!陈龙8岁儿子狂揽19个冠军,一开始只是去蹭哥哥的课

纯属意外!陈龙8岁儿子狂揽19个冠军,一开始只是去蹭哥哥的课

赏心悦目的我
2026-07-03 16:17:29
相比三十年前,南疆年降水量已增加30%,红旗河工程还有必要吗?

相比三十年前,南疆年降水量已增加30%,红旗河工程还有必要吗?

全城探秘
2026-07-05 12:39:20
有人预测:到了2035年,房价将是现在的2-3倍,这可能吗?

有人预测:到了2035年,房价将是现在的2-3倍,这可能吗?

细说职场
2026-07-05 11:20:26
保险卖不动了,700万人集体离场。

保险卖不动了,700万人集体离场。

流苏晚晴
2026-07-04 18:54:07
2026-07-05 17:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15612文章数 66948关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

网红直播时被警方当场带走 涉案金额高达50余万

头条要闻

网红直播时被警方当场带走 涉案金额高达50余万

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
健康
亲子
家居
时尚

教育要闻

已知m³➕m²=➖4,求m³=?

听说少吃点能抗衰老?专家讲解!

亲子要闻

讲一个让娃整个暑假都有学有玩、还省爹妈的方法——花钱

家居要闻

传奇筑 日常诗

为什么女明星体重涨了,身材反而更辣了?

无障碍浏览 进入关怀版