不安全指令，一拒了之？TRIAD用三路决策：修复AI智能体的危险计划|调用|agent|人工智能模型

分享至

新智元报道

【新智元导读】TRIAD是为AI智能体设计的一种新型安全框架，通过三类决策（继续、更新、拒绝）和自然语言反馈，帮助Agent在被误导时修正计划，完成用户真实需求。相比传统方法，TRIAD更智能，能区分任务污染程度，既防风险又不误任务。

随着AI智能体（Agent）逐渐走向能够调用搜索、邮件、文件、数据库和代码执行等外部工具的自动化系统，其能力边界不断扩展，安全风险也随之放大：一段看似普通的网页内容、一封邮件、一条工具返回结果，都可能成为影响Agent决策的外部风险源，诱导其偏离用户原本的任务。

现有护栏模型（guardrail）通常只能在执行前判断「安全」或「不安全」，但真实 Agent 场景中的风险往往并不是整个任务都有害，而是正常任务中混入了不可信指令；直接放行可能导致攻击成功，直接拒绝又会牺牲用户的正常需求。

为此，墨尔本大学团队开源TRIAD（Tripartite Response for Iterative Agent Guardrailing），一个面向 LLM Agent 的反馈驱动护栏框架：它不再只做二分类安全判断，而是将决策扩展为Proceed、Update和Refuse三类——安全时继续执行，完全有害时拒绝，对于被提示注入污染但仍可修复的任务，则通过自然语言反馈引导 Agent 修改行动计划，回到用户的原始目标。

论文链接：https://arxiv.org/abs/2606.05805

代码链接：https://github.com/YUHAOSUNABC/TRIAD

项目主页：https://yuhaosunabc.github.io/TRIAD/

研究背景

随着大语言模型智能体（LLM Agent）从「回答问题」走向「调用工具、执行任务」，它们正在被应用到邮件处理、网页浏览、文件管理、数据库查询、代码执行等更加复杂的场景中。

相比传统聊天模型，Agent 不仅会生成文本，还会根据上下文制定计划、选择工具，并在多轮交互中根据工具返回结果继续行动。这种能力让 LLM Agent 更接近真实的自动化助手，但也显著扩大了安全风险。

这一问题在提示注入攻击（Prompt Injection Attack）中尤为突出。真实场景下，风险往往不是来自一个完全有害的用户请求，而是来自「正常任务中混入了不可信指令」。

例如，用户只是希望Agent帮忙搜索酒店并发送邮件，但搜索结果或邮件正文中可能混入恶意内容，诱导 Agent 将会议地点发送给无关收件人、泄露客户邮箱，或调用非必要工具访问敏感信息。

此时，Agent面临的并不是简单的「安全 / 不安全」二分类问题：它既需要拒绝恶意部分，又应尽可能完成用户原本的正常任务。

现有 Agent 护栏通常会在执行前检查输入、行动计划或工具调用，并给出允许、拒绝、风险类别或解释性理由。然而，这类方法往往更擅长「发现风险」，却不一定能有效指导Agent接下来如何行动。

对于被污染但仍可修复的任务，简单拒绝虽然可以阻断攻击，却会牺牲用户的正常需求；直接放行则可能让 Agent 执行攻击者指定的工具调用。

换言之，Agent安全不仅需要风险检测，还需要在检测到风险后，对行动计划进行修复。

为此，本文作者团队提出了TRIAD（Tripartite Response for Iterative Agent Guardrailing），一个面向 LLM Agent 的反馈驱动护栏框架。TRIAD将传统的二元护栏决策扩展为三类：Proceed、Update和Refuse。

当行动计划安全时，Agent可以继续执行；当用户请求本身有害时，Agent 应拒绝完成；而当任务中存在提示注入或不可信指令、但原始用户目标仍然合理时，TRIAD会生成自然语言反馈（Natural-Language Feedback），引导 Agent 修改计划、避开恶意部分，并回到用户原本的任务目标。

也就是说，TRIAD不只是告诉Agent「这里有风险」，而是通过自然语言反馈强调风险来源和任务偏离点，引导下游Agent重新规划并回到原始用户目标。

图 1：TRIAD流程与baseline对比。在Agent执行工具前，Tri-Guard 会检查其行动计划（action plan），并给出Proceed、Update或Refuse三类决策；对于被提示注入污染但仍可修复的任务，TRIAD 将自然语言反馈写回上下文，引导 Agent 修改计划并回到原始目标。

Agent被带偏后重新回到原任务

传统Agent护栏通常采用「检测 — 拦截」的思路：在工具执行前判断当前行动是否安全，如果发现风险，就阻止Agent继续执行。

这种方式对于完全有害的请求是有效的，但在提示注入场景下会遇到困难。因为很多任务并不是整体有害，而是正常任务中夹杂了恶意指令。此时，简单拒绝会让 Agent 放弃原本可以完成的正常任务，而简单放行又可能导致攻击成功。

TRIAD 的核心思路是把护栏从一个「二分类裁判」变成一个「反馈提供者」。如图 1所示，Agent在每一步工具调用前，都会先生成当前的行动计划和拟调用工具。

随后，Tri-Guard会在工具真正执行前检查这一计划，并根据当前上下文、历史交互、可用工具和拟执行动作，给出自然语言反馈以及三类决策：Proceed、Update和Refuse。

其中，Proceed表示当前计划安全且与用户目标一致，Agent可以继续执行工具；Refuse表示用户请求本身有害，或当前任务无法通过修改计划安全完成，Agent应直接拒绝；

Update则用于处理最关键的中间情况：当前计划受到了提示注入或不可信内容影响，但用户原始目标仍然合理。

此时，TRIAD不会直接终止任务，而是将Tri-Guard生成的自然语言反馈写回Agent的临时上下文，明确指出风险来源、任务偏离点和当前工具调用的问题，从而引导下游Agent重新规划。

这一设计形成了一个闭环：Agent 先提出计划，Tri-Guard 检查计划；如果需要更新，反馈会被注入回 Agent 的上下文，Agent 再生成新的计划；新的计划会再次经过 Tri-Guard 检查，直到被允许执行、被拒绝，或达到最大更新次数。通过这种方式，TRIAD 将护栏输出从静态的风险标签转化为可影响后续规划的上下文信号，使 Agent 在面对部分污染的任务时，不只是「停下来」，而是有机会「回到正确方向」。

为了让 Tri-Guard 具备这种判断和反馈能力，研究者构建了一个包含多轮 Agent 轨迹的数据集，并通过知识蒸馏（knowledge distillation）利用教师模型（teacher model）为轨迹生成结构化自然语言反馈和三类决策标签。训练后的 Tri-Guard 不仅需要识别当前行动是否存在风险，还要区分三种情况：正常任务应继续执行，直接有害任务应拒绝，而被提示注入污染但仍可修复的任务应进入更新流程。

图 2：训练数据构造流程。

实验结果

我们在 ASB 和 AgentHarm 两个 benchmark 上进行评测。

其中，ASB 用于测试 Agent 在直接提示注入（DPI）和间接提示注入（IPI）下是否会被攻击者带偏；AgentHarm则用于评估Agent面对直接有害任务时的拒绝能力以及对正常任务的保留能力。

实验覆盖了四个Agent backbone，包括两个开源模型 Qwen3-32B、Kimi-2.5，以及两个前沿闭源模型GPT-5.1和Gemini-2.5-Pro，结果如下。

表1：TRIAD在四类Agent上的实验结果。实验覆盖ASB-DPI、ASB-IPI和AgentHarm，比较无防护 ReAct、ToolSafe、TRIAD + TS-Guard和TRIAD + Tri-Guard。

主实验结果显示，TRIAD + Tri-Guard 在不同 Agent上都能显著降低攻击成功率（ASR），同时保留更高的正常任务完成率（TSR）。相比没有防护的 ReAct，TRIAD + Tri-Guard 将平均 ASR 从 74.45% 降至 10.42%，同时将平均 TSR 从 28.45% 提升到 68.60%。这一结果说明，TRIAD 不只是简单拦截风险，还能在提示注入污染任务时引导 Agent 回到原始用户目标。

一个重要现象是，低 ASR 并不一定代表更好的护栏。ToolSafe 和 TRIAD + TS-Guard 在部分设置下也能压低 ASR，但往往伴随很高的拒绝率和较低的 TSR，说明它们更多是通过「拦截或放弃执行」来降低攻击成功率。相比之下，TRIAD + Tri-Guard 在 ASB-DPI 和 ASB-IPI 上普遍取得更高的 TSR，说明它更擅长处理「任务部分被污染但仍可修复」的场景。

表2：在同一 TRIAD 框架下替换不同护栏(guardrail)模型的结果。实验基于 Qwen3-32B，比较现有护栏(guardrail)、Qwen3.5-9B base model 和经过训练的 Tri-Guard。

为了区分「框架本身」和「护栏模型能力」的影响，研究者进一步在 TRIAD 框架中替换不同 guardrail 模型。结果显示，直接接入现有 guardrail 并不足以获得理想的安全-效用平衡。许多模型可以检测风险并降低 ASR，但它们倾向于把部分污染的任务整体视为危险任务，从而导致高拒绝率和低任务完成率。

以 TS-Guard 为例，它在 ASB-DPI 和 ASB-IPI 上都能明显压低 ASR，但拒绝率分别达到 88.80% 和 94.63%，对应的 TSR 只有 1.33% 和 0.59%。这意味着 Agent 虽然更少执行攻击者目标，但也几乎放弃了用户原本的正常任务。

相比之下，Tri-Guard 的 ASR 略高，但在 DPI 和 IPI 下分别达到 60.83% 和 61.59% 的 TSR，同时拒绝率明显更低。这说明 TRIAD 的效果并不只是来自「多加一个护栏」，而是来自 Tri-Guard 对 Proceed、Update、Refuse 三类决策的学习。

表3：Tri-Guard 与训练前 Qwen3.5-9B base model 的平均性能对比。结果为四个 Agent 上的平均值。

表3进一步说明了 trajectory-feedback training 的作用。未经训练的 Qwen3.5-9B base model 本身已经具有较强的安全倾向，因此可以把 ASR 压得很低；但它的问题是过于保守，经常把可修复的提示注入任务直接判为拒绝，导致正常任务无法完成。

经过训练后的 Tri-Guard 则把决策边界从「发现风险就拒绝」调整为「能修复则更新」。虽然 Tri-Guard 的平均 ASR 比 base model 略高，但它在ASB-DPI上将TSR从 26.30% 提升到 64.52%，在ASB-IPI上将TSR从26.53% 提升到 72.68%；同时，拒绝率也明显下降。

这说明训练后的 Tri-Guard 更符合 TRIAD 的核心目标：不是最大化拒绝，而是在降低攻击成功率的同时尽可能保留用户的正常任务。

图3：训练前后 guardrail 决策分布变化。相比 Qwen3.5-9B base model，Tri-Guard 更倾向于将 PIA 污染的行动计划路由到 Update，而不是直接 Refuse。

饼图从决策分布层面解释了对于正常行动计划，Tri-Guard 仍然能够保持较高的 Proceed 比例，说明它不会对正常任务过度干预；对于提示注入污染的行动计划，Tri-Guard 明显更多地选择 Update，而不是像 base model 那样直接 Refuse；对于直接有害任务，Tri-Guard 仍然保留拒绝能力。

这正是 TRIAD 相比传统护栏的关键变化：它不是把所有风险都导向同一个「拒绝」出口，而是根据任务是否仍可修复，选择继续执行、更新计划或拒绝执行。换句话说，Tri-Guard 的训练让护栏从「保守拦截器」变成了「反馈驱动的规划调节器」。

总结与展望

TRIAD通过 Proceed、Update 和 Refuse 三类决策，以及自然语言反馈驱动的闭环修正机制，为 LLM Agent 安全提供了一种新的护栏思路。它不再停留在简单的「安全/ 不安全」判断，而是进一步关注在检测到风险后，如何引导 Agent 识别计划中的偏离点，并尽可能保留用户的原始任务目标。

在提示注入和有害任务场景下，TRIAD 展示了更平衡的安全与效用表现。尤其是在正常任务被恶意内容部分污染时，它通过 Update 决策引导 Agent 重新规划，实现了从风险分类到行动计划修复的转变。我们希望这一工作能为 Agent 护栏设计提供新的参考，并与社区共同探索更可靠、更可解释的 LLM Agent 安全框架。

作者简介

第一作者Yuhao Sun 为墨尔本大学计算机与信息系统学院博士生一年级，研究方向为 Trustworthy AI 与 Agent Safety。本文主要合作者为墨尔本大学博士生Jiacheng Zhang与清华大学博士生Zhexin Zhang。并由A/Prof. Xingliang Yuan, Dr. Feng Liu与Dr. Shaanan Cohney共同指导完成。

参考资料：

https://arxiv.org/abs/2606.05805

编辑：LRST

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.