在大语言模型不断走向智能体化、并通过工具调用直接作用于真实世界的今天,安全问题已经不再停留在“说什么”,而是转向“会做什么”。当模型能够调用代码执行器、数据库和真实 API 时,一次看似合理的工具调用,就可能直接引发现实世界中的安全风险。
问题的关键,并不在于安全对齐“做得不够”,而在于它对齐的对象已经发生了变化。
现有的大多数安全机制,主要围绕 chatbot 的文本输出设计;但在智能体场景中,真正的风险往往不来自违规回答,而来自一次被误判为正常的工具调用 [1]。
这一问题在提示注入攻击下被进一步放大 [2, 3]。攻击者无需诱导模型生成有害内容,只需在环境反馈或工具返回中植入隐蔽指令,便可能在后续步骤中悄然接管智能体的决策过程,而传统的输出级安全机制对此往往难以及时察觉。
因此,如何在每一次工具调用发生之前识别并约束潜在风险,成为智能体安全落地亟需解决的核心问题。
![]()
论文题目: ToolSafe: Enhancing Tool Invocation Safety of LLM-based Agents via Proactive Step-level Guardrail and Feedback 论文链接: https://arxiv.org/pdf/2601.10156 代码链接: https://github.com/MurrayTom/ToolSafe
![]()
本研究考虑的两类工具调用安全风险示意图。(a)恶意用户请求,直接导致不安全的工具调用。(b)在执行正常任务过程中发生的提示注入攻击,导致不正当工具被意外使用,原任务执行轨迹发生偏离。
北京大学知识计算实验室联合上海人工智能实验室提出了 ToolSafe 框架,首次系统化地对 LLM 智能体的步骤级工具调用安全问题进行建模与防护。
在此基础上,团队开发了 TS-Bench、TS-Guard 和 TS-Flow 三大组件:
TS-Bench 提供首个步骤级工具调用安全检测评估基准;
TS-Guard 是一个步骤级护栏模型,它通过多任务强化学习优化,能通过归因分析提供可解释的安全反馈;
TS-Flow 则尝试将来自步骤级护栏的反馈信号融入智能体推理流程,显著减少有害工具调用并提升了提示注入攻击场景下的良性任务完成率。
相关代码、数据与模型已全部开源,详细方法与实验结果可参考原始论文。
一、TS-Bench:步骤级工具调用安全检测基准
为了评估智能体在工具调用中的安全性,本研究推出了 TS-Bench ——首个面向步骤级工具调用的安全检测基准。
与此前基准不同:以前的评测要么只提供事后轨迹级标注(如 ASSEBench [4]、R-Judge [5]),要么只关注特定领域的风险行为(如关注网页浏览或代码执行安全风险的OS-Safe [6]、ShieldAgent-Bench [7])。
而 TS-Bench 聚焦于通用智能体在每一步工具调用时的安全风险,提供细粒度逐步标注,支持在工具真正执行前就主动发现潜在危险。
在任务定义上,TS-Bench 模拟 LLM 智能体的多步交互推理-行动循环:智能体从用户请求出发,每一步生成动作(包括中间推理和工具调用),并接收环境反馈,直到任务完成。
TS-Bench 的标注不仅记录每一步工具调用是否安全,还标注是否涉及提示注入攻击或有害请求,为智能体安全防护提供了前所未有的细粒度参考。
TS-Bench 基于四个代表性的智能体安全评估数据集(AgentAlign、AgentHarm、ASB、AgentDojo)构建,涵盖多种不安全工具调用模式,使其既广泛又通用。
下表对比了 TS-Bench 与现有智能体安全检测基准,突出其在步骤级工具调用安全评测上的独特价值。
![]()
TS-Bench 与现有代理安全检测基准的对比。本研究考虑的不安全模式包括:MUR(恶意用户请求)、PI(提示注入)、HT(有害工具)、BTRA(具有风险参数的正常工具)。
二、TS-Guard × TS-Flow:让智能体在“动手之前”就变安全
围绕智能体在工具调用阶段的安全风险,本研究提出了一套主动式、步骤级的安全护栏与反馈框架,核心由两个部分组成:TS-Guard 与 TS-Flow。它们分别解决“怎么识别风险”和“如何避免风险”这两个关键问题。
![]()
我们针对 LLM 智能体的主动步骤级安全防护与反馈框架示意图。(a)TS-Guard 的输入与输出格式。(b)TS-Flow 将防护反馈传递给智能体,使其能够在安全约束下进行工具调用推理,而非直接中止执行。 2.1 TS-Guard:执行前主动安全监控,而非事后追责
TS-Guard 是一个面向智能体工具调用的步骤级安全检测模型。不同于以往的护栏模型只在任务结束后回看整条轨迹是否有问题,TS-Guard 需要判断的是:在某一次工具真正被执行之前,这一步到底安不安全。
为此,TS-Guard 将复杂的安全判断拆解为三个紧密关联的子任务,在一次推理中联合完成:
用户请求是否本身具有风险
当前候选工具调用是否与第三方攻击(如提示注入)存在关联
这一次工具调用动作本身是否存在安全风险
模型不仅输出最终的安全标签(安全 / 存在可疑风险 / 显著不安全),还会生成简要的归因分析与推理过程,让安全判断具备可解释性。
在训练层面,研究团队采用GRPO 强化学习结合多任务奖励机制进行优化,相比传统监督微调,显著提升了模型在未知场景下的泛化检测能力。
实验表明,TS-Guard 能在复杂交互日志中稳定识别潜在的危险工具调用,是面向真实部署场景的“前置安全闸门”。
![]()
2.2 TS-Flow:不再“一刀切中断”,而是用反馈引导智能体自我纠正
检测只是第一步,更难的是如何在不破坏智能体任务完成的前提下提升安全性。现有不少智能体安全框架采用的是“detect-and-abort”范式,例如LlamaFirewall:一旦检测到异常,直接终止整个任务流程。
但在真实环境中,正常指令与攻击信号往往混杂出现,这种做法很容易误伤正常任务,严重影响智能体的可用性。
为此,本研究提出 TS-Flow:一种安全护栏反馈驱动的工具调用推理框架。
在 TS-Flow 中,TS-Guard 作为护栏模型会实时监控每一步工具调用动作,但是并不会直接“掐掉”智能体,而是在工具执行前对潜在不安全的候选动作给出针对性的安全反馈,提示风险来源与问题所在,引导智能体调整推理路径、修正行动计划。
这种“智能体–护栏交互式”机制,使安全不再是强制打断,而是一次可学习、可修正的过程。
实验结果显示,TS-Flow 在显著提升工具调用安全性的同时,基本不牺牲智能体的任务完成能力,为安全与效用之间提供了一种更平衡的解决方案。
![]()
总结
TS-Guard 负责在每一步看清风险,TS-Flow 负责在出手之前把方向拉回来。 它们共同构成了一套面向真实世界部署的、可解释、可纠偏的智能体工具调用安全方案。
三、实验亮点解读:护栏不仅“拦得住”,还“拦得聪明” 3.1 护栏模型该不该“自信”?
一个直觉但常被忽视的问题是:安全护栏模型的“不确定性”应该如何分布?
如果模型在所有阶段都极度自信,往往意味着过度武断;但如果在关键决策点犹豫不决,又可能放过真正的风险。
为此,研究团队通过token 级熵分析,系统对比了不同护栏模型在 TS-Bench 上的行为模式。
实验发现,相比通用大模型,护栏模型整体具有更低的不确定性,说明它们在安全判断上更“果断”。但进一步分析显示,TS-Guard 与现有方法在“自信的位置”上存在本质差异:
ShieldAgent 倾向于在整个输出过程中持续压低熵值,而 TS-Guard 则主要在最终安全判定时收敛不确定性,在中间分析阶段保留相对更高的熵值。
这意味着,TS-Guard 并不是一开始就“拍板定论”,而是允许模型在推理阶段进行更充分的探索,最终在关键判断点给出稳定、可靠的安全结论。
![]()
图护栏模型熵值比较。(a)专用护栏模型的熵值低于通用 LLM。(b)TS-Guard 在降低最终决策熵的同时,一定程度上保持推理步骤熵值,促进更有效的探索 3.2 安全护栏反馈,如何改变智能体的行为?
研究进一步关注了一个更核心的问题:护栏反馈是否真的影响了智能体的决策过程,或者说护栏反馈如何影响智能体的输出分布?
在基于 ReAct 框架的智能体实验中,研究团队跟踪了模型在推理与工具调用过程中的 token 级熵变化。结果显示,在没有任何护栏的情况下,智能体的不确定性会随着推理推进不断下降,表现出对潜在危险操作的过度自信执行。
而在引入 TS-Flow 后,情况发生了明显变化:当 TS-Guard 识别出可能存在风险的工具调用并将反馈注入到 agent 的上下文时,agent 输出的 token 级熵值会被主动拉高。
这表明护栏机制正在动态调节智能体的输出分布,在高风险时刻刻意保留不确定性,从而促使模型重新审视当前决策路径,探索更多样化的路径,而不是顺着执行不安全操作。
换句话说,TS-Flow 并不是简单地“阻止动作”,而是在关键节点改变了智能体的思考方式。
![]()
ReAct 智能体(Qwen2.5-14B-IT 为基模)的逐 token 熵变化。未使用防护措施时,智能体会因过度自信而熵值下降;引入 TS-Flow 后,TS-Guard 反馈在高风险步骤提升熵值,保持不确定性,引导智能体进行安全探索。 3.3 为什么“多说一点”反而更安全?
最后,研究团队还验证了安全反馈内容丰富度对智能体行为的影响。不同于只给出“安全 / 不安全”的二值判断,TS-Guard 还能提供包括用户请求有害性分析、工具调用与第三方攻击之间关联等更细粒度的信息。
实验对比了两种设置:
仅向智能体提供当前动作的安全评级;
向智能体提供 TS-Guard 的完整安全分析反馈。
结果显示,获得更丰富反馈的智能体,在安全性和任务完成质量上均取得了更优表现。这表明,详尽的安全反馈不仅不会干扰推理,反而能更有效地引导智能体在安全边界内做出更合理的决策。
![]()
不同反馈信息丰富度下的智能体表现对比。更丰富的反馈(完整 TS-Guard 输出)可显著提升智能体的安全性与效用。 参考文献
[1] AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models.
[2] Agentdojo: A dynamic environment to evaluate prompt injection attacks and defenses for llm agents.
[3] Agent security bench (asb): Formalizing and benchmarking attacks and defenses in llm-based agents.
[4] Agentauditor: Human-level safety and security evaluation for llm agents.
[5] R-judge: Benchmarking safety risk awareness for llm agents.
[6] Agrail: A lifelong agent guardrail with effective and adaptive safety detection.
[7] Shieldagent: Shielding agents via verifiable safety policy reasoning.
llustration generated by AI.
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
![]()
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.