![]()
Agent 安全正在从“看一条轨迹是否安全”,进一步走向“在运行时阻止 unsafe final delivery”。
当 Agent 开始自主调用工具、连续执行多步任务,安全风险就不再只藏在一句 prompt 里。
它可能先读一段看似正常的环境信息,再根据工具反馈继续规划;也可能在多轮上下文里逐渐偏离用户原本意图,造成不可逆的后果;还有一些风险,最终回复看起来并不刺眼,但真正的问题早已出现在中间某次工具调用、某个审批边界、某段被误信的运行时反馈里。
所以,Agent 安全不能只做离线评测。
更关键的问题是:当 Agent 正在真实系统里运行时,我们能不能在最终结果交付之前,及时发现并拦住风险?
AgentDoG 1.5 这篇工作最值得关注的地方,正是在这里。它不仅提出了轻量级、可扩展的 Agent 安全对齐框架,还把轨迹级安全诊断模型部署成 online runtime guardrail,在 Agent 最终回复发出前,对完整执行轨迹做实时安全审计。
换句话说,Agent 安全正在从“看一条轨迹是否安全”,进一步走向“在运行时阻止 unsafe final delivery”。
![]()
论文标题:
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
研究团队:
上海人工智能实验室
Github:https://github.com/AI45Lab/AgentDoG
Hugging Face:https://huggingface.co/papers/2605.29801
https://huggingface.co/collections/AI45Research/agentdog1.5
![]()
01
先看最接近真实部署的一步:运行时 guardrail
在真实 Agent 系统中,风险往往不是静态出现的。
用户输入可能是安全的,但工具描述里可能藏着注入;前几步工具调用可能都正常,但后续环境反馈可能把 Agent 带向错误动作;最终回复可能只是“任务已完成”,但背后可能已经发生了敏感信息泄露、权限边界绕过,或者对危险操作的错误确认。
这也是为什么论文把 AgentDoG 1.5 部署为在线 guardrail 时,并没有只检查用户输入,也没有只检查最终回复文本,而是选择审计完整执行轨迹。
它关注的问题不是“这句话能不能发”,而是“这条轨迹走到这里,最终结果还能不能交付”。
![]()
▎Pre-Reply:在最终回复发出前审计整条轨迹
AgentDoG 1.5 的在线 guardrail 采用了一个很实际的拦截点:Pre-Reply。
也就是 Agent 已经完成多步执行,准备把最终回复交付给用户或下游系统之前,系统暂时 hold 住最终回复草稿,把完整执行轨迹交给 AgentDoG 1.5 判断。
如果轨迹安全,最终回复放行。
如果轨迹不安全,最终回复在交付前被阻断或替换。
这个设计背后有一个很现实的工程取舍:如果每次工具调用后都做一次完整 guardrail 检查,长任务里的几十次、上百次 serial tool calls 会不断叠加延迟,用户体验和系统吞吐都会受到影响。
Pre-Reply 则是多数 Agent 框架都天然存在的交付节点。它接入成本低、兼容性强,而且能在最终结果真正触达用户之前,利用完整上下文做一次关键审计。
这不是事后复盘,而是运行时最后一道防线。
▎在线 guardrail pipeline 怎么工作?
论文中的 online guardrail pipeline 可以拆成三个部分。
第一步,Agent 正常执行任务。
用户通过运行时界面与 Agent 交互,Agent 继续调用工具、访问文件、读取网页资源或连接外部环境。系统通过 proxy 镜像运行时事件流,不改变 Agent 原有执行语义。
第二步,轨迹格式化与在线审计。
trajectory formatter 持续收集运行事件,包括用户输入、历史上下文、工具调用、工具返回、观察结果、动作、中间思考以及最终回复草稿,并把它们整理成 AgentDoG 1.5 可以判断的 trajectory-level representation。
到最终回复交付点时,AgentDoG 1.5 基于完整轨迹返回 guardrail judgment:安全轨迹放行,不安全轨迹阻断。
第三步,运行时监控 dashboard。
系统记录事件流、重构后的执行历史、guardrail 判断结果和延迟信息。这样开发者不仅知道某条回复被拦截了,还能追溯风险来自哪一步、Agent 为什么失败、对应哪些运行时事件。
这让 guardrail 不只是一个黑盒分类器,而是一层可观测、可审计、可调试的运行时安全基础设施。
▎实验结果:unsafe final delivery 明显下降
![]()
论文在 OpenClaw 环境中评估 Pre-Reply guardrail,目标 Agent 使用 GLM-5.1。评估重点不是离线分类准确率,而是最终交付给用户的 unsafe response 是否减少。
在 ClawSafety 上,没有 guardrail 时 ASR 为 56.25%。
AgentDoG 1.5-0.8B 将其降到 25.00%,AgentDoG 1.5-4B 进一步降到 18.75%。
在 AgentHazard 的 Prompt Intelligence Theft 风险上,没有 guardrail 时 ASR 为 41.92%。
AgentDoG 1.5-0.8B 降到 29.23%,AgentDoG 1.5-4B 降到 26.92%。相比之下,Qwen3Guard-Gen-4B 和 Llama-Guard-3-8B 在这个设置下没有降低残余 unsafe final-delivery rate。
在 CIK-Bench 的 final-reply-preventable cases 中,没有 guardrail 时 ASR 为 94.29%。
AgentDoG 1.5-4B 将其降到 42.86%,接近 Llama-Guard-3-8B 的 40.00%。
同时,AgentDoG 1.5 的 TTFT 保持在亚秒级,TPOT 也处在每 token 几百分之一秒量级。因为这笔成本只发生在最终交付点,而不是每次工具调用之后,所以它具备实际部署意义。
02
为什么 AgentDoG 1.5 能做这件事?
AgentDoG 1.5 能做在线安全护栏,并不是因为简单加了一个“安全分类器”,而是因为它前面的几项更新,共同补齐了运行时防护需要的能力。
▎面向真实 Agent 的安全评测家族
![]()
AgentDoG 1.5 在原有三维风险分类法基础上,新增了代码智能体和 OpenClaw 场景下的风险类型,并扩展出对应评测集。
基础评测集包含 1,000 条完整执行轨迹,OpenClaw 和代码智能体场景各包含 500 条轨迹。它们覆盖了会话、审批、工具、技能、消息路由、外部动作、代码仓库、命令执行、补丁修改、依赖和工具协议等执行证据。
这样一来,模型评估的不只是最终回复是否安全,而是能围绕 Agent 的完整执行过程,判断风险从哪里来、Agent 在哪一步失败、最后可能造成什么现实后果。
▎轻量轨迹级安全诊断模型
![]()
论文通过专用数据引擎和数据净化方法,只用约 1k 条高价值样本训练出 AgentDoG 1.5。
数据构造覆盖 15 类风险来源、21 类失败模式、11 类现实危害,并扩展到 5,973 个工具与 MCP 服务。模型参数覆盖 0.8B、2B、4B、8B 等规模,其中 AgentDoG 1.5-4B-U 在基础轨迹评测上达到 78.4% 准确率 / 77.7% F1,在代码智能体和 OpenClaw 场景上分别达到 84.4% 和 87.6% 准确率。数据净化阶段,AgentDoG 1.5 通过影响函数估计每条样本是否真正有助于模型学习“识别并拦截危险轨迹”,筛除冗余、弱相关或可能干扰安全判断的样本,最终仅保留约 1k 条高价值训练数据。
轻量化很关键,因为在线安全护栏不能太慢,也不能太贵。一个足够小、足够强的轨迹诊断模型,才有可能真正进入 Agent 的运行时路径。
![]()
▎低成本智能体安全训练环境
![]()
AgentDoG 1.5 还构建了专用的智能体安全 SFT 与 RL 训练环境,用轻量化模拟替代高成本的 Docker 级环境,将内存开销和启动延迟降低到约 1/100,标准 8 核机器即可支持 10,000+ 并发智能体环境。
这套环境让安全训练不再只依赖昂贵、低并发的真实执行环境,而是可以更高效地生成安全轨迹、过滤 SFT 数据,并在 RL 阶段提供可扩展的奖励建模基础。
![]()
在 SFT 阶段,AgentDoG 1.5 作为轨迹级验证器筛选数据,最终得到 28,705 条高质量安全轨迹;加入这些过滤数据训练后,AgentHarm 有害得分从 57.49% 降到 20.32%,函数调用准确率仍保持在 81.12%。在 RL 阶段,AgentDoG 1.5 进一步作为外部安全评审模型提供奖励信号,结合 SFT 与 RL 后,AgentHarm 拒答率达到 77.27%,AgentSafetyBench 安全率达到 59.32%。
03
结语
Agent 越来越像一个真正的执行系统。
它会读上下文、调用工具、维护状态、跨应用行动,并把结果交付给用户或下游系统。到了这一步,安全评测必须看完整轨迹,安全防护也必须进入运行时。
AgentDoG 1.5 给出的答案是:用轻量轨迹级诊断模型,在最终回复交付前做在线 guardrail。
这可能会成为下一阶段 Agent 安全部署的核心问题:
一个 Agent 不只是能不能完成任务,而是能不能在真实运行时边界里,被持续、低成本、可解释地监督。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.