Agent 安全进入运行时：AgentDoG 1.5 如何在最终交付前拦住风险|调用|轨迹|底层逻辑|agentdog

Agent 安全进入运行时：AgentDoG 1.5 如何在最终交付前拦住风险

2026-06-04 20:00:03　来源: AI科技评论

广东举报

分享至

Agent 安全正在从“看一条轨迹是否安全”，进一步走向“在运行时阻止 unsafe final delivery”。

当 Agent 开始自主调用工具、连续执行多步任务，安全风险就不再只藏在一句 prompt 里。

它可能先读一段看似正常的环境信息，再根据工具反馈继续规划；也可能在多轮上下文里逐渐偏离用户原本意图，造成不可逆的后果；还有一些风险，最终回复看起来并不刺眼，但真正的问题早已出现在中间某次工具调用、某个审批边界、某段被误信的运行时反馈里。

所以，Agent 安全不能只做离线评测。

更关键的问题是：当 Agent 正在真实系统里运行时，我们能不能在最终结果交付之前，及时发现并拦住风险？

AgentDoG 1.5 这篇工作最值得关注的地方，正是在这里。它不仅提出了轻量级、可扩展的 Agent 安全对齐框架，还把轨迹级安全诊断模型部署成 online runtime guardrail，在 Agent 最终回复发出前，对完整执行轨迹做实时安全审计。

换句话说，Agent 安全正在从“看一条轨迹是否安全”，进一步走向“在运行时阻止 unsafe final delivery”。

论文标题：

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

研究团队：

上海人工智能实验室

Github：https://github.com/AI45Lab/AgentDoG

Hugging Face：https://huggingface.co/papers/2605.29801

https://huggingface.co/collections/AI45Research/agentdog1.5

先看最接近真实部署的一步：运行时 guardrail

在真实 Agent 系统中，风险往往不是静态出现的。

用户输入可能是安全的，但工具描述里可能藏着注入；前几步工具调用可能都正常，但后续环境反馈可能把 Agent 带向错误动作；最终回复可能只是“任务已完成”，但背后可能已经发生了敏感信息泄露、权限边界绕过，或者对危险操作的错误确认。

这也是为什么论文把 AgentDoG 1.5 部署为在线 guardrail 时，并没有只检查用户输入，也没有只检查最终回复文本，而是选择审计完整执行轨迹。

它关注的问题不是“这句话能不能发”，而是“这条轨迹走到这里，最终结果还能不能交付”。

▎Pre-Reply：在最终回复发出前审计整条轨迹

AgentDoG 1.5 的在线 guardrail 采用了一个很实际的拦截点：Pre-Reply。

也就是 Agent 已经完成多步执行，准备把最终回复交付给用户或下游系统之前，系统暂时 hold 住最终回复草稿，把完整执行轨迹交给 AgentDoG 1.5 判断。

如果轨迹安全，最终回复放行。

如果轨迹不安全，最终回复在交付前被阻断或替换。

这个设计背后有一个很现实的工程取舍：如果每次工具调用后都做一次完整 guardrail 检查，长任务里的几十次、上百次 serial tool calls 会不断叠加延迟，用户体验和系统吞吐都会受到影响。

Pre-Reply 则是多数 Agent 框架都天然存在的交付节点。它接入成本低、兼容性强，而且能在最终结果真正触达用户之前，利用完整上下文做一次关键审计。

这不是事后复盘，而是运行时最后一道防线。

▎在线 guardrail pipeline 怎么工作？

论文中的 online guardrail pipeline 可以拆成三个部分。

第一步，Agent 正常执行任务。

用户通过运行时界面与 Agent 交互，Agent 继续调用工具、访问文件、读取网页资源或连接外部环境。系统通过 proxy 镜像运行时事件流，不改变 Agent 原有执行语义。

第二步，轨迹格式化与在线审计。

trajectory formatter 持续收集运行事件，包括用户输入、历史上下文、工具调用、工具返回、观察结果、动作、中间思考以及最终回复草稿，并把它们整理成 AgentDoG 1.5 可以判断的 trajectory-level representation。

到最终回复交付点时，AgentDoG 1.5 基于完整轨迹返回 guardrail judgment：安全轨迹放行，不安全轨迹阻断。

第三步，运行时监控 dashboard。

系统记录事件流、重构后的执行历史、guardrail 判断结果和延迟信息。这样开发者不仅知道某条回复被拦截了，还能追溯风险来自哪一步、Agent 为什么失败、对应哪些运行时事件。

这让 guardrail 不只是一个黑盒分类器，而是一层可观测、可审计、可调试的运行时安全基础设施。

▎实验结果：unsafe final delivery 明显下降

论文在 OpenClaw 环境中评估 Pre-Reply guardrail，目标 Agent 使用 GLM-5.1。评估重点不是离线分类准确率，而是最终交付给用户的 unsafe response 是否减少。

在 ClawSafety 上，没有 guardrail 时 ASR 为 56.25%。

AgentDoG 1.5-0.8B 将其降到 25.00%，AgentDoG 1.5-4B 进一步降到 18.75%。

在 AgentHazard 的 Prompt Intelligence Theft 风险上，没有 guardrail 时 ASR 为 41.92%。

AgentDoG 1.5-0.8B 降到 29.23%，AgentDoG 1.5-4B 降到 26.92%。相比之下，Qwen3Guard-Gen-4B 和 Llama-Guard-3-8B 在这个设置下没有降低残余 unsafe final-delivery rate。

在 CIK-Bench 的 final-reply-preventable cases 中，没有 guardrail 时 ASR 为 94.29%。

AgentDoG 1.5-4B 将其降到 42.86%，接近 Llama-Guard-3-8B 的 40.00%。

同时，AgentDoG 1.5 的 TTFT 保持在亚秒级，TPOT 也处在每 token 几百分之一秒量级。因为这笔成本只发生在最终交付点，而不是每次工具调用之后，所以它具备实际部署意义。

为什么 AgentDoG 1.5 能做这件事？

AgentDoG 1.5 能做在线安全护栏，并不是因为简单加了一个“安全分类器”，而是因为它前面的几项更新，共同补齐了运行时防护需要的能力。

▎面向真实 Agent 的安全评测家族

AgentDoG 1.5 在原有三维风险分类法基础上，新增了代码智能体和 OpenClaw 场景下的风险类型，并扩展出对应评测集。

基础评测集包含 1,000 条完整执行轨迹，OpenClaw 和代码智能体场景各包含 500 条轨迹。它们覆盖了会话、审批、工具、技能、消息路由、外部动作、代码仓库、命令执行、补丁修改、依赖和工具协议等执行证据。

这样一来，模型评估的不只是最终回复是否安全，而是能围绕 Agent 的完整执行过程，判断风险从哪里来、Agent 在哪一步失败、最后可能造成什么现实后果。

▎轻量轨迹级安全诊断模型

论文通过专用数据引擎和数据净化方法，只用约 1k 条高价值样本训练出 AgentDoG 1.5。

数据构造覆盖 15 类风险来源、21 类失败模式、11 类现实危害，并扩展到 5,973 个工具与 MCP 服务。模型参数覆盖 0.8B、2B、4B、8B 等规模，其中 AgentDoG 1.5-4B-U 在基础轨迹评测上达到 78.4% 准确率 / 77.7% F1，在代码智能体和 OpenClaw 场景上分别达到 84.4% 和 87.6% 准确率。数据净化阶段，AgentDoG 1.5 通过影响函数估计每条样本是否真正有助于模型学习“识别并拦截危险轨迹”，筛除冗余、弱相关或可能干扰安全判断的样本，最终仅保留约 1k 条高价值训练数据。

轻量化很关键，因为在线安全护栏不能太慢，也不能太贵。一个足够小、足够强的轨迹诊断模型，才有可能真正进入 Agent 的运行时路径。

▎低成本智能体安全训练环境

AgentDoG 1.5 还构建了专用的智能体安全 SFT 与 RL 训练环境，用轻量化模拟替代高成本的 Docker 级环境，将内存开销和启动延迟降低到约 1/100，标准 8 核机器即可支持 10,000+ 并发智能体环境。

这套环境让安全训练不再只依赖昂贵、低并发的真实执行环境，而是可以更高效地生成安全轨迹、过滤 SFT 数据，并在 RL 阶段提供可扩展的奖励建模基础。

在 SFT 阶段，AgentDoG 1.5 作为轨迹级验证器筛选数据，最终得到 28,705 条高质量安全轨迹；加入这些过滤数据训练后，AgentHarm 有害得分从 57.49% 降到 20.32%，函数调用准确率仍保持在 81.12%。在 RL 阶段，AgentDoG 1.5 进一步作为外部安全评审模型提供奖励信号，结合 SFT 与 RL 后，AgentHarm 拒答率达到 77.27%，AgentSafetyBench 安全率达到 59.32%。

结语

Agent 越来越像一个真正的执行系统。

它会读上下文、调用工具、维护状态、跨应用行动，并把结果交付给用户或下游系统。到了这一步，安全评测必须看完整轨迹，安全防护也必须进入运行时。

AgentDoG 1.5 给出的答案是：用轻量轨迹级诊断模型，在最终回复交付前做在线 guardrail。

这可能会成为下一阶段 Agent 安全部署的核心问题：

一个 Agent 不只是能不能完成任务，而是能不能在真实运行时边界里，被持续、低成本、可解释地监督。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.