网易首页 > 网易号 > 正文 申请入驻

Agent 安全进入运行时:AgentDoG 1.5 如何在最终交付前拦住风险

0
分享至


Agent 安全正在从“看一条轨迹是否安全”,进一步走向“在运行时阻止 unsafe final delivery”。

当 Agent 开始自主调用工具、连续执行多步任务,安全风险就不再只藏在一句 prompt 里。

它可能先读一段看似正常的环境信息,再根据工具反馈继续规划;也可能在多轮上下文里逐渐偏离用户原本意图,造成不可逆的后果;还有一些风险,最终回复看起来并不刺眼,但真正的问题早已出现在中间某次工具调用、某个审批边界、某段被误信的运行时反馈里。

所以,Agent 安全不能只做离线评测。

更关键的问题是:当 Agent 正在真实系统里运行时,我们能不能在最终结果交付之前,及时发现并拦住风险?

AgentDoG 1.5 这篇工作最值得关注的地方,正是在这里。它不仅提出了轻量级、可扩展的 Agent 安全对齐框架,还把轨迹级安全诊断模型部署成 online runtime guardrail,在 Agent 最终回复发出前,对完整执行轨迹做实时安全审计。

换句话说,Agent 安全正在从“看一条轨迹是否安全”,进一步走向“在运行时阻止 unsafe final delivery”。


论文标题:

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

研究团队:

上海人工智能实验室

Github:https://github.com/AI45Lab/AgentDoG

Hugging Face:https://huggingface.co/papers/2605.29801

https://huggingface.co/collections/AI45Research/agentdog1.5


01


先看最接近真实部署的一步:运行时 guardrail

在真实 Agent 系统中,风险往往不是静态出现的。

用户输入可能是安全的,但工具描述里可能藏着注入;前几步工具调用可能都正常,但后续环境反馈可能把 Agent 带向错误动作;最终回复可能只是“任务已完成”,但背后可能已经发生了敏感信息泄露、权限边界绕过,或者对危险操作的错误确认。

这也是为什么论文把 AgentDoG 1.5 部署为在线 guardrail 时,并没有只检查用户输入,也没有只检查最终回复文本,而是选择审计完整执行轨迹。

它关注的问题不是“这句话能不能发”,而是“这条轨迹走到这里,最终结果还能不能交付”。


Pre-Reply:在最终回复发出前审计整条轨迹

AgentDoG 1.5 的在线 guardrail 采用了一个很实际的拦截点:Pre-Reply。

也就是 Agent 已经完成多步执行,准备把最终回复交付给用户或下游系统之前,系统暂时 hold 住最终回复草稿,把完整执行轨迹交给 AgentDoG 1.5 判断。

如果轨迹安全,最终回复放行。

如果轨迹不安全,最终回复在交付前被阻断或替换。

这个设计背后有一个很现实的工程取舍:如果每次工具调用后都做一次完整 guardrail 检查,长任务里的几十次、上百次 serial tool calls 会不断叠加延迟,用户体验和系统吞吐都会受到影响。

Pre-Reply 则是多数 Agent 框架都天然存在的交付节点。它接入成本低、兼容性强,而且能在最终结果真正触达用户之前,利用完整上下文做一次关键审计。

这不是事后复盘,而是运行时最后一道防线。

在线 guardrail pipeline 怎么工作?

论文中的 online guardrail pipeline 可以拆成三个部分。

第一步,Agent 正常执行任务。

用户通过运行时界面与 Agent 交互,Agent 继续调用工具、访问文件、读取网页资源或连接外部环境。系统通过 proxy 镜像运行时事件流,不改变 Agent 原有执行语义。

第二步,轨迹格式化与在线审计。

trajectory formatter 持续收集运行事件,包括用户输入、历史上下文、工具调用、工具返回、观察结果、动作、中间思考以及最终回复草稿,并把它们整理成 AgentDoG 1.5 可以判断的 trajectory-level representation。

到最终回复交付点时,AgentDoG 1.5 基于完整轨迹返回 guardrail judgment:安全轨迹放行,不安全轨迹阻断。

第三步,运行时监控 dashboard。

系统记录事件流、重构后的执行历史、guardrail 判断结果和延迟信息。这样开发者不仅知道某条回复被拦截了,还能追溯风险来自哪一步、Agent 为什么失败、对应哪些运行时事件。

这让 guardrail 不只是一个黑盒分类器,而是一层可观测、可审计、可调试的运行时安全基础设施。

实验结果:unsafe final delivery 明显下降


论文在 OpenClaw 环境中评估 Pre-Reply guardrail,目标 Agent 使用 GLM-5.1。评估重点不是离线分类准确率,而是最终交付给用户的 unsafe response 是否减少。

在 ClawSafety 上,没有 guardrail 时 ASR 为 56.25%。

AgentDoG 1.5-0.8B 将其降到 25.00%,AgentDoG 1.5-4B 进一步降到 18.75%。

在 AgentHazard 的 Prompt Intelligence Theft 风险上,没有 guardrail 时 ASR 为 41.92%。

AgentDoG 1.5-0.8B 降到 29.23%,AgentDoG 1.5-4B 降到 26.92%。相比之下,Qwen3Guard-Gen-4B 和 Llama-Guard-3-8B 在这个设置下没有降低残余 unsafe final-delivery rate。

在 CIK-Bench 的 final-reply-preventable cases 中,没有 guardrail 时 ASR 为 94.29%。

AgentDoG 1.5-4B 将其降到 42.86%,接近 Llama-Guard-3-8B 的 40.00%。

同时,AgentDoG 1.5 的 TTFT 保持在亚秒级,TPOT 也处在每 token 几百分之一秒量级。因为这笔成本只发生在最终交付点,而不是每次工具调用之后,所以它具备实际部署意义。

02


为什么 AgentDoG 1.5 能做这件事?

AgentDoG 1.5 能做在线安全护栏,并不是因为简单加了一个“安全分类器”,而是因为它前面的几项更新,共同补齐了运行时防护需要的能力。

面向真实 Agent 的安全评测家族


AgentDoG 1.5 在原有三维风险分类法基础上,新增了代码智能体和 OpenClaw 场景下的风险类型,并扩展出对应评测集。

基础评测集包含 1,000 条完整执行轨迹,OpenClaw 和代码智能体场景各包含 500 条轨迹。它们覆盖了会话、审批、工具、技能、消息路由、外部动作、代码仓库、命令执行、补丁修改、依赖和工具协议等执行证据。

这样一来,模型评估的不只是最终回复是否安全,而是能围绕 Agent 的完整执行过程,判断风险从哪里来、Agent 在哪一步失败、最后可能造成什么现实后果。

轻量轨迹级安全诊断模型


论文通过专用数据引擎和数据净化方法,只用约 1k 条高价值样本训练出 AgentDoG 1.5。

数据构造覆盖 15 类风险来源、21 类失败模式、11 类现实危害,并扩展到 5,973 个工具与 MCP 服务。模型参数覆盖 0.8B、2B、4B、8B 等规模,其中 AgentDoG 1.5-4B-U 在基础轨迹评测上达到 78.4% 准确率 / 77.7% F1,在代码智能体和 OpenClaw 场景上分别达到 84.4% 和 87.6% 准确率。数据净化阶段,AgentDoG 1.5 通过影响函数估计每条样本是否真正有助于模型学习“识别并拦截危险轨迹”,筛除冗余、弱相关或可能干扰安全判断的样本,最终仅保留约 1k 条高价值训练数据。

轻量化很关键,因为在线安全护栏不能太慢,也不能太贵。一个足够小、足够强的轨迹诊断模型,才有可能真正进入 Agent 的运行时路径。


低成本智能体安全训练环境


AgentDoG 1.5 还构建了专用的智能体安全 SFT 与 RL 训练环境,用轻量化模拟替代高成本的 Docker 级环境,将内存开销和启动延迟降低到约 1/100,标准 8 核机器即可支持 10,000+ 并发智能体环境。

这套环境让安全训练不再只依赖昂贵、低并发的真实执行环境,而是可以更高效地生成安全轨迹、过滤 SFT 数据,并在 RL 阶段提供可扩展的奖励建模基础。


在 SFT 阶段,AgentDoG 1.5 作为轨迹级验证器筛选数据,最终得到 28,705 条高质量安全轨迹;加入这些过滤数据训练后,AgentHarm 有害得分从 57.49% 降到 20.32%,函数调用准确率仍保持在 81.12%。在 RL 阶段,AgentDoG 1.5 进一步作为外部安全评审模型提供奖励信号,结合 SFT 与 RL 后,AgentHarm 拒答率达到 77.27%,AgentSafetyBench 安全率达到 59.32%。

03


结语

Agent 越来越像一个真正的执行系统。

它会读上下文、调用工具、维护状态、跨应用行动,并把结果交付给用户或下游系统。到了这一步,安全评测必须看完整轨迹,安全防护也必须进入运行时。

AgentDoG 1.5 给出的答案是:用轻量轨迹级诊断模型,在最终回复交付前做在线 guardrail。

这可能会成为下一阶段 Agent 安全部署的核心问题:

一个 Agent 不只是能不能完成任务,而是能不能在真实运行时边界里,被持续、低成本、可解释地监督。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
意大利男单再进决赛!主角却不是辛纳

意大利男单再进决赛!主角却不是辛纳

网球之家
2026-06-04 13:12:41
母凭子贵!奚梦瑶和前任肖恩跨国分别,何超盈出手为何猷君牵线

母凭子贵!奚梦瑶和前任肖恩跨国分别,何超盈出手为何猷君牵线

胡一舸南游y
2026-06-04 16:17:30
癌症的源头被查出,啤酒没上榜,第1名大家可能每天都在吃!

癌症的源头被查出,啤酒没上榜,第1名大家可能每天都在吃!

鬼菜生活
2026-06-02 17:31:32
怒喷利物浦!放着 5 个冠军教头不签,非要赌零冠菜鸟,名宿怒了

怒喷利物浦!放着 5 个冠军教头不签,非要赌零冠菜鸟,名宿怒了

一隅非生
2026-06-04 07:31:15
12投2中!锁死!文班被他防到怀疑人生!

12投2中!锁死!文班被他防到怀疑人生!

柚子说球
2026-06-04 19:36:35
锁定未来!中国男篮冲击洛杉矶奥运会核心框架,非这四人莫属!

锁定未来!中国男篮冲击洛杉矶奥运会核心框架,非这四人莫属!

田先生篮球
2026-06-04 09:09:04
他曾担任中央办公厅代主任,大肆迫害年迈的彭老总,后被判刑18年

他曾担任中央办公厅代主任,大肆迫害年迈的彭老总,后被判刑18年

舆图看世界
2026-06-03 06:45:03
曝4大瓜!被抓,王祖蓝耍大牌,情妇索赔1亿,张杰令人意外

曝4大瓜!被抓,王祖蓝耍大牌,情妇索赔1亿,张杰令人意外

林轻吟
2026-06-04 07:24:45
我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

我如今已68了,以亲身血泪教训告诉你:不要跟任何人,包括你的父母、子女、枕边人,分享这两件事

心理观察局
2026-05-23 07:00:06
这次,俞灏明苦苦维持的体面,被王晓晨撕的稀碎,郑恺早有提醒

这次,俞灏明苦苦维持的体面,被王晓晨撕的稀碎,郑恺早有提醒

打小我就醜
2026-06-04 12:37:40
太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

太惨了!商场80%店关门,武汉一商场从开业爆火到8成空置,引热议

火山詩话
2026-06-03 11:47:35
有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

有人正偷偷“篡改”抗战历史!他们想毁掉的,不只是30万人的记忆

浪子说
2026-05-30 00:05:05
6月4日,人社部关于2026年上调退休人员养老金的通知公布了吗?

6月4日,人社部关于2026年上调退休人员养老金的通知公布了吗?

社保小达人
2026-06-04 10:58:33
美国发话也不行,中方正式通告全球:打日本,中国具备“正当性”

美国发话也不行,中方正式通告全球:打日本,中国具备“正当性”

凤语谈
2026-05-28 12:13:58
除了得不了分投不进球,尼克斯锋线大将在其他方面都表现完美?

除了得不了分投不进球,尼克斯锋线大将在其他方面都表现完美?

稻谷与小麦
2026-06-05 00:25:50
1987年蒋经国看望被囚三十余年的孙立人,孙立人当面提出三项心愿

1987年蒋经国看望被囚三十余年的孙立人,孙立人当面提出三项心愿

唠叨说历史
2026-06-02 16:35:21
心理学上有个词叫:破窗效应(如果一个休学的孩子,整天不读书、不出门、不运动,无爱好、无目标、无期望,那他的状态只会越来越糟)

心理学上有个词叫:破窗效应(如果一个休学的孩子,整天不读书、不出门、不运动,无爱好、无目标、无期望,那他的状态只会越来越糟)

掌门1对1
2026-06-02 16:27:26
欧美股市全线下跌,光通信半导体大跌,储存芯片大涨,中概股走低

欧美股市全线下跌,光通信半导体大跌,储存芯片大涨,中概股走低

丁丁鲤史纪
2026-06-04 10:44:12
37岁杜兰特疑似约会美女:现场画面被拍 共进晚餐后一同坐车离开

37岁杜兰特疑似约会美女:现场画面被拍 共进晚餐后一同坐车离开

追球者
2026-06-04 07:42:22
飞机是怎么供氧的?数百人在密闭空间中飞行几小时,为何不会缺氧

飞机是怎么供氧的?数百人在密闭空间中飞行几小时,为何不会缺氧

风干迷茫人
2026-06-03 21:14:23
2026-06-05 01:07:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7341文章数 20755关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

挪威发现满载中国瓷器的沉船:曾被撞击 瓷器保存完好

头条要闻

挪威发现满载中国瓷器的沉船:曾被撞击 瓷器保存完好

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

AI公司的顶部在哪?

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

游戏
家居
数码
公开课
军事航空

《艾尔登法环》新DLC来了!全新装备、全新身份

家居要闻

220平对味儿家 空间情绪宅

数码要闻

九州风神上架冰立方AK700VC单塔风冷散热器,449元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美众议院要求特朗普停止对伊动武并撤军

无障碍浏览 进入关怀版