网易首页 > 网易号 > 正文 申请入驻

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

0
分享至

LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?

研究者们为这一问题提出了许多基准(benchmark),尝试评估现有智能体的安全性。然而,这些基准却面临着一个共同的问题:没有足够有效、精准的评估器(evaluator)。传统的 LLM 安全评估在单纯的评估生成内容上表现优异,但对智能体的复杂的环境交互和决策过程却 “鞭长莫及”。现有的智能体评估方法,无论是基于规则还是依赖大模型,都面临着 “看不懂”、“看不全”、“看不准” 的困境:难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方法往往仅依靠环境中某个变量的变化来判断是否安全,难以正确识别智能体在交互过程中引入的微妙风险;而基于大模型的评估方法,无论使用最为强大的通用大模型还是专门为安全判断任务微调的专用模型,在精确度上均不如人意。

为了解决这一难题,来自纽约大学、南洋理工大学、伊利诺伊大学香槟分校、KTH 皇家理工学院、悉尼大学、新加坡国立大学的研究者们,推出AgentAuditor—— 一个通用、免训练、具备记忆增强推理能力的框架,让 LLM 评估器达到了人类专家的评估水平,精准识别智能体的安全风险。

  • 论文题目:
  • AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 论文链接:
  • https://arxiv.org/abs/2506.00641
  • 代码 / 项目主页:
  • https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概览:AgentAuditor 如何解决精确度难题

AgentAuditor 将结构化记忆和RAG(检索强化推理)结合在一起,赋予了 LLM 评估器类似人类的学习和理解复杂的交互记录的能力,最终极大地增强了 LLM 评估器的性能。它通过三个关键阶段实现:

1. 特征记忆构建 (Feature Memory Construction): 将原始、杂乱的智能体交互记录,转化为结构化、向量化的 “经验数据库”。这里不仅有交互内容,更有场景、风险类型、智能体行为模式等深度语义信息。

2. 推理记忆构建 (Reasoning Memory Construction): 从特征记忆中筛选出最具代表性的 “案例”,并由 LLM(AgentAuditor 内部使用的同一个 LLM,确保自洽性)生成高质量的思维链(CoT)推理过程。这些 CoT 就像人类专家的 “判案经验”,为后续评估提供指导。

3. 记忆增强推理 (Memory-Augmented Reasoning): 面对新的智能体交互案例,AgentAuditor 通过多阶段、上下文感知的检索机制,从推理记忆中动态调取最相关的 “判案经验”(CoT),辅助 LLM 评估器做出更精准、更鲁棒的判断。

数据集:ASSEBench 的构建

为了全面验证 AgentAuditor 的实力,并填补智能体安全(Safety)与安全(Security)评估基准的空白,研究团队还精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。这一基准:

  • 规模宏大: 包含 4 个子集,共 2293 条精心标注的真实智能体交互记录。
  • 覆盖广泛: 涵盖 15 种风险类型、528 个交互环境、横跨 29 个应用场景以及 26 种智能体行为模式。
  • 标注精细: 采用创新的人机协同标注流程,并对模糊风险情况引入 “严格” 和 “宽松” 两种判断标准,评估更细致。
  • 双管齐下: 同时关注智能体的 “Safety”(避免无意犯错)和 “Security”(抵御恶意攻击)两大方面。

实验效果:AgentAuditor 让 LLM 评估器的精确度达到人类水平

在 ASSEBench 及 R-Judge 等多个基准上的广泛实验表明:

  • 普遍提升显著: AgentAuditor 能显著提升各种 LLM 评估器在所有数据集上的表现。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分数提升了高达 48.2%!
  • 直逼人类水平: 搭载 AgentAuditor 的 Gemini-2-Flash-Thinking 在多个数据集上取得了SOTA成绩,其评估准确率(如在 R-Judge 上达到 96.1% Acc)已接近甚至超越单个人类标注员的平均水平。
  • 强大的自适应能力: 面对 ASSEBench-Strict 和 ASSEBench-Lenient 这两个针对模糊场景设计的不同标准子集,AgentAuditor 能自适应调整其推理策略,显著缩小不同模型在不同标准下的性能差距。

上图分别展示了 AgentAuditor 与现有方法及人类评估水平的对比。左图比较了 AgentAuditor 与直接使用 LLM 的评估方法在 R-Judge 基准上的准确率(Acc)和 F1 分数;右图则比较了 AgentAuditor 的准确率与在无讨论情况下单个人类评估者在多个benchmark中的的平均准确率。

AgentAuditor 的核心贡献

  • 系统性分析挑战: 深入剖析了当前自动化评估 Agent 安全面临的核心难题。
  • 创新框架: 通过自适应代表性样本选择、结构化记忆、RAG 和自动生成 CoT,显著增强 LLM 评估能力。
  • 首个专用基准: ASSEBench 填补了领域空白,为人机协同标注提供了新范式。
  • 人类级表现: 实验证明其评估准确性和可靠性已达到专业人类水准。

结语

AgentAuditor 和 ASSEBench 的提出,为构建更值得信赖的 LLM 智能体提供了强有力的评估工具和研究基础。这项工作不仅推动了 LLM 评估器的发展,也为未来构建更安全、更可靠的智能体防御系统指明了方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尤伯杯决赛:国羽女团为何输给韩国队丢冠?陈雨菲忽然短路引热议

尤伯杯决赛:国羽女团为何输给韩国队丢冠?陈雨菲忽然短路引热议

体育大学僧
2026-05-03 23:00:57
2-3被瑞典逆转!国乒男团遭2连败,输球原因曝光,连进4强都难了

2-3被瑞典逆转!国乒男团遭2连败,输球原因曝光,连进4强都难了

侃球熊弟
2026-05-03 23:59:04
小鹏智驾未来领先主流120倍?我提醒:从无对手能领先华为100倍!

小鹏智驾未来领先主流120倍?我提醒:从无对手能领先华为100倍!

阿芒娱乐说
2026-05-03 21:48:53
五十军硬刚25万美军,部队都快打没了!军长曾泽生也不跟彭总说

五十军硬刚25万美军,部队都快打没了!军长曾泽生也不跟彭总说

浩渺青史
2026-05-04 01:12:57
出差路上接到辞退通知,我直接买票回家,下午全公司还在庆祝拿下25亿采购大单,老板摔门怒吼:到底是谁做的这个决定,订单打水漂了

出差路上接到辞退通知,我直接买票回家,下午全公司还在庆祝拿下25亿采购大单,老板摔门怒吼:到底是谁做的这个决定,订单打水漂了

感觉会火
2026-05-04 08:06:36
老赖黄淑芬把人撞成植物人, 宁可坐牢也不赔偿, 后续结局大快人心

老赖黄淑芬把人撞成植物人, 宁可坐牢也不赔偿, 后续结局大快人心

观察鉴娱
2026-03-07 10:26:48
斯科拉里:C罗是后天一步步成为巨星的;1-7惨败后必须重新站起来

斯科拉里:C罗是后天一步步成为巨星的;1-7惨败后必须重新站起来

懂球帝
2026-05-04 02:51:16
AI 大模型的「中文税」:中文比英文更费 Token,为什么?

AI 大模型的「中文税」:中文比英文更费 Token,为什么?

极客公园
2026-05-03 12:09:22
惋惜!上科大39岁助理教授,救上落水至亲后溺亡,知情人说出情况

惋惜!上科大39岁助理教授,救上落水至亲后溺亡,知情人说出情况

东东趣谈
2026-05-03 17:01:38
为什么威尔·史密斯吃面是AI视频的行业标准?

为什么威尔·史密斯吃面是AI视频的行业标准?

beebee
2026-04-28 11:14:40
太离谱!华西医院五一放假引争议,被骂想休息别当医生,网友吵翻

太离谱!华西医院五一放假引争议,被骂想休息别当医生,网友吵翻

谭谈社会
2026-05-02 14:27:21
1975年,蒋介石最后一个春节,重病中致电毛主席,想了却一桩心愿

1975年,蒋介石最后一个春节,重病中致电毛主席,想了却一桩心愿

历史龙元阁
2026-05-03 13:45:16
潍柴动力早盘涨逾9% 股价创历史新高

潍柴动力早盘涨逾9% 股价创历史新高

新浪财经
2026-05-04 09:39:00
对越作战前,邓小平为何不顾兵家大忌,坚持换掉昆明军区司令员

对越作战前,邓小平为何不顾兵家大忌,坚持换掉昆明军区司令员

历史龙元阁
2026-05-02 10:55:21
广东宏远今日早报!杜锋深夜发声,徐杰最新伤情,队史新纪录诞生

广东宏远今日早报!杜锋深夜发声,徐杰最新伤情,队史新纪录诞生

多特体育说
2026-05-04 09:43:01
美全票通过!同意对付中方,成本要涨10倍?中美24小时内2通电话

美全票通过!同意对付中方,成本要涨10倍?中美24小时内2通电话

娱乐的宅急便
2026-05-04 05:35:55
奶奶一天喂狗8顿,比格胖成煤气罐。家人才心酸发现,是奶奶年老,每次都忘了已经喂过…

奶奶一天喂狗8顿,比格胖成煤气罐。家人才心酸发现,是奶奶年老,每次都忘了已经喂过…

英国那些事儿
2026-05-03 23:11:44
为何国家越来越强大,老百姓的日子却越过越紧?

为何国家越来越强大,老百姓的日子却越过越紧?

国际风云录
2026-05-04 09:07:41
再高的地位再大的权力,丢了民心,迟早走下坡路

再高的地位再大的权力,丢了民心,迟早走下坡路

小虎新车推荐员
2026-05-01 09:29:38
重磅利好!1270万应届生迎来新政,找工作再也不用犯愁

重磅利好!1270万应届生迎来新政,找工作再也不用犯愁

解说阿洎
2026-05-04 10:36:59
2026-05-04 13:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142639关注度
往期回顾 全部

科技要闻

OpenAI“复活”了QQ宠物,网友直接玩疯

头条要闻

大型邮轮暴发病毒致3死 曾有好莱坞明星夫妇染病死亡

头条要闻

大型邮轮暴发病毒致3死 曾有好莱坞明星夫妇染病死亡

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

严浩翔新歌,父母离婚17年矛盾升级

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
教育
游戏
健康
军事航空

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

一模之后,中考之前……

体量堪比续作!《毁灭战士:黑暗时代》DLC 细节全曝光

干细胞治烧烫伤面临这些“瓶颈”

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版