网易首页 > 网易号 > 正文 申请入驻

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

0
分享至



LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?

研究者们为这一问题提出了许多基准(benchmark),尝试评估现有智能体的安全性。然而,这些基准却面临着一个共同的问题:没有足够有效、精准的评估器(evaluator)。传统的 LLM 安全评估在单纯的评估生成内容上表现优异,但对智能体的复杂的环境交互和决策过程却 “鞭长莫及”。现有的智能体评估方法,无论是基于规则还是依赖大模型,都面临着 “看不懂”、“看不全”、“看不准” 的困境:难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方法往往仅依靠环境中某个变量的变化来判断是否安全,难以正确识别智能体在交互过程中引入的微妙风险;而基于大模型的评估方法,无论使用最为强大的通用大模型还是专门为安全判断任务微调的专用模型,在精确度上均不如人意。

为了解决这一难题,来自纽约大学、南洋理工大学、伊利诺伊大学香槟分校、KTH 皇家理工学院、悉尼大学、新加坡国立大学的研究者们,推出AgentAuditor—— 一个通用、免训练、具备记忆增强推理能力的框架,让 LLM 评估器达到了人类专家的评估水平,精准识别智能体的安全风险。



  • 论文题目:
  • AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 论文链接:
  • https://arxiv.org/abs/2506.00641
  • 代码 / 项目主页:
  • https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概览:AgentAuditor 如何解决精确度难题

AgentAuditor 将结构化记忆和RAG(检索强化推理)结合在一起,赋予了 LLM 评估器类似人类的学习和理解复杂的交互记录的能力,最终极大地增强了 LLM 评估器的性能。它通过三个关键阶段实现:

1. 特征记忆构建 (Feature Memory Construction): 将原始、杂乱的智能体交互记录,转化为结构化、向量化的 “经验数据库”。这里不仅有交互内容,更有场景、风险类型、智能体行为模式等深度语义信息。

2. 推理记忆构建 (Reasoning Memory Construction): 从特征记忆中筛选出最具代表性的 “案例”,并由 LLM(AgentAuditor 内部使用的同一个 LLM,确保自洽性)生成高质量的思维链(CoT)推理过程。这些 CoT 就像人类专家的 “判案经验”,为后续评估提供指导。

3. 记忆增强推理 (Memory-Augmented Reasoning): 面对新的智能体交互案例,AgentAuditor 通过多阶段、上下文感知的检索机制,从推理记忆中动态调取最相关的 “判案经验”(CoT),辅助 LLM 评估器做出更精准、更鲁棒的判断。



数据集:ASSEBench 的构建

为了全面验证 AgentAuditor 的实力,并填补智能体安全(Safety)与安全(Security)评估基准的空白,研究团队还精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。这一基准:

  • 规模宏大: 包含 4 个子集,共 2293 条精心标注的真实智能体交互记录。
  • 覆盖广泛: 涵盖 15 种风险类型、528 个交互环境、横跨 29 个应用场景以及 26 种智能体行为模式。
  • 标注精细: 采用创新的人机协同标注流程,并对模糊风险情况引入 “严格” 和 “宽松” 两种判断标准,评估更细致。
  • 双管齐下: 同时关注智能体的 “Safety”(避免无意犯错)和 “Security”(抵御恶意攻击)两大方面。



实验效果:AgentAuditor 让 LLM 评估器的精确度达到人类水平

在 ASSEBench 及 R-Judge 等多个基准上的广泛实验表明:

  • 普遍提升显著: AgentAuditor 能显著提升各种 LLM 评估器在所有数据集上的表现。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分数提升了高达 48.2%!
  • 直逼人类水平: 搭载 AgentAuditor 的 Gemini-2-Flash-Thinking 在多个数据集上取得了SOTA成绩,其评估准确率(如在 R-Judge 上达到 96.1% Acc)已接近甚至超越单个人类标注员的平均水平。
  • 强大的自适应能力: 面对 ASSEBench-Strict 和 ASSEBench-Lenient 这两个针对模糊场景设计的不同标准子集,AgentAuditor 能自适应调整其推理策略,显著缩小不同模型在不同标准下的性能差距。







上图分别展示了 AgentAuditor 与现有方法及人类评估水平的对比。左图比较了 AgentAuditor 与直接使用 LLM 的评估方法在 R-Judge 基准上的准确率(Acc)和 F1 分数;右图则比较了 AgentAuditor 的准确率与在无讨论情况下单个人类评估者在多个benchmark中的的平均准确率。

AgentAuditor 的核心贡献

  • 系统性分析挑战: 深入剖析了当前自动化评估 Agent 安全面临的核心难题。
  • 创新框架: 通过自适应代表性样本选择、结构化记忆、RAG 和自动生成 CoT,显著增强 LLM 评估能力。
  • 首个专用基准: ASSEBench 填补了领域空白,为人机协同标注提供了新范式。
  • 人类级表现: 实验证明其评估准确性和可靠性已达到专业人类水准。

结语

AgentAuditor 和 ASSEBench 的提出,为构建更值得信赖的 LLM 智能体提供了强有力的评估工具和研究基础。这项工作不仅推动了 LLM 评估器的发展,也为未来构建更安全、更可靠的智能体防御系统指明了方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
64岁的刘德华终于开始大大方方的公开自己和老婆朱丽倩的照片

64岁的刘德华终于开始大大方方的公开自己和老婆朱丽倩的照片

乡野小珥
2025-10-27 11:08:35
国家安全机关:近年来破获一批针对我国的日本间谍案件

国家安全机关:近年来破获一批针对我国的日本间谍案件

新京报
2025-11-19 09:02:47
突发,美国多个网站崩了!

突发,美国多个网站崩了!

每日经济新闻
2025-11-19 00:42:30
博阿滕谈去世前女友:我失去了挚爱,至今仍在消化这个事实

博阿滕谈去世前女友:我失去了挚爱,至今仍在消化这个事实

懂球帝
2025-11-19 01:37:33
妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

经典段子
2025-10-11 22:34:42
恋情实锤?霍启山携女星娜然出席弟弟婚礼,二人全程形影不离

恋情实锤?霍启山携女星娜然出席弟弟婚礼,二人全程形影不离

观察鉴娱
2025-11-19 09:03:56
高市的极右面目:与纳粹合影,为美化希特勒书籍作序 | 国际识局

高市的极右面目:与纳粹合影,为美化希特勒书籍作序 | 国际识局

国际在线
2025-11-18 23:09:22
不管卤什么肉,只要放3克它,卤肉出锅十里飘香,肥而不腻

不管卤什么肉,只要放3克它,卤肉出锅十里飘香,肥而不腻

美食格物
2025-11-18 20:35:19
四国群殴日本,中国出手最猛,朝鲜骂得最凶,俄韩直接往伤口撒盐

四国群殴日本,中国出手最猛,朝鲜骂得最凶,俄韩直接往伤口撒盐

小影的娱乐
2025-11-19 10:09:20
叙利亚拟向中方移交恐怖组织“东伊运”武装分子?外交部回应

叙利亚拟向中方移交恐怖组织“东伊运”武装分子?外交部回应

环球网资讯
2025-11-18 16:35:01
“你儿子以后多半是个力工”,母亲晒学习环境,地面已经说明问题

“你儿子以后多半是个力工”,母亲晒学习环境,地面已经说明问题

熙熙说教
2025-11-16 18:59:41
琉球群岛,重归我国的可能性大吗?

琉球群岛,重归我国的可能性大吗?

文史达观
2025-11-18 19:35:14
绝世倒勾+99分钟半场吊射!苏格兰4-2末轮逃生 28年后再入世界杯

绝世倒勾+99分钟半场吊射!苏格兰4-2末轮逃生 28年后再入世界杯

风过乡
2025-11-19 06:34:58
医生发现:天冷坚持戴帽子的人,过不了半年,身体或会出现4大变化

医生发现:天冷坚持戴帽子的人,过不了半年,身体或会出现4大变化

感觉会火
2025-11-17 12:13:41
成龙因病去世、赵本山灵堂、宋佳知三当三,现在的造谣越来越离谱

成龙因病去世、赵本山灵堂、宋佳知三当三,现在的造谣越来越离谱

冷紫葉
2025-11-18 22:26:37
俄军“锆石”斩首北约军官,乌军三线溃败在即,欧洲陷两难选择!

俄军“锆石”斩首北约军官,乌军三线溃败在即,欧洲陷两难选择!

纾瑶
2025-11-18 10:18:52
“行走的50万!”老师讲抗战被家长举报:我女儿可是中日混血!

“行走的50万!”老师讲抗战被家长举报:我女儿可是中日混血!

妍妍教育日记
2025-11-17 18:04:10
国台办回应美对台3.3亿美元军售

国台办回应美对台3.3亿美元军售

界面新闻
2025-11-19 10:52:54
71岁成龙去世?最新消息!

71岁成龙去世?最新消息!

乡野小珥
2025-11-18 13:40:40
妻子逼我拿30万给小舅子买车,我62岁妈妈冷静开口:过不下去就离

妻子逼我拿30万给小舅子买车,我62岁妈妈冷静开口:过不下去就离

李子木说
2025-10-29 17:39:15
2025-11-19 11:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11750文章数 142507关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

旅游
亲子
本地
公开课
军事航空

旅游要闻

嘿重庆丨一踏上这条悬空栈桥,要出片的心马上稳了

亲子要闻

科普|别再瞎补了!如何科学提升宝宝免疫力

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

量大管饱 中国军网在海外发布备战视频

无障碍浏览 进入关怀版