网易首页 > 网易号 > 正文 申请入驻

AgentAuditor: 让智能体安全评估器的精确度达到人类水平

0
分享至



LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?

研究者们为这一问题提出了许多基准(benchmark),尝试评估现有智能体的安全性。然而,这些基准却面临着一个共同的问题:没有足够有效、精准的评估器(evaluator)。传统的 LLM 安全评估在单纯的评估生成内容上表现优异,但对智能体的复杂的环境交互和决策过程却 “鞭长莫及”。现有的智能体评估方法,无论是基于规则还是依赖大模型,都面临着 “看不懂”、“看不全”、“看不准” 的困境:难以捕捉微妙风险、忽略小问题累积、对模糊规则感到困惑。基于规则的评估方法往往仅依靠环境中某个变量的变化来判断是否安全,难以正确识别智能体在交互过程中引入的微妙风险;而基于大模型的评估方法,无论使用最为强大的通用大模型还是专门为安全判断任务微调的专用模型,在精确度上均不如人意。

为了解决这一难题,来自纽约大学、南洋理工大学、伊利诺伊大学香槟分校、KTH 皇家理工学院、悉尼大学、新加坡国立大学的研究者们,推出AgentAuditor—— 一个通用、免训练、具备记忆增强推理能力的框架,让 LLM 评估器达到了人类专家的评估水平,精准识别智能体的安全风险。



  • 论文题目:
  • AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
  • 论文链接:
  • https://arxiv.org/abs/2506.00641
  • 代码 / 项目主页:
  • https://github.com/Astarojth/AgentAuditor-ASSEBench

方法概览:AgentAuditor 如何解决精确度难题

AgentAuditor 将结构化记忆和RAG(检索强化推理)结合在一起,赋予了 LLM 评估器类似人类的学习和理解复杂的交互记录的能力,最终极大地增强了 LLM 评估器的性能。它通过三个关键阶段实现:

1. 特征记忆构建 (Feature Memory Construction): 将原始、杂乱的智能体交互记录,转化为结构化、向量化的 “经验数据库”。这里不仅有交互内容,更有场景、风险类型、智能体行为模式等深度语义信息。

2. 推理记忆构建 (Reasoning Memory Construction): 从特征记忆中筛选出最具代表性的 “案例”,并由 LLM(AgentAuditor 内部使用的同一个 LLM,确保自洽性)生成高质量的思维链(CoT)推理过程。这些 CoT 就像人类专家的 “判案经验”,为后续评估提供指导。

3. 记忆增强推理 (Memory-Augmented Reasoning): 面对新的智能体交互案例,AgentAuditor 通过多阶段、上下文感知的检索机制,从推理记忆中动态调取最相关的 “判案经验”(CoT),辅助 LLM 评估器做出更精准、更鲁棒的判断。



数据集:ASSEBench 的构建

为了全面验证 AgentAuditor 的实力,并填补智能体安全(Safety)与安全(Security)评估基准的空白,研究团队还精心打造了ASSEBench (Agent Safety & Security Evaluator Benchmark)。这一基准:

  • 规模宏大: 包含 4 个子集,共 2293 条精心标注的真实智能体交互记录。
  • 覆盖广泛: 涵盖 15 种风险类型、528 个交互环境、横跨 29 个应用场景以及 26 种智能体行为模式。
  • 标注精细: 采用创新的人机协同标注流程,并对模糊风险情况引入 “严格” 和 “宽松” 两种判断标准,评估更细致。
  • 双管齐下: 同时关注智能体的 “Safety”(避免无意犯错)和 “Security”(抵御恶意攻击)两大方面。



实验效果:AgentAuditor 让 LLM 评估器的精确度达到人类水平

在 ASSEBench 及 R-Judge 等多个基准上的广泛实验表明:

  • 普遍提升显著: AgentAuditor 能显著提升各种 LLM 评估器在所有数据集上的表现。例如,Gemini-2-Flash-Thinking 在 ASSEBench-Safety 上的 F1 分数提升了高达 48.2%!
  • 直逼人类水平: 搭载 AgentAuditor 的 Gemini-2-Flash-Thinking 在多个数据集上取得了SOTA成绩,其评估准确率(如在 R-Judge 上达到 96.1% Acc)已接近甚至超越单个人类标注员的平均水平。
  • 强大的自适应能力: 面对 ASSEBench-Strict 和 ASSEBench-Lenient 这两个针对模糊场景设计的不同标准子集,AgentAuditor 能自适应调整其推理策略,显著缩小不同模型在不同标准下的性能差距。







上图分别展示了 AgentAuditor 与现有方法及人类评估水平的对比。左图比较了 AgentAuditor 与直接使用 LLM 的评估方法在 R-Judge 基准上的准确率(Acc)和 F1 分数;右图则比较了 AgentAuditor 的准确率与在无讨论情况下单个人类评估者在多个benchmark中的的平均准确率。

AgentAuditor 的核心贡献

  • 系统性分析挑战: 深入剖析了当前自动化评估 Agent 安全面临的核心难题。
  • 创新框架: 通过自适应代表性样本选择、结构化记忆、RAG 和自动生成 CoT,显著增强 LLM 评估能力。
  • 首个专用基准: ASSEBench 填补了领域空白,为人机协同标注提供了新范式。
  • 人类级表现: 实验证明其评估准确性和可靠性已达到专业人类水准。

结语

AgentAuditor 和 ASSEBench 的提出,为构建更值得信赖的 LLM 智能体提供了强有力的评估工具和研究基础。这项工作不仅推动了 LLM 评估器的发展,也为未来构建更安全、更可靠的智能体防御系统指明了方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈登空砍37+7+8+19秒连得9分,普理查德8记三分,绿军险胜快船

哈登空砍37+7+8+19秒连得9分,普理查德8记三分,绿军险胜快船

钉钉陌上花开
2025-11-17 07:11:38
奥沙利文:希望和已经十多年未见的大女儿重归于好

奥沙利文:希望和已经十多年未见的大女儿重归于好

罗克
2025-11-17 10:53:11
浙江一男子和一陌生女子在工地做了3年临时夫妻,谁料,分别那天,才知晓她的真实身份,让人大吃一惊...

浙江一男子和一陌生女子在工地做了3年临时夫妻,谁料,分别那天,才知晓她的真实身份,让人大吃一惊...

LULU生活家
2025-11-17 18:46:58
53年彭总在朝鲜批评几位军长贪图享乐,有人反驳:上面还选妃呢

53年彭总在朝鲜批评几位军长贪图享乐,有人反驳:上面还选妃呢

史韵流转
2025-11-15 09:34:47
哈登19秒9分!跟麦迪35秒13分和穆雷32秒12分相比,哪个难度大?

哈登19秒9分!跟麦迪35秒13分和穆雷32秒12分相比,哪个难度大?

大卫的篮球故事
2025-11-17 10:31:56
日本国内紧急备战,媒体曲解国防部发言,网民叫嚣“出兵中国”

日本国内紧急备战,媒体曲解国防部发言,网民叫嚣“出兵中国”

十三级台阶
2025-11-15 18:14:37
妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

妹子“把胸放桌上休息”被拍走红!女菩萨们不服发照片PK:最后这波赢麻了

经典段子
2025-10-11 22:34:42
在养老院,我发现最受欺负的,不是没钱没势的老人,而是另外3种

在养老院,我发现最受欺负的,不是没钱没势的老人,而是另外3种

诗意世界
2025-11-15 21:41:58
山东一市连打两只“医虎”!

山东一市连打两只“医虎”!

医脉圈
2025-11-17 21:09:23
新加坡外交专家提醒中国:近些年,中国有一个最大的战略失误!

新加坡外交专家提醒中国:近些年,中国有一个最大的战略失误!

领悟看世界
2025-10-05 18:42:23
全运游泳收官!诞生5大赢家,2人失意,2人成未来希望,一项没落

全运游泳收官!诞生5大赢家,2人失意,2人成未来希望,一项没落

篮球圈里的那些事
2025-11-17 21:01:57
郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

郑丽文又有大动作,当着日媒的面、直接说出心里话,绿营瞬间炸锅

蓝色海边
2025-11-17 13:46:17
两个小药丸儿,一个助硬,一个延时长,在家门口的药店就能买到

两个小药丸儿,一个助硬,一个延时长,在家门口的药店就能买到

中医陈旺医生
2025-11-14 10:43:05
12岁小学生在家服药身亡,遗书称:太累,太累,不会写英文单词

12岁小学生在家服药身亡,遗书称:太累,太累,不会写英文单词

恪守原则和底线
2025-11-17 20:12:15
无耻之极!长崎居然想改“南京大屠杀”为“南京事件”、“侵略”为“进出”

无耻之极!长崎居然想改“南京大屠杀”为“南京事件”、“侵略”为“进出”

新民晚报
2025-11-17 13:56:10
乌前总理称美已在物色泽连斯基继任者!美威胁与俄贸易面临500%关税,特朗普首次表态

乌前总理称美已在物色泽连斯基继任者!美威胁与俄贸易面临500%关税,特朗普首次表态

红星新闻
2025-11-17 19:06:52
女方开口要80万彩礼,男方却问是不是第一次,这下可僵住了!

女方开口要80万彩礼,男方却问是不是第一次,这下可僵住了!

星羽故事集
2025-11-17 11:19:10
刚从重庆回来,毫不客气说,重庆是直辖市中,城建最有层次的市

刚从重庆回来,毫不客气说,重庆是直辖市中,城建最有层次的市

特特农村生活
2025-11-17 12:30:27
“家里已经供不起我上班了!”父母无奈哭诉,成2025年最大的笑话

“家里已经供不起我上班了!”父母无奈哭诉,成2025年最大的笑话

妍妍教育日记
2025-11-09 10:44:07
5个集团军30万大军严阵以待,台海封锁战露出獠牙!

5个集团军30万大军严阵以待,台海封锁战露出獠牙!

科学知识点秀
2025-11-15 08:00:03
2025-11-17 21:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11737文章数 142506关注度
往期回顾 全部

科技要闻

有了通义和夸克,阿里为何再推千问App?

头条要闻

40多万宝马跑1年多四条轮胎均现龟裂 4S店拒免费更换

头条要闻

40多万宝马跑1年多四条轮胎均现龟裂 4S店拒免费更换

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

房产
教育
艺术
家居
手机

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

教育要闻

市重率57%!青浦兰生首届毕业生去向!

艺术要闻

这雪景,太美了!

家居要闻

回廊通道 强化空间秩序

手机要闻

两千元也用上了真两亿像素!Reno 15这次够狠的

无障碍浏览 进入关怀版