网易首页 > 网易号 > 正文 申请入驻

AI竟会「自己认错」?破解多智能体协作「罗生门」,斩获ICML 2025 Spotlight

0
分享至

文章转载于新智元

你打造了一支「超级AI战队」——战队里每个AI都各司其职:有的收集信息、有的负责判断,还有的协调执行,一起协作攻克复杂任务。

这个愿望看似天衣无缝,结果却往往以失败告终。问题就出在:当「问题」出现的时候,如何知道是哪个AI干的

就像代码Debug一样,从堆积如山的模型对话记录、调用日志和中间结果找到哪个AI掉链子几乎不可能,而且AI本身还是个「黑箱」。

这就是今天多智能体AI系统面临的真实困境:不仅频繁失败,而且溯源问题困难。

为了解决这个「AI版罗生门」,宾夕法尼亚州立大学杜克大学联合Google DeepMind等机构的研究者们首次提出了自动化失败归因(Automated Failure Attribution)——让AI自己举手:我错了!

目前,这篇论文不仅成功斩获了顶会ICML 2025 Spotlight,而且配套的首个专用基准数据集Who&When和相关代码也已全部开源。

论文地址:https://arxiv.org/pdf/2505.00212

代码地址:https://github.com/mingyin1/Agents_Failure_Attribution

都说模型即产品,就像现在的OpenAI o3、Gemini 2.5 Pro还有新发的DeepSeek-R1-0528越来越强大,那为何还需要多智能体的AI系统?

这是因为目前阶段依然单个AI能力有限,而LLM驱动的多智能体系统在很多领域展现出巨大潜力。

然而,这些系统也存在着脆弱性:单个Agent的失误,Agent之间的误解,以及信息传递错误,都可能导致整体任务失败。

目前,一旦多智能体的AI系统「翻车」,开发者往往只能:

  • 手动考古:逐条翻阅冗长的交互日志,试图找出问题所在。

  • 依赖经验:这种调试过程高度依赖开发者对系统和任务的深入理解。

这种「大海捞针」式的排错方式,不仅效率低下,更严重阻碍了系统的快速迭代和可信赖度的提升。

目前迫切需要一种自动化、系统化的方法来定位失败原因,将「评估结果」与「系统改进」有效连接起来。

1

核心贡献

针对上述挑战,这篇论文做出了开创性的贡献:

1. 提出并定义新问题

首次将「自动化失败归因」形式化为一个具体的研究任务,明确了要找出导致失败的责任Agent(failure-responsible agent)决定性错误步骤(decisive error step)

2. 构建首个数据集——Who&When

该数据集包含了从127个LLMMulti-Agent系统中收集的广泛失败日志。这些系统既有算法自动生成的,也有人类专家精心打造的,确保了场景的真实性和多样性。

每条失败日志都配有细粒度的人工标注

  • (Who)哪个Agent是「罪魁祸首」。

  • 何时(When)决定性错误发生在交互的哪一步。

  • 为何(Why)对失败原因的自然语言解释。

标注关键错误代理以及确定出错的具体步骤,对普通人和领域专家来说都是一项挑战。

注释者需要解析复杂的日志,理清每个代理的解决问题逻辑,并判断每个动作是正确的,还是会误导整个问题解决过程。

例如,如果某个代理使用网页浏览器获取解决问题所需的重要信息,注释者就必须检查浏览器历史记录,并访问每一个网站,以判断失败是由于网站上本身没有相关信息,还是代理未能成功获取。

如上图(a)所示,三位注释者分别花费了30.9小时、30.2小时和23.2小时来完成注释。这表明注释过程非常耗时,因此开始考虑开展自动化故障归因的研究。

此外,在很多数据实例中,出错的并不只是某一个代理,而是多个代理。人们需要识别出这些错误,并挑选出其中最严重的错误,因为这些错误会直接导致问题解决失败。由于错误的严重程度有时较为细微,甚至带有一定的主观性,这一过程就变得更加困难。

如上图(b)所示,展示了三位注释者「不确定」标注的比例,范围从15%到30%不等。

图(c)则可视化了不同注释者在互相投票判断彼此「不确定」数据时的分歧率。

可以看到,即使在投票环节仍存在一定程度的分歧,进一步突显了注释工作本身的复杂性与挑战性。

3. 探索初步的自动化归因方法

基于Who&When数据集,论文设计并评估了三种不同的自动化失败归因方法:全局审视法(All-at-Once)逐步侦查法(Step-by-Step)二分定位法(Binary Search)

实验结果表明:这三种方法在准确性、成本和分析粒度上各有千秋,没有一种能在所有指标上完胜。它们共同构成了自动化失败归因任务的初步「解法库」。

· All-at-Once:一次性完成

向LLM提供用户查询和完整的故障日志,要求其一次性识别出故障责任Agent以及发生决定性错误的具体步骤。

优点:一步到位,成本较低,可能擅长宏观判断责任。

缺点:可能面临「大海捞针」问题,难以从长上下文中精确定位具体错误步骤。

· Step-by-Step:逐步

模拟人工调试,让LLM从头开始,一步步检查交互日志,在每个环节判断当前是否出现错误,直到揪出「真凶」。

优点:如同剥洋葱般细致,在定位具体错误环节上更具优势。

缺点:需要多次询问模型,调用成本较高,且局部判断的累积误差可能导致「误判」。

· Binary Search:二分查找

这是一种折中策略,总成本和效果介于前两者之间。

方法是将日志对半切分,利用LLM判断错误发生在前半段还是后半段,然后不断在确定的半段中递归「二分」,最终锁定问题步骤和相关Agent。

1

实验结果与主要发现

实验在两种设定下进行:LLM知道Multi-Agent系统需要解决的问题的真实答案(WithGround Truth不知道真实答案(Without Ground Truth)

主要使用GPT-4o,但也测试了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)

通过在Who&When数据集上对上述方法进行了系统评估,得到了许多重要的发现

· 任重道远,表现堪忧

目前的方法离完美还差得很远。即便是表现最好的单一方法,在识别「背锅Agent」上的准确率也仅有约53.5%,而在准确定位「错误步骤」上,准确率更是低至14.2%!

这意味着,最牛的策略也只能勉强过半猜对谁是「内鬼」,至于错在哪一步,基本靠「蒙」。

有些方法的表现甚至不如随机猜测,足见任务之艰巨。

· 各有所长,难有全能冠军

不同方法在不同子任务上表现各异,没有万能冠军。

例如,All-at-Once方法对「Who」的判断相对最好,能够更准确地找出哪个Agent应该负责;而Step-by-Step方法在锁定具体错误步骤(「When」)上效果更胜一筹,细粒度检查带来了优势;Binary Search方法则各方面居中,表现中规中矩。

由此体现出每种方案的权衡取舍:要么整体扫描擅长找「人」,要么逐步追查利于找「步骤」。

· 「组合拳效果更优,但代价高昂

研究者尝试了组合不同方法的策略(例如,先使用「全局法」初步判断责任Agent,再运用「逐步法」精确定位错误步骤)。

结果表明,这种混合方法确实能够提升整体的归因性能,但同时也带来了显著的计算成本增加。

· 现有SOTA模型集体哑火

最令人惊讶的是,即便是当前最先进的推理模型(如OpenAI o1和DeepSeek R1),在处理这一任务时也显得力不从心。

这进一步凸显了「自动化失败归因」任务本身的固有难度,其对AI推理能力的要求超越了当前SOTA模型在常规任务上的表现。

明确的推理提示至关重要:在All-at-Once和Step-by-Step的提示中明确要求LLM给出归因的理由,能起到提升性能的作用。

上下文长度对性能构成制约:实验还发现,随着失败日志上下文长度的增加,所有归因方法的性能均呈现下降趋势,尤其是在错误步骤定位的准确性方面更为敏感。

1

迈向更智能、更可靠的Multi-Agent系统

「自动化失败归因」是Multi-Agent系统开发流程中不可或缺的一环。

它将帮助我们更深入地洞察Multi-Agent的失败模式,将「哪里出错、谁之过」从令人头疼的谜题,转变为可量化分析的问题。

通过架起「评估」与「改进」之间的桥梁,未来终将能够打造出更可靠、更智能、更值得信赖的Multi-Agent协作系统。

1

作者介绍

Shaokun Zhang

宾夕法尼亚州立大学的三年级博士生,导师为Qingyun Wu教授。

近期的研究兴趣集中在Agentic AI与强化学习的交叉领域。

目前,在NVIDIA实习,专注于LLM智能体的研究。在此之前,于西安电子科技大学获得计算机科学学士学位。

Ming Yin

杜克大学的一年级博士生,导师是陈怡然教授。

于2024年20岁时在中国科学技术大学少年班学院获得了学士学位。

目前对LLM智能体、LLM推理和可信人工智能感兴趣。

从2025年5月到8月在位于西雅图的Zoom担任生成式人工智能研究实习生。

参考资料:

https://arxiv.org/pdf/2505.00212

https://skzhang1.github.io/

https://mingyin1.github.io/

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为队友发声!米切尔:很多人都是唯冠军论,却忽略了哈登的伟大

为队友发声!米切尔:很多人都是唯冠军论,却忽略了哈登的伟大

懂球帝
2026-05-26 15:01:09
腾讯「企鹅岛」已入驻1.4万人,员工可享2000元档公寓租金

腾讯「企鹅岛」已入驻1.4万人,员工可享2000元档公寓租金

鞭牛士
2026-05-26 10:45:22
一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

一人毁掉整部剧?央视剧《主角》唯一败笔,观众:看他演戏真别扭

老黯谈娱
2026-05-26 12:47:27
黄仁勋夜市抢食!凑过去问美女烤玉米好不好吃:没曾想上口就咬

黄仁勋夜市抢食!凑过去问美女烤玉米好不好吃:没曾想上口就咬

快科技
2026-05-25 19:05:22
"韬定律"能替代摩尔定律吗?华为给出了自己的答案

"韬定律"能替代摩尔定律吗?华为给出了自己的答案

别打我我投降
2026-05-25 16:16:21
家住深圳65楼,已经崩溃了,日子没法过了!

家住深圳65楼,已经崩溃了,日子没法过了!

科学发掘
2026-05-26 12:24:47
为什么老顾客突然就不来了?网友:消费299元,不肯送我一个饼

为什么老顾客突然就不来了?网友:消费299元,不肯送我一个饼

据说说娱乐
2026-05-26 10:46:59
比雷霆还惨!一年选中2个分区决赛MVP,结果都送人了,史上最坑GM

比雷霆还惨!一年选中2个分区决赛MVP,结果都送人了,史上最坑GM

你的篮球频道
2026-05-26 13:33:25
彼得雷乌斯戳破真相:乌克兰早已打醒世界,美国却还在装睡

彼得雷乌斯戳破真相:乌克兰早已打醒世界,美国却还在装睡

老马拉车莫少装
2026-05-24 22:40:10
一枚纽扣,挖出潜伏在总参大院十年的国民党王牌特工

一枚纽扣,挖出潜伏在总参大院十年的国民党王牌特工

老范谈史
2026-05-08 02:36:29
中国“捡钱”时代或将来临:如果手中只有10万,试试死啃这两条线

中国“捡钱”时代或将来临:如果手中只有10万,试试死啃这两条线

美食格物
2026-05-13 14:03:12
俄乌最新:乌克兰今年反攻收复近600平方公里失地!

俄乌最新:乌克兰今年反攻收复近600平方公里失地!

项鹏飞
2026-05-23 21:34:03
开始离谱了!燕郊板块房价从4万变6千,业主集体断供

开始离谱了!燕郊板块房价从4万变6千,业主集体断供

专业聊房君
2026-05-25 07:28:59
哇塞!八块腹肌的杨瀚森!

哇塞!八块腹肌的杨瀚森!

柚子说球
2026-05-25 23:00:33
伊朗宣布:击落

伊朗宣布:击落

环球时报国际
2026-05-25 23:33:26
俄方突然下令:猛攻基辅在即,全体撤离!乌克兰外长怒斥“讹诈”

俄方突然下令:猛攻基辅在即,全体撤离!乌克兰外长怒斥“讹诈”

菁菁子衿
2026-05-26 13:19:24
在外打工半年,回家掀开老婆衣服,看清她肚子后我砸了杯子

在外打工半年,回家掀开老婆衣服,看清她肚子后我砸了杯子

木子言故事
2026-05-21 11:31:57
广州下场收二手房:环城高速内,300万以下,不限楼龄!

广州下场收二手房:环城高速内,300万以下,不限楼龄!

广州PLUS
2026-05-26 11:20:40
看了耿同学的打假 我去查了自然期刊的撤稿数 各国对比

看了耿同学的打假 我去查了自然期刊的撤稿数 各国对比

慕容律师
2026-05-25 11:56:06
“新型啃老”已来临,985毕业生家里蹲,家长:不工作也不结婚

“新型啃老”已来临,985毕业生家里蹲,家长:不工作也不结婚

户外阿毽
2026-05-25 15:03:21
2026-05-26 17:48:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3110文章数 10499关注度
往期回顾 全部

科技要闻

中国AI要向外卷,而不只是做第二个OpenAI

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

头条要闻

25岁海归男恋上32岁离异女 因88.8万彩礼闹掰追讨12万

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

艺术
家居
时尚
数码
公开课

艺术要闻

画美,文字也美 | 日本著名画家内田正泰

家居要闻

生与命相依 旧公寓改造

全网刷屏,华语乐坛“嫡长女”终于来了!

数码要闻

倍思推出30W自带双线移动电源:2C+1A+1 Lightning,99.9元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版