网易首页 > 网易号 > 正文 申请入驻

AI竟会「自己认错」?破解多智能体协作「罗生门」,斩获ICML 2025 Spotlight

0
分享至

新智元报道

编辑:定慧 好困

【新智元导读】在多智能体AI系统中,一旦任务失败,开发者常陷入「谁错了、错在哪」的谜团。PSU、杜克大学与谷歌DeepMind等机构首次提出「自动化失败归因」,发布Who&When数据集,探索三种归因方法,揭示该问题的复杂性与挑战性。

你打造了一支「超级AI战队」——战队里每个AI都各司其职:有的收集信息、有的负责判断,还有的协调执行,一起协作攻克复杂任务。

这个愿望看似天衣无缝,结果却往往以失败告终。问题就出在:当「问题」出现的时候,如何知道是哪个AI干的

就像代码Debug一样,从堆积如山的模型对话记录、调用日志和中间结果找到哪个AI掉链子几乎不可能,而且AI本身还是个「黑箱」。

这就是今天多智能体AI系统面临的真实困境:不仅频繁失败,而且溯源问题困难。

为了解决这个「AI版罗生门」,宾夕法尼亚州立大学杜克大学联合Google DeepMind等机构的研究者们首次提出了自动化失败归因(Automated Failure Attribution)——让AI自己举手:我错了!

目前,这篇论文不仅成功斩获了顶会ICML 2025 Spotlight,而且配套的首个专用基准数据集Who&When和相关代码也已全部开源。

论文地址:https://arxiv.org/pdf/2505.00212

代码地址:https://github.com/mingyin1/Agents_Failure_Attribution

都说模型即产品,就像现在的OpenAI o3、Gemini 2.5 Pro还有新发的DeepSeek-R1-0528越来越强大,那为何还需要多智能体的AI系统?

这是因为目前阶段依然单个AI能力有限,而LLM驱动的多智能体系统在很多领域展现出巨大潜力。

然而,这些系统也存在着脆弱性:单个Agent的失误,Agent之间的误解,以及信息传递错误,都可能导致整体任务失败。

目前,一旦多智能体的AI系统「翻车」,开发者往往只能:

  • 手动考古:逐条翻阅冗长的交互日志,试图找出问题所在。

  • 依赖经验:这种调试过程高度依赖开发者对系统和任务的深入理解。

这种「大海捞针」式的排错方式,不仅效率低下,更严重阻碍了系统的快速迭代和可信赖度的提升。

目前迫切需要一种自动化、系统化的方法来定位失败原因,将「评估结果」与「系统改进」有效连接起来。

核心贡献

针对上述挑战,这篇论文做出了开创性的贡献:

1. 提出并定义新问题

首次将「自动化失败归因」形式化为一个具体的研究任务,明确了要找出导致失败的责任Agent(failure-responsible agent)决定性错误步骤(decisive error step)

2. 构建首个数据集——Who&When

该数据集包含了从127个LLMMulti-Agent系统中收集的广泛失败日志。这些系统既有算法自动生成的,也有人类专家精心打造的,确保了场景的真实性和多样性。

每条失败日志都配有细粒度的人工标注

  • (Who)哪个Agent是「罪魁祸首」。

  • 何时(When)决定性错误发生在交互的哪一步。

  • 为何(Why)对失败原因的自然语言解释。

标注关键错误代理以及确定出错的具体步骤,对普通人和领域专家来说都是一项挑战。

注释者需要解析复杂的日志,理清每个代理的解决问题逻辑,并判断每个动作是正确的,还是会误导整个问题解决过程。

例如,如果某个代理使用网页浏览器获取解决问题所需的重要信息,注释者就必须检查浏览器历史记录,并访问每一个网站,以判断失败是由于网站上本身没有相关信息,还是代理未能成功获取。

如上图(a)所示,三位注释者分别花费了30.9小时、30.2小时和23.2小时来完成注释。这表明注释过程非常耗时,因此开始考虑开展自动化故障归因的研究。

此外,在很多数据实例中,出错的并不只是某一个代理,而是多个代理。人们需要识别出这些错误,并挑选出其中最严重的错误,因为这些错误会直接导致问题解决失败。由于错误的严重程度有时较为细微,甚至带有一定的主观性,这一过程就变得更加困难。

如上图(b)所示,展示了三位注释者「不确定」标注的比例,范围从15%到30%不等。

图(c)则可视化了不同注释者在互相投票判断彼此「不确定」数据时的分歧率。

可以看到,即使在投票环节仍存在一定程度的分歧,进一步突显了注释工作本身的复杂性与挑战性。

3. 探索初步的自动化归因方法

基于Who&When数据集,论文设计并评估了三种不同的自动化失败归因方法:全局审视法(All-at-Once)逐步侦查法(Step-by-Step)二分定位法(Binary Search)

实验结果表明:这三种方法在准确性、成本和分析粒度上各有千秋,没有一种能在所有指标上完胜。它们共同构成了自动化失败归因任务的初步「解法库」。

· All-at-Once:一次性完成

向LLM提供用户查询和完整的故障日志,要求其一次性识别出故障责任Agent以及发生决定性错误的具体步骤。

优点:一步到位,成本较低,可能擅长宏观判断责任。

缺点:可能面临「大海捞针」问题,难以从长上下文中精确定位具体错误步骤。

· Step-by-Step:逐步

模拟人工调试,让LLM从头开始,一步步检查交互日志,在每个环节判断当前是否出现错误,直到揪出「真凶」。

优点:如同剥洋葱般细致,在定位具体错误环节上更具优势。

缺点:需要多次询问模型,调用成本较高,且局部判断的累积误差可能导致「误判」。

· Binary Search:二分查找

这是一种折中策略,总成本和效果介于前两者之间。

方法是将日志对半切分,利用LLM判断错误发生在前半段还是后半段,然后不断在确定的半段中递归「二分」,最终锁定问题步骤和相关Agent。

实验结果与主要发现

实验在两种设定下进行:LLM知道Multi-Agent系统需要解决的问题的真实答案(WithGround Truth不知道真实答案(Without Ground Truth)

主要使用GPT-4o,但也测试了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)

通过在Who&When数据集上对上述方法进行了系统评估,得到了许多重要的发现

· 任重道远,表现堪忧

目前的方法离完美还差得很远。即便是表现最好的单一方法,在识别「背锅Agent」上的准确率也仅有约53.5%,而在准确定位「错误步骤」上,准确率更是低至14.2%!

这意味着,最牛的策略也只能勉强过半猜对谁是「内鬼」,至于错在哪一步,基本靠「蒙」。

有些方法的表现甚至不如随机猜测,足见任务之艰巨。

· 各有所长,难有全能冠军

不同方法在不同子任务上表现各异,没有万能冠军。

例如,All-at-Once方法对「Who」的判断相对最好,能够更准确地找出哪个Agent应该负责;而Step-by-Step方法在锁定具体错误步骤(「When」)上效果更胜一筹,细粒度检查带来了优势;Binary Search方法则各方面居中,表现中规中矩。

由此体现出每种方案的权衡取舍:要么整体扫描擅长找「人」,要么逐步追查利于找「步骤」。

· 「组合拳效果更优,但代价高昂

研究者尝试了组合不同方法的策略(例如,先使用「全局法」初步判断责任Agent,再运用「逐步法」精确定位错误步骤)。

结果表明,这种混合方法确实能够提升整体的归因性能,但同时也带来了显著的计算成本增加。

· 现有SOTA模型集体哑火

最令人惊讶的是,即便是当前最先进的推理模型(如OpenAI o1和DeepSeek R1),在处理这一任务时也显得力不从心。

这进一步凸显了「自动化失败归因」任务本身的固有难度,其对AI推理能力的要求超越了当前SOTA模型在常规任务上的表现。

明确的推理提示至关重要:在All-at-Once和Step-by-Step的提示中明确要求LLM给出归因的理由,能起到提升性能的作用。

上下文长度对性能构成制约:实验还发现,随着失败日志上下文长度的增加,所有归因方法的性能均呈现下降趋势,尤其是在错误步骤定位的准确性方面更为敏感。

迈向更智能、更可靠的Multi-Agent系统

「自动化失败归因」是Multi-Agent系统开发流程中不可或缺的一环。

它将帮助我们更深入地洞察Multi-Agent的失败模式,将「哪里出错、谁之过」从令人头疼的谜题,转变为可量化分析的问题。

通过架起「评估」与「改进」之间的桥梁,未来终将能够打造出更可靠、更智能、更值得信赖的Multi-Agent协作系统。

作者介绍

Shaokun Zhang

宾夕法尼亚州立大学的三年级博士生,导师为Qingyun Wu教授。

近期的研究兴趣集中在Agentic AI与强化学习的交叉领域。

目前,在NVIDIA实习,专注于LLM智能体的研究。在此之前,于西安电子科技大学获得计算机科学学士学位。

Ming Yin

杜克大学的一年级博士生,导师是陈怡然教授。

于2024年20岁时在中国科学技术大学少年班学院获得了学士学位。

目前对LLM智能体、LLM推理和可信人工智能感兴趣。

从2025年5月到8月在位于西雅图的Zoom担任生成式人工智能研究实习生。

参考资料:

https://arxiv.org/pdf/2505.00212

https://skzhang1.github.io/

https://mingyin1.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

每日经济新闻
2026-03-26 19:00:13
原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

原油飙涨!黄金、白银下跌,美股突变!特朗普威胁!霍尔木兹海峡,最新消息!

证券时报e公司
2026-03-26 22:23:23
伊朗挂断王毅电话后发全球照会,萨勒曼震怒

伊朗挂断王毅电话后发全球照会,萨勒曼震怒

空间展示知识
2026-03-26 07:06:58
为什么一定要多接高中孩子放学?这5个答案点醒无数家长

为什么一定要多接高中孩子放学?这5个答案点醒无数家长

户外阿毽
2026-03-26 12:33:16
3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

李喜林篮球绝杀
2026-03-26 20:29:48
我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

我国癌症高发,电饭煲是“帮凶”?医生:7种省钱行为要不得

大象新闻
2026-03-24 13:53:11
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

iPhone4回收价暴涨80倍?借着二手手机涨价热点的又一波疯狂收割

柴狗夫斯基
2026-03-26 21:15:05
美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

夜深爱杂谈
2026-03-08 21:28:24
诺利托:尽管我曾效力于巴萨,但为了生活我也愿意效力于皇马

诺利托:尽管我曾效力于巴萨,但为了生活我也愿意效力于皇马

懂球帝
2026-03-26 22:42:03
恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

影像温度
2026-03-26 11:25:05
因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

刘蕳爱下厨
2026-03-24 17:29:01
美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

每日经济新闻
2026-03-26 20:18:05
中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

中方警戒舰目前正处于霍尔木兹海峡附近?国防部:假消息

环球网资讯
2026-03-26 16:20:07
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

欧股、美股期货全线下挫,美股芯片股、中概股盘前普跌,阿里巴巴跌超3%,原油拉升涨超3%

21世纪经济报道
2026-03-26 19:46:02
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
2026-03-27 03:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
旅游
本地
房产
公开课

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版