网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

田渊栋团队新作祭出Agent-as-a-Judge！AI智能体自我审判，成本暴跌97%

2024-10-27 12:30:08　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】AI评估AI可靠吗？来自Meta、KAUST团队的最新研究中，提出了Agent-as-a-Judge框架，证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间，还提供丰富的中间反馈。

AI智能体，能否像人类一样有效地评估其他AI智能体？

对于AI智能体来说，评估决策路径一直是棘手的问题。

已有的评估方法，要么只关注结果，要么要要过多的人工完成。

为了解决这一问题，田渊栋、Jürgen Schmidhuber带领的团队提出了「Agent-as-a-Judge」框架。

简言之，让智能体来评估智能体系统，让AI审AI。

它不仅可以减少97%的成本和时间，还能提供丰富的中间反馈。

这是「LLM-as-a-Judge」框架的有机延伸，通过融入智能体特性，能够为整个任务解决过程提供中间反馈。

论文地址：https://arxiv.org/abs/2410.10934v1

研究人员提出了DevAI基准，为全新框架提供概念验证测试平台。包含55个真实的AI开发任务，带有详细的手动注释。

通过对三个领先的智能体系统进行基准测试，发现它大大优于「LLM-as-a-Judge」框架。

总之，这项研究真正的变革之处在于：它提供了可靠的奖励信号，为可扩展的、自我改进的智能体系统铺平了道路。

「法官」智能体，击败大模型

现有评估方法，无法为智能体系统的中间任务解决阶段，提供足够的反馈。

另一方面，通过人工进行更好的评估，代价太大。

而智能体系统的思考方式，更像人类，通常是逐步完成，并且在内部经常使用类人的符号通信来解决问题。

因此，智能体也能够提供丰富的反馈，并关注完整的思考和行动轨迹。

「Agent-as-a-Judge」不仅保留了「LLM-as-a-Judge」成本效益，还具备智能体特性，使其在整个过程中提供中间反馈。

下图展示了，大模型、智能体、人类作为评判者的示意图。

DevAI：自动化AI开发数据集

另外，在代码生成领域，基准测试的发展也落后于智能体系统的快速进步。

比如，HumanEval仅关注算法问题，而MBPP则处理简单的编程任务，但这两者都没有反映出开发者面临的最实际的挑战。

作为一个改进，SWE-Bench基准确实引入了GitHub现实问题，提供一种全新评估的方法。

不过，它仍需要关注自动修复任务的开发过程。

为了解决当前代码生成基准测试中的上述问题，研究人员引入了DevAI：AI开发者数据集，其中包含55个由专家注释者创建的真实世界综合AI应用开发任务。

DevAI结构是这样的：智能体系统首先接收用户查询以开始开发，然后根据AI系统满足需求的程度来评估它，其中偏好作为可选的、较为柔性的标准。

图3展示了DevAI任务的一个例子。

DevAI中的任务规模相对较小，但涵盖了常用的关键开发技术。

如图2所示，任务被标记并覆盖了AI的多个关键领域：监督学习、强化学习、计算机视觉、自然语言处理、生成模型等。

每个任务都是，可能交给研究工程师的真实世界问题，并降低了在这个基准上评估方法的计算成本。

接下来，研究人员将领先的开源代码生成智能体框架，应用于DevAI中的任务：MetaGPT、GPT-Pilot、OpenHands。

他们让人类评判者、大模型评判者、以及智能体评判者框架，来评估其性能。

结果如表1所示，MetaGPT最具成本效益（1.19美元），而OpenHands是最昂贵的（6.38美元）。

从开发时间来看，OpenHands完成任务平均耗时362.41秒，而GPT-Pilot耗时最长，为1622.38秒。

平均而言，使用这三者之一对DevAI进行完整评估，大约需要210.65美元和14小时才能完成。

Human-as-a-Juge：DevAI手动评估

为了确定DevAI的实用有效性，并准确估计当前最先进的智能体系统实际代码生成能力，研究人员手动评估三个AI开发者基线在DevAI中的应用。

如表2所示，（I）和（D）代表独立性能与考虑任务依赖性的性能。表示多个专家的进化，并且意味着评估使用白盒测试（允许访问生成的workspace、人类收集的轨迹和开源代码库）。

两种性能最好的方法（GPT-Pilot和OpenHands）可以满足大约29%的要求，但只有一项任务可以满足所有要求。

另外，在三位人类评估者之间，他们的个人评估存在大量分歧，说明了单一人类评估的不可靠性。

下图5总结了人类评估和共识评估的不匹配度。

---：智能体评估智能体

根据以往智能体设计的经验，并通过模仿人类评估过程，研究人员涉及了8个模块化交互组件，具体包括：

1 图像模块：构建一个图像，获取项目整个结构，包括文件、模块、依赖项，还可以将代码块分解为代码片段

2 定位模块：识别需求所引用的特定文件夹/文件

3 读取模块：超越了简单的文件解析，支持跨33种不同格式的多模态数据的读取和理解

4 搜索模块：提供了对代码的上下文理解，并且可以快速检索高度相关的代码片段，以及其背后细微差别

5 检索模块：从上下文中提取信息，识别轨迹中相关片段

6 查询模块：确定是否满足给定要求

7 记忆模块：存储历史判断信息，允许智能体基于过去记忆评估

8 规划模块：允许智能体根据当前状态和项目目标制定策略，并排序任务。

具体操作流程，如下图9所示。

下表3展示了，Agent-as-a-Judge在各项任务中始终优于 LLM-as-a-Judge，特别是在那些训在任务依赖关系的情况下。

评判开发者智能体，是一项类别不平衡的任务，满足要求的情况要比失败的情况少的多。

而判断转移和对齐率等指标可能会产生误导。比如，由于MetaGPT很少满足要求， LLM-as-a-Judge很容易将大多数情况识别为负面（在黑盒设置中达到84.15%）。

PR曲线通过平衡精确度和召回率，提供更清晰的性能衡量标准。

这表明，在某些情况下，Agent-as-a-Judge几乎可以取代人类评估员。

最后，在消融研究中，研究人员分析了各种组件的添加，对Agent-as-a-Judge判断OpenHands性能的影响。

参考资料：

https://x.com/tydsh/status/1846538154129375412

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

俄媒：俄军即将攻占乌克兰"第三首都"

每日经济新闻 2025-11-08 22:55:11
48591 跟贴 48591
美财长：美25年来制造首块稀土磁铁结束中国"卡脖子"

澎湃新闻 2025-11-08 21:49:11
12657 跟贴 12657

郑丽文出席吴石追思会面对绿营妖言不得不出言澄清

新民周刊 2025-11-09 09:07:52
630 跟贴 630

张家界荒野求生挑战赛新退出选手大赞泡面“太好吃”，目前仅剩16名选手

极目新闻 2025-11-09 11:38:20
889 跟贴 889
好消息！河南3处收费站工程圆满完成！

大象新闻 2025-11-09 11:42:05
112 跟贴 112

115岁的李陈氏，出生于清朝的“老宝贝”｜面孔

大象新闻 2025-11-09 09:38:06
0 跟贴 0

荣耀归位，李健暂时松了一口气

北京商报 2025-11-09 21:35:07
10 跟贴 10
最新 | 15死44伤！现场视频披露！

天津广播 2025-11-09 09:29:02
379 跟贴 379

新疆克里雅古道有游客驾车落水于田县政府工作人员：落水人员已打捞上岸

红星新闻 2025-11-09 13:40:57
187 跟贴 187
视频：被吐槽卸任后像换了个人石破茂大笑

看看新闻Knews 2025-11-08 19:15:06
577 跟贴 577
中方暂停实施一项对美出口管制

财联社 2025-11-09 11:09:16
615 跟贴 615
粤港澳三地火炬手共同点燃十五运会主火炬

极目新闻 2025-11-09 21:37:27
18 跟贴 18
“合肥系”国资出手，投入超29亿元现金，要拿下显示屏巨头控制权！投资对象3年多亏损近100亿元

每日经济新闻 2025-11-09 21:18:11
0 跟贴 0
十五运会运动员、裁判员入场

央视新闻客户端 2025-11-09 20:16:11
95 跟贴 95
全国爆火的“人民咖啡馆”，店名可能不合法？

学申论的谈妹 2025-11-07 15:25:22
1348 跟贴 1348
数百人在菜地“免费摘白菜”，菜农损失近百万，摘菜的人违法吗？

之乎者也小鱼儿 2025-11-09 23:11:25
1 跟贴 1
网友称小米一个电器领域就能把格力"干掉" 王自如回应

潇湘晨报 2025-11-09 12:35:21
0 跟贴 0
全运会吉祥物痛失本名 "大湾鸡"到哪都是显眼包

看看新闻Knews 2025-11-09 22:40:08
0 跟贴 0
拉30吨白菜拿不到运费，司机遇“老赖”货主，双方质证，网友炸锅

奇思妙想草叶君 2025-11-09 23:17:36
0 跟贴 0
1999年小朋友捐140元给国家造航母，本人：觉得有航母就不会被欺负

潇湘晨报 2025-11-09 22:17:12
0 跟贴 0
胖东来销售额破200亿，于东来曾表示：如果升得太快，员工就得加班

潇湘晨报 2025-11-09 20:00:52
0 跟贴 0
家门口发现人参，浙江男子直接生吃半根！结果悲剧了

FM93浙江交通之声 2025-11-09 06:06:23
0 跟贴 0
水贝市场暂时处于半停滞状态

财联社 2025-11-09 15:32:06
0 跟贴 0

排名赛首冠，22岁吴宜泽10-6夺斯诺克国锦赛冠军，中国时代快来了

排名赛首冠，22岁吴宜泽10-6夺斯诺克国锦赛冠军，中国时代快来了

真理是我亲戚

2025-11-09 21:39:25

换汤不换药没用！邵佳一还招雷公殿母吗？带上徐彬杨希+大连飞翼

换汤不换药没用！邵佳一还招雷公殿母吗？带上徐彬杨希+大连飞翼

刀锋体育

2025-11-09 19:59:44

伟大的10-6！吴宜泽KO希金斯夺冠，中国第10人，斯诺克见证新王！

伟大的10-6！吴宜泽KO希金斯夺冠，中国第10人，斯诺克见证新王！

刘姚尧的文字城堡

2025-11-09 22:07:57

中美谈妥了，赢家还不知道是谁,输家已经有四个,头一个是巴基斯坦

中美谈妥了，赢家还不知道是谁,输家已经有四个,头一个是巴基斯坦

科技处长

2025-11-08 22:44:21

卖掉一楼换成顶楼，才知道“富不买一楼，穷不买顶楼”有多真实

卖掉一楼换成顶楼，才知道“富不买一楼，穷不买顶楼”有多真实

室内设计师有料儿

2025-11-09 10:56:05

刘嘉玲曝刘德华的疯狂“私生饭”：有人从他床底下爬出来

刘嘉玲曝刘德华的疯狂“私生饭”：有人从他床底下爬出来

红星新闻

2025-11-09 11:32:26

其实懂行的人一眼就能看出来，全红婵这次复出

其实懂行的人一眼就能看出来，全红婵这次复出

小光侃娱乐

2025-11-09 14:05:02

马鲁的年薪低到无法想象，其他外援挥金如土，他却在超然楼前驻足

马鲁的年薪低到无法想象，其他外援挥金如土，他却在超然楼前驻足

体坛小鹏

2025-11-09 07:37:24

章泽天日本机场被偶遇，黄发新造型超吸睛，32岁状态好到像大学生

章泽天日本机场被偶遇，黄发新造型超吸睛，32岁状态好到像大学生

TVB的四小花

2025-11-09 14:34:52

武统、和统都没希望了？台湾军事专家：中国已经走上了第三条路

武统、和统都没希望了？台湾军事专家：中国已经走上了第三条路

芳芳历史烩

2025-11-09 01:44:44

白百何工作室晒时间线，回应东京电影节争议：我方只要一个真实、正确的说法，而非避重就轻混淆视听，甚至无中生有

白百何工作室晒时间线，回应东京电影节争议：我方只要一个真实、正确的说法，而非避重就轻混淆视听，甚至无中生有

扬子晚报

2025-11-09 19:48:38

白百何开撕王传君和沪圈，暗示自己被当垫脚石，范冰冰也发文暗讽

白百何开撕王传君和沪圈，暗示自己被当垫脚石，范冰冰也发文暗讽

花哥扒娱乐

2025-11-06 21:56:32

澳舰遭中方军舰包围后，澳洲防长呼吁各国都去巡航…

澳舰遭中方军舰包围后，澳洲防长呼吁各国都去巡航…

福建平子

2025-11-09 11:14:52

潘玮柏老婆参加幼儿园活动，5岁女儿好可爱，宣云穿公主装像姐姐

潘玮柏老婆参加幼儿园活动，5岁女儿好可爱，宣云穿公主装像姐姐

心静物娱

2025-11-09 13:54:43

上海虹桥⇋浦东，只要10分钟，仅需59元？最新消息传来，网友：狠狠期待了

上海虹桥⇋浦东，只要10分钟，仅需59元？最新消息传来，网友：狠狠期待了

新民晚报

2025-11-09 09:38:32

他丢弃的猫抓板，却被流浪猫当成珍宝，用执着赌赢了余生幸福！

他丢弃的猫抓板，却被流浪猫当成珍宝，用执着赌赢了余生幸福！

Magic宠物社

2025-11-01 18:35:03

黄仁勋亲赴台积电“讨要更多芯片” 回应存储短缺、涨价等问题

黄仁勋亲赴台积电“讨要更多芯片” 回应存储短缺、涨价等问题

财联社

2025-11-09 01:47:09

创业只用30万，广东90后硬刚大疆，干出1200亿独角兽

创业只用30万，广东90后硬刚大疆，干出1200亿独角兽

毒sir财经

2025-11-08 23:23:36

十五运会广州限行适应期结束，首次违法不免罚！出行提醒公布

十五运会广州限行适应期结束，首次违法不免罚！出行提醒公布

南方都市报

2025-11-09 12:00:05

雷迪克：开场两分钟就意识到赢不了对球队表现非常失望

雷迪克：开场两分钟就意识到赢不了对球队表现非常失望

北青网-北京青年报

2025-11-09 15:03:06

AI产业主平台领航智能+时代

13828文章数 66239关注度

往期回顾全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

陕西男子打晕妻子误以为已死将人扔下土崖致其死亡

头条要闻

陕西男子打晕妻子误以为已死将人扔下土崖致其死亡

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响：唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万霜雾灰与青峦翠配色正式开启交付

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

房产

亲子

游戏

旅游

伊姐周六热推：电视剧《四喜》；电视剧《唐朝诡事录之长安》......

房产要闻

封关倒计时！三亚主城 2.3 万 /㎡+ 即买即住，手慢无！

亲子要闻

小龚大夫上线了

《8号出口》开发商新作改名逃离巨怪居住的星球

旅游要闻

巨好看、巨能玩、巨划算！宝安“湾区聚宝季”宠粉上大分

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版