网易首页 > 网易号 > 正文 申请入驻

北大伯克利联手“拷问”大模型:最强Agent也才40分!

0
分享至

北大邓小铁课题组 投稿
量子位 | 公众号 QbitAI

给大模型当老师,让它一步步按你的想法做数据分析,有多难?

结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,都开始“不听话”了。

在一个全新的测试基准中,它们面对多轮、不断演进的指令,最终的任务成功率最高仅有40%。

这项名为IDA-Bench的新基准,就是为了模拟真实世界中这种“边想边改”的分析场景而生。

它不再是给模型一道题,让它一口气算完;而是模拟一位真实的数据分析师,在对话中不断给出新指令,考察Agent在多轮交互中的真实能力。

可以说,专治各种“自作主张”和“一意孤行”的AI。

值得一提的是,这项工作由一支星光熠熠的团队打造,汇集了北京大学加州大学伯克利分校的顶尖学者,其中不乏机器学习泰斗Michael I. Jordan教授,仿真科学领域专家郑泽宇 (Zeyu Zheng)副教授,以及ACM/IEEE Fellow邓小铁 (Xiaotie Deng)教授的身影。

“不听话”的AI,问题出在哪?

目前,我们看到的很多大模型数据分析工具,比如OpenAI、Gemini和Claude的网页应用,能力已然非常强大。

但现有的评估基准,大多侧重于单轮互动:用户给出一个明确的、预设好的任务,然后看Agent能否成功执行。
可现实世界的数据分析,远非如此。

真实的数据分析师,工作流程是迭代式探索性的。他们会先查看数据分布,再决定如何处理异常值;会根据初步结果,调整后续的分析策略。这些决策充满了基于领域知识的“主观性”,指令也是一步步演进的。

现有基准恰恰忽略了这种动态交互过程,因此无法全面评估Agent在真实协作场景下的可靠性。

IDA-Bench:给AI一场真实的“随堂测验”

为了解决这一痛点,IDA-Bench应运而生。它旨在忠实地反映真实数据分析的主观性和交互性特征。

整个测试框架包含四大核心组件:

  • 指令材料 (Instruction Materials):从真实的、复杂的Kaggle数据分析项目(Python notebooks)中提取,包含背景知识、分析目标和专家的“主观洞察”。
  • 模拟用户 (Simulated User):由一个大模型扮演,它会参照指令材料,像真人一样逐步向Agent下达指令,甚至会提出模糊或不断变化的要求。
  • Agent:即被测试的大模型,它的任务是严格遵循“用户”的指令,通过编写和执行代码来完成任务。
  • 沙盒环境 (Sandbox Environment):一个安全隔离的环境,Agent可以在其中执行代码、访问数据,并像在Jupyter中一样保持上下文。

△图1:(左) IDA-Bench的测试场景 ,(右) IDA-Bench中的任务轨迹示例

为了确保任务的真实性和时效性,防止数据污染,IDA-Bench的构建流程完全自动化。它能持续从Kaggle上发布的最新项目中提取任务,经过筛选、预处理和人工检查后,生成新的测试用例。

△图2: IDA-Bench的自动化构建流程

Agent惨遭滑铁卢,最高分仅40

在这样一套“严刑拷打”下,各大模型纷纷现出原形。

初步评估结果显示,即便是最先进的大模型,成功率也不足50%。

具体来看,Gemini-2.5-Pro、OpenAI o4-mini和Claude-3.7-Sonnet-Thinking表现位列第一梯队,但其“基准达成率”(即结果达到或超过人类基准)也仅为40%。

而DeepSeek系列中,作为指令模型的DeepSeek-V3(24%)表现明显优于其“思考型”模型DeepSeek-R1(12%),这揭示了一个核心挑战:在遵循指令和自主推理之间取得平衡,对当前Agent来说非常困难。

△表1: 各大模型在IDA-Bench上的表现

此外,Agent们在任务中还会犯下各种低级错误,导致提交结果无效。其中最主要的原因是根本没有生成提交文件,这往往源于模型的“幻觉”。

“自信”的Claude vs “谨慎”的Gemini

深入分析失败案例,研究团队发现不同模型展现出了迥异的“性格”。

Claude-3.7DeepSeek-R1表现得像个“过度自信”的实习生。

它们不怎么遵循用户的具体指令,而是主动推进分析流程,结果常常因为“自作主张”而错过了关键步骤和信息。比如,用户建议用一种新方法改进模型,Claude-3.7不等尝试就直接否定,并提交了之前效果较差的结果。

相比之下,Gemini-2.5-Pro则像一个“过度谨慎”的助理。它每走一步都要反复向用户寻求确认,有时一个简单的数据清洗操作能来回沟通30轮,最终因超过回合数限制而任务失败。

  • 幻觉或夸大:许多Agent会声称执行了并未进行的操作,比如号称“优化”了参数,但实际只是随机设置;更有甚者,凭空捏造从未生成的代码和不存在的数字结果。
  • 格式错误:提交文件的列名大小写弄反,或数据类型不对(如在二分类任务中,要求提交标签“0”或“1”,模型却提交了标签为“1”的概率),都是常见的低级错误。
  • 固守首次尝试:一些Agent在初期会做出一个简单粗暴的尝试(比如在预测任务中,模型在初期会直接用训练集的中位数作为预测值),然后就“固执己见”,在后续交互中不再根据新指令开发更复杂的模型。
  • 级联错误:当一个代码块中途执行失败时,Agent有时会“假装”它成功了,导致后续代码块因为引用不存在的变量而出错,引发连锁反应。

这些发现凸显了当前LLM Agent在真正成为可靠数据分析助手之前,仍需在理解、遵循和交互能力上进行大量改进。

论文链接:
https://arxiv.org/abs/2505.18223

项目主页:
https://github.com/lhydave/IDA-Bench

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第1现场|德黑兰发生爆炸,伊朗关闭领空,以色列全境拉响防空警报

第1现场|德黑兰发生爆炸,伊朗关闭领空,以色列全境拉响防空警报

澎湃新闻
2026-02-28 16:26:29
巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

巴基斯坦第一波损失惨重,凌晨下令战机起飞:直接轰炸阿富汗首都

云舟史策
2026-02-28 07:43:52
南京双胞胎决裂内情曝光:生父让哥哥把账号给弟弟,说弟弟更聪明

南京双胞胎决裂内情曝光:生父让哥哥把账号给弟弟,说弟弟更聪明

江山挥笔
2026-02-27 11:19:49
继承权无需争抢了!2025年起,父母的房子,一律按照"新规定"处置

继承权无需争抢了!2025年起,父母的房子,一律按照"新规定"处置

猫叔东山再起
2026-02-28 12:00:03
直接开火!黄金狂欢派对开启?

直接开火!黄金狂欢派对开启?

口袋贵金属官方
2026-02-28 17:11:35
火箭5300万打水漂?电风扇低迷,被底薪后卫抢戏!或沦为交易筹码

火箭5300万打水漂?电风扇低迷,被底薪后卫抢戏!或沦为交易筹码

熊哥爱篮球
2026-02-28 18:16:31
惨!曼城新援沦为第二个福登!22 岁天才遭弃用,真相太扎心

惨!曼城新援沦为第二个福登!22 岁天才遭弃用,真相太扎心

澜归序
2026-02-28 16:26:36
以色列总理发表全国讲话:军事行动目标是推翻伊朗政权

以色列总理发表全国讲话:军事行动目标是推翻伊朗政权

环球网资讯
2026-02-28 16:26:19
巴拿马总统摊牌:只要中国敢反制,巴方就回击,外交部态度明确

巴拿马总统摊牌:只要中国敢反制,巴方就回击,外交部态度明确

钦点历史
2026-02-28 09:16:56
以色列特拉维夫遭到多枚伊朗导弹袭击

以色列特拉维夫遭到多枚伊朗导弹袭击

环球网资讯
2026-02-28 16:46:28
出大事了,特朗普话音刚落,伊朗首都发生爆炸,朝鲜也“认怂”

出大事了,特朗普话音刚落,伊朗首都发生爆炸,朝鲜也“认怂”

策略述
2026-02-28 16:23:21
小徐已成立公司

小徐已成立公司

雷达财经
2026-02-27 17:08:37
丈夫影院暴打男小三,妻子带娃出轨视频曝光,真容被扒后续更炸裂

丈夫影院暴打男小三,妻子带娃出轨视频曝光,真容被扒后续更炸裂

壹月情感
2026-02-28 14:02:30
广西高速发生重大事故 导致道路长时间拥堵

广西高速发生重大事故 导致道路长时间拥堵

七彩云南简南俊
2026-02-28 15:48:17
湖南一男子杀鸭从鸭肚中剖出多颗金色颗粒,灼烧鉴定为黄金,当事人:当地河道曾采金,可能是鸭子觅食时误食

湖南一男子杀鸭从鸭肚中剖出多颗金色颗粒,灼烧鉴定为黄金,当事人:当地河道曾采金,可能是鸭子觅食时误食

扬子晚报
2026-02-27 07:34:01
勇士放弃签约!联盟第一玻璃人!NBA生涯结束了

勇士放弃签约!联盟第一玻璃人!NBA生涯结束了

篮球教学论坛
2026-02-28 11:38:21
网传新能源汽车开征“里程税”10省市试点 多地回应:没有通知也无征收文件|云辟谣

网传新能源汽车开征“里程税”10省市试点 多地回应:没有通知也无征收文件|云辟谣

封面新闻
2026-02-27 19:17:03
久用浅才是真的浅 OPPO Find N6折痕控制新标杆

久用浅才是真的浅 OPPO Find N6折痕控制新标杆

PChome电脑之家
2026-02-28 18:16:19
八十年代,厦门搞特区让驻军全撤,市委书记与军政委说话不客气!

八十年代,厦门搞特区让驻军全撤,市委书记与军政委说话不客气!

混沌录
2026-02-13 00:10:08
中央5台直播乒乓球比赛:2月28日CCTV5、CCTV5+最新节目单!

中央5台直播乒乓球比赛:2月28日CCTV5、CCTV5+最新节目单!

郝小小看体育
2026-02-28 04:09:30
2026-02-28 18:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12210文章数 176398关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

以色列先发制人 8个月后伊美以再次引燃中东

头条要闻

以色列先发制人 8个月后伊美以再次引燃中东

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

房产
游戏
数码
手机
时尚

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

索尼《马拉松》PS商店仅3.09分:比《星鸣特攻》还低

数码要闻

“冠军严选”:Pulsar派世预告第二代《CS》选手ZywOo联名鼠标

手机要闻

一加15T手机曝光,这些特性太诱人!

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

无障碍浏览 进入关怀版