网易首页 > 网易号 > 正文 申请入驻

当AI遇到散点图:Feedzai团队首次揭秘机器如何"读懂"数据可视化

0
分享至


这项由葡萄牙Feedzai公司的Joao Palmeiro、Diogo Duarte、Rita Costa和Pedro Bizarro领导的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.06071v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

现在,人工智能似乎无所不能,从写文章到画画,从诊断疾病到预测天气。但有一个看似简单的任务却一直让AI头疼不已:理解散点图。散点图就是那种用小圆点在坐标系上画出数据分布的图表,我们在学校里经常见到,用来展示两个变量之间的关系。

Feedzai的研究团队发现了一个令人意外的现象:尽管现在的AI模型在很多复杂任务上表现出色,但在理解散点图这样看似基础的可视化图表时,它们的表现却差强人意。就像一个博学的教授可以解答高深的哲学问题,却在识别简单的交通标志时犯糊涂一样。

这个问题绝不仅仅是学术好奇心那么简单。在现实世界中,数据分析师经常需要从散点图中识别数据集群、发现异常值,或者快速判断数据中有多少个明显的群组。当数据量庞大,或者我们只能拿到图表而无法获取原始数据时,能够准确理解散点图就变得至关重要。这就像医生需要从X光片上快速识别病灶一样重要。

为了系统性地评估AI在这方面的能力,研究团队做了一件前所未有的事情:他们创建了一个包含超过18,000张散点图的庞大数据集,并设计了专门的测试方法来检验AI模型的"散点图理解能力"。这个数据集就像是专门为测试AI视觉能力而设计的"视力表",但比传统视力表复杂得多。

研究团队测试了十个当前最先进的AI模型,包括OpenAI的GPT系列和Google的Gemini系列。他们让这些AI模型完成五种不同的任务:数出散点图中有多少个数据群组、用边界框标出每个群组的位置、找出每个群组的中心点、数出有多少个异常值,以及精确定位这些异常值的坐标。

结果让人既惊喜又担忧。好消息是,在简单的计数任务上,一些AI模型表现相当不错。比如Google的Gemini 2.5 Flash在计数群组和异常值时,准确率能达到90%以上,这个成绩已经相当优秀。就像一个学生在数学选择题上能考高分一样。

然而,当任务变得更加精细时,AI的表现就大幅下滑了。在需要精确定位群组边界或异常值坐标的任务中,大多数模型的准确率和召回率都在50%以下,只有Gemini 2.5 Flash在异常值识别上达到了65%的水平。这就像让学生不仅要知道答案是什么,还要详细解释解题过程一样困难。

更有趣的是,研究团队还发现了图表设计对AI性能的影响。他们测试了17种不同的图表设计,包括不同的颜色方案、透明度、长宽比等。结果显示,某些设计选择确实会影响AI的表现。比如,使用过宽的长宽比(如16:9或21:9)的散点图,或者使用随机颜色的散点图,都会让AI的识别准确率下降。这就像在不同光线条件下看东西,有些条件确实比其他条件更有利于识别。

令人惊讶的是,给AI提供一些示例图片作为参考(研究人员称之为"few-shot prompting")能够显著提升其表现。当AI看过几个标准答案后,它在后续任务中的表现明显更好。这种现象很像人类学习新技能的过程:先看老师示范几遍,然后自己动手时就更有把握了。

研究团队在创建这个数据集时花费了大量心思。他们使用了六种不同的数据生成器,能够创造出各种复杂程度的散点图模式。有些图显示的是明显分离的圆形群组,有些则包含了复杂的几何形状群组,还有一些故意加入了噪声数据点来增加识别难度。每张图都经过精心标注,标明了群组的边界框、中心点坐标以及异常值的精确位置。

在具体的数据生成过程中,研究团队创造了六种不同类型的数据模式。第一种是标准的高斯球状群组,就像在白纸上滴几滴墨水形成的圆形斑点。第二种在此基础上加入了背景噪声,就像在那些墨水斑点周围撒了一些细小的墨点。第三种专门加入了异常值,这些异常值就像在画面中故意放置的与众不同的点。第四种创造了完全随机的散点分布,没有任何明显的模式。第五种模拟了各种数学关系,如线性、指数或二次函数关系。最后一种使用几何形状作为群组模式,创造出三角形、正方形等规整的群组形状。

在异常值的设置上,研究团队特别谨慎。他们故意将异常值的数量控制在相对较低的水平(污染率在0.001到0.01之间),并确保这些异常值与正常群组保持足够的距离。这样做的目的是测试AI能否识别那些明显偏离正常模式、真正值得关注的异常点,而不是那些模糊不清的边界情况。

为了确保测试的公平性和一致性,研究团队还统一了图表的生成标准。他们使用Vega-Lite这个专业的可视化工具来生成所有图表,确保每张图都有标准的尺寸和格式。为了模拟真实世界中可能遇到的各种情况,他们还测试了不同的图表元素组合,比如只显示数据点不显示坐标轴,或者使用不同的点大小和形状。

在模型测试阶段,研究团队采用了三种不同的提示策略。第一种是"零样本提示",就是直接给AI一个任务描述,不提供任何示例。第二种是"单样本提示",给AI看一个标准答案作为参考。第三种是"少样本提示",提供多个示例供AI学习。结果显示,随着示例数量的增加,AI的表现普遍得到改善,这证明了学习示例的重要性。

在成本控制方面,这次大规模测试总共花费约666美元,进行了超过25万次请求。研究团队使用了OpenAI和Google的批量API服务来降低成本。这个数字听起来不小,但考虑到测试的规模和产生的有价值数据,这个投入是相当合理的。

测试结果的一致性分析也很有启发性。研究团队发现,同一个AI模型在处理同一张散点图时,通过计数得出的结果和通过详细分析得出的结果并不总是一致。理想情况下,如果AI说一张图有3个群组,那么它标出的边界框也应该正好是3个。但实际上,只有约61%的情况下这两种方法得出的结果是一致的。这说明AI在不同层次的理解任务之间还存在协调性问题。

特别值得注意的是,当散点图中完全没有群组或异常值时(正确答案是0),不同AI模型的表现差异巨大。一些模型如GPT-4.1和Gemini 2.5 Flash在使用少样本提示时能达到100%的准确率,而另一些模型的准确率却低于1%。这种巨大差异表明,即使是看似简单的"什么都没有"这个判断,对AI来说也可能是个挑战。

在精确定位任务的评估中,研究团队采用了严格的标准。对于群组检测,他们要求AI标出的边界框与真实边界框的重叠度达到75%以上才算正确。对于点定位任务,他们要求AI给出的坐标与真实坐标的距离在10像素以内才算准确。这些标准虽然严格,但反映了实际应用中对精度的真实需求。

研究还发现了一个有趣的现象:图表设计的影响虽然是次要因素,但确实存在。通过统计分析,研究团队发现某些设计选择会显著影响AI的表现。比如,将数据点的透明度设置为一半(从0.7降到0.35)实际上能提高AI的识别准确率2.42个百分点。相反,使用宽屏比例(16:9和21:9)或随机颜色会让准确率分别下降约2-4个百分点。

这些发现对实际应用有重要指导意义。研究团队总结出了几条实用建议:首先,在使用AI分析散点图时,尽量提供一些示例图片作为参考,这能显著提升AI的表现。其次,如果任务需要精确的位置信息,目前的AI模型还不够可靠,最好不要完全依赖它们。第三,在设计图表时,虽然AI的表现主要取决于算法本身而不是视觉设计,但避免极端的长宽比和随机颜色确实有助于提升AI的理解能力。

从更广阔的视角来看,这项研究揭示了当前AI技术的一个重要特点:它们在高级认知任务上可能表现出色,但在一些看似基础的视觉理解任务上仍有明显局限。这就像一个能够进行复杂数学运算的计算器,却在识别手写数字时出现困难。

研究团队对未来的工作也有明确规划。他们计划扩展数据集,加入更多类型的数据生成器和图表设计。同时,他们还计划测试更多的AI模型,包括一些开源模型,以及探索新的提示策略。更长远的目标是将这项工作扩展到其他类型的图表,如柱状图、折线图等,最终建立一个全面的图表理解能力评估体系。

另一个有趣的发展方向是模型微调。研究团队计划使用这个数据集来训练专门的小型模型,看看是否能在保持成本效益的同时达到更好的性能。他们还考虑开发一个轻量级版本的数据集和基准测试,让研究社区能够以较低成本监控新模型的表现。

这项研究的意义不仅限于技术评估。它为我们理解AI如何处理视觉信息提供了新的视角,也为改进AI系统指明了方向。在数据驱动的时代,能够准确理解和分析可视化图表的AI系统将在商业决策、科学研究、医疗诊断等领域发挥重要作用。

说到底,这项研究告诉我们一个朴素的道理:即使是最先进的AI,在一些看似简单的任务上仍可能表现不如人意。但这并不意味着我们应该对AI失去信心,而是应该更清楚地了解AI的能力边界,在合适的场景下发挥其优势,同时在关键任务中保持必要的人工监督。就像我们会检查计算器的计算结果一样,在依赖AI进行重要分析时,适当的验证和人工审核仍然是必要的。

这个研究还有一个重要的实际价值:它为那些正在考虑在工作中使用AI来分析图表的人提供了具体的指导。如果你的工作需要AI帮助识别数据中的大致模式和趋势,那么现有的模型已经相当有用。但如果你需要精确的数值结果或详细的位置信息,那么最好还是依靠传统的数据处理方法,或者至少要对AI的结果进行仔细验证。

Q&A

Q1:Feedzai团队创建的散点图数据集有什么特别之处?

A:这个数据集包含超过18,000张散点图,涵盖六种不同的数据生成模式和17种图表设计。每张图都有详细标注,包括群组边界框、中心点坐标和异常值位置。这是首个专门针对散点图理解任务的大规模AI评估数据集,能够系统性地测试AI在不同复杂度下的表现。

Q2:哪些AI模型在散点图理解任务中表现最好?

A:Google的Gemini 2.5 Flash在计数任务中表现最出色,准确率能达到90%以上,特别是在异常值计数方面。OpenAI的GPT系列模型在使用少样本提示时也有不错表现。但在精确定位任务中,所有模型的表现都不够理想,准确率大多在50%以下。

Q3:图表设计会影响AI的识别准确率吗?

A:会有影响,但是次要因素。研究发现,使用极宽长宽比(16:9和21:9)或随机颜色的散点图会让AI准确率下降2-4个百分点。相反,适当降低数据点透明度能提升准确率约2.4个百分点。总体来说,算法本身比视觉设计对性能的影响更大。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古二成功毁掉王家卫,《繁花》电影版流产,导演生涯基本结束

古二成功毁掉王家卫,《繁花》电影版流产,导演生涯基本结束

光影新天地
2025-11-04 14:48:35
德媒:于帕梅卡诺认为自己最近表现很好,值得一份高额签字费

德媒:于帕梅卡诺认为自己最近表现很好,值得一份高额签字费

懂球帝
2025-11-07 08:10:10
巴菲特:韩国人非常的愚蠢,他们竟然放弃了汉字,不再使用汉字。

巴菲特:韩国人非常的愚蠢,他们竟然放弃了汉字,不再使用汉字。

百态人间
2025-11-06 05:50:03
不用“翻墙”VPN!时隔11年KakaoTalk突解封?

不用“翻墙”VPN!时隔11年KakaoTalk突解封?

凑近看世界
2025-11-05 11:01:58
美两架坠毁南海的飞机原因已明确,非电磁攻击,也非“南海魔咒”

美两架坠毁南海的飞机原因已明确,非电磁攻击,也非“南海魔咒”

南方健哥
2025-11-05 06:42:14
赵丽颖挺孕肚疑怀二胎!冯妈送上珠宝,冯绍峰放下工作陪伴左右

赵丽颖挺孕肚疑怀二胎!冯妈送上珠宝,冯绍峰放下工作陪伴左右

八星人
2025-11-06 11:01:48
刘青石坦言:若朱枫按我的路线走,吴石不会牺牲,蔡孝乾也会没事

刘青石坦言:若朱枫按我的路线走,吴石不会牺牲,蔡孝乾也会没事

凡人侃史
2025-10-14 23:28:07
国民党新人事公布“柱系”班师回朝,郝龙斌的美女智囊掌管国际部

国民党新人事公布“柱系”班师回朝,郝龙斌的美女智囊掌管国际部

海峡导报社
2025-11-06 16:39:06
俄总理从中国带回好消息,全体高层都在场,普京听完后心情大好

俄总理从中国带回好消息,全体高层都在场,普京听完后心情大好

呼呼历史论
2025-11-07 07:14:21
台湾人开始“投诚”了

台湾人开始“投诚”了

燕梳楼频道
2025-11-06 16:44:32
baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

baby新男友已获小海绵认可?街头带娃遛大型犬,像幸福的一家三口

八星人
2025-11-05 15:55:40
双输买卖?伊萨克1.45亿加盟利物浦无战功,纽卡买入几人也很一般

双输买卖?伊萨克1.45亿加盟利物浦无战功,纽卡买入几人也很一般

里芃芃体育
2025-11-07 00:15:05
全红婵带伤跳第五,后背肌贴遮不住伤,哽咽坦言脚痛到走不了路

全红婵带伤跳第五,后背肌贴遮不住伤,哽咽坦言脚痛到走不了路

麦芽是个小趴菜
2025-11-07 07:52:14
男子因“遗忘10年的芦荟”火了,虽受了大罪,但好好看,网友:牛

男子因“遗忘10年的芦荟”火了,虽受了大罪,但好好看,网友:牛

林子说事
2025-11-07 07:33:04
库里跟詹姆斯一同回顾16年总决赛G7:这是我看的最开心的一次

库里跟詹姆斯一同回顾16年总决赛G7:这是我看的最开心的一次

懂球帝
2025-11-06 13:34:15
23分大胜,登顶小组第1!徐杰29+5主宰比赛,胡明轩7中0成隐患

23分大胜,登顶小组第1!徐杰29+5主宰比赛,胡明轩7中0成隐患

兵哥篮球故事
2025-11-06 22:53:59
蒋万安再次亮明立场,坚持反对两岸统一,郑丽文也让中国人寒心了

蒋万安再次亮明立场,坚持反对两岸统一,郑丽文也让中国人寒心了

谛听骨语本尊
2025-11-05 22:24:15
污水漫灌!整屋恶臭!沪上业主追责“违规施工”,开发商竟已“金蝉脱壳”

污水漫灌!整屋恶臭!沪上业主追责“违规施工”,开发商竟已“金蝉脱壳”

新民晚报
2025-11-06 19:51:41
她死于1688年,她的黄谣却传到了2025年

她死于1688年,她的黄谣却传到了2025年

最爱历史
2025-11-06 17:55:58
建工集团董事长和多名下属被一锅端!

建工集团董事长和多名下属被一锅端!

新浪财经
2025-11-06 19:41:47
2025-11-07 08:47:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6143文章数 541关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

牛弹琴:特朗普现在最担心的事很不妙 心提到嗓子眼了

头条要闻

牛弹琴:特朗普现在最担心的事很不妙 心提到嗓子眼了

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

老登们的社交货币全崩了

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

游戏
家居
艺术
公开课
军事航空

梦幻西游风少逆天预判助宝哥团队拿状元,欧皇鉴定130头连出极品

家居要闻

别样府院 畅享诗意生活

艺术要闻

Omar Ortiz 2025作品,墨西哥当代极简超写实画家

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军两架B-52轰炸机接近委内瑞拉海岸

无障碍浏览 进入关怀版