网易首页 > 网易号 > 正文 申请入驻

当AI遇到散点图:Feedzai团队首次揭秘机器如何"读懂"数据可视化

0
分享至


这项由葡萄牙Feedzai公司的Joao Palmeiro、Diogo Duarte、Rita Costa和Pedro Bizarro领导的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.06071v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

现在,人工智能似乎无所不能,从写文章到画画,从诊断疾病到预测天气。但有一个看似简单的任务却一直让AI头疼不已:理解散点图。散点图就是那种用小圆点在坐标系上画出数据分布的图表,我们在学校里经常见到,用来展示两个变量之间的关系。

Feedzai的研究团队发现了一个令人意外的现象:尽管现在的AI模型在很多复杂任务上表现出色,但在理解散点图这样看似基础的可视化图表时,它们的表现却差强人意。就像一个博学的教授可以解答高深的哲学问题,却在识别简单的交通标志时犯糊涂一样。

这个问题绝不仅仅是学术好奇心那么简单。在现实世界中,数据分析师经常需要从散点图中识别数据集群、发现异常值,或者快速判断数据中有多少个明显的群组。当数据量庞大,或者我们只能拿到图表而无法获取原始数据时,能够准确理解散点图就变得至关重要。这就像医生需要从X光片上快速识别病灶一样重要。

为了系统性地评估AI在这方面的能力,研究团队做了一件前所未有的事情:他们创建了一个包含超过18,000张散点图的庞大数据集,并设计了专门的测试方法来检验AI模型的"散点图理解能力"。这个数据集就像是专门为测试AI视觉能力而设计的"视力表",但比传统视力表复杂得多。

研究团队测试了十个当前最先进的AI模型,包括OpenAI的GPT系列和Google的Gemini系列。他们让这些AI模型完成五种不同的任务:数出散点图中有多少个数据群组、用边界框标出每个群组的位置、找出每个群组的中心点、数出有多少个异常值,以及精确定位这些异常值的坐标。

结果让人既惊喜又担忧。好消息是,在简单的计数任务上,一些AI模型表现相当不错。比如Google的Gemini 2.5 Flash在计数群组和异常值时,准确率能达到90%以上,这个成绩已经相当优秀。就像一个学生在数学选择题上能考高分一样。

然而,当任务变得更加精细时,AI的表现就大幅下滑了。在需要精确定位群组边界或异常值坐标的任务中,大多数模型的准确率和召回率都在50%以下,只有Gemini 2.5 Flash在异常值识别上达到了65%的水平。这就像让学生不仅要知道答案是什么,还要详细解释解题过程一样困难。

更有趣的是,研究团队还发现了图表设计对AI性能的影响。他们测试了17种不同的图表设计,包括不同的颜色方案、透明度、长宽比等。结果显示,某些设计选择确实会影响AI的表现。比如,使用过宽的长宽比(如16:9或21:9)的散点图,或者使用随机颜色的散点图,都会让AI的识别准确率下降。这就像在不同光线条件下看东西,有些条件确实比其他条件更有利于识别。

令人惊讶的是,给AI提供一些示例图片作为参考(研究人员称之为"few-shot prompting")能够显著提升其表现。当AI看过几个标准答案后,它在后续任务中的表现明显更好。这种现象很像人类学习新技能的过程:先看老师示范几遍,然后自己动手时就更有把握了。

研究团队在创建这个数据集时花费了大量心思。他们使用了六种不同的数据生成器,能够创造出各种复杂程度的散点图模式。有些图显示的是明显分离的圆形群组,有些则包含了复杂的几何形状群组,还有一些故意加入了噪声数据点来增加识别难度。每张图都经过精心标注,标明了群组的边界框、中心点坐标以及异常值的精确位置。

在具体的数据生成过程中,研究团队创造了六种不同类型的数据模式。第一种是标准的高斯球状群组,就像在白纸上滴几滴墨水形成的圆形斑点。第二种在此基础上加入了背景噪声,就像在那些墨水斑点周围撒了一些细小的墨点。第三种专门加入了异常值,这些异常值就像在画面中故意放置的与众不同的点。第四种创造了完全随机的散点分布,没有任何明显的模式。第五种模拟了各种数学关系,如线性、指数或二次函数关系。最后一种使用几何形状作为群组模式,创造出三角形、正方形等规整的群组形状。

在异常值的设置上,研究团队特别谨慎。他们故意将异常值的数量控制在相对较低的水平(污染率在0.001到0.01之间),并确保这些异常值与正常群组保持足够的距离。这样做的目的是测试AI能否识别那些明显偏离正常模式、真正值得关注的异常点,而不是那些模糊不清的边界情况。

为了确保测试的公平性和一致性,研究团队还统一了图表的生成标准。他们使用Vega-Lite这个专业的可视化工具来生成所有图表,确保每张图都有标准的尺寸和格式。为了模拟真实世界中可能遇到的各种情况,他们还测试了不同的图表元素组合,比如只显示数据点不显示坐标轴,或者使用不同的点大小和形状。

在模型测试阶段,研究团队采用了三种不同的提示策略。第一种是"零样本提示",就是直接给AI一个任务描述,不提供任何示例。第二种是"单样本提示",给AI看一个标准答案作为参考。第三种是"少样本提示",提供多个示例供AI学习。结果显示,随着示例数量的增加,AI的表现普遍得到改善,这证明了学习示例的重要性。

在成本控制方面,这次大规模测试总共花费约666美元,进行了超过25万次请求。研究团队使用了OpenAI和Google的批量API服务来降低成本。这个数字听起来不小,但考虑到测试的规模和产生的有价值数据,这个投入是相当合理的。

测试结果的一致性分析也很有启发性。研究团队发现,同一个AI模型在处理同一张散点图时,通过计数得出的结果和通过详细分析得出的结果并不总是一致。理想情况下,如果AI说一张图有3个群组,那么它标出的边界框也应该正好是3个。但实际上,只有约61%的情况下这两种方法得出的结果是一致的。这说明AI在不同层次的理解任务之间还存在协调性问题。

特别值得注意的是,当散点图中完全没有群组或异常值时(正确答案是0),不同AI模型的表现差异巨大。一些模型如GPT-4.1和Gemini 2.5 Flash在使用少样本提示时能达到100%的准确率,而另一些模型的准确率却低于1%。这种巨大差异表明,即使是看似简单的"什么都没有"这个判断,对AI来说也可能是个挑战。

在精确定位任务的评估中,研究团队采用了严格的标准。对于群组检测,他们要求AI标出的边界框与真实边界框的重叠度达到75%以上才算正确。对于点定位任务,他们要求AI给出的坐标与真实坐标的距离在10像素以内才算准确。这些标准虽然严格,但反映了实际应用中对精度的真实需求。

研究还发现了一个有趣的现象:图表设计的影响虽然是次要因素,但确实存在。通过统计分析,研究团队发现某些设计选择会显著影响AI的表现。比如,将数据点的透明度设置为一半(从0.7降到0.35)实际上能提高AI的识别准确率2.42个百分点。相反,使用宽屏比例(16:9和21:9)或随机颜色会让准确率分别下降约2-4个百分点。

这些发现对实际应用有重要指导意义。研究团队总结出了几条实用建议:首先,在使用AI分析散点图时,尽量提供一些示例图片作为参考,这能显著提升AI的表现。其次,如果任务需要精确的位置信息,目前的AI模型还不够可靠,最好不要完全依赖它们。第三,在设计图表时,虽然AI的表现主要取决于算法本身而不是视觉设计,但避免极端的长宽比和随机颜色确实有助于提升AI的理解能力。

从更广阔的视角来看,这项研究揭示了当前AI技术的一个重要特点:它们在高级认知任务上可能表现出色,但在一些看似基础的视觉理解任务上仍有明显局限。这就像一个能够进行复杂数学运算的计算器,却在识别手写数字时出现困难。

研究团队对未来的工作也有明确规划。他们计划扩展数据集,加入更多类型的数据生成器和图表设计。同时,他们还计划测试更多的AI模型,包括一些开源模型,以及探索新的提示策略。更长远的目标是将这项工作扩展到其他类型的图表,如柱状图、折线图等,最终建立一个全面的图表理解能力评估体系。

另一个有趣的发展方向是模型微调。研究团队计划使用这个数据集来训练专门的小型模型,看看是否能在保持成本效益的同时达到更好的性能。他们还考虑开发一个轻量级版本的数据集和基准测试,让研究社区能够以较低成本监控新模型的表现。

这项研究的意义不仅限于技术评估。它为我们理解AI如何处理视觉信息提供了新的视角,也为改进AI系统指明了方向。在数据驱动的时代,能够准确理解和分析可视化图表的AI系统将在商业决策、科学研究、医疗诊断等领域发挥重要作用。

说到底,这项研究告诉我们一个朴素的道理:即使是最先进的AI,在一些看似简单的任务上仍可能表现不如人意。但这并不意味着我们应该对AI失去信心,而是应该更清楚地了解AI的能力边界,在合适的场景下发挥其优势,同时在关键任务中保持必要的人工监督。就像我们会检查计算器的计算结果一样,在依赖AI进行重要分析时,适当的验证和人工审核仍然是必要的。

这个研究还有一个重要的实际价值:它为那些正在考虑在工作中使用AI来分析图表的人提供了具体的指导。如果你的工作需要AI帮助识别数据中的大致模式和趋势,那么现有的模型已经相当有用。但如果你需要精确的数值结果或详细的位置信息,那么最好还是依靠传统的数据处理方法,或者至少要对AI的结果进行仔细验证。

Q&A

Q1:Feedzai团队创建的散点图数据集有什么特别之处?

A:这个数据集包含超过18,000张散点图,涵盖六种不同的数据生成模式和17种图表设计。每张图都有详细标注,包括群组边界框、中心点坐标和异常值位置。这是首个专门针对散点图理解任务的大规模AI评估数据集,能够系统性地测试AI在不同复杂度下的表现。

Q2:哪些AI模型在散点图理解任务中表现最好?

A:Google的Gemini 2.5 Flash在计数任务中表现最出色,准确率能达到90%以上,特别是在异常值计数方面。OpenAI的GPT系列模型在使用少样本提示时也有不错表现。但在精确定位任务中,所有模型的表现都不够理想,准确率大多在50%以下。

Q3:图表设计会影响AI的识别准确率吗?

A:会有影响,但是次要因素。研究发现,使用极宽长宽比(16:9和21:9)或随机颜色的散点图会让AI准确率下降2-4个百分点。相反,适当降低数据点透明度能提升准确率约2.4个百分点。总体来说,算法本身比视觉设计对性能的影响更大。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
表面德艺双馨,实则德不配位,这四位老艺术家翻车没一个值得同情

表面德艺双馨,实则德不配位,这四位老艺术家翻车没一个值得同情

小熊侃史
2026-02-11 12:58:47
被问特朗普是否曾与人发生性行为,爱泼斯坦前女友只答了6个单词

被问特朗普是否曾与人发生性行为,爱泼斯坦前女友只答了6个单词

辉哥说动漫
2026-02-12 19:49:28
美国最害怕的,或许不是中国打日本,而是中国不打日本!

美国最害怕的,或许不是中国打日本,而是中国不打日本!

安逸安逸
2026-02-14 05:11:33
摩根大通紧急离场!欧美金库提货排长队,全球黄金为何涌向新加坡

摩根大通紧急离场!欧美金库提货排长队,全球黄金为何涌向新加坡

次元君情感
2026-02-13 18:26:54
为电动车发声!上海政协委员提出3条建议,终于说出了我们心里话

为电动车发声!上海政协委员提出3条建议,终于说出了我们心里话

电动车的那些事儿
2026-02-13 08:17:28
男人再缺女人,也别碰这两种“烂桃花”,不然就是一辈子劫难

男人再缺女人,也别碰这两种“烂桃花”,不然就是一辈子劫难

第7情感
2026-02-14 04:49:42
霍勒迪31分9板7助开拓者战胜爵士,克林根23分18板杨瀚森2分

霍勒迪31分9板7助开拓者战胜爵士,克林根23分18板杨瀚森2分

湖人崛起
2026-02-13 12:33:42
美团“爆雷”:2025年预亏最高243亿元!到底栽在哪了?

美团“爆雷”:2025年预亏最高243亿元!到底栽在哪了?

杠杆游戏
2026-02-13 22:39:13
李家诚控告周秀娜诽谤骚扰,周秀娜曾否认传闻

李家诚控告周秀娜诽谤骚扰,周秀娜曾否认传闻

现代快报
2026-02-13 20:50:05
78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌

78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌

查尔菲的笔记
2026-02-12 19:25:00
新造的F-35没雷达?美空军急解释,美媒质疑追问

新造的F-35没雷达?美空军急解释,美媒质疑追问

环球网资讯
2026-02-13 20:06:12
俄罗斯对中国的最大贡献,就是让整个西方彻底误判了中国

俄罗斯对中国的最大贡献,就是让整个西方彻底误判了中国

混沌录
2026-02-13 22:05:17
12306否认带小孩会被自动分配到静音车厢:是随机分配

12306否认带小孩会被自动分配到静音车厢:是随机分配

南方都市报
2026-02-13 09:42:06
“徐正源将取代陈涛”,是2026年中超转会市场最大的信息诈骗

“徐正源将取代陈涛”,是2026年中超转会市场最大的信息诈骗

林子说事
2026-02-13 18:43:00
正式落选!0次全明星,能进名人堂吗?

正式落选!0次全明星,能进名人堂吗?

篮球实录
2026-02-13 00:43:10
澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

澳大利亚慌了:西芒杜铁矿石首次运往中国,为何标志着全球里程碑

蓝色海边
2026-02-13 18:45:38
4连胜终结 阿森纳1-1小蜜蜂 领先优势缩至4分 马丁内利失绝杀单刀

4连胜终结 阿森纳1-1小蜜蜂 领先优势缩至4分 马丁内利失绝杀单刀

我爱英超
2026-02-13 06:04:40
中戏主任投案后续!闫学晶儿子被牵扯其中,当年入学一事再被热议

中戏主任投案后续!闫学晶儿子被牵扯其中,当年入学一事再被热议

离离言几许
2026-02-13 21:33:00
这是刘思齐和毛岸英的真实合影,并非演员扮演

这是刘思齐和毛岸英的真实合影,并非演员扮演

情感大头说说
2026-02-14 01:02:15
台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

台湾终极解决方案:土地回归中国,人员往来自由,逃走不是中国人

赵钇是个热血青年
2026-02-11 20:16:05
2026-02-14 06:15:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7275文章数 550关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

教育
亲子
游戏
艺术
本地

教育要闻

成绩提升的关键,不是天赋而是策略

亲子要闻

爸爸带的孩子是什么样的?妈妈看完沉默了,网友:活着就好!

癫疯之坐!今年年夜饭批准坐在黄金马桶上吃

艺术要闻

100张照片,100年来的中国春节

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

无障碍浏览 进入关怀版