网易首页 > 网易号 > 正文 申请入驻

ECD:高质量合成图表数据集,提升开源MLLM图表理解能力

0
分享至

本文第一作者杨昱威,来自澳大利亚国立大学,合作者包括章泽宇(澳大利亚国立大学)、侯云钟(澳大利亚国立大学)、李卓婉(约翰霍普金斯大学)、Gaowen Liu(思科)、Ali Payani(思科)、丁源森(俄亥俄州立大学)以及郑良(澳大利亚国立大学)。

背景与动机

在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力:

1. 精准识别与理解图表元素(如坐标轴、图例、数据点、标题等);

2. 对图表数据进行深度推理(如计算差值、比较趋势、跨子图推理等);

然而,即便是最先进的开源多模态大语言模型(MLLMs),在高难度科学图表理解基准测试上准确率依旧徘徊在 30%–50%。尽管合成数据集易于生成,但它们通常存在以下问题:

  • 风格单一:缺乏视觉和内容多样性;
  • 缺乏真实性:与真实图表的分布差异较大;
  • 数据模式受限:生成的图表数据过于简单,无法模拟复杂场景;

为此,我们提出 ECD(Effective Chart Dataset)—— 一个规模大、质量高、风格多样的合成图表数据集。同时,本文还配套设计了一条模块化数据合成流水线以及高质量评测基准 ECDBench,为开源 MLLM 提供全面的训练与评测支持。

  • 论文标题:Effective Training Data Synthesis for Improving MLLM Chart Understanding
  • 论文地址:https://arxiv.org/pdf/2508.06492
  • 代码仓库:https://github.com/yuweiyang-anu/ECD
  • 项目主页:https://effective-chart-dataset-synthesis.github.io

数据集亮点

ECD 作为一个全新的高质量合成图表数据集,具备以下核心优势:

1. 数据规模与图表多样性

  • 数据量:包含 10,000+ 图表,覆盖广泛的学科主题和图表类型;
  • 多样性:涵盖 25 种主题(如经济学、天文学、医学等)、29 种图表类型(如线图、条形图、热力图等),以及 252 种子图组合(包括多种复杂布局,如 2 行 3 列、3 行 3 列布局等),是同类合成数据集中覆盖范围最广的。

2. 高质量问答对

数据集包含 300k+ 问答对(包括描述类和推理类问题),所有问答对均由 GPT-4o 自动生成并通过置信度过滤筛选得到。

示例:

描述类问题:“左侧子图的标题是什么?”

答案:“左侧子图的标题是‘不同媒介的消费趋势’ ”。

推理类问题:“哪个收入来源在本地媒体和国家媒体之间差异最大?”

答案:“数字广告收入差异最大,差值为 300M。”

3. 数据真实性

  • 最低的 FID(Frechet Inception Distance)得分:ECD 数据集在视觉分布上与真实科学图表(如 CharXiv 数据集,从 arXiv 文章中图表搜集得到)的相似度最高;
  • 最高的像素熵:平均像素熵显著高于其他合成数据集,表明其复杂度更高,信息量更大,推理难度也更高。

方法与创新:模块化五阶段数据合成流水线

为了实现高质量且多样化的合成图表数据集 ECD,本文设计了一个五阶段模块化的数据合成流水线,具体如下:

1. 单图生成

  • 使用 29 种预定义绘图函数(如线图、饼图、散点图等),通过独立数据生成器生成数据表、标题、坐标轴标签、标记样式等内容;
  • 数据生成与绘图代码生成分离,提升数据模式的多样性。数据可以随机选择生成递增、递减或波动等趋势。

2. 多子图组合

  • 条件顺序生成,每个子图的数据生成需要参考前面子图的数据;
  • 保证多子图之间的语义一致性,模拟真实科研图表的布局与信息关联。

3. 视觉多样化

  • 添加注释、阴影、放大视窗(Zoom-in inset)、字体 / 坐标轴样式的变化;
  • 引入 Seaborn 等绘图库,用于提升视觉丰富度;
  • 调整图表的分辨率与比例,保证其内容可读性。

4. 图像质量过滤

  • 基于 GPT-4o 对图表的视觉清晰度与语义连贯性进行两方面评分;
  • 仅保留质量高于数据集平均评分的图表。

5. 问答对生成与过滤

  • 每张图生成描述类与推理类两种类型的问答对;
  • 通过 GPT-4o 进行置信度评分,保留置信度最高 QA,剔除低质量样本。

模型与训练集对比

  • 在 6 个测试集上评估 4 个开源 MLLM,包括 LLaVA-Next-Llama3-8B、MiniCPM-V2.6、Phi-3-Vision 及 Qwen2.5-VL-7B。 实验表明,通过 ECD 训练集微调后,可一致提升 4 个开源 MLLM 的性能表现;
  • 以 LLaVA-Next-Llama3-8B 为基线,对比先前 ChartQA、ChartBench、ReachQA 图表训练集 → 在 ECD 训练集监督微调训练(SFT)后,在所有测试集上均显著一致地提升基线性能,其余训练集上训练后模型性能存在较大波动(不同测试集上性能有提升 / 有下降)。

数据集可视化对比

ECDBench:高质量图表理解评测基准

为进一步验证模型性能,我们基于所提出的 ECD 数据合成流水线与人工核对调整,额外构建了一个高质量的基准测试集 ECDBench,用于对当前多模态视觉语言模型以及采用我们 ECD 训练集监督微调前后的模型效果进行对比评估,基准统计信息如下:

  • 规模:包含 1,224 张图表
  • 组成:364 单图,860 多子图(涵盖 2–3 种图表类型)
  • 平均分辨率:1378×968 px
  • 数据来源:GPT4o 自动生成 + 人工精细修订
  • QA 配置:每张图表生成 1 条描述类 + 1 条推理类问答,共计 2,448 对问答

ECDBench 上评估测试结果对比如下

在 ECDBench 上,所有衡量的 MLLMs 中,o4-mini 在所有三个指标上始终表现最佳(推理类问题准确率为 57.03%,描述类问题准确率为 77.45%,平均准确率为 67.24%)。另外,采用 ECD 训练集微调后的模型(如 LLaVA-Next-Llama3-8B)性能显著提升,表明 ECD 训练集的高质量问答对能够有效帮助提升模型图表理解能力。

总结与展望

ECD 通过模块化数据合成流程和高质量 QA 生成机制,保持了与真实科学图表的高相似度,且显著提升了数据多样性与复杂度。ECDBench 则为 MLLM 图表理解能力提供了全面的评测基准。我们相信,这一工作将为多模态推理、科学 AI 助手以及图表自动化生成领域提供坚实的数据基础与技术支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际足联漫天要价陷两难!央视果断拒绝,球迷也不再买账!

国际足联漫天要价陷两难!央视果断拒绝,球迷也不再买账!

田先生篮球
2026-05-01 21:42:18
巴萨连续31场西甲无平局,距历史最长纪录只差2场

巴萨连续31场西甲无平局,距历史最长纪录只差2场

懂球帝
2026-05-03 05:15:09
印尼将拥有航母,三大意味!

印尼将拥有航母,三大意味!

新民周刊
2026-05-02 09:34:25
堪比曹操的一炮:特朗普这一下,把美国霸权的四根柱子全干塌了

堪比曹操的一炮:特朗普这一下,把美国霸权的四根柱子全干塌了

纪史行者
2026-05-02 11:36:37
展现性感身材,劳塔罗妻子晒比基尼照

展现性感身材,劳塔罗妻子晒比基尼照

懂球帝
2026-04-30 14:45:11
演完《玫瑰的故事》演《蜜语纪》,她滤镜碎了,影后演活各种妈

演完《玫瑰的故事》演《蜜语纪》,她滤镜碎了,影后演活各种妈

娱君坠星河
2026-05-02 20:24:27
军权、财权、外交权一把抓,穆尼尔强势登顶,巴基斯坦彻底变天了

军权、财权、外交权一把抓,穆尼尔强势登顶,巴基斯坦彻底变天了

荐史
2026-05-01 22:41:20
热刺利好!西汉姆0-3惨败,客场赢维拉就反超,后4轮全胜=保级

热刺利好!西汉姆0-3惨败,客场赢维拉就反超,后4轮全胜=保级

体育知多少
2026-05-02 23:58:55
2-1!西甲领头羊继续狂飙:疯狂10连胜,甩开皇马14分

2-1!西甲领头羊继续狂飙:疯狂10连胜,甩开皇马14分

足球狗说
2026-05-03 04:54:09
人民日报“点名”董勇,言辞犀利,释放3大信号,影坛风向要变了

人民日报“点名”董勇,言辞犀利,释放3大信号,影坛风向要变了

做一个合格的吃瓜群众
2026-04-10 11:59:37
特朗普:美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,已赚回出兵成本的37倍!他此前呼吁中国购买委石油,中方回应……

特朗普:美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,已赚回出兵成本的37倍!他此前呼吁中国购买委石油,中方回应……

每日经济新闻
2026-05-02 23:05:08
偶遇李亚鹏父女,李嫣黏着爸爸撒娇,54岁李亚鹏满脸疲惫状态很差

偶遇李亚鹏父女,李嫣黏着爸爸撒娇,54岁李亚鹏满脸疲惫状态很差

蒂蒂茱家
2026-05-02 13:44:24
沙特联提议球童穿未来梦想职业的服装入场,结果22人仅1人梦想成为球员

沙特联提议球童穿未来梦想职业的服装入场,结果22人仅1人梦想成为球员

懂球帝
2026-05-02 14:39:06
“白衬衣”空降外滩一线?厅级干部街头站岗,这波安全感直接封神

“白衬衣”空降外滩一线?厅级干部街头站岗,这波安全感直接封神

石辰搞笑日常
2026-05-02 18:16:58
美国领衔六国签署反华声明,禁中国扣船,中方八字回应

美国领衔六国签署反华声明,禁中国扣船,中方八字回应

像风走了八万里不问归期
2026-05-03 03:22:09
为什么男生在相亲时,听到女生喜欢瑜伽、旅游、烘焙,会很抵触?

为什么男生在相亲时,听到女生喜欢瑜伽、旅游、烘焙,会很抵触?

舒山有鹿
2026-05-01 12:50:32
拜仁神剧情!补时10分钟压哨绝平,门将诡异乌龙,单季轰116球

拜仁神剧情!补时10分钟压哨绝平,门将诡异乌龙,单季轰116球

奥拜尔
2026-05-03 00:00:48
露天吸烟碍着谁,为何总跟烟民过不去?

露天吸烟碍着谁,为何总跟烟民过不去?

稿得轻松
2026-05-02 09:13:29
世锦赛奖金榜:吴宜泽夺92万,冲185万,丁俊晖28万、赵心童46万

世锦赛奖金榜:吴宜泽夺92万,冲185万,丁俊晖28万、赵心童46万

林子说事
2026-05-02 18:33:49
一女子15年前在杭州一中国黄金柜台花1万2买2根20克金条,称重竟只有9克多,且检测出完全不含黄金,店长:不是我们卖的,你可以报警

一女子15年前在杭州一中国黄金柜台花1万2买2根20克金条,称重竟只有9克多,且检测出完全不含黄金,店长:不是我们卖的,你可以报警

大象新闻
2026-05-01 23:50:09
2026-05-03 05:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12902文章数 142639关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

父母互相拍照 6岁儿子失足坠落20米山崖

头条要闻

父母互相拍照 6岁儿子失足坠落20米山崖

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

手机
艺术
教育
家居
房产

手机要闻

拯救者手机Y70新一代本月发布!骁龙8 Gen5+2K屏 功耗比友商1.5K还低

艺术要闻

看!海夫兰笔下的美女,令人惊艳的艺术之美!

教育要闻

高考地理中的具身智能

家居要闻

灵动实用 生活艺术场

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

无障碍浏览 进入关怀版