网易首页 > 网易号 > 正文 申请入驻

MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜

0
分享至



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

1、背景

在大算力的数字化时代下,大语言模型(LLM)以其令人瞩目的发展速度,正引领着技术的潮流。基于它们强大的文本理解和生成能力,各大研究机构正在探索如何将这些能力扩展至视觉领域,构建一个能够理解和生成多模态内容的超级智能体 —— 多模态大语言模型(MLLMs)。

在追求通用视觉性能的道路上,社区内已经涌现出众多精心设计的测评 benchmark。它们通常使用贴近日常生活的自然图片作为样例,为 MLLMs 的视觉能力提供全面的评估,如 MME、MMBench 等。然而,要深入了解 MLLMs 的 “思维” 和 “推理” 能力,仅凭通用视觉性能的测评远远不够。多模态数学题求解能力,才是衡量它们深度认知和逻辑推理能力的真正试金石。

尽管如此,目前领域内依然缺少针对 MLLM 数学解题能力的测评 benchmark。现有的少数尝试,如 GeoQA、MathVista 和 MMMU,通过深入分析,仍然存在一定的问题和偏差。鉴于此,我们推出一个全新的测评 benchmark——MathVerse,旨在深入探究MLLMs 是否真正具备解读和解答多模态数学题的能力,为未来的技术发展提供独特的见解。



  • 论文:https://arxiv.org/pdf/2403.14624.pdf
  • 主页:https://mathverse-cuhk.github.io/
  • 代码:https://github.com/ZrrSkywalker/MathVerse
  • 数据集:https://huggingface.co/datasets/AI4Math/MathVerse
  • 题目:MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

值得一提的是,这项研究在当日的 HuggingFace Daily Paper 中排名第一,并在推特上引发了广泛的讨论,浏览量高大 10K+。

2、关键发现

然而,通过全面观察和分析,我们发现当前多模态数学 benchmark 中存在的三个关键问题:

1.MLLM 在测评中是否真正 “看到” 了数学图像?这是关于准确评估视觉数学问题解决能力最基本的问题。图 1(a)展示了当前 benchmark 中的三个示例。我们观察到,它们的题目文本中包含了大量与图像内容重复的信息(以红色高亮显示)。这种冗余可能无意中为 MLLM 提供了一条捷径,使它们在解决问题时主要通过阅读文本,而不是解读图表。我们假设从图 1(b)的实验中得到了支持。我们对每个 benchmark 随机抽样的 40 个问题,移除了这种冗余文本,挑战 MLLM 仅从视觉输入中捕获相应的信息。结果显示,大多数 MLLM 的准确率显著下降(蓝色柱子),甚至低于不将图表作为输入时的得分(灰色柱子)。这一结果表明,MLLM 在解决这些问题时,主要依赖于文本线索,而非真正去理解视觉图像本身,并且,在不输入图像的情况下,甚至可以得到更高的评分。鉴于此,我们展示了当前的视觉数学 benchmark 可能不足以全面评估 MLLM 的真正多模态数学推理能力。



2.仅通过 MLLM 回答的最终答案来评估是否公平?大多数现有的多模态 benchmark 直接将模型输出与真值进行比较,以得出二元评估结果(“正确” 或者 “错误”)。虽然这种方法对于通用的视觉问答情境可能足够,但在需要复杂逐步推理的数学问题中却显得过于武断。在图 2 中,我们展示了三个不同模型的输出。尽管它们最终都得到了错误的答案,但它们在中间推理过程中展现了不同程度的精确性。仅将这些输出归类为 “错误”,未能捕捉到 MLLMs 推理质量的细微差别。



3.它们是否能够全面并且专注的体现出 MLLM 的数学推理能力?GeoQA 仅仅包含了平面几何数学题,从而限制了对更广泛数学能力的评估,例如函数和立体几何。相反,MathVista 加入了广泛的辅助任务(自然图像、统计图表)来扩展范围,但这些并不直接评估 MLLM 的专业数学技能。此外,MMMU 中的数学问题具有大学级别的复杂度,需要广泛的领域特定知识,这可能阻碍 MLLMs 充分展示它们的推理能力。

3、MathVerse Benchmark

1. 数据组成和统计

MathVerse 测评数据集收集了 2612 个多模态数学题,并人工标注构造了多达 15672 个测试样本,广泛涵盖了 3 个主要题目类型和 12 个子类,例如平面几何、立体几何和函数。经过团队细致检查与标注,MathVerse 高质量数据可以为 MLLM 提供一个鲁棒且全面的能力测评。





2. 如何体现 MLLM 的数学图像理解能力?

我们首先根据题目中文本和图像的信息关联,如下图所示,定义了3 种不同的文本类别

  • a.描述信息,Descriptive Information(DI,红色高亮部分)指的是图像中可直接观察出的内容。它描绘了基本图形组成、几何形状和空间布局。此类文本信息对于图像而言是重复性的,因此被视为解决问题的冗余信息。
  • b.隐含属性,Implicit Property(IP,蓝色高亮部分)指的是那些需要更强的视觉感知能力才能从图像中辨识出来的属性。它代表着解决问题所需的较强视觉条件,如线条之间的平行性和垂直性、三角形之间的相似性和全等性、函数的种类和周期性。
  • c.基本条件,Essential Condition(EC,绿色高亮部分)指的是题目中给定的具体数值,它们是推导解决方案不可或缺的条件,并且不能从视觉图表中直接得出,例如角度、长度的精确值和函数表达式。



基于以上三种文本信息的定义,我们将每道多模态数学题通过人工标注,系统地移除问题中的不同文本信息,并逐步将关键元素融入到图表中,拓展为6 个不同的题目版本,如下图所示。这种方法可以逐渐减少文本中提供的信息量,从而越来越有力地迫使 MLLM 从视觉输入中捕获数学条件。通过比较 MLLM 在不同题目版本之间的得分,我们可以很清晰的评估它们的真实视觉理解能力。



3. 如何细致评估 MLLM 的中间解题步骤?

与一般情景下的视觉问题回答相比,MLLM 解决数学问题的过程需要细腻、逐步的链式推理(Chain-of-Thought,CoT)。为此,我们提出了一种CoT 评估策略,以细致的评估它们的视觉数学链式推理能力。我们的 CoT 策略通过分别提示 GPT-4 和 GPT-4V 进行两个阶段的测评:关键步骤提取(Key-step Extraction)和多步评分(Multi-step Scoring)。如下图所示:



这种评估策略不仅关注最终答案的正确性,而且更加重视解题过程中的逻辑连贯性和推理深度。通过这种方法,我们能够更加精准地揭示 MLLM 在解决复杂数学问题时的真实能力,尤其是它们如何一步步构建问题解决方案的能力。这对于理解 MLLMs 的思维方式、推理能力,以及它们如何处理和解释视觉与数学信息的综合能力至关重要。

4、实验与结论

我们在 MathVerse benchmark 上测评了 17 个现有的 MLLM,如下表所示。其中 “CoT-E” 代表使用了我们提出的 CoT 测评策略,而 “w/o” 代表了直接进行二元对错的测评结果。



基于测评,我们可以得出以下结论:

  1. MLLM 更依赖于文本信息去解题,而不是观察数学图像。
  2. 除 GPT-4V 和 ShareGPT4V 之外,大部分 MLLM 在没有图像输入的情况下,仅仅通过文本竟然可以获得更高的得分,证明如今低质量的视觉编码对于解题来说起到了负面的作用。
  3. MLLM 很难从图像中准确的解读出题目中的基本条件和问题。
  4. 闭源模型的多模态数学解题能力要比开源模型更好。
  5. 通过比较 G-LLaVA 和 LLaVA-1.5,使用数学训练数据进行模型微调可以提升特定的解题能力,但是也会降低其泛化能力。
  6. CoT 测评相比二元测评可以更全面的体现模型的逻辑推理能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乔治&哈登表现糟糕!帕金斯:他俩是联盟最神鬼莫测的球员

乔治&哈登表现糟糕!帕金斯:他俩是联盟最神鬼莫测的球员

直播吧
2024-05-02 11:52:29
4月30日36人死亡!但这场悲剧,4月29日那天完全可以避免

4月30日36人死亡!但这场悲剧,4月29日那天完全可以避免

沸闻
2024-05-02 10:07:52
真没想到,刚刚海试的福建号航母竟然比山东号航母大那么多

真没想到,刚刚海试的福建号航母竟然比山东号航母大那么多

作家李楠枫
2024-05-01 17:22:44
周鸿祎可能要被白嫖了?网传990万拍下迈巴赫的褚会长还没付款…

周鸿祎可能要被白嫖了?网传990万拍下迈巴赫的褚会长还没付款…

火山诗话
2024-05-02 06:45:14
为什么福建号航母与福特级尺寸差不多,排水量差了一艘两级攻击舰

为什么福建号航母与福特级尺寸差不多,排水量差了一艘两级攻击舰

作家李楠枫
2024-05-01 17:36:48
梅龙高速凌晨塌方,死伤者身份曝光:扒开细节,背后都是苦命人

梅龙高速凌晨塌方,死伤者身份曝光:扒开细节,背后都是苦命人

灵感磁场
2024-05-02 09:30:36
桑乔采访哽咽!欧冠回春登顶热搜,多特官方嘲讽曼联:欠他句道歉

桑乔采访哽咽!欧冠回春登顶热搜,多特官方嘲讽曼联:欠他句道歉

我爱英超
2024-05-02 06:11:06
滥用职权!连中纪委都不敢查的副国级“大老虎”、到底是何来头

滥用职权!连中纪委都不敢查的副国级“大老虎”、到底是何来头

天闻地知
2024-05-01 09:50:03
西媒:皇马所有人都认为克罗斯理应续约,没人认为他可能退役

西媒:皇马所有人都认为克罗斯理应续约,没人认为他可能退役

直播吧
2024-05-01 15:17:10
天价拍下周鸿祎迈巴赫的褚会长疑似无力付款,网友说出了公道话

天价拍下周鸿祎迈巴赫的褚会长疑似无力付款,网友说出了公道话

钱多多多多
2024-05-02 10:24:28
绿军成东部晋级首队!波神受伤成最大隐患 被曝缺席整个次轮比赛

绿军成东部晋级首队!波神受伤成最大隐患 被曝缺席整个次轮比赛

醉卧浮生
2024-05-02 09:45:53
清华校庆巡游惹争议,被吐槽:学生死气沉沉,穿得土,像送葬队伍

清华校庆巡游惹争议,被吐槽:学生死气沉沉,穿得土,像送葬队伍

王晓爱体彩
2024-05-01 22:43:39
深圳市“巨贪”市长拘留期“插喉”自杀,贪污20亿,被捕时卡里只有3585元

深圳市“巨贪”市长拘留期“插喉”自杀,贪污20亿,被捕时卡里只有3585元

天闻地知
2024-04-22 18:01:04
乌克兰新总统刚当选,就对普京放狠话:武力收回克里米亚!

乌克兰新总统刚当选,就对普京放狠话:武力收回克里米亚!

乐乐小探史
2024-05-02 07:25:28
众生相!凯尔特人近8年第7次进次轮 双探花一脸淡定不庆祝

众生相!凯尔特人近8年第7次进次轮 双探花一脸淡定不庆祝

厝边人侃体育
2024-05-02 09:53:12
张韶涵演唱会疑似拉稀,前排闻到臭味,现场照曝光,虚脱走不动路

张韶涵演唱会疑似拉稀,前排闻到臭味,现场照曝光,虚脱走不动路

瓜学院
2024-05-02 06:28:53
堵了6小时!浙江姑娘无语:还要开7小时!网友:还是低估了…

堵了6小时!浙江姑娘无语:还要开7小时!网友:还是低估了…

FM93浙江交通之声
2024-05-01 21:49:02
炸了!医药巨头承认!新冠疫苗致命副作用,亿万赔偿案将启动

炸了!医药巨头承认!新冠疫苗致命副作用,亿万赔偿案将启动

北国向锡安
2024-05-01 09:34:35
990万拍了二手迈巴赫却拒绝付款?他胆真大!敢把周鸿祎当猴耍

990万拍了二手迈巴赫却拒绝付款?他胆真大!敢把周鸿祎当猴耍

七阿姨爱八卦
2024-05-01 23:58:17
日元如此疯狂波动,背后谁在收割?

日元如此疯狂波动,背后谁在收割?

新民周刊
2024-05-02 09:08:05
2024-05-02 12:04:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
8947文章数 141898关注度
往期回顾 全部

科技要闻

4月交付量理想超问界,小米首月交付超七千

头条要闻

媒体:日元如果继续大幅下探 中国也会受到影响

头条要闻

媒体:日元如果继续大幅下探 中国也会受到影响

体育要闻

这场欧冠,多特的他诠释了什么叫"台柱子"

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

日元如此疯狂波动,背后谁在收割?

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

教育
亲子
家居
艺术
公开课

教育要闻

工程力学专业是做什么?就业前景怎么样

亲子要闻

小孩在路边看着哥哥玩滑板哥哥也回应小孩

家居要闻

心之所栖 黑白灰色系打造设计专属感

艺术要闻

造科幻之物于园林 “天工开悟——夏航雕塑展”于南池子美术馆呈现

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版