网易首页 > 网易号 > 正文 申请入驻

Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品

0
分享至

GeoSense团队 投稿
量子位 | 公众号 QbitAI

多模态大模型几何解题哪家强?

首个从几何原理视角出发,全面评估多模态大模型几何解题能力的双语综合基准来了!

GeoSense,系统评测多模态大模型在几何原理识别和应用中的表现,评测基准的数据和评测代码均已开源。

其背后团队来自淘天集团算法技术-未来生活实验室团队。

人类在解答几何问题时,首先会识别所需的几何原理并通过灵活应用它们来推导出答案。

然而,目前的评测方法多集中于最终答案的正确性或简单地对每个推理步骤进行打分,而忽视了推理过程中的关键因素:几何原理的识别和应用

尽管有研究发现模型的对几何图的感知能力不足限制了其后续推理,但实验发现,几何原理与图像中几何元素的正确对应及应用,是多模态大模型推理的另一大瓶颈。

为填补这一空白,GeoSense出现了,为在复杂视觉场景中的推理能力提升提供了新的方向。

5层知识架构+1789道几何问题

GeoSense旨在系统评估多模态大模型识别和应用几何原理来解决几何问题的能力。

该基准建立了包含定义、定理和公式等几何原理的5层知识架构,覆盖平面几何和立体几何,支持中英双语;精心构建并人工详细标注了包括1789道问题的数据集;并针对几何原理设计了创新性的评估策略。

它构建了包含148个几何原理的5层知识架构,覆盖平面几何和立体几何的65个定义,47个定理和36个计算公式,多维度细粒度地评估模型面对几何问题时识别和应用知识的能力。

此外,Geosense有精细标注的数据集

它收纳了1789道几何问题,并使用中英双语详细标注了解题所必需的5556个几何原理及其与几何图中元素的对应与应用,并使用特殊标签()标注了解题中的关键点,确保模型评估的综合性和准确性。

GeoSense拥有严格的构建流程,共有23位几何领域的研究生同学进行数据标注、审核和质量把控。

下图展示了一道题目的双语标注示例。

值得一提的是,GeoSense采用创新的评估方法,创新性地提出GPI(几何原理识别)和GPA(几何原理应用)两个评估指标,重点审视模型在复杂视觉场景中的几何原理识别和应用能力,帮助识别模型推理过程中的潜在不足与提升空间。

评估系统:GPI+GPA+ACC

GeoSense贡献了一种新的评估系统,包括几何原理识别(GPI)评分和几何原理应用(GPA)评分以及答案正确性评分(ACC),以全面评估多模态大模型在GPS中类人的推理机制。

GPI(几何原理识别评分)

作者使用GPI来评估模型能否正确识别解决问题所必需的几何原理。

如上图所示,对于每个几何问题 ,专家标注了解题所必需的几何原理集合。

对于每个几何原理,作者借助GPT-4o判断其是否在模型的响应中被应用。最终的GPI得分是几何原理集合中模型可以正确识别的几何原理的比例。

然而,仅仅通过此指标仍然无法得知,模型是否在视觉环境中合理地使用这些原理解决问题。这与人类解决几何问题时遇到的困境相似:在某些情况下,人类知道应该运用相似三角形的知识来解决问题,但在实际的几何图形中,往往难以正确对应各个相似元素并将几何原理正确应用。

GPA(几何原理应用评分)

为了进一步衡量模型在视觉环境中应用几何原理的能力,作者们提出了GPA指标。

如上图所示,对于模型正确识别的每个几何原理,首先提取模型响应中与该几何原理相关的内容。

而后将提取到的内容与标注中的关键点进行比对,计算F1 score作为该几何原理的GPA评分。

ACC(答案准确性评分)

作者还评估了答案的准确性,以评估模型正确识别和组合应用多个几何原理以解决问题的能力。

以下是跟现有流行的多模态几何相关的多个评测基准的对比:

Gemini-2.0-Pro-Flash表现最佳

该团队对多个开源和闭源模型进行了全面评测和分析,并给出了这些模型在GPI、GPA和ACC三个指标的平均值上的排名情况。

最佳表现模型

Gemini-2.0-Pro-Flash在以几何原理为中心的解题能力评估中表现最佳,其次是Qwen2.5-VL-72B和QvQ-72B-Preview。

开源模型中,Qwen-VL系列表现最为突出。

推理增强类模型的潜力与挑战

推理模型如QVQ-72B-Preview在几何原理识别和应用上展现了强大的潜力,但在实际问题解决中面临准确率挑战,这是由于过度复杂化思考过程从而无法得到正确答案导致的。

此外,InternVL2.5-38B-MPO在几何原理识别率(GPI)和应用准确率(GPA)方面相较于nternVL2.5-38B有所提升,显示了优化模型推理思维过程的有效性。

平面几何理解是共同短板

多模态大模型在平面几何的理解方面存在明显不足。

以Claude3.55-Sonnet为例,其在平面图形的转换和移动(TMPF)以及平面图形的理解(UPF)中的几何原理识别率(GPI)分别为65.9和45.1,应用准确率(GPA)更低,为32.5和38.7。

这一现象显示出在处理二维空间问题时,模型的识别和应用能力均较弱,说明多模态大模型在视觉信息处理和空间关系推理方面需要进一步优化,以改善其在平面几何任务中的表现。

推理能力随模型规模提升

一般情况下,同一系列的模型规模越大,表现越优。

例如,Qwen2.5-VL系列从7B增至72B后,三种指标的平均分(AVG)从 51.3 提升至 60.1。

实验都有哪些发现?

什么限制了多模态大模型的推理能力?

GPI和GPA的降低都会导致ACC的降低。

在上表中,InternVL-2.5-8B和InternVL-2.5-38B在定义类几何原理上的GPA基本相同,但由于InternVL-2.5-38B的GPI得分比InternVL-2.5-8B高了5%,导致其ACC比后者高了7.7%。

另外,其他一些例子如Claude37-Sonnet和Qwen2.5-VL-72B在全量评测下的结果体现了GPA的降低也会影响模型的表现。

此外,大部分多模态大模型在GeoSense上的GPI和GPA都较低,这体现了几何原理的识别和应用共同限制了多模态大模型的推理能力。

为什么多模态大模型在复杂问题中表现更差?

研究团队观察到,随着所需几何原理数量的增加,GPI和ACC分数都降低,而GPA分数则受到的影响较小。这样的趋势在闭源多模态大模型中更加明显。

这些观察结果表明,多模态大模型在复杂问题上的较差表现主要是由于未能准确识别必需的几何原理所导致的。

该实验强调了提高多模态大模型识别几何原理能力的重要性,以进一步增强其推理能力。

更擅长哪种知识,哪方面有所欠缺?

多模态大模型在计算方面表现出色,但在几何性质理解方面却存在不足。

从上表的结果来看,多模态大模型在公式类问题上的三个指标表现显著优于定义和定理类问题,特别是在GPI指标上。

这表明,多模态大模型在面对计算问题时能够更清楚地识别所需的几何原理。

相比之下,定义和定理通常包含几何元素的抽象属性和关系,这是多模态大模型难以理解的。

为什么在平面几何领域表现不好?

研究人员发现,GPI限制了多模态大模型在平面几何中的表现。

就GPI指标而言,大多数模型在USF科目上的表现优于UPF科目。然而,对于GPA指标,两个科目之间的表现差异不显著。尽管如此,就ACC指标而言,大多数模型在USF上的表现仍然更好。

这些观察结果表明,限制模型解决平面几何问题能力的关键因素是GPI,即模型在准确识别必需的几何原理方面遇到的困难。这是由于平面几何中存在许多容易混淆的原理,如判定相似和全等三角形。

这强调了模型需要准确识别必要原理,以增强其对平面几何的理解。

论文链接:
https://arxiv.org/abs/2504.12597
项目主页:
https://gfzshiwai.github.io/GeoSense_Project/
Github:
https://github.com/GFZShiwai/GeoSense

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
网友分享细思恐极事件,呼吁大家相信直觉!

网友分享细思恐极事件,呼吁大家相信直觉!

特约前排观众
2026-03-23 00:10:06
闹大了!美军东太平洋再开火!打爆44艘运输船,150人被打死!

闹大了!美军东太平洋再开火!打爆44艘运输船,150人被打死!

爱吃醋的猫咪
2026-03-25 20:19:15
终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

终于有了结果,曾医生能保住医院的工作,最应该感谢的三位贵人!

凌风的世界观
2025-11-14 08:38:31
加时1胜7负+被逆转13分!火箭吞耻辱被喷上热搜 休媒坐等首轮出局

加时1胜7负+被逆转13分!火箭吞耻辱被喷上热搜 休媒坐等首轮出局

颜小白的篮球梦
2026-03-26 13:20:36
散户不想再做韭菜,就得学会参悟时间的奥秘

散户不想再做韭菜,就得学会参悟时间的奥秘

记忆承载
2026-03-26 07:38:41
不装了摊牌了!白宫承认伊朗拒绝谈判,特朗普准备“释放地狱”!

不装了摊牌了!白宫承认伊朗拒绝谈判,特朗普准备“释放地狱”!

阿芒娱乐说
2026-03-26 14:19:21
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

秋姐居
2026-03-25 10:22:58
四川一车主送孩子上学违规停车,孩子“开门杀”将骑电动车母女绊倒,车主直接开车驶离,当地交警:排除酒驾、毒驾嫌疑,司机赔偿了医药费

四川一车主送孩子上学违规停车,孩子“开门杀”将骑电动车母女绊倒,车主直接开车驶离,当地交警:排除酒驾、毒驾嫌疑,司机赔偿了医药费

潇湘晨报
2026-03-26 14:17:08
心跳成为“胜负手”:从张雪峰猝然离世看网球运动员的心脏之殇

心跳成为“胜负手”:从张雪峰猝然离世看网球运动员的心脏之殇

网球之家
2026-03-25 23:38:54
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
真撑不住了!特朗普,要做重大让步了!

真撑不住了!特朗普,要做重大让步了!

大嘴说天下
2026-03-25 19:16:47
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

叮当当科技
2026-03-26 01:51:54
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

6-2血洗欧冠德比!巴萨狂轰6球,皇马孤将双响难挡崩盘

林子说事
2026-03-26 09:42:20
我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

番外行
2026-03-24 13:04:28
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
连续14年胜率50+%!小卡战旧主27分6板,加兰24分6助,马瑟林23分

连续14年胜率50+%!小卡战旧主27分6板,加兰24分6助,马瑟林23分

无术不学
2026-03-26 14:05:40
太猛了!字节漫剧日消耗破7000万元,超过真人短剧

太猛了!字节漫剧日消耗破7000万元,超过真人短剧

新腕儿
2026-03-25 16:48:29
2026-03-26 15:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12347文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
教育
亲子
房产
军事航空

转头就晕的耳石症,能开车上班吗?

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版