网易首页 > 网易号 > 正文 申请入驻

几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

0
分享至

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。

然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视觉与文本信息之间存在严重不对齐问题,制约了模型在复杂几何推理任务上的表现。

来自 UIUC 的作者团队的研究提出了一种基于强化学习与可验证奖励 RLVR数据生成与优化框架 ——Geo-Image-Textualization,并发布了首个完全对齐的高质量几何图像 - 文本数据集 GeoReasoning-10K,包含 1 万对精心构建的图像与描述。

并且,为了促进社区发展,作者团队已公开 GeoReasoning-10K 数据集及相关代码。

  • 数据集地址:https://huggingface.co/datasets/ScaleMath/GeoReasoning
  • 代码地址:https://github.com/MachinePhoenix/GeoReasoning
  • 论文链接:https://arxiv.org/abs/2509.15217
  • 论文标题:Generalizable Geometric Image Caption Synthesis


数据集与方法介绍

该框架的核心创新包括:

  • 强泛化性:训练后的模型不仅在几何任务上表现优异,还能泛化至算术、代数、数值推理等非几何任务,甚至处理非几何图像输入。
  • 高质量:经过 GeoReasoning 训练过的模型,在下游任务上性能超过其他同类型数据集,并且具有良好的缩放性质。
  • 可扩展性:生成的样本由模板集中的字句组合而成,可以组合出任意复杂度的几何题。

图像 - 标题 - 问题 / 答案的生成流程如下图所示:

生成的几何图示例如下:

训练流程和强化学习阶段的奖励函数如下:

实验结果

在权威数学推理基准 MathVista 和 MathVers 上与其他几何字幕标注数据集(如 AutoGeo、GeoPeP)和解题数据集(如 GeoGPT4, Geo170K)相比,GeoReasoning-10K 在相同数据量下均取得最优效果,展现出卓越的数据质量与扩展性:

左:MathVista;右:MathVerse

在 MMMU 测评基准上,使用 GeoReasoning-10K 微调后的 Gemma3-4B 模型显著提升多项能力:

MMMU 实验结果

最后展示 MathVista 中的一些具体样例:

以及 MMMU 的一些样例:

总结

在多模态大语言模型快速发展的今天,Geo-Image-Textualization 框架和 GeoReasoning-10K 数据集为解决几何推理瓶颈提供了全新思路。通过确保视觉和文本信息的完全对齐,本文的方法不仅提升了模型在几何问题上的表现,还实现了向更广泛数学领域的泛化。

正如实验结果所示,给几何图片写标题可以让 AI 变聪明,不仅能解决几何问题,还能增强其整体数学推理能力,为多模态 AI 在教育、科学计算等领域的应用铺平道路。

感谢作者团队的辛勤工作和开源贡献,期待更多研究者加入这一领域,共同推动多模态 AI 技术的边界不断扩展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

垚垚分享健康
2026-03-26 16:09:56
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰亲手把自己送上了死路

张雪峰亲手把自己送上了死路

名人苟或
2026-03-25 06:02:57
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
跌光2500亿!泡泡玛特,股价崩塌

跌光2500亿!泡泡玛特,股价崩塌

财经锐眼
2026-03-26 18:54:18
张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

娱乐圈圈圆
2026-03-26 21:47:07
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

茶韵浮生
2026-03-26 20:26:51
刚刚,《柳叶刀》杀人诛心:你每天灌再多的水,也防不了肾结石!

刚刚,《柳叶刀》杀人诛心:你每天灌再多的水,也防不了肾结石!

徐德文科学频道
2026-03-26 19:03:36
盲目的大学扩招,正在反噬整个社会

盲目的大学扩招,正在反噬整个社会

凡人志
2026-03-25 01:34:53
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
禁止将居民住宅专门用于安放骨灰!

禁止将居民住宅专门用于安放骨灰!

北青网-北京青年报
2026-03-26 16:11:05
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

看看新闻Knews
2026-03-26 14:21:02
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
2026-03-27 00:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
本地
家居
公开课
军事航空

旅游要闻

老外为羊拿铁扎堆魔都街头 法国游客花式夸上海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版