网易首页 > 网易号 > 正文 申请入驻

通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

0
分享至

本文共同第一作者为华中科技大学博士生连仕杰与华东师范大学博士生邬长倜,二者同时也是北京中关村学院2024级学生。共同通讯作者包括:郑州大学学术副校长,郑州大学/华中科技大学教授,加拿大工程院/欧洲科学院院士杨天若教授;北京中关村学院&中关村人工智能研究院具身方向负责人陈凯。

近年来,多模态大语言模型(MLLMs)在广泛的视觉-语言任务中取得了显著成功。尽管如此,最先进的 MLLMs 仍然缺乏真正的空间智能。甚至如今,最先进的视觉-语言模型(VLMs)在一些儿童轻易就能完成的任务上仍会出现偶尔错误,例如数方块或识别给定物体左侧最近的邻近物体。

图 1,让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

在李飞飞提出的 VSIBench 评估基准中显示,超过 70% 的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力的不足。这一现象与著名的「莫拉维克悖论」一致,即对于 VLM 而言,有可能高层次推理任务在计算上比低层次的感知和感觉运动技能更简单。

近期如 Spatial-MLLM、SpaceVLM、RoboBrain2.0 等关于空间感知 VLM 的研究,尝试通过提供专门构建的空间数据集来提升模型性能。然而,这些空间数据集中的任务通常仅涵盖现实世界空间任务的一个子集,可能无法增强模型的整体空间智能。这凸显了实现空间智能的一个关键挑战:

尽管在特定空间任务数据集上进行微调可以实现高模型域内的性能,但可能导致模型过度特化,难以培养更基础且可泛化的空间智能。

为了打破这一僵局,来自华中科技大学、北京中关村学院和华东师范大学的研究团队将目光转向从更广泛且更基础的空间现象中学习,从而突破单一数据集的局限,扩展模型的能力范围。

  • 论文标题:Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
  • 论文地址:
  • https://zgca-ai4edu.github.io/Euclids_Gift/

具体来说,为了培养模型在任何单一基准之外发展泛化的空间能力,他们尝试探索一种新颖的训练范式,将解决几何问题作为在 VLMs 中提升空间智能的代理任务。

几何将数个世纪的数学研究浓缩为对空间现象的形式化描述。因此,学习求解平面与立体几何问题迫使模型内化欧几里得几何公理等先验知识,并为模型提供更强的跨领域泛化能力,因为这些原理具有普适性且独立于任何单一任务。

为什么选择「几何问题」作为空间智能的代理任务?

实际上,解决几何问题所需的能力,包括识别形状与构型、推断空间关系(如平行、角度和相对位置)、计算或测量几何元素,以及执行多步逻辑推理,同样也是空间感知任务所必需的。

此外,教育心理学领域有大量现存证据表明,几何问题求解与空间智力密切相关,可以作为空间能力的有力指标,并且可以通过有针对性的练习加以提升 [1] [2] [3]。 本文通过大量实验进一步发现,这种关系不仅适用于人类学习者,也可推广至多模态大模型。

制作更丰富的、以几何为中心的训练集

遗憾的是,目前尚无针对多样化几何问题的大规模高质量训练数据集。此外,现存数据集中显著的不平衡性:立体几何题远少于平面几何题。然而,立体几何包含了更多明确的三维空间现象(例如视角不变性、多面体截断特征、体积与面积关系等),这些对 VLM 学习空间知识同样至关重要。

为此,本文从现有开源数据集与 K12 阶段的教程/练习册中重新收集数据,标注了一个具有 29,695 个几何问题的几何数据集——Euclid30K。Euclid30K 中的所有题目与答案都通过 GPT-4o 与 DeepSeek-V3.1 API 的混合清洗,以确保答案被重规范化为可以被 MathVerify 正确识别的格式。

验证

为了让训练得到的性能收益全部来自于几何数据集,而非精心设计的算法或其他 trick。本文只使用了常规的 GRPO 对模型进行训练。并参考 DAPO 使用了 0.28 的 CLIP 裁剪上界、Token-level 策略梯度损失以及动态采样。

结果显示,经过几何问题训练后,模型在 VSI Bench、Super CLEVR、Omni3D Bench 和 MindCube 这四个基准上的性能都出现了一定程度的增长。体现了使用几何问题作为代理任务这空间智能上的 zero-shot 泛化能力。

为了进一步确保模型的性能提升来自于可以明确归因于几何任务作为空间智能的有效代理任务,而非 GRPO 算法或数据量增加的影响。本文进行了一项因果消融研究。

具体而言,本文在非几何的空间智能数据集 Clevr-CoGenT 上随机采样了一个与 Euclid30K 大小相等的样本,并使用完全相同的 GRPO 设置来训练 Qwen2.5VL 和 RoboBrain2.0。结果表明,在 Euclid30K 上训练的模型相比在同等大小的 Clevr-CoGenT 数据集上微调的模型,整体准确率显著更高。

[1] Students' reasoning with logical mathematical and visual spatial intelligence in geometry problem solving,International Joint Conference on Science and Engineering 2020

[2] The effects of geometrical-mechanical intelligence games on the spatial abilities,International Online Journal of Primary Education 2020

[3] The relationship between spatial reasoning and geometric reasoning in teachers,Eurasia Journal of Mathematics, Science and Technology Education 2025

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宏远速递!陈老板做新决定,胡明轩深夜发声,两小将入选U17国青

宏远速递!陈老板做新决定,胡明轩深夜发声,两小将入选U17国青

多特体育说
2026-06-27 00:02:53
亮马河边发现外来“大耗子”,专家提醒

亮马河边发现外来“大耗子”,专家提醒

新京报
2026-06-25 14:21:06
田亮女儿发育太猛!身材凹凸曼妙惹人羡慕,如今已成父亲的骄傲

田亮女儿发育太猛!身材凹凸曼妙惹人羡慕,如今已成父亲的骄傲

草莓解说体育
2026-06-24 03:39:24
凌晨1点!CCTV5直播“师徒”对决,日本队VS巴西对,输球=淘汰

凌晨1点!CCTV5直播“师徒”对决,日本队VS巴西对,输球=淘汰

鸣哥说体育
2026-06-26 15:11:21
医生:能吃能喝的糖尿病人,基本在63岁,就已经不做这8件事了!

医生:能吃能喝的糖尿病人,基本在63岁,就已经不做这8件事了!

新时代的两性情感
2026-06-27 04:52:40
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
一张图看透真相:中国居民贷款崩了,企业贷款却在狂飙

一张图看透真相:中国居民贷款崩了,企业贷款却在狂飙

可达鸭面面观
2026-06-25 10:47:36
一夜三疯狂!勇士2年1400万签老将 3年8500万锁悍将 老脆矮全凑齐

一夜三疯狂!勇士2年1400万签老将 3年8500万锁悍将 老脆矮全凑齐

阿讯说天下
2026-06-26 11:19:08
购车当天直接上牌?车管部门回应:仍有一定条件

购车当天直接上牌?车管部门回应:仍有一定条件

华夏时报
2026-06-26 06:30:06
血管斑块脱落前,身体会亮起4盏红灯!任何一盏亮了,请立刻就医

血管斑块脱落前,身体会亮起4盏红灯!任何一盏亮了,请立刻就医

健康科普365
2026-06-26 18:20:08
炸完莫斯科,再对付中国?乌克兰被曝与日本勾结,中方送出一句话

炸完莫斯科,再对付中国?乌克兰被曝与日本勾结,中方送出一句话

墨策史
2026-06-27 00:50:07
1.8亿股民都不知道:股票已经跌到全部股东都套牢为什么还会跌?

1.8亿股民都不知道:股票已经跌到全部股东都套牢为什么还会跌?

股经纵横谈
2026-06-05 19:56:46
大陆看得清清楚楚:韩国瑜:在美国用一句话点评台湾,此人太阴了

大陆看得清清楚楚:韩国瑜:在美国用一句话点评台湾,此人太阴了

观察者小海风
2026-06-26 14:33:04
同学聚会,发现一个扎心的现实:年过40的女同学中,1/3没有工作,1/3做着低薪但没前途工作,剩下的1/3基本都在体制内

同学聚会,发现一个扎心的现实:年过40的女同学中,1/3没有工作,1/3做着低薪但没前途工作,剩下的1/3基本都在体制内

品读时刻
2026-06-13 09:03:28
上海女子上厕所闻到一股恶臭,当晚扁桃体发炎,确诊“细菌感染”,医生:大概率是粪便里的一种病菌

上海女子上厕所闻到一股恶臭,当晚扁桃体发炎,确诊“细菌感染”,医生:大概率是粪便里的一种病菌

大象新闻
2026-06-24 09:45:05
确立党在社会主义初级阶段的基本路线(伟大征程)

确立党在社会主义初级阶段的基本路线(伟大征程)

人民网
2026-06-26 09:09:15
孙颖莎与张本美和的11:0

孙颖莎与张本美和的11:0

最爱乒乓球
2026-06-27 02:32:01
人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

哄动一时啊
2026-06-26 14:23:48
刘嘉玲坦言:多次想放弃梁朝伟,他完全没有自理能力,社恐到无语

刘嘉玲坦言:多次想放弃梁朝伟,他完全没有自理能力,社恐到无语

青衫书生本尊
2026-06-26 17:09:21
对俄总攻开始?32国接到通知,德国已介入,泽连斯基当众下死命令

对俄总攻开始?32国接到通知,德国已介入,泽连斯基当众下死命令

快看张同学
2026-06-23 11:33:13
2026-06-27 06:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13370文章数 142682关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

世界杯:塞内加尔5-0十人伊拉克 盖伊世界波双响

头条要闻

世界杯:塞内加尔5-0十人伊拉克 盖伊世界波双响

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

手机
旅游
游戏
艺术
军事航空

手机要闻

vivo X Fold6 体验:折叠屏的下一步,是把任务流展开

旅游要闻

不必远赴国外,国内这片七彩大地,藏着中国人独有浪漫与乡土温情

迈向下一个十年的大成之作!《暗喻幻想》凭啥拿下年度最佳RPG?

艺术要闻

莫兰迪不多见的简约风景画!

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版