网易首页 > 网易号 > 正文 申请入驻

通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

0
分享至

本文共同第一作者为华中科技大学博士生连仕杰与华东师范大学博士生邬长倜,二者同时也是北京中关村学院2024级学生。共同通讯作者包括:郑州大学学术副校长,郑州大学/华中科技大学教授,加拿大工程院/欧洲科学院院士杨天若教授;北京中关村学院&中关村人工智能研究院具身方向负责人陈凯。

近年来,多模态大语言模型(MLLMs)在广泛的视觉-语言任务中取得了显著成功。尽管如此,最先进的 MLLMs 仍然缺乏真正的空间智能。甚至如今,最先进的视觉-语言模型(VLMs)在一些儿童轻易就能完成的任务上仍会出现偶尔错误,例如数方块或识别给定物体左侧最近的邻近物体。

图 1,让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

在李飞飞提出的 VSIBench 评估基准中显示,超过 70% 的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力的不足。这一现象与著名的「莫拉维克悖论」一致,即对于 VLM 而言,有可能高层次推理任务在计算上比低层次的感知和感觉运动技能更简单。

近期如 Spatial-MLLM、SpaceVLM、RoboBrain2.0 等关于空间感知 VLM 的研究,尝试通过提供专门构建的空间数据集来提升模型性能。然而,这些空间数据集中的任务通常仅涵盖现实世界空间任务的一个子集,可能无法增强模型的整体空间智能。这凸显了实现空间智能的一个关键挑战:

尽管在特定空间任务数据集上进行微调可以实现高模型域内的性能,但可能导致模型过度特化,难以培养更基础且可泛化的空间智能。

为了打破这一僵局,来自华中科技大学、北京中关村学院和华东师范大学的研究团队将目光转向从更广泛且更基础的空间现象中学习,从而突破单一数据集的局限,扩展模型的能力范围。

  • 论文标题:Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
  • 论文地址:
  • https://zgca-ai4edu.github.io/Euclids_Gift/

具体来说,为了培养模型在任何单一基准之外发展泛化的空间能力,他们尝试探索一种新颖的训练范式,将解决几何问题作为在 VLMs 中提升空间智能的代理任务。

几何将数个世纪的数学研究浓缩为对空间现象的形式化描述。因此,学习求解平面与立体几何问题迫使模型内化欧几里得几何公理等先验知识,并为模型提供更强的跨领域泛化能力,因为这些原理具有普适性且独立于任何单一任务。

为什么选择「几何问题」作为空间智能的代理任务?

实际上,解决几何问题所需的能力,包括识别形状与构型、推断空间关系(如平行、角度和相对位置)、计算或测量几何元素,以及执行多步逻辑推理,同样也是空间感知任务所必需的。

此外,教育心理学领域有大量现存证据表明,几何问题求解与空间智力密切相关,可以作为空间能力的有力指标,并且可以通过有针对性的练习加以提升 [1] [2] [3]。 本文通过大量实验进一步发现,这种关系不仅适用于人类学习者,也可推广至多模态大模型。

制作更丰富的、以几何为中心的训练集

遗憾的是,目前尚无针对多样化几何问题的大规模高质量训练数据集。此外,现存数据集中显著的不平衡性:立体几何题远少于平面几何题。然而,立体几何包含了更多明确的三维空间现象(例如视角不变性、多面体截断特征、体积与面积关系等),这些对 VLM 学习空间知识同样至关重要。

为此,本文从现有开源数据集与 K12 阶段的教程/练习册中重新收集数据,标注了一个具有 29,695 个几何问题的几何数据集——Euclid30K。Euclid30K 中的所有题目与答案都通过 GPT-4o 与 DeepSeek-V3.1 API 的混合清洗,以确保答案被重规范化为可以被 MathVerify 正确识别的格式。

验证

为了让训练得到的性能收益全部来自于几何数据集,而非精心设计的算法或其他 trick。本文只使用了常规的 GRPO 对模型进行训练。并参考 DAPO 使用了 0.28 的 CLIP 裁剪上界、Token-level 策略梯度损失以及动态采样。

结果显示,经过几何问题训练后,模型在 VSI Bench、Super CLEVR、Omni3D Bench 和 MindCube 这四个基准上的性能都出现了一定程度的增长。体现了使用几何问题作为代理任务这空间智能上的 zero-shot 泛化能力。

为了进一步确保模型的性能提升来自于可以明确归因于几何任务作为空间智能的有效代理任务,而非 GRPO 算法或数据量增加的影响。本文进行了一项因果消融研究。

具体而言,本文在非几何的空间智能数据集 Clevr-CoGenT 上随机采样了一个与 Euclid30K 大小相等的样本,并使用完全相同的 GRPO 设置来训练 Qwen2.5VL 和 RoboBrain2.0。结果表明,在 Euclid30K 上训练的模型相比在同等大小的 Clevr-CoGenT 数据集上微调的模型,整体准确率显著更高。

[1] Students' reasoning with logical mathematical and visual spatial intelligence in geometry problem solving,International Joint Conference on Science and Engineering 2020

[2] The effects of geometrical-mechanical intelligence games on the spatial abilities,International Online Journal of Primary Education 2020

[3] The relationship between spatial reasoning and geometric reasoning in teachers,Eurasia Journal of Mathematics, Science and Technology Education 2025

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
皇马武斗细节曝光:巴尔韦德3次恶铲,欲废楚阿梅尼

皇马武斗细节曝光:巴尔韦德3次恶铲,欲废楚阿梅尼

体坛周报
2026-05-10 15:57:53
全国政协委员:建议机关事业单位职工双休日调整为“隔周三休”!

全国政协委员:建议机关事业单位职工双休日调整为“隔周三休”!

职场资深秘书
2026-05-10 16:17:06
我的两个舅舅,一个用690万投进股市,一个把690万存进余额宝

我的两个舅舅,一个用690万投进股市,一个把690万存进余额宝

起飞做故事
2026-05-07 15:49:53
一觉醒来,中国油轮在波斯湾遇袭!这不是误炸,是有人想“破窗”

一觉醒来,中国油轮在波斯湾遇袭!这不是误炸,是有人想“破窗”

闫树军论评
2026-05-08 18:11:21
刀尖上的舞者,梁靖崑再演大逆转,决胜局连得8分3-2战胜张本智和

刀尖上的舞者,梁靖崑再演大逆转,决胜局连得8分3-2战胜张本智和

真理是我亲戚
2026-05-11 00:43:58
牺牲太大!航天女英雄刘洋:结婚 8 年未生子,回地面后销声匿迹

牺牲太大!航天女英雄刘洋:结婚 8 年未生子,回地面后销声匿迹

华人星光
2026-05-10 13:57:49
瑞舒伐他汀:你每天吃的这颗小药片,藏着多少你不知道的秘密?

瑞舒伐他汀:你每天吃的这颗小药片,藏着多少你不知道的秘密?

橘子约定
2026-05-10 22:08:46
宋飞公开吐槽《老友记》:抄我的创意,只是换了一群帅哥美女

宋飞公开吐槽《老友记》:抄我的创意,只是换了一群帅哥美女

追星雷达站
2026-05-08 10:18:47
泽连斯基警告:俄军一旦恢复大规模空袭,乌军远程打击将立刻重启

泽连斯基警告:俄军一旦恢复大规模空袭,乌军远程打击将立刻重启

桂系007
2026-05-11 04:50:35
250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

250亿!赖清德窜访代价来了,斯威士兰开始要债 卢秀燕却声援绿营

闻识
2026-05-10 18:17:01
感谢卡塔尔!2-0赢球后,U17国足出线形势反转,拿3分=直通世界杯

感谢卡塔尔!2-0赢球后,U17国足出线形势反转,拿3分=直通世界杯

何老师呀
2026-05-10 14:07:37
叶珂终于摊牌!生女两年无名分,分手真相扯出黄晓明私生活

叶珂终于摊牌!生女两年无名分,分手真相扯出黄晓明私生活

橙星文娱
2026-05-08 09:06:29
两自媒体编造传播芯片虚假信息遭重罚

两自媒体编造传播芯片虚假信息遭重罚

每日经济新闻
2026-05-09 20:17:46
炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

炸裂!熊孩子刮花6张PS5光盘 家长仅200元打发了事

游民星空
2026-05-10 17:44:13
女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

女子潜水遇成千上万海狼群,网友:被袭击10秒不到就剩骨架!

狸猫之一的动物圈
2026-05-10 10:17:09
不再藏着掖着让人猜了! 中国自由泳天后和蛙泳世界名将恋情公开

不再藏着掖着让人猜了! 中国自由泳天后和蛙泳世界名将恋情公开

威猛孟巍
2026-05-11 01:44:19
特朗普还没访华,74个议员把他绑了:封杀中国车,怕他在北京签字

特朗普还没访华,74个议员把他绑了:封杀中国车,怕他在北京签字

浪子阿邴聊体育
2026-05-10 05:40:07
31岁乌克兰女数学家23页证明,一周内连解两大世纪谜题!

31岁乌克兰女数学家23页证明,一周内连解两大世纪谜题!

補懂事的孩紙
2026-05-10 11:44:50
中超11轮积分榜:10支球队积分上双,4队同积10分,津门虎转正

中超11轮积分榜:10支球队积分上双,4队同积10分,津门虎转正

中超伪球迷
2026-05-10 22:14:13
手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

职场资深秘书
2026-05-10 13:51:21
2026-05-11 06:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142646关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

健康
房产
游戏
手机
公开课

干细胞能让人“返老还童”吗

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

LPL第二赛段:拒绝让一追二!JDG三局战胜AL,挺进前三

手机要闻

小米本月发新机?待发新品汇总

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版