网易首页 > 网易号 > 正文 申请入驻

通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

0
分享至



本文共同第一作者为华中科技大学博士生连仕杰与华东师范大学博士生邬长倜,二者同时也是北京中关村学院2024级学生。共同通讯作者包括:郑州大学学术副校长,郑州大学/华中科技大学教授,加拿大工程院/欧洲科学院院士杨天若教授;北京中关村学院&中关村人工智能研究院具身方向负责人陈凯。

近年来,多模态大语言模型(MLLMs)在广泛的视觉-语言任务中取得了显著成功。尽管如此,最先进的 MLLMs 仍然缺乏真正的空间智能。甚至如今,最先进的视觉-语言模型(VLMs)在一些儿童轻易就能完成的任务上仍会出现偶尔错误,例如数方块或识别给定物体左侧最近的邻近物体。



图 1,让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

在李飞飞提出的 VSIBench 评估基准中显示,超过 70% 的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力的不足。这一现象与著名的「莫拉维克悖论」一致,即对于 VLM 而言,有可能高层次推理任务在计算上比低层次的感知和感觉运动技能更简单。

近期如 Spatial-MLLM、SpaceVLM、RoboBrain2.0 等关于空间感知 VLM 的研究,尝试通过提供专门构建的空间数据集来提升模型性能。然而,这些空间数据集中的任务通常仅涵盖现实世界空间任务的一个子集,可能无法增强模型的整体空间智能。这凸显了实现空间智能的一个关键挑战:

尽管在特定空间任务数据集上进行微调可以实现高模型域内的性能,但可能导致模型过度特化,难以培养更基础且可泛化的空间智能。

为了打破这一僵局,来自华中科技大学、北京中关村学院和华东师范大学的研究团队将目光转向从更广泛且更基础的空间现象中学习,从而突破单一数据集的局限,扩展模型的能力范围。



  • 论文标题:Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
  • 论文地址:
  • https://zgca-ai4edu.github.io/Euclids_Gift/

具体来说,为了培养模型在任何单一基准之外发展泛化的空间能力,他们尝试探索一种新颖的训练范式,将解决几何问题作为在 VLMs 中提升空间智能的代理任务。



几何将数个世纪的数学研究浓缩为对空间现象的形式化描述。因此,学习求解平面与立体几何问题迫使模型内化欧几里得几何公理等先验知识,并为模型提供更强的跨领域泛化能力,因为这些原理具有普适性且独立于任何单一任务。

为什么选择「几何问题」作为空间智能的代理任务?

实际上,解决几何问题所需的能力,包括识别形状与构型、推断空间关系(如平行、角度和相对位置)、计算或测量几何元素,以及执行多步逻辑推理,同样也是空间感知任务所必需的。

此外,教育心理学领域有大量现存证据表明,几何问题求解与空间智力密切相关,可以作为空间能力的有力指标,并且可以通过有针对性的练习加以提升 [1] [2] [3]。 本文通过大量实验进一步发现,这种关系不仅适用于人类学习者,也可推广至多模态大模型。

制作更丰富的、以几何为中心的训练集

遗憾的是,目前尚无针对多样化几何问题的大规模高质量训练数据集。此外,现存数据集中显著的不平衡性:立体几何题远少于平面几何题。然而,立体几何包含了更多明确的三维空间现象(例如视角不变性、多面体截断特征、体积与面积关系等),这些对 VLM 学习空间知识同样至关重要。

为此,本文从现有开源数据集与 K12 阶段的教程/练习册中重新收集数据,标注了一个具有 29,695 个几何问题的几何数据集——Euclid30K。Euclid30K 中的所有题目与答案都通过 GPT-4o 与 DeepSeek-V3.1 API 的混合清洗,以确保答案被重规范化为可以被 MathVerify 正确识别的格式。





验证

为了让训练得到的性能收益全部来自于几何数据集,而非精心设计的算法或其他 trick。本文只使用了常规的 GRPO 对模型进行训练。并参考 DAPO 使用了 0.28 的 CLIP 裁剪上界、Token-level 策略梯度损失以及动态采样。

结果显示,经过几何问题训练后,模型在 VSI Bench、Super CLEVR、Omni3D Bench 和 MindCube 这四个基准上的性能都出现了一定程度的增长。体现了使用几何问题作为代理任务这空间智能上的 zero-shot 泛化能力。



为了进一步确保模型的性能提升来自于可以明确归因于几何任务作为空间智能的有效代理任务,而非 GRPO 算法或数据量增加的影响。本文进行了一项因果消融研究。

具体而言,本文在非几何的空间智能数据集 Clevr-CoGenT 上随机采样了一个与 Euclid30K 大小相等的样本,并使用完全相同的 GRPO 设置来训练 Qwen2.5VL 和 RoboBrain2.0。结果表明,在 Euclid30K 上训练的模型相比在同等大小的 Clevr-CoGenT 数据集上微调的模型,整体准确率显著更高。



[1] Students' reasoning with logical mathematical and visual spatial intelligence in geometry problem solving,International Joint Conference on Science and Engineering 2020

[2] The effects of geometrical-mechanical intelligence games on the spatial abilities,International Online Journal of Primary Education 2020

[3] The relationship between spatial reasoning and geometric reasoning in teachers,Eurasia Journal of Mathematics, Science and Technology Education 2025

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
FIFA反对!伊朗退出世界杯进倒计时,韩媒反常:国足递补希望增大

FIFA反对!伊朗退出世界杯进倒计时,韩媒反常:国足递补希望增大

越岭寻踪
2026-03-20 03:26:17
卡福:15年来,巴西队几乎没一个同级别的球员能帮内马尔分担责任

卡福:15年来,巴西队几乎没一个同级别的球员能帮内马尔分担责任

懂球帝
2026-03-20 07:01:04
人到晚年才醒悟:跟兄弟姐妹断亲,是你这辈子最贵的一笔账

人到晚年才醒悟:跟兄弟姐妹断亲,是你这辈子最贵的一笔账

孤酒老巷QA
2026-03-01 09:55:04
5300亿资金撤离被严查!国家重拳整治1.5万富豪移民,这次动真格

5300亿资金撤离被严查!国家重拳整治1.5万富豪移民,这次动真格

老特有话说
2026-03-19 17:15:40
伊朗人终于开窍了:用爱泼斯坦当武器,比导弹好使多了

伊朗人终于开窍了:用爱泼斯坦当武器,比导弹好使多了

荷兰豆爱健康
2026-03-16 09:41:44
翁晓玲质疑赖清德是“日本人后代”,让绿鹰犬们气急败坏

翁晓玲质疑赖清德是“日本人后代”,让绿鹰犬们气急败坏

郭茂辰海峡传真
2026-03-19 20:52:43
首个特朗普金卡中国买家曝光,系全球WiFi之王,正被美商务部调查

首个特朗普金卡中国买家曝光,系全球WiFi之王,正被美商务部调查

肖兹探秘说
2026-03-20 17:15:27
男子赚够钱后买房车潇洒养老,仅6年突然破产:刚知老婆负债3千万

男子赚够钱后买房车潇洒养老,仅6年突然破产:刚知老婆负债3千万

嫹笔牂牂
2026-03-19 07:12:18
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
同济大学教授的晚年困境:条件好的家庭,不要把孩子养得利欲熏心

同济大学教授的晚年困境:条件好的家庭,不要把孩子养得利欲熏心

洞见
2026-03-19 09:38:23
独居女性家门口出现不明符号,公安提醒:立即清除符号

独居女性家门口出现不明符号,公安提醒:立即清除符号

齐鲁壹点
2026-03-20 05:46:00
旗袍映江南,玉足踏古巷

旗袍映江南,玉足踏古巷

艾斯莱斯奈斯
2026-03-20 11:55:02
CCTV5直播!下午17点,亚洲杯决赛,日本队决战澳大利亚队争冠

CCTV5直播!下午17点,亚洲杯决赛,日本队决战澳大利亚队争冠

何老师呀
2026-03-21 01:40:03
中俄联手都镇不住高市早苗,知名学者判断:中日一个月内或有空战

中俄联手都镇不住高市早苗,知名学者判断:中日一个月内或有空战

安安说
2026-03-02 13:42:53
实探金价暴跌后的北京菜百:有人下单200克金条即拿即走,有人下单后未付款观望金价变化

实探金价暴跌后的北京菜百:有人下单200克金条即拿即走,有人下单后未付款观望金价变化

极目新闻
2026-03-20 15:48:20
英国暴发疫情,已扩散至法国

英国暴发疫情,已扩散至法国

中国经济网
2026-03-19 16:10:06
中产返贫四件套,普通人一个都别碰!

中产返贫四件套,普通人一个都别碰!

时评人李文君
2026-03-19 21:26:56
美以伊开打20天,下一步最大威胁,是粮食和淡水危机

美以伊开打20天,下一步最大威胁,是粮食和淡水危机

红星新闻
2026-03-19 18:45:22
老了才懂:兄弟姐妹中,最自私、最会算计的人,最后都活成了这样

老了才懂:兄弟姐妹中,最自私、最会算计的人,最后都活成了这样

风起见你
2026-03-18 20:14:28
“一辈子都写不出来的人生金句,句句入心,值得收藏”

“一辈子都写不出来的人生金句,句句入心,值得收藏”

心灵悦读
2026-03-19 06:55:32
2026-03-21 05:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12555文章数 142588关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

英国授权美军用其基地打伊朗 伊外长:将行使自卫权回应

头条要闻

英国授权美军用其基地打伊朗 伊外长:将行使自卫权回应

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

金融法草案向社会公开征求意见

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

房产
旅游
手机
亲子
公开课

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

旅游要闻

游客为玲娜贝儿制作十多套装扮,上海迪士尼“10岁生日庆典”启幕

手机要闻

折叠iPhone曝12月发货,苹果Plus机型或重启

亲子要闻

为什么有钱人家孩子一般长相都不错?网友:要有钱有闲

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版