网易首页 > 网易号 > 正文 申请入驻

通过几何代理任务增强视觉-语言模型中的空间感知和推理能力

0
分享至



本文共同第一作者为华中科技大学博士生连仕杰与华东师范大学博士生邬长倜,二者同时也是北京中关村学院2024级学生。共同通讯作者包括:郑州大学学术副校长,郑州大学/华中科技大学教授,加拿大工程院/欧洲科学院院士杨天若教授;北京中关村学院&中关村人工智能研究院具身方向负责人陈凯。

近年来,多模态大语言模型(MLLMs)在广泛的视觉-语言任务中取得了显著成功。尽管如此,最先进的 MLLMs 仍然缺乏真正的空间智能。甚至如今,最先进的视觉-语言模型(VLMs)在一些儿童轻易就能完成的任务上仍会出现偶尔错误,例如数方块或识别给定物体左侧最近的邻近物体。



图 1,让 GPT5-Thinking 和 Gemini 2.5 Pro 数方块(正确答案是白色 10 块,橙色 13 块)

在李飞飞提出的 VSIBench 评估基准中显示,超过 70% 的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力的不足。这一现象与著名的「莫拉维克悖论」一致,即对于 VLM 而言,有可能高层次推理任务在计算上比低层次的感知和感觉运动技能更简单。

近期如 Spatial-MLLM、SpaceVLM、RoboBrain2.0 等关于空间感知 VLM 的研究,尝试通过提供专门构建的空间数据集来提升模型性能。然而,这些空间数据集中的任务通常仅涵盖现实世界空间任务的一个子集,可能无法增强模型的整体空间智能。这凸显了实现空间智能的一个关键挑战:

尽管在特定空间任务数据集上进行微调可以实现高模型域内的性能,但可能导致模型过度特化,难以培养更基础且可泛化的空间智能。

为了打破这一僵局,来自华中科技大学、北京中关村学院和华东师范大学的研究团队将目光转向从更广泛且更基础的空间现象中学习,从而突破单一数据集的局限,扩展模型的能力范围。



  • 论文标题:Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
  • 论文地址:
  • https://zgca-ai4edu.github.io/Euclids_Gift/

具体来说,为了培养模型在任何单一基准之外发展泛化的空间能力,他们尝试探索一种新颖的训练范式,将解决几何问题作为在 VLMs 中提升空间智能的代理任务。



几何将数个世纪的数学研究浓缩为对空间现象的形式化描述。因此,学习求解平面与立体几何问题迫使模型内化欧几里得几何公理等先验知识,并为模型提供更强的跨领域泛化能力,因为这些原理具有普适性且独立于任何单一任务。

为什么选择「几何问题」作为空间智能的代理任务?

实际上,解决几何问题所需的能力,包括识别形状与构型、推断空间关系(如平行、角度和相对位置)、计算或测量几何元素,以及执行多步逻辑推理,同样也是空间感知任务所必需的。

此外,教育心理学领域有大量现存证据表明,几何问题求解与空间智力密切相关,可以作为空间能力的有力指标,并且可以通过有针对性的练习加以提升 [1] [2] [3]。 本文通过大量实验进一步发现,这种关系不仅适用于人类学习者,也可推广至多模态大模型。

制作更丰富的、以几何为中心的训练集

遗憾的是,目前尚无针对多样化几何问题的大规模高质量训练数据集。此外,现存数据集中显著的不平衡性:立体几何题远少于平面几何题。然而,立体几何包含了更多明确的三维空间现象(例如视角不变性、多面体截断特征、体积与面积关系等),这些对 VLM 学习空间知识同样至关重要。

为此,本文从现有开源数据集与 K12 阶段的教程/练习册中重新收集数据,标注了一个具有 29,695 个几何问题的几何数据集——Euclid30K。Euclid30K 中的所有题目与答案都通过 GPT-4o 与 DeepSeek-V3.1 API 的混合清洗,以确保答案被重规范化为可以被 MathVerify 正确识别的格式。





验证

为了让训练得到的性能收益全部来自于几何数据集,而非精心设计的算法或其他 trick。本文只使用了常规的 GRPO 对模型进行训练。并参考 DAPO 使用了 0.28 的 CLIP 裁剪上界、Token-level 策略梯度损失以及动态采样。

结果显示,经过几何问题训练后,模型在 VSI Bench、Super CLEVR、Omni3D Bench 和 MindCube 这四个基准上的性能都出现了一定程度的增长。体现了使用几何问题作为代理任务这空间智能上的 zero-shot 泛化能力。



为了进一步确保模型的性能提升来自于可以明确归因于几何任务作为空间智能的有效代理任务,而非 GRPO 算法或数据量增加的影响。本文进行了一项因果消融研究。

具体而言,本文在非几何的空间智能数据集 Clevr-CoGenT 上随机采样了一个与 Euclid30K 大小相等的样本,并使用完全相同的 GRPO 设置来训练 Qwen2.5VL 和 RoboBrain2.0。结果表明,在 Euclid30K 上训练的模型相比在同等大小的 Clevr-CoGenT 数据集上微调的模型,整体准确率显著更高。



[1] Students' reasoning with logical mathematical and visual spatial intelligence in geometry problem solving,International Joint Conference on Science and Engineering 2020

[2] The effects of geometrical-mechanical intelligence games on the spatial abilities,International Online Journal of Primary Education 2020

[3] The relationship between spatial reasoning and geometric reasoning in teachers,Eurasia Journal of Mathematics, Science and Technology Education 2025

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
认知颠覆,美国移民被合法吃绝户,十年时间,全美移民资产跌9成

认知颠覆,美国移民被合法吃绝户,十年时间,全美移民资产跌9成

孤单是寂寞的毒
2026-01-30 20:19:03
深圳长城开发科技股份有限公司原党委书记陈朱江接受审查调查

深圳长城开发科技股份有限公司原党委书记陈朱江接受审查调查

界面新闻
2026-02-02 16:02:00
年底大扫除,我2小时搞定!这9个清洁妙招,妈看了都会夸

年底大扫除,我2小时搞定!这9个清洁妙招,妈看了都会夸

Home范
2026-02-01 16:15:03
2026年养老金22连涨成定局!40年工龄、5000元每月,能涨多少钱?

2026年养老金22连涨成定局!40年工龄、5000元每月,能涨多少钱?

猫叔东山再起
2026-02-02 11:00:09
美司法部公布爱泼斯坦案新照 两只鸡中间被涂黑

美司法部公布爱泼斯坦案新照 两只鸡中间被涂黑

看看新闻Knews
2026-02-01 18:31:09
奖金缩水,阿尔卡拉斯夺冠后将缴纳134.9万澳元税款

奖金缩水,阿尔卡拉斯夺冠后将缴纳134.9万澳元税款

懂球帝
2026-02-02 14:18:30
资深音乐人袁惟仁病逝!生前因脑溢血卧病在床8年,老狼发文悼念

资深音乐人袁惟仁病逝!生前因脑溢血卧病在床8年,老狼发文悼念

萌神木木
2026-02-02 17:45:39
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
黄金、白银价格跳水后反弹!

黄金、白银价格跳水后反弹!

闪电新闻
2026-02-02 09:21:47
继续开抢!美媒更新交易市场TOP12大鱼:字母哥夺魁浓眉哥屈居第6

继续开抢!美媒更新交易市场TOP12大鱼:字母哥夺魁浓眉哥屈居第6

锅子篮球
2026-02-02 20:58:56
恭喜!她怀二胎了!

恭喜!她怀二胎了!

奋斗在韩国
2026-02-02 19:31:44
20元烟花因燃出200元的效果走红,江西一女子称其为“报恩烟花”,厂家:去年卖出200多万个

20元烟花因燃出200元的效果走红,江西一女子称其为“报恩烟花”,厂家:去年卖出200多万个

极目新闻
2026-02-02 16:14:30
官方:浙江德比中稠州球迷使用不文明口号,扣除稠州纪律分1.25分

官方:浙江德比中稠州球迷使用不文明口号,扣除稠州纪律分1.25分

懂球帝
2026-02-02 21:16:08
烤匠上海首店开业排队近4000桌最长等位13小时

烤匠上海首店开业排队近4000桌最长等位13小时

界面新闻
2026-02-02 10:17:03
留学一年嘴都变大了?女留学生“面相变化图”走红

留学一年嘴都变大了?女留学生“面相变化图”走红

没有偏旁的常庆
2026-02-02 06:10:03
你什么状元我什么状元!文班和班凯罗今日一战根本不在一个级别!

你什么状元我什么状元!文班和班凯罗今日一战根本不在一个级别!

田先生篮球
2026-02-02 14:56:46
癌症去世的人越来越多?医生反复叮嘱:宁可打打牌,也别做这5事

癌症去世的人越来越多?医生反复叮嘱:宁可打打牌,也别做这5事

医学原创故事会
2026-01-25 22:54:04
富士通杯决赛,聂卫平并非贬低马晓春,小林光一也认为自己优势

富士通杯决赛,聂卫平并非贬低马晓春,小林光一也认为自己优势

月满大江流
2026-02-02 19:00:36
韩国股市大跌触发熔断机制

韩国股市大跌触发熔断机制

第一财经资讯
2026-02-02 15:09:30
老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

老外看不下去了!吐槽国产手机抄袭iPhone:为了像苹果 3个摄像头里有1个是假的

快科技
2026-02-01 11:55:44
2026-02-02 21:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12238文章数 142562关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

媒体:巴拿马要付出沉重代价 香港长和也该彻底清醒了

头条要闻

媒体:巴拿马要付出沉重代价 香港长和也该彻底清醒了

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

57岁音乐人袁惟仁去世,家属发文悼念

财经要闻

金银暴跌 全球股市遭遇“黑色星期一”

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

手机
本地
家居
公开课
军事航空

手机要闻

4个安卓不敌1个苹果!iPhone均价破7千,国产高端为何追不上?

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

现代几何彩拼 智焕童梦居

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版