网易首页 > 网易号 > 正文 申请入驻

空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间

0
分享至



本文第一作者为刘禹宏,上海交通大学人工智能专业本科四年级学生,相关研究工作于上海人工智能实验室科研实习期间完成。通讯作者为王佳琦、臧宇航,在该研究工作完成期间,均担任上海人工智能实验室研究员。

近年来,视觉大语言模型(LVLM)的空间智能受到了广泛关注,高水平的空间理解能力对于自动驾驶、具身智能等领域发展有着重要意义。然而,当前的LVLM在空间理解方面仍显著落后于人类。

近期,来自上海人工智能实验室、上海交通大学、香港中文大学等机构的研究团队提出了名为Spatial-SSRL (Self-Supervised Reinforcement Learning) 的全新自监督RL范式,无需任何外界标注,旨在提升LVLM空间理解能力。实验证明,该范式在 Qwen2.5-VL(3B&7B) 和最新的 Qwen3-VL(4B) 架构下都成功地提升了模型的空间理解能力,同时保留了原有的通用视觉能力。

目前Spatial-SSRL的Huggingface model&dataset总下载量已经突破1k,欢迎大家下载和使用!



  • 论文链接:

https://arxiv.org/pdf/2510.27606

  • 仓库链接:

https://github.com/InternLM/Spatial-SSRL

  • 模型链接:

https://huggingface.co/internlm/Spatial-SSRL-7B

https://huggingface.co/internlm/Spatial-SSRL-Qwen3VL-4B

  • 数据集链接:

https://huggingface.co/datasets/internlm/Spatial-SSRL-81k



图1. Spatial-SSRL效果示例与性能评测

研究背景

传统的提升LVLM空间理解的方法大多基于监督微调 (SFT) 范式。该方法的训练数据往往包含带思维链(CoT)的答案,需要大量人工标注或闭源模型标注,成本较高,可扩展性低。此外,SFT优化后的模型还容易出现“死记硬背”,泛化性弱的性能局限。

基于可验证奖励的强化学习(RLVR)成为了新的主流训练范式。如图2(a),现有利用RLVR提升空间理解的方法常聚焦于搭建复杂的流程构建训练数据,其中往往依赖已标注好的公开数据集,以及较多外部工具,如专家模型、模拟器等,框架较为繁琐,且使用的外部工具也会引入不小的计算开销和时间成本。

RGB和RGB-D图内部本身包含大量于2D和3D空间信息,可以天然地作为视觉监督信号。因此,研究者们提出自监督RL的新范式,实现低成本高效增强LVLM空间理解能力。



图2. Spatial-SSRL与相关工作框架对比

方法介绍&核心亮点

Spatial-SSRL基于低成本、易采集的RGB、RGB-D图像,构建了五种自监督任务:打乱图块重排序、翻转图块识别、裁剪图块复原、区域深度排序、3D相对位置预测。这五个任务将视觉线索作为监督信号,分别聚焦于感知和理解2D布局、局部物体朝向、3D深度与位置关系等空间信息,互为补充,从多方位全面提升空间理解能力。



图3. Spatial-SSRL方法总览

相较于之前的方法,Spatial-SSRL具备以下核心亮点(如图2(b)):

  • 高度可扩展性:Spatial-SSRL利用常见的RGB和RGB-D原始图像,而不使用任何已标注好的数据集或额外的人工标注,在数据规模上有极强的可扩展性。
  • 成本低廉:整个训练的流程不需要人工标注或调用LVLM的API,数据完全由程序自动化标注,大幅降低了成本。
  • 轻量高效:以往空间理解方法严重依赖外部工具,容易引入训练误差,也会增加时间和计算开销。而Spatial-SSRL具有轻量级框架,可以实现在不修改原有流程的条件下,简便地扩展到更多高效的自监督任务上进行训练。
  • 天然可验证性:视觉自监督任务利用图像固有的结构作为内在监督信号,其正确性接近100%,且可直接得到天然可验证奖励信号,与当前性能较强的RLVR范式高度契合。

随后,研究者们基于上述流程构建了数据集Spatial-SSRL-81k,并在此基础上使用GRPO方法训练,引导模型输出推理过程,提升空间理解能力。

实验结果


为充分验证Spatial-SSRL范式的效果,研究团队选取了Qwen2.5-VL (3B&7B)和Qwen3-VL(4B)两个架构的三个不同参数量的基模型,利用GRPO进行训练,并对训练后的模型进行了空间理解、通用视觉能力等全方位评测,与相应的基模型实施了对比分析。



图4. 训练前后模型在空间理解基准的性能对比(Qwen2.5-VL架构)



图5. 训练前后模型在通用视觉基准的性能对比(Qwen2.5-VL架构)

从图4和图6可以看出,在Qwen2.5-VL和Qwen3-VL两种架构的三个不同参数量下,Spatial-SSRL都对LVLM空间理解能力带来了显著提升,且在所有的7个空间基准(包含图片和视频两类模态)上均表现有所进步。其中,7B的平均水平超越基线模型3.89%,而3B更是达到了4.63%。这展现出了Spatial-SSRL自监督RL范式的有效性和鲁棒性。

另一个很多人可能关心的问题是:空间理解能力虽然提升了,但模型本来的通用能力是否会下降。研究人员进一步评测了训练前后模型的通用视觉能力,在通用视觉问答和OCR与图表理解两大类基准上进行测试,发现模型的通用视觉能力基本保持稳定,平均表现甚至略有提升。这证明了Spatial-SSRL不会导致模型“遗忘”其原有的技能。



图6. 训练前后模型的性能对比(Qwen3-VL架构)

总结

Spatial-SSRL是一种直接从内在图像结构中生成可验证监督的自监督强化学习范式。其核心优势在于可以从常见易大规模低成本采集的 RGB 与 RGB-D 图像直接提取丰富的空间理解自监督信号,且这些信号可通过可验证奖励自然地与强化学习兼容。

在七个空间基准上的全面实验表明,Spatial-SSRL 带来显著空间理解提升,且复杂空间推理基准上增益尤为显著。关键的是,Spatial-SSRL 不仅增强空间能力,还能同时保持原有的细粒度感知和通用视觉理解能力。这说明了简单的内在视觉监督信号可以有效实现大规模RLVR,对于未来提升LVLM空间智能提供了新的思路和方法!

目前该工作代码、模型和数据集均已开源,希望大家多多下载体验!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

刘晓庆外甥否认吃绝户!怒斥刘晓庆造谣,承认有矛盾希望私下解决

萌神木木
2026-03-26 13:31:02
余承东:问界M6 24小时订单突破60000台 展车已到店

余承东:问界M6 24小时订单突破60000台 展车已到店

CNMO科技
2026-03-24 17:14:29
法拉利发布F1日本大奖赛海报,画风帅气但“铃鹿”拼错了

法拉利发布F1日本大奖赛海报,画风帅气但“铃鹿”拼错了

懂球帝
2026-03-26 16:09:08
我在小城市,一个人做电商,半年挣300万

我在小城市,一个人做电商,半年挣300万

南风窗
2026-03-26 10:07:51
记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

记者:利物浦把40万镑周薪给错了人,他们本应该留下阿诺德

懂球帝
2026-03-26 15:47:08
王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

晓肂爱八卦
2026-03-25 14:04:56
东北两省书记省长会见刘强东

东北两省书记省长会见刘强东

观察者网
2026-03-25 21:43:37
郭正亮突现颜面神经失调急就医,观众涌入留言关心:保重身体!

郭正亮突现颜面神经失调急就医,观众涌入留言关心:保重身体!

海峡导报社
2026-03-26 17:05:07
穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

世界体育圈
2026-03-26 13:01:23
教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

教育部宣布中考重大变革,取消 5:5 分流,升学规则将全面调整?

今朝牛马
2026-03-26 20:22:18
再次闹分手!美记:雄鹿和字母哥出现分歧,这是明确分手的信号

再次闹分手!美记:雄鹿和字母哥出现分歧,这是明确分手的信号

爱体育
2026-03-26 23:42:10
为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

为什么有个漂亮老婆还是想要分 网友讲出自身经历真是一言难尽

侃神评故事
2026-03-10 18:50:04
梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

梁安琪没想到,儿子何猷君竟走上霍启刚老路,狠狠为赌王家族长脸

墨印斋
2026-03-25 06:25:05
美股科技股领跌,存储股、中概股集体下挫!小马智行跌15%,闪迪跌6%,美光跌超4%,原油涨超4%|美股开盘

美股科技股领跌,存储股、中概股集体下挫!小马智行跌15%,闪迪跌6%,美光跌超4%,原油涨超4%|美股开盘

每日经济新闻
2026-03-26 22:37:04
“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

今日养生之道
2026-03-23 11:46:39
Manus终于喝下自己藏好的毒

Manus终于喝下自己藏好的毒

蓝媒汇财经plus
2026-03-25 21:27:26
41岁张雪峰去世,成名10年争议不断,遗产曝光早已做好一切安排!

41岁张雪峰去世,成名10年争议不断,遗产曝光早已做好一切安排!

古希腊掌管松饼的神
2026-03-24 22:00:07
张柏芝现身机场接儿子回家,母子见面拥抱好温暖!谢振轩又长高了

张柏芝现身机场接儿子回家,母子见面拥抱好温暖!谢振轩又长高了

娱乐团长
2026-03-26 15:45:18
洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

洗草莓时,有人放食盐,有人放面粉,果农:都不对,教你正确做法

阿龙美食记
2026-02-28 10:49:43
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
2026-03-27 00:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
游戏
家居
艺术
公开课

教育要闻

天天学习|走进课堂的“大朋友”

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版