网易首页 > 网易号 > 正文 申请入驻

3D-R1重塑三维视觉语言推理!让三维交互更智能

0
分享至

近年来,视觉-语言模型(VLMs)在2D图像理解方面取得了巨大突破,也让人们开始关注模型在3D场景中的应用潜力。不过,现有的3D视觉语言模型在面对复杂场景时仍显不足,主要问题在于缺乏高质量的空间数据,以及模型通常假设视角是静态的、不可变化的。为了解决这些问题,上海大学团队提出了一个全新的基础模型3D-R1,专为提升三维理解中的推理能力而设计。(链接在文章底部)

在技术实现上,3D-R1依赖一个全新构建的合成数据集,名为“Scene-30K”,并采用了“链式思维”(CoT)策略。 这个数据集由现有的3D数据和强大的 Gemini 2.5 Pro 引擎共同生成,帮助模型在初期就学会“如何思考”。此外,研究团队还借助类似 GRPO 的强化学习方法(RLHF),通过三个“奖励机制”—感知奖励、语义相似度奖励和格式奖励,不断提升模型的推理精准度和理解能力。为了更好地看清复杂场景,模型还会主动选择最有信息量的观察角度,这就是所谓的动态视角选择策略

01 技术原理

3D-R1 模型基于 Qwen2.5-VL-7B-Instruct 构建,并使用高质量的合成数据集 Scene-30K 进行训练。该模型能够接收文本、多视角图像、三维点云和深度图作为输入,并将复杂的三维任务表述为自回归序列预测问题。


数据集构建:场景的点云首先被送入场景描述生成器,以生成该场景的文字描述。随后,基于该描述,利用Gemini-Pro合成链式思维(CoT)数据。

3D-R1 是一个通用型模型,具备处理多种下游任务和应用的能力,并且能够零样本(zero-shot)执行任务,展现出卓越的泛化能力,从而大大减少了对昂贵模型适配的需求。通过高质量数据驱动强化学习策略优化,3D-R1 在场景理解方面系统性地优于传统的 3D 视觉语言模型(3D-VLMs)。

3D-R1 展现出强大的多任务三维理解能力,在多个主流基准任务上均实现了领先表现。它能够在零样本条件下处理包括三维场景密集描述、物体描述、问答、可视化指代、推理、对话与规划等任务。

虽然3D-R1已经在多个三维任务中展现了明显的性能提升,但也还有进步空间。比如,Scene-30K 虽然质量很高,但毕竟是合成数据,可能无法完全代表真实世界中的复杂推理过程;其次,模型目前只在“回答阶段”进行优化,缺乏“过程中的反馈”,这对处理持续性任务会有些困难;此外,它所用的视角选择策略是为静态场景设计的,在实际的互动环境中可能不够灵活。未来的工作也将围绕这些限制展开,进一步增强模型的适应性和泛化能力。

https://github.com/AIGeeksGroup/3D-R1
https://arxiv.org/pdf/2507.23478

欢迎交流~,带你学习AI,了解AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

古书记史
2026-01-06 16:31:56
西伯利亚零下71度如何生活?当地女性直言:最怕解决生理问题

西伯利亚零下71度如何生活?当地女性直言:最怕解决生理问题

芳芳历史烩
2026-01-18 12:17:17
亚洲第一个倒下的国家即将出现,曾比肩中国,如今在走日本的老路

亚洲第一个倒下的国家即将出现,曾比肩中国,如今在走日本的老路

快看张同学
2026-01-18 11:38:30
顶着骂名给中国送技术,年薪超4亿的她,为何敢和美国对着干

顶着骂名给中国送技术,年薪超4亿的她,为何敢和美国对着干

天生是美女
2026-01-16 16:36:59
被伊朗嘲讽后,特朗普放狠话称“是时候在伊朗迎来新的领导层了”

被伊朗嘲讽后,特朗普放狠话称“是时候在伊朗迎来新的领导层了”

山河路口
2026-01-18 13:16:55
贾国龙请来助拳的人,打了贾国龙一拳

贾国龙请来助拳的人,打了贾国龙一拳

不主流讲话
2026-01-17 10:10:06
从“笑柄”到“抱薪者”:李亚鹏的72小时口碑大反转

从“笑柄”到“抱薪者”:李亚鹏的72小时口碑大反转

暖心萌阿菇凉
2026-01-18 18:11:54
10岁男孩被拐14年后,在大排档吃龙虾,突然说道:这是我父亲的味道

10岁男孩被拐14年后,在大排档吃龙虾,突然说道:这是我父亲的味道

源远讲堂
2025-08-12 18:43:43
入麒麟剧社两年就被陶阳拿下,郭德纲双喜临门,官宣儿子结婚时间

入麒麟剧社两年就被陶阳拿下,郭德纲双喜临门,官宣儿子结婚时间

蜜桔娱乐
2026-01-18 12:16:40
吴彦祖稍微倒腾一下,还是一骑绝尘。如果他再植发,还要年轻20岁

吴彦祖稍微倒腾一下,还是一骑绝尘。如果他再植发,还要年轻20岁

付老师种植技术团队
2026-01-04 15:30:22
江苏发生的这件事,终于开始动真格了!

江苏发生的这件事,终于开始动真格了!

胖胖说他不胖
2026-01-18 13:10:29
年轻人已经没什么可失去的了!

年轻人已经没什么可失去的了!

黯泉
2026-01-16 23:27:23
章子怡富豪前男友Vivi现状:光头白胡子像80岁,分手15年依然潇洒

章子怡富豪前男友Vivi现状:光头白胡子像80岁,分手15年依然潇洒

一娱三分地
2026-01-12 19:44:01
那些本子里的大雷女主角,其实都是作者照着自己画的?

那些本子里的大雷女主角,其实都是作者照着自己画的?

游戏动力ATK
2026-01-09 23:18:53
王静逼聂卫平跟孔祥明离婚,7年后聂卫平嫌儿子太笨,埋怨王静

王静逼聂卫平跟孔祥明离婚,7年后聂卫平嫌儿子太笨,埋怨王静

百态人间
2026-01-16 16:02:25
为何一艘美航母上,都要带足大量女兵,她们在航母上有什么作用?

为何一艘美航母上,都要带足大量女兵,她们在航母上有什么作用?

大千世界观
2025-12-19 21:58:37
罗永浩都懵了!西贝风波四个月后贾国龙再开腔,刚攒的体面全砸了

罗永浩都懵了!西贝风波四个月后贾国龙再开腔,刚攒的体面全砸了

寒士之言本尊
2026-01-18 12:19:03
新一代奥迪Q5L卖30.98万起!盘盘优缺点,我推荐购买吗?

新一代奥迪Q5L卖30.98万起!盘盘优缺点,我推荐购买吗?

蜗牛车志V
2026-01-18 18:18:04
我妈给的金手镯,被婆婆拿去“保养”,7天后,首饰店打来电话

我妈给的金手镯,被婆婆拿去“保养”,7天后,首饰店打来电话

如烟若梦
2026-01-18 18:10:03
1983年,李大钊的儿子去祭拜父亲,欣喜发现了埋在地下的一块碑

1983年,李大钊的儿子去祭拜父亲,欣喜发现了埋在地下的一块碑

兴趣知识
2026-01-15 15:38:48
2026-01-18 19:08:49
带你学AI
带你学AI
分享最前沿AI知识,先进的AI工具
379文章数 8关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

马杜罗之子回忆美军突袭:父亲看到我的来电 直接挂断

头条要闻

马杜罗之子回忆美军突袭:父亲看到我的来电 直接挂断

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

香港武打演员梁小龙去世:享年77

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

房产
艺术
亲子
手机
家居

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

艺术要闻

400米!恒基出手,打造香港中环最长的地标!

亲子要闻

如何正确应对孩子观看色情片的情况?

手机要闻

小米17 Pro Max手机3.0.36.0版本截屏体验问题修复

家居要闻

岁月柔情 现代品质轻奢

无障碍浏览 进入关怀版