近年来,视觉-语言模型(VLMs)在2D图像理解方面取得了巨大突破,也让人们开始关注模型在3D场景中的应用潜力。不过,现有的3D视觉语言模型在面对复杂场景时仍显不足,主要问题在于缺乏高质量的空间数据,以及模型通常假设视角是静态的、不可变化的。为了解决这些问题,上海大学团队提出了一个全新的基础模型3D-R1,专为提升三维理解中的推理能力而设计。(链接在文章底部)
在技术实现上,3D-R1依赖一个全新构建的合成数据集,名为“Scene-30K”,并采用了“链式思维”(CoT)策略。 这个数据集由现有的3D数据和强大的 Gemini 2.5 Pro 引擎共同生成,帮助模型在初期就学会“如何思考”。此外,研究团队还借助类似 GRPO 的强化学习方法(RLHF),通过三个“奖励机制”—感知奖励、语义相似度奖励和格式奖励,不断提升模型的推理精准度和理解能力。为了更好地看清复杂场景,模型还会主动选择最有信息量的观察角度,这就是所谓的动态视角选择策略。
01 技术原理
3D-R1 模型基于 Qwen2.5-VL-7B-Instruct 构建,并使用高质量的合成数据集 Scene-30K 进行训练。该模型能够接收文本、多视角图像、三维点云和深度图作为输入,并将复杂的三维任务表述为自回归序列预测问题。
![]()
数据集构建:场景的点云首先被送入场景描述生成器,以生成该场景的文字描述。随后,基于该描述,利用Gemini-Pro合成链式思维(CoT)数据。
3D-R1 是一个通用型模型,具备处理多种下游任务和应用的能力,并且能够零样本(zero-shot)执行任务,展现出卓越的泛化能力,从而大大减少了对昂贵模型适配的需求。通过高质量数据驱动与强化学习策略优化,3D-R1 在场景理解方面系统性地优于传统的 3D 视觉语言模型(3D-VLMs)。
3D-R1 展现出强大的多任务三维理解能力,在多个主流基准任务上均实现了领先表现。它能够在零样本条件下处理包括三维场景密集描述、物体描述、问答、可视化指代、推理、对话与规划等任务。
虽然3D-R1已经在多个三维任务中展现了明显的性能提升,但也还有进步空间。比如,Scene-30K 虽然质量很高,但毕竟是合成数据,可能无法完全代表真实世界中的复杂推理过程;其次,模型目前只在“回答阶段”进行优化,缺乏“过程中的反馈”,这对处理持续性任务会有些困难;此外,它所用的视角选择策略是为静态场景设计的,在实际的互动环境中可能不够灵活。未来的工作也将围绕这些限制展开,进一步增强模型的适应性和泛化能力。
https://github.com/AIGeeksGroup/3D-R1
https://arxiv.org/pdf/2507.23478欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.