3D-R1重塑三维视觉语言推理！让三维交互更智能|深度思考模型

3D-R1重塑三维视觉语言推理！让三维交互更智能

2025-08-03 21:21:02　来源: 带你学AI

广东举报

分享至

近年来，视觉-语言模型（VLMs）在2D图像理解方面取得了巨大突破，也让人们开始关注模型在3D场景中的应用潜力。不过，现有的3D视觉语言模型在面对复杂场景时仍显不足，主要问题在于缺乏高质量的空间数据，以及模型通常假设视角是静态的、不可变化的。为了解决这些问题，上海大学团队提出了一个全新的基础模型3D-R1，专为提升三维理解中的推理能力而设计。（链接在文章底部）

在技术实现上，3D-R1依赖一个全新构建的合成数据集，名为“Scene-30K”，并采用了“链式思维”（CoT）策略。这个数据集由现有的3D数据和强大的 Gemini 2.5 Pro 引擎共同生成，帮助模型在初期就学会“如何思考”。此外，研究团队还借助类似 GRPO 的强化学习方法（RLHF），通过三个“奖励机制”—感知奖励、语义相似度奖励和格式奖励，不断提升模型的推理精准度和理解能力。为了更好地看清复杂场景，模型还会主动选择最有信息量的观察角度，这就是所谓的动态视角选择策略。

01 技术原理

3D-R1 模型基于 Qwen2.5-VL-7B-Instruct 构建，并使用高质量的合成数据集 Scene-30K 进行训练。该模型能够接收文本、多视角图像、三维点云和深度图作为输入，并将复杂的三维任务表述为自回归序列预测问题。

数据集构建：场景的点云首先被送入场景描述生成器，以生成该场景的文字描述。随后，基于该描述，利用Gemini-Pro合成链式思维（CoT）数据。

3D-R1 是一个通用型模型，具备处理多种下游任务和应用的能力，并且能够零样本（zero-shot）执行任务，展现出卓越的泛化能力，从而大大减少了对昂贵模型适配的需求。通过高质量数据驱动与强化学习策略优化，3D-R1 在场景理解方面系统性地优于传统的 3D 视觉语言模型（3D-VLMs）。

3D-R1 展现出强大的多任务三维理解能力，在多个主流基准任务上均实现了领先表现。它能够在零样本条件下处理包括三维场景密集描述、物体描述、问答、可视化指代、推理、对话与规划等任务。

虽然3D-R1已经在多个三维任务中展现了明显的性能提升，但也还有进步空间。比如，Scene-30K 虽然质量很高，但毕竟是合成数据，可能无法完全代表真实世界中的复杂推理过程；其次，模型目前只在“回答阶段”进行优化，缺乏“过程中的反馈”，这对处理持续性任务会有些困难；此外，它所用的视角选择策略是为静态场景设计的，在实际的互动环境中可能不够灵活。未来的工作也将围绕这些限制展开，进一步增强模型的适应性和泛化能力。

https://github.com/AIGeeksGroup/3D-R1
https://arxiv.org/pdf/2507.23478

欢迎交流～，带你学习AI，了解AI

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.