ICCV 2025 Highlight | Stable-Sim2Real：利用扩散模型模拟真实捕获的三维数据|大模型|真实世界

ICCV 2025 Highlight | Stable-Sim2Real：利用扩散模型模拟真实捕获的三维数据

2025-09-12 08:27:28　来源: 将门创投

北京举报

分享至

近年来，Sim2Real作为连接仿真环境和真实三维世界的主要桥梁，在越来越多的应用（如具身智能，虚拟现实）中扮演着至关重要的角色。在这一背景下，一个基本问题是——如何模拟和仿真真实捕获的三维数据。为了解决这个问题，现有多数方法将预定义的显式物理先验引入到仿真深度传感器中，以模拟真实的深度传感器，但这种方式难以充分捕捉真实世界的复杂性。最优解决方案应通过数据驱动的方式学习从合成数据到真实数据的隐式映射，遗憾的是，这一方案的研究近年来陷入了停滞。

为了重新推动这一研究方向的进展，港中大（深圳）韩晓光团队提出了Stable-Sim2Real，探索了一种数据驱动3D模拟的新路径——Stable-Sim2Real。其基于一种新颖的两阶段深度图扩散模型，采用一阶段稳定生成+二阶段局部增强。实验表明，使用该方法生成的三维模拟数据训练模型，能显著提升在真实世界下三维视觉任务的性能。目前论文和代码已经在项目主页公开，欢迎大家一起探索！

论文标题： Stable-Sim2Real: Exploring Simulation of Real-Captured 3D Data with Two-Stage Depth Diffusion 论文地址： https://arxiv.org/abs/2507.23483 项目代码： https://github.com/GAP-LAB-CUHK-SZ/stable-sim2real 项目主页： https://mutianxu.github.io/stable-sim2real/

图1. Stable-Sim2Real概念图一、背景介绍

近年来，真实世界三维数据集在解决三维视觉与机器人学领域的广泛任务中发挥着至关重要的作用。然而，真实三维数据的采集往往需要耗费大量人力与时间，且近年来日益凸显的数据隐私问题进一步增加了数据收集的复杂性。在此背景下，合成数据（即通过模拟生成的数据）作为一种替代性数据资源应运而生，其具有成本效益高、生成速度快且可规模化生产的优势。尽管如此，基于合成数据训练的模型在真实世界中的表现缺乏鲁棒性。

这一问题催生了三维数据仿真技术的发展，旨在缩小仿真数据与真实采集三维数据之间的差距。尽管已有研究尝试通过引入物理先验知识来模拟深度传感器，但由于依赖预定义的显式物理建模，这些方法难以捕捉真实世界的全部复杂性。更优的解决方案是以数据驱动的方式学习从合成数据到真实数据的隐式映射，从而更好地适应现实世界的多样性。然而，受限于数据的匮乏和早期模型的能力，仅有少数现有工作探索这一路径，相关的进展陷入了停滞状态（图2）。

图 2. 三维数据仿真研究现状

本工作旨在探索数据驱动的三维仿真到真实（Sim2Real）转换方法，并推动学术界重新关注这一关键问题。本工作选用最新的合成-真实配对数据集LASA（图3），该数据集包含10,412个与真实物体扫描数据精确配准的高质量三维形状CAD标注。以LASA数据集为驱动，本工作的研究重点在于设计一种高效的数据驱动三维Sim2Real算法。鉴于真实采集数据模式固有的不确定性和多样性，本工作选用扩散模型进行生成。然而，由于三维数据的匮乏，训练三维扩散模型以获得强三维先验知识用于三维仿真仍存在困难。因此，本工作选择利用二维扩散基础模型（如SD——Stable Diffusion）的强泛化先验来模拟真实二维深度图，继而通过融合生成三维数据。这一策略与真实三维数据采集过程相似，即通过采集二维深度信息并融合成三维数据。

图 3. LASA数据集与Stable-Sim2Real 二、核心挑战与方法

为了实现这一方案，一个直观的baseline方法是从LASA数据集中获取CAD（即合成）深度图及其配对的真实深度图像，然后对Stable Diffusion（SD）模型进行微调，以学习二者之间的隐式映射。然而，本工作面临特殊挑战（图4）：传统图像转换通常通过去除噪声来生成清晰图像，而本工作的任务目标却是输出具有高度不确定性的含噪声深度数据，这使得需要学习的分布规律变得更为复杂。

图4. 核心挑战

图5. Stable-Sim2Real方法流程图

为应对这些挑战，本工作提出Stable-Sim2Real（如图5所示）。在第一阶段扩散过程中，模型并非直接生成对应的真实世界深度图，而是生成真实深度图与CAD深度图之间的残差（即差异值）。随后通过将生成的残差与CAD深度图相加，得到模拟的深度图。与直接生成含噪声的真实深度相比，向本身干净且视角一致的CAD深度添加噪声，能够产生更稳定的深度数据——其视角变化更小，且能更好地保持原始几何结构（详细讨论与概率分析见原文）。

尽管第一阶段生成的深度图中某些区域成功拟合了真实的pattern，但部分局部区域仍存在生成结果与真实采集数据间显著的几何差异。为解决该问题，模型在第二阶段训练了一个三维感知判别器（3D-Aware Discriminator，仅在训练时使用），在局部几何层面区分第一阶段生成结果与真实采集数据，随后通过调整扩散损失函数，对第一阶段生成结果进行局部增强。最终，将生成的深度图融合以得到模拟三维数据。

三、实验与验证

首先，本工作提供了三维数据仿真的直观效果对比，其中Stable-Sim2Real更贴近真实世界扫描的三维数据，并且在out-of-domain (e.g. ShapeNet, ABO, 3D-Future)的合成数据上也展现出了极佳的泛化性（图6，7）。

图6. 使用LASA数据测试三维数据仿真效果对比

图7. 使用ShapeNet数据（out-of-domain generalization）测试三维数据仿真效果对比

此外，针对于下游应用，本工作提出了一套针对三维数据仿真的综合基准测试方案：若使用生成的仿真数据训练模型后能在真实世界中的性能得到提升，则验证了仿真方法的有效性。聚焦于两个基础性真实世界三维任务：三维形状重建与三维物体/场景理解（图8）。

图8. 下游任务验证

对于三维形状重建任务，预训练一个以生成的仿真三维数据为输入、输出干净三维表面的重建网络。对于三维物体/场景理解任务，生成的三维仿真数据被用于预训练自监督点云学习框架。为更纯粹地评估生成的仿真数据带来的性能增益，本工作对预训练网络进行少样本评估，有效剥离其他干扰因素，直接衡量生成的仿真数据对模型性能的提升贡献。

表1. 使用来自不同方法获得的三维仿真数据预训练模型，并用少样本真实数据微调后，在真实三维形状重建任务的数值结果

图9. 使用来自不同方法获得的三维仿真数据预训练模型，并用少样本真实数据微调后，在真实三维形状重建任务的可视化结果

表2. 使用来自不同方法获得的三维仿真数据预训练模型，直接在真实三维形状重建任务中测试的数值结果四、思考与展望

图10. 解决Real2Sim2Real问题的数据闭环

本研究所提出的"clean-to-noisy"的方法，本质上将服务于提升"noisy-to-clean"这一逆问题的求解效果。其背后的主要原因是：训练"noisy-to-clean"模型仍需大规模clean-noisy配对数据。而获取/扩增此类配对数据时，本方法恰好提供了合理的解决方案：通过易于获得的合成数据生成难以采集的真实noisy数据。最终，该方法填补并完善了"clean-noisy-clean"的闭环流程。从更宏观的角度来看，这实则构成了"真实→仿真→真实"（Real2Sim2Real）的完整技术闭环（图10）。更多实验细节请参阅原论文。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信（michelle333_）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.