网易首页 > 网易号 > 正文 申请入驻

清华团队开源DISCOVERSE框架:用3D高斯渲染打通机器人仿真到现实

0
分享至

当前端到端机器人学习目前受制于三个突出问题:仿真环境还原真实场景的能力不足,造成“仿真到现实(Sim2Real)”迁移时性能打折;场景资产获取和系统配置投入高,技术难以铺开应用;训练数据收集耗时久,拖慢了整个学习进程。这其中,Sim2Real迁移性能下降是最核心的障碍。

追根溯源,问题出在现有仿真环境与真实世界的本质差异上——物体的外观质感、光线的照射效果、空间的几何结构,这些关键维度的偏差,让机器人在虚拟环境里练熟的操作策略,到了真实场景中就“水土不服”,无法灵活应对实际情况。



为解决这个问题,研究人员开发过不少仿真框架,但都存在明显短板。目前还没有一套框架能同时满足三个要求:视觉上高度还原真实、物理交互精准无误、支持高效并行扩展。具体来说,有的框架能做出视觉精美的虚拟场景,却保证不了物理层面和现实一致;有的框架动力学模拟很准,外观逼真度又跟不上,没法支撑机器人的视觉学习需求。



DISCOVERSE 整合了真实世界捕捉数据、3D AIGC 以及任何现有的 3D 资源,支持 3DGS (.ply)、网格 (.obj/.stl) 和 MJCF 物理模型 (.xml) 格式,使其能够用作交互式场景节点(物体和机器人)或背景节点。

在此研究背景下,清华大学联合浙江大学、华中科技大学等机构推出的 DISCOVERSE 开源仿真框架,首次把3D Gaussian Splatting(3DGS)渲染器、MuJoCo物理引擎和控制接口整合到统一架构里,形成了一套可扩展、模块化的开源Real2Sim2Real机器人学习框架。

▍为什么Sim2Real鸿沟这么难跨?

要理解DISCOVERSE的价值,得先搞清楚传统机器人仿真的“三大痛点”。现在主流的机器人学习大多靠“端到端训练”,也就是让机器人从传感器数据里直接学策略,这就对仿真器的“真实性”和“效率”提出了极高要求。但过去的方案,始终没把这两件事做好。

首先是视觉保真度太差。传统仿真器里的场景,要么是用手工画的纹理贴图,要么是简化的光照效果,比如把物体表面都当成“均匀反光”的理想状态。可真实世界里,桌子可能有木纹反光,杯子可能有金属光泽,灯光角度不同还会产生复杂阴影——这些细节的缺失,会让机器人在仿真里“看惯了假场景”,到真实环境里就“认不出东西”。

其次是几何重建有缺陷。有些方案尝试用多视图立体匹配(MVS)或RGB-D融合技术,把真实场景扫成3D模型放进仿真,但这类技术最怕两种情况:一是非朗伯表面(比如镜子、金属),二是精细结构(比如电线、薄纸片),一遇到这些就会出现“表面塌陷”,扫出来的模型要么模糊要么缺块,根本没法用。

最后是兼容性和效率不可兼得。像Omniverse Issac Lab这种高性能仿真器,虽然能实时渲染高质量画面,但配置过程极其复杂,而且不支持真实场景扫描的资产;而支持真实资产的方案,又大多渲染速度慢,跑一次训练要等好几天,根本没法大规模用。


DISCOVERSE与其他端到端机器人学习支持型仿真器的对比


之前也有团队尝试用3D高斯 splatting做仿真,比如SplatSim,但这些方案要么没法恢复精确的几何结构,要么在复杂场景里容易出错,比如处理野外场景或无纹理物体时就“歇菜”,始终成不了通用工具。

▍DISCOVERSE的破局思路:把“真实”搬进仿真

DISCOVERSE的核心想法很直接:既然仿真和现实有差距,那就在“从真实到仿真”(Real2Sim)这个环节下功夫,让仿真环境不仅“看起来像”,更“用起来像”真实世界。团队用了三层创新,搭建起一套完整的解决方案。


第一层:超写实Real2Sim流水线,连光影都和现实一样

要让仿真“复刻”现实,首先得把真实场景和物体“数字化”得足够精细。DISCOVERSE设计了一套分层级的Real2Sim流水线,分别处理“场景背景”和“交互物体”,避免了传统方案“一刀切”的粗糙。



DISCOVERSE 系统的操作流程:团队采用基于图像块的快速稀疏体绘制技术,实现高保真度的神经渲染,同时集成MuJoCo物理仿真器,以支持各类机器人相关功能。

对于场景级背景,比如整个房间,团队用了“激光扫描+3D高斯 splatting”的组合拳。传统3D高斯重建只靠相机照片,容易出现模糊或“漂浮”的伪影,而DISCOVERSE加入了激光扫描的几何数据做约束,相当于给重建加了“校准尺”,让场景的墙壁、地板这些大结构更精准。同时,为了模拟真实的光照,团队用了DiffusionLight模型——只要给一张场景照片,就能生成HDR环境图,不仅能还原阳光、灯光的强度,还能模拟不同时间的光影变化,比如下午的斜射光和晚上的暖光,让仿真里的物体影子和真实世界完全对应。



DISCOVERSE 虚实生成流水线:我们将三维高斯球面(3DGS)用作通用视觉表征,同时集成激光扫描、最先进的生成式模型以及基于物理的重新打光技术,以此提升重建辐射场的几何精度与外观保真度。

对于交互物体,比如要抓取的杯子、奇异果,团队则根据物体特性“对症下药”。如果是表面均匀反光的物体(比如塑料杯),就用Artec Leo激光扫描仪,把物体放在转台上多角度扫描,连纹理的细小划痕都能扫出来;如果是金属这种非朗伯表面,或者像电线这种精细结构,就用3D生成模型CLAY——只要给一张物体照片,CLAY就能生成高质量的3D网格,解决了扫描技术“扫不了”的难题。

最关键的是,团队还解决了“资产格式不兼容”的问题。传统仿真用的是网格模型(.obj/.stl),而3D高斯用的是.ply格式,两者没法直接互通。DISCOVERSE设计了一套“Mesh-Gaussian转换”技术:把网格转成3D高斯时,每个网格面对应一个高斯点,高斯的位置和大小都根据网格几何计算,还加入了深度和透明度约束,确保转换后既保留物理交互所需的精度,又能发挥3D高斯的渲染优势;如果需要把3D高斯转成网格,就先渲染多视角深度图,再用TSDF融合技术生成网格,完美打通了两种格式的壁垒。

这套流水线下来,仿真环境里的场景和物体,从几何结构到光影效果,都和真实世界高度一致。比如仿真里的笔记本电脑,不仅外壳的纹理和真实的一样,打开盖子时的光影变化,甚至键盘缝隙的阴影,都和现实毫无差别——这就从源头减少了机器人“认不出”或“用不惯”的问题。

第二层:三大引擎无缝整合,速度比主流方案快3倍

光有真实感还不够,仿真速度慢了也没法用——大规模机器人训练需要成千上万次试错,要是渲染一帧要等几秒,训练一次可能要几个月。DISCOVERSE在速度上做了关键优化,把“渲染、物理、机器人接口”三大引擎无缝整合,实现了“保真度不降,速度翻倍”。

在渲染引擎上,DISCOVERSE用了3D高斯 splatting的“瓦片式光栅化”技术,还做了CUDA优化。简单说,就是把画面分成小块并行渲染,再通过GPU加速,让渲染速度大幅提升。

团队测试过,在搭载Intel Xeon CPU和NVIDIA 6000 Ada GPU的台式机上,5个摄像头同时输出RGB-D帧(640×480分辨率),能达到650 FPS——这是什么概念?比同类主流方案Issac Lab(ORBIT)快了3倍,甚至在笔记本电脑上(AMD R7-5800H CPU + RTX 3060 GPU),也能跑到240 FPS,完全满足大规模并行训练的需求。

物理引擎方面,团队没有从头造轮子,而是集成了开源的MuJoCo引擎。MuJoCo在机器人领域口碑很好,能精准模拟物体的接触、摩擦、软约束等物理效应,比如机器人抓取奇异果时,既能模拟果皮的轻微变形,又能准确计算需要的握力,不会出现“一抓就碎”或“抓不住”的情况。同时,DISCOVERSE还支持力控、PD控制等多种机器人控制模式,不管是机械臂的关节运动,还是无人机的飞行姿态,都能和真实机器人的物理特性对齐。

为了让仿真和真实机器人“无缝衔接”,DISCOVERSE还原生支持ROS2(机器人操作系统2)。ROS2是行业通用的机器人开发框架,DISCOVERSE为它提供了全套API,比如可以直接控制机器人的关节角度,或者在笛卡尔坐标系下设定末端执行器的位置——这意味着,在仿真里调好的控制逻辑,不用改代码就能直接用到真实机器人上,大大降低了部署成本。

第三层:全生态兼容,不用再为“适配”头疼

很多仿真器之所以用起来麻烦,是因为“兼容性差”——换个机器人模型要改代码,换个传感器要重新配置,收集的数据还没法直接用在其他算法上。DISCOVERSE则把“兼容性”做到了极致,覆盖了机器人学习的全流程需求。

在资产兼容上,它支持几乎所有主流格式:3D高斯的.ply文件、网格模型的.obj/.stl文件、物理仿真用的MJCF(.xml)文件,甚至还能直接对接ShapeNet、PartNet、Objaverse这些公共3D数据集。不管是自己扫描的真实物体,还是网上下载的模型,都能直接放进仿真里用,不用再做格式转换。

机器人模型方面,DISCOVERSE支持的种类非常多:从单机械臂(比如AIRBOT Play),到双臂人形移动操作器(AIRBOT MMK2),再到轮式移动机器人和无人机,甚至还能自己用URDF格式组装机器人——比如给机械臂加个新的夹具,只要写好URDF文件,就能在仿真里直接测试效果。

传感器支持也很全面。渲染类传感器里,除了常见的RGB相机、深度相机,还有LiDAR(激光雷达),团队还专门做了BVH加速,让LiDAR仿真能跑到100 FPS以上;物理类传感器则包括力反馈传感器、IMU(惯性测量单元)、触觉传感器,比如集成了Tacchi光学触觉传感器,能模拟机器人抓取物体时的触觉反馈,比如区分抓取的是硬塑料还是软布料。

在算法兼容上,DISCOVERSE支持ACT、Diffusion Policy等主流模仿学习算法,还内置了数据增强工具,比如随机视频叠加、HSV空间调整、gamma校正,甚至能用GPT-4V生成文本提示,结合ControlNet做更灵活的数据增强——这意味着,研究人员不用再为“算法适配仿真器”花时间,能直接专注于算法本身的优化。

▍实测数据:零样本迁移成功率碾压同类方案

团队在三个真实世界的操作任务上做了测试,对比了DISCOVERSE和MuJoCo、RoboTwin、SplatSim这三款主流仿真器的表现,结果可以用“碾压”来形容。

测试的三个任务都是机器人操作里的经典场景:合笔记本电脑(Close-Laptop)、把鼠标推到鼠标垫上(Push-Mouse)、捡奇异果(Pick-Up-Kiwifruit)——这三个任务都有“接触密集”的特点,对物理交互精度和视觉识别要求很高,正好能检验Sim2Real的效果。

团队采用了两种主流的模仿学习算法:ACT和Diffusion Policy。对于每个任务,在每个仿真器里都生成100条(ACT)或2000条(Diffusion Policy)演示数据,然后在真实的AIRBOT Play机械臂上测试零样本迁移的成功率,每个任务跑50次取平均值。


基于DISCOVERSE 及其他仿真器训练的 ACT模型零样本虚实迁移成功率


先看无数据增强的情况。用ACT算法时,DISCOVERSE的平均成功率是55%,而第二名SplatSim只有44%,领先了11个百分点;用Diffusion Policy时,DISCOVERSE平均56%,同样比SplatSim的45.3%高11个百分点。要知道,SplatSim也是基于3D高斯的仿真器,DISCOVERSE能领先这么多,关键就在于它的几何精度和光照模拟更接近真实。



基于 DISCOVERSE 及其他仿真器训练的扩散策略模型零样本虚实迁移成功率


加入图像增强后,DISCOVERSE的优势更明显。用ACT时,它的平均成功率飙升到86.5%,比SplatSim的68%高了18.5个百分点;用Diffusion Policy时,DISCOVERSE是86%,SplatSim是74.6%,领先11.4个百分点。尤其是“捡奇异果”这个难度最高的任务——奇异果表面有绒毛,颜色不均匀,还容易被捏坏,传统仿真器很难模拟。DISCOVERSE在无增强时成功率48%,是SplatSim(26%)的1.8倍;增强后更是达到76%,几乎能和真实世界演示(Real2Real,100%)媲美。

除了成功率,DISCOVERSE在数据收集效率上也有巨大优势。收集100条演示数据,真实世界里需要一个人手动操作机械臂,花146分钟才能完成;而在DISCOVERSE里,使用运动规划器和游戏手柄自动生成,只要1.5分钟——效率提升了100倍。这意味着,以前要几天才能收集完的训练数据,现在1小时就能搞定,大大加快了算法迭代速度。

▍结语与未来

DISCOVERSE的能力远不止“机械臂操作”,它是一个通用的机器人仿真框架,能支持多种复杂任务。目前研究人员已在机器人、无人机、无人驾驶传感器等异构机器人本体上进行验证测试。

此外DISCOVERSE已在官网上放出了代码和演示视频,还提供了完整的Python API,提供给个人开发者和企业。或许用不了多久,我们就能看到:在DISCOVERSE里训练好的机器人,进入真实场景就能干活,不用反复调试,不用大量实机数据,真正实现“仿真即现实”。对于机器人行业来说,这无疑是一个重要的里程碑。

论文链接:https://www.arxiv.org/pdf/2507.21981

项目地址:https://air-discoverse.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谁能想到她已经62了,说18都有人信,怎么做到这么好的状态的

谁能想到她已经62了,说18都有人信,怎么做到这么好的状态的

白宸侃片
2026-02-11 11:56:19
日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

日本羽毛球界再次诞生超级美少女,韩媒疯狂报道

随波荡漾的漂流瓶
2026-01-22 12:00:14
这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

这算不算是顶级阳谋?修建厦金大桥台当局不同意,我们是照修不误

百态人间
2026-01-29 16:04:26
林孝埈全程垫底,网友叹英雄迟暮!赛后本人回应,2次提到了中国

林孝埈全程垫底,网友叹英雄迟暮!赛后本人回应,2次提到了中国

十点街球体育
2026-02-13 14:55:03
女子吃烤全羊尾部发现大量便便

女子吃烤全羊尾部发现大量便便

观威海
2026-02-13 09:58:03
一家三口驾车回家过年,凌晨高速撞上横穿的野猪,野猪被撞后逃离现场,当事人:车损严重,猪毛还卡在车轮

一家三口驾车回家过年,凌晨高速撞上横穿的野猪,野猪被撞后逃离现场,当事人:车损严重,猪毛还卡在车轮

潇湘晨报
2026-02-13 12:31:40
刘少昂半决赛两次被影响却未有任何判罚!中国网友:谁来心疼他

刘少昂半决赛两次被影响却未有任何判罚!中国网友:谁来心疼他

Emily说个球
2026-02-13 04:35:22
这只拉布拉多从小到大一直坚持陪主人蹲坑,可是后来它却不得不放弃了...

这只拉布拉多从小到大一直坚持陪主人蹲坑,可是后来它却不得不放弃了...

爱宠物
2026-02-13 22:21:50
丧心病狂!泽连斯基下令,60岁老人将被征兵,乌克兰没人可用了?

丧心病狂!泽连斯基下令,60岁老人将被征兵,乌克兰没人可用了?

音乐时光的娱乐
2026-02-14 04:04:42
余承东没吹牛!1月尊界S800销量超越迈巴赫+7系总和

余承东没吹牛!1月尊界S800销量超越迈巴赫+7系总和

泡泡网
2026-02-13 13:55:09
中戏,又炸雷了

中戏,又炸雷了

梳子姐
2026-02-13 16:44:09
西方三毒渗透:法律、金融、经济学!悄无声息的民族收割战!

西方三毒渗透:法律、金融、经济学!悄无声息的民族收割战!

达文西看世界
2026-02-13 13:53:53
小鹏真把“大湾区揽胜”造出来了!官方:6座全是C位

小鹏真把“大湾区揽胜”造出来了!官方:6座全是C位

网上车市
2026-02-12 10:16:03
国投瑞银白银基金暴跌:亏损管理费7600万,有基金经理管13个产品

国投瑞银白银基金暴跌:亏损管理费7600万,有基金经理管13个产品

子弹财经
2026-02-13 23:51:08
在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

小马达情感故事
2026-02-10 11:50:09
除夕,牢记:一不关,二不空,三不说,四要做,马年越过越红火

除夕,牢记:一不关,二不空,三不说,四要做,马年越过越红火

凝妈悟语柠橙妈妈
2026-02-13 14:49:32
中国电信与中国联通合体!

中国电信与中国联通合体!

通信头条
2026-02-11 21:08:13
特斯拉Model Y提车不到5小时被狗“吓坏”!车主:修车花了1.7万

特斯拉Model Y提车不到5小时被狗“吓坏”!车主:修车花了1.7万

快科技
2026-02-13 20:50:05
理想CEO李想设宴答谢电信英雄小哥!赠55.98万L9免费换车卡,堪称“最高礼遇”!

理想CEO李想设宴答谢电信英雄小哥!赠55.98万L9免费换车卡,堪称“最高礼遇”!

运营商段子手
2026-02-14 00:07:52
大跳水!现货黄金一度跌破4900美元关口

大跳水!现货黄金一度跌破4900美元关口

每日经济新闻
2026-02-13 07:54:12
2026-02-14 06:19:00
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
6264文章数 4576关注度
往期回顾 全部

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

旅游
本地
游戏
亲子
公开课

旅游要闻

土耳其自驾行记(八)地中海边的慢时光——卡什小镇

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

癫疯之坐!今年年夜饭批准坐在黄金马桶上吃

亲子要闻

爸爸带的孩子是什么样的?妈妈看完沉默了,网友:活着就好!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版