网易首页 > 网易号 > 正文 申请入驻

0.4秒完成4D自驾高斯重建,清华AIR联合小米EV提出动态驾驶场景重建新范式

0
分享至

清华大学智能产业研究院(AIR)青年教师赵昊课题组联合小米汽车等单位,推出了首个面向大型动态驾驶场景的无姿态(pose-free) 前馈三维重建框架——DGGT(Driving Gaussian Grounded Transformer)。该方法摆脱了传统依赖逐场景优化、相机标定以及短帧窗口的限制,能够直接从稀疏、无标定图像中重建长序列三维场景,使自动驾驶仿真迈向高速、可扩展的新阶段。


论文标题: DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images 论文链接: https://arxiv.org/abs/2512.03004 代码链接: https://github.com/xiaomi-research/dggt 项目主页: https://xiaomi-research.github.io/dggt/

DGGT 只需未标定的稀疏图像,单次前向即可同时输出相机位姿、深度、动态实例与基于 3D Gaussian 的可编辑场景表示。模型在 Waymo 上训练,却能在 nuScenes 与 Argoverse2 上实现强劲的零样本泛化——在关键感知指标上相比STORM提升超过 50%。此外,系统通过lifespan head建模场景随时间的外观演变,并配合单步扩散精修,有效抑制运动插值伪影,提升时空一致性与渲染自然度。


图1.左:从未标定稀疏图像在0.4 s内重建动态场景,并输出相机姿态、深度、动态图、3D Gaussian追踪等可编辑资产;右:在速度与精度上相较前向/优化方法处于更优位置 一、亮点速览

  • 无需外参(Pose-Free): 将相机位姿从输入转为模型输出,端到端预测内外参并融入场景表示,打破跨数据集部署的校准壁垒。

  • Feed-forward 4D表示: 采用多头联合预测结构(相机、4D Gaussian、lifespan、动态/运动、天空等),一次前向即可得到时空一致的可编辑表示。

  • 跨数据集零样本泛化: 仅在 Waymo 训练,无需在目标数据集上微调即可在 nuScenes 与 Argoverse2 上获得优于SOTA的定量与定性结果(LPIPS 降幅 52%–61%)。

  • 可编辑性强: 支持直接在 Gaussian 层面添加/删除/移动车辆、行人等实例,扩散精修自动补洞,输出可用于仿真与数据合成。

  • 速度与质量兼顾:在Waymo上20 帧/视角,单场景约 0.39 s;PSNR 27.41 / SSIM 0.846,与优化类方法相比显著加速,与前向方法相比更高保真。

二、DGGT详解

DGGT 的核心思想是:一次前向就预测出“完整的4D场景状态”,并把相机位姿从前提变成结果。这使得系统无需外参标定即可从稀疏、未标定图像里恢复动态场景,而且能自然跨数据集部署。图1展示了DGGT 的整体能力与速度-精度位置:在0.4 秒量级完成重建的同时,DGGT 在重建质量上超越一系列前向与优化方法,并将相机姿态、深度、动态分割、3D Gaussian、追踪等输出一并给出,便于后续实例级场景编辑


图2.DGGT 框架结构图 ViT 编码融合DINO先验,联合相机/高斯/寿命/动态/运动/天空六个预测头;渲染后接单步扩散精修,一次前向完成时空一致重建。

系统结构上(图2),DGGT 采用 ViT 编码器融合 DINO 先验,通过交替注意力得到共享特征,再由多个预测头并行输出:

(1)相机头估计各帧内外参;

(2)Gaussian 头给出逐像素 Gaussian 参数(颜色/位置/旋转/尺度/不透明度);

(3)lifespan 头用寿命参数调制时间维度可见性,精确刻画静态区域在不同时间的外观变化;

(4)动态头+运动头显式估计动态区域与 3D 运动轨迹,支持任意时间点的运动插值;

(5)天空头稳定建模远景背景。渲染后,再通过单步扩散精修抑制遮挡/插值产生的伪影与细节缺失。


表1. Waymo定量结果 DGGT无需相机位姿输入的同时,对场景中动静态进行判断,在Waymo数据集上获得更高PSNR/SSIM与更低深度误差,单场景推理仅约0.4s


表2. 其他消融实验和指标测试 扩散模型虽然在性能上提升较小,但是生成的结果视觉效果更好,更适配于下游任务;同时DGGT在Waymo上EPE3D达0.183 m

在Waymo数据集上的定性与定量评估(见表1)表明:以往的前馈式静态重建方法(如 MVSplat、NoPoSplat、DepthSplat)在存在大范围运动目标的场景中难以维持时间一致性,且会产生明显的错配与伪影;而STORM虽然通过前馈式建模缓解了对逐场景优化的依赖,但在处理更长的时序跨度或更复杂的动态行为时仍可能出现性能退化。

相比之下,DGGT能够在渲染级别上实现对静态与动态成分的有效分离,保持帧间外观与几何的一致性,从而显著提升整体视觉质量与重建稳定性。在定量指标上(表2),DGGT 在场景流估计上的EPE_3D为0.183 m,明显优于多种既有方法,证明了通过渲染监督学得的稠密三维对应具有良好的可靠性与精度。


表3. 零样本跨库泛化 仅用Waymo训练,DGGT在nuScenes/Argoverse2上无需微调即显著优于STORM:LPIPS分别下降 61.4% 与 52.5%

跨数据集的零样本泛化能力是 DGGT 的另一项核心优势。模型仅在Waymo上训练,但在未做任何微调的情况下,在nuScenes与Argoverse2上均取得超越现有SOTA的结果(见表3):如在nuScenes上 LPIPS从0.394 降至0.152(下降 61.4%);在 Argoverse2上从0.326降至 0.155(下降52.5%)。这种跨域鲁棒性主要得益于DGGT 的pose-free 设计:将位姿从输入转为模型输出,减少了对固定拍摄轨迹与相机配置的依赖,从而降低了对特定数据采集设置的过拟合风险,使模型在不同传感器布置与行驶路径下仍能维持良好性能。


表4. 输入视角数消融 当视角数从 4→8→16 增加时,DGGT的重建/NVS指标保持稳定;STORM出现明显下滑,DGGT更适合大规模日志处理

在可扩展性方面,DGGT 能自然支持任意数量的输入视角与长序列。从表4可以看到,当输入视角从 4 → 8 → 16 扩增时,DGGT 的重建与新视角插值(NVS)指标基本不变,而对比方法会明显下滑。这意味着DGGT 不仅适合研究场景,更适合在大规模输入中做工程级预处理与批量重建,视角变多时不需要额外改模型或调参数。


图3. Lifespan head 价值 去除lifespan后PSNR下降3.2 dB,静态区域的光照/反射时间变化难以刻画,时空一致性受损

Lifespan head 的作用在图3中的消融对比非常直接:去掉 lifespan 后,PSNR 从 27.41 降至 24.21,原因在于系统失去了对静态区域在时间维度上的细微变化(如亮度、反射、阴影过渡等)的建模能力。世界坐标静态的地方一旦无法随时间正确更新,就会破坏渲染的时空一致性与真实感,从而显著拉低最终画面质量。


图4. 3D追踪可视化 相邻时刻等色点一一对应,展现可靠的稠密时空关联

Motion head负责把动态像素在时间上对齐(图4):它直接预测像素级的 3D 位移,用于将同一物体在相邻帧中对齐并做插值。也就是说,模型不只是预测静态形状,而是学会了像素到像素的时序对应,从而在生成中间帧或执行编辑时显著减少错配与拖影,保证运动物体在时间上的连续性与视觉自然度。


图5. 实例级编辑:加/删/移动车辆、跨场景插入新车与骑行者 在Gaussian层面对目标进行加、删、平移操作;扩散精修自动补洞与平滑边界,合成结果自然可信,提升可用性与观感。

在场景编辑与扩散精修方面(图5),DGGT 直接在 3D Gaussian 表示层面支持实例级操作——可以对单个高斯体执行“新增/删除/平移/替换”等编辑;随后引入的扩散精修模块会自动填补因遮挡产生的空洞、弱化边缘锯齿并修复纹理缝隙。经过这两步处理,合成结果在几何与外观上都保持高度一致且自然可信。

这意味着 DGGT 不只是“重建器”,更是“可编辑的 4D 场景资产生成器”,非常契合自动驾驶仿真、评测与数据合成等下游需求。

来源:公众号【清华大学智能产业研究院】

llustration From IconScout By IconScout Store

-The End-

本周上新!


扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情



关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
终于知道为啥要抓马杜罗的夫人了!知道她厉害,没想到这么厉害!

终于知道为啥要抓马杜罗的夫人了!知道她厉害,没想到这么厉害!

今日养生之道
2026-01-06 20:07:20
心脏装了6个支架的王石日本看病实录,值得深思

心脏装了6个支架的王石日本看病实录,值得深思

深度报
2026-01-01 23:17:29
回旋镖扎到自己身上才知道疼!网友的经历,爽得我拍案叫绝

回旋镖扎到自己身上才知道疼!网友的经历,爽得我拍案叫绝

阿康四岁啦
2026-01-07 13:22:39
李施嬅最终选择下车,《再见爱人》最终抉择,李施嬅给车崇健机会

李施嬅最终选择下车,《再见爱人》最终抉择,李施嬅给车崇健机会

和海看日出
2026-01-08 14:47:57
55岁女人倾诉:照顾85岁母亲半个月,终于明白为什么哥嫂会不孝了

55岁女人倾诉:照顾85岁母亲半个月,终于明白为什么哥嫂会不孝了

人间百态大全
2026-01-08 06:35:03
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
妮可基嫚宣布离婚!心死断开19年老公 曾砸32万婚姻谘商仍失败

妮可基嫚宣布离婚!心死断开19年老公 曾砸32万婚姻谘商仍失败

ETtoday星光云
2026-01-07 12:18:04
为什么现在的孩子学数学感觉比以前更难了?

为什么现在的孩子学数学感觉比以前更难了?

李老师讲最真教育
2026-01-07 21:27:03
俄特种部队嘲讽美军抓马杜罗:这不算什么,我们也能抓泽连斯基

俄特种部队嘲讽美军抓马杜罗:这不算什么,我们也能抓泽连斯基

桂系007
2026-01-06 01:44:56
星链4400颗卫星降轨!堵死中国航天,480公里轨道争夺战已打响?

星链4400颗卫星降轨!堵死中国航天,480公里轨道争夺战已打响?

Thurman在昆明
2026-01-06 12:58:19
“特朗普盯的还是中国,但人家有招”

“特朗普盯的还是中国,但人家有招”

观察者网
2026-01-08 08:48:30
亨廷顿《文明的冲突》:十大预言已逐一兑现!

亨廷顿《文明的冲突》:十大预言已逐一兑现!

尚曦读史
2025-12-08 10:32:06
细思恐极!老板曝司晓迪事件来龙去脉,她曾暗示鹿晗关晓彤有娃!

细思恐极!老板曝司晓迪事件来龙去脉,她曾暗示鹿晗关晓彤有娃!

古希腊掌管月桂的神
2026-01-08 10:51:38
西方战略专家:“中国是全世界,唯一强得悄无声息的超级大国”

西方战略专家:“中国是全世界,唯一强得悄无声息的超级大国”

安珈使者啊
2026-01-08 12:09:14
超模卡门:77岁被骗光积蓄,83岁仍有性生活,91岁双腿依旧迷人

超模卡门:77岁被骗光积蓄,83岁仍有性生活,91岁双腿依旧迷人

丰谭笔录
2025-12-11 11:41:19
28岁新娘长相引热议,新郎不忍直视全程闭眼,网友:宁愿单身5年

28岁新娘长相引热议,新郎不忍直视全程闭眼,网友:宁愿单身5年

观察鉴娱
2026-01-07 09:17:05
85花人气"大洗牌",3人上桌,2人下桌,赵丽颖边缘,杨幂令人意外

85花人气"大洗牌",3人上桌,2人下桌,赵丽颖边缘,杨幂令人意外

青史楼兰
2026-01-08 09:07:58
谁能想到,马云对美团王兴的复仇,一等就是整整十年

谁能想到,马云对美团王兴的复仇,一等就是整整十年

流苏晚晴
2025-12-29 18:31:44
俄货轮前往朝鲜被击沉,船上到底装了什么?让普京忍痛吃下哑巴亏

俄货轮前往朝鲜被击沉,船上到底装了什么?让普京忍痛吃下哑巴亏

科普100克克
2026-01-04 01:01:52
刘震云:最蠢的三件事——借钱等人还、做事等提拔、对人好等感恩

刘震云:最蠢的三件事——借钱等人还、做事等提拔、对人好等感恩

清风拂心
2025-12-21 11:39:16
2026-01-08 18:40:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2300文章数 596关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

陈志被押解回国 太子银行进入清算程序贷款人仍需还款

头条要闻

陈志被押解回国 太子银行进入清算程序贷款人仍需还款

体育要闻

约基奇倒下后,一位故人邪魅一笑

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

教育
游戏
时尚
手机
本地

教育要闻

三年级常考题:求“凹”字形图形的周长

“很多士兵会死” 制作人透露《绝地潜兵2》重大更新

蓝色+灰色、红色+棕色,这4组配色怎么搭都好看!

手机要闻

华为Mate 70系列保值焕新服务已进入履约期:可抵扣至少50%

本地新闻

1986-2026,一通电话的时空旅程

无障碍浏览 进入关怀版