前两天,李飞飞创业公司World Labs发布空间智能模型新成果,并推出可预览和创建3D世界的Marble平台。并发帖子表示她对3D世界生成的进展感到兴奋。
![]()
那么这背后都有哪些黑科技?今天分享一篇最新3D、4D世界模型技术最新全面系统性综述![]()
2D 视频生成卷到头了,但 真实物理世界天生是 3D+时间维度的 。
自动驾驶、机器人、XR、数字孪生都需要 几何一致、可交互、长时序 的时空场景。
缺乏统一术语 & 碎片化严重 :同样叫“world model”,有人指视频生成,有人指预测器,有人指闭环仿真器。
![]()
图 1:综述整体框架
本综述首次系统梳理 3D/4D 原生表示 (RGB-D、Occupancy Grid、LiDAR Point Cloud)的世界模型,给出明确定义、分层分类法、数据集与评测指标,并开源持续维护。
3D/4D World Model = 在原生三维或四维表示上,生成(Generative)或预测(Predictive)几何合理、语义可控、时空一致的场景, 以支持感知-决策-仿真全链路任务。
![]()
图 2:三模态 × 四功能全景图(来源:论文 Figure 2) |
模态
代表表示
功能角色(4 类)
VideoGen
多视角视频流
① Data Engine ② Action Interpreter ③ Neural Simulator
OccGen
体素 Occupancy
① Scene Representor ② Occ Forecaster ③ Autoregressive Simulator
LiDARGen
点云序列
① Data Engine ② Action Forecaster ③ Autoregressive Simulator
![]()
各模态深度拆解 VideoGen——把视频生成做成“时空编剧”
典型方法时间线(2021-2025)
图 3:VideoGen 代表方法逐年汇总(来源:论文 Figure 3)
Data Engine :MagicDrive、DiVE、DreamForge 等用 BEV/HD-Map 做几何约束,生成多视角长视频,解决长尾数据稀缺。
Action Interpreter :GAIA-1/2、DriveWM、Vista 把“转向+速度”映射到未来帧,实现 动作-结果 可微分仿真。
Neural Simulator :DriveArena、DreamForge 在闭环里交替“生成-决策”,替代传统游戏引擎渲染管线。
关键挑战:长时序一致性(InfinityDrive)、多视角几何对齐(DiST-4D)、稀疏标注下的可控性(MaskGWM)。OccGen——把世界变成“可交互的乐高”
图 5:OccGen 三功能分类(来源:论文 Figure 5) |
Scene Representor :SSD、SemCity 用扩散模型把稀疏 occupancy 补全为稠密语义体素,提升感知鲁棒性。
Occupancy Forecaster :OccWorld、OccSora、T3Former 以 ego-action 为条件,预测未来 3s 的 4D occupancy,误差 < 30 cm。
Autoregressive Simulator :DynamicCity、UniScene 支持“布局→时序体素→多传感数据”一条龙,实现 可编辑的大型开放世界 。
关键挑战:细粒度动态物体(自行车、行人)补全、长时序误差累积、与下游规划器端到端联合训练。LiDARGen——直接“点云编剧”
图 6:LiDARGen 三功能分类(来源:论文 Figure 6)
Data Engine :R2DM、LiDM、WeatherGen 用扩散/流匹配生成逼真点云,解决恶劣天气、稀有场景数据不足。
Action Forecaster :Copilot4D、ViDAR 把“历史点云 + 未来轨迹”映射到未来点云,实现 点云级别的动作推演 。
Autoregressive Simulator :LiDARCrafter、LidarDM 支持 4D 点云序列闭环生成 ,可直接喂给下游检测/规划网络做训练。
关键挑战:保持扫描线结构、处理点云稀疏性、跨模态与图像语义对齐。统一评测体系——不再“各玩各的”
表 14:五类评测指标总表(来源:论文 Table 14) |
Generation Quality :FID/FVD、FRD/FPD、Consistency、Controllability、Human Preference
Forecasting Quality :IoU@1s/2s/3s、Chamfer Distance、Temporal Consistency
Planning-Centric :Open-Loop L2/碰撞率、Closed-Loop PDMS/ADS
Reconstruction Quality :PSNR/SSIM/LPIPS、Novel-View IoU
Downstream :3D Det mAP、BEV 分割 mIoU、VQA Top-1
https://arxiv.org/pdf/2509.07996
3D and 4D World Modeling: A Survey
https://github.com/worldbench/survey
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.