网易首页 > 网易号 > 正文 申请入驻

登上NeurIPS,Genesis开创无需OCC引导的多模态生成新范式

0
分享至



由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架Genesis。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。



  • 论文题目:Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency
  • 论文链接:https://arxiv.org/abs/2506.07497
  • Github 链接:xiaomi-research/genesis

Genesis 采用两阶段架构:第一阶段基于透视图投影的布局和场景描述等条件,利用基于 DiT 的扩散模型学习 3D 变分自编码器编码的环视图特征; 第二阶段将第一阶段多视角视频序列转到鸟瞰图的特征空间,并结合场景描述和布局等条件,学习 2D 自编码器编码的点云特征。

为了以结构化语义引导生成过程,本文引入了 DataCrafter (一个基于 VLM 的数据标注模块),可提供场景级与实例级的信息描述。在 nuScenes 基准数据集上的大量实验表明,Genesis 在视频与激光雷达指标上均达到了当前 SOTA 水平。



本文的主要贡献总结如下:

  • 统一的多模态生成架构。Genesis 采用统一的 pipeline,视频和 LiDAR 分支都在共享相同的条件输入,包括场景描述和布局等,这确保了生成的多模态数据的一致性。为进一步保证点云和图像背景的信息一致性,我们将 RGB 透视图转到鸟瞰图视角下的特征下,并把该特征作为条件输入到基于点云扩散模型中,从而加强两种模态的一致性,该过程无需依赖 occupancy 或体素等中间体。
  • 通过 DataCrafter 进行结构化语义信息提取。为了提高语义可控性,本文引入了 DataCrafter,这是一个基于视觉语言模型构建的 caption 数据处理模块。它提取多视图、场景级和实例级描述,这些描述融合到密集的语言引导式先验中。这些 caption 数据为视频和 LiDAR 生成器提供了详细的语义指导,从而产生不仅逼真而且可解释和可控的输出。

引言

在自动驾驶技术向高阶迈进的进程中,构建多样化、高拟真度的驾驶场景数据集,已成为不可或缺的关键环节。合成数据因为其可编辑,易泛化的特点得到了广泛的关注。现有研究虽在视频生成、LiDAR 序列合成领域取得显著进展,但如何实现视觉与几何模态间的深度协同与一致性表达,仍属亟待攻克的前沿课题。

如图 1,当前主流的驾驶场景生成方案,多聚焦于 RGB 视频或 LiDAR 点云的单模态数据生成。这些方法虽极大推动了场景生成技术的发展,却未能充分挖掘多模态融合的协同优势。在处理 RGB 视频与其他传感器数据时,模态间的对齐精度不足,导致生成结果难以满足实际应用需求。许多方法采用基于 BEV 地图或 3D 框的 “布局 - 数据” 单步生成模式,这种依赖粗略空间先验的架构,在捕捉复杂交通动态与精细语义细节时存在天然缺陷。

尽管 UniScene 等研究尝试引入占用网格实现多模态生成,但实际自动驾驶场景中 OCC 标签的获取是非常昂贵的,这严重限制了生成模型在工业界的应用。另外,现有多模态生成方案多依赖粗略标签或通用标题模型提供语义标签,未能有效利用现代视觉语言模型(VLM)的细粒度语义解析能力。这种语义标签的缺失,直接影响生成场景的真实性、可控性,以及时空逻辑的连贯性。



具体工作



DataCrafter 模块



本文提出 DataCrafter, 一个专为多视角自动驾驶视频设计的 Caption 数据生成模块,旨在实现以下两项核心功能:

(1) 训练阶段数据筛选:借助预训练视觉语言模型的图像理解能力,对原始训练片段进行评估,仅筛选高质量片段用于训练。(2) 结构化语义提取:利用视觉语言模型对多视角视频片段提取细粒度语义信息,为多模态生成任务提供丰富的结构化语义条件。







评分体系涵盖三类关键视觉属性:(1) 图像清晰度:如模糊、畸变、脏污等;(2) 结构合理性:如遮挡程度、结构混乱、场景完整性等;(3) 美学特性:如逆光、过暗过亮、曝光异常、色彩偏差等。







视频生成模型

如图 2 中 camera_branch,Genesis 的视频生成模块以 DiT 为骨干,引入 3D-VAE 编码与结构化语义先验,构建出具备时空一致性的生成架构。Camera 分支将场景布局信息与语言描述通过注意力机制深度耦合,使生成的视频不仅具备视觉真实感,更能遵循语义逻辑。

我们发现,目前自动驾驶场景视频生成的疼点在于行人难以清晰地生成,为此,我们创新性地利用 YOLOv8x-Pose 检测行人姿态并投影到各视角,以此增强动态场景的语义表达。

具体实现上,我们首先构建包含车道段和 3D 边界框的结构化场景布局,将其投影到各视角 2D 图像平面形成语义控制图,再通过 Control-DiT 模块的交叉注意力机制在每个去噪时间步融入这些结构化先验,实现对生成过程的引导。

在隐空间编码方面,借助 3D VAE 将多帧 BEV 图压缩为隐空间表示,解码器从去噪词元中重建 BEV 语义。训练目标函数为:







最后,模块集成的语义对齐控制 Transformer 通过控制注意力将语义特征注入扩散块早期阶段,并结合空间自注意力、跨视角注意力和时间注意力机制,全面保障多视角视频生成的时空连贯性与语义保真度。



激光雷达生成模型

如图 2 中 lidar_branch,激光雷达生成模块致力于生成几何精确且时空连贯的点云序列,通过点云自动编码器与时空扩散模块的协同设计,结合跨模态语义条件实现多传感器数据的一致性生成。

如图 4,首先,点云自动编码器将稀疏点云体素化为 BEV 网格,利用 Swin Transformer 骨干网络压缩为隐空间特征,再通过 Swin 解码器与 NeRF 渲染模块重建点云,过程中采用空间跳跃算法减少空网格误差,并通过深度 L1 损失、占用损失和表面正则化损失优化训练,同时引入后处理过滤噪声点。

时空扩散模块以自动编码器的隐空间特征为基础,采用双 DiT 网络结合 ControlNet 架构,集成场景描述、道路图等语义条件,以及 3D 边界框几何条件;为保证跨模态一致,通过 LSS 算法将视频分支的 RGB 图像转为 BEV 特征,与道路图特征拼接后输入 ControlNet。扩散过程中,隐空间词元通过交叉注意力融合语义与几何嵌入,交叉注意力操作的公式为:





实验结果

视频生成结果







在无首帧条件设定下,本文的方法实现了 83.10 的多帧 FVD 和 14.90 的多帧 FID,优于 DriveDreamer-2 等先前的工作。在有首帧条件设定下,本文的方法进一步提升至 16.95 的 FVD 和 4.24 的 FID,与 MiLA 相比展现出具有竞争力的结果,同时保持了时间一致性和结构保真度。在有噪声隐空间设定下,在 6019 个样本上实现了 67.87 的 FVD 和 6.45 的 FID,超过了 UniScene 报告的先前最佳结果。

LiDAR 生成结果



表 2 展现了先前最先进的方法与本文提出的 Genesis 框架在激光雷达序列生成性能方面的定量比较。评估标准遵循 HERMES 的设定进行,在水平面 [−51.2, 51.2] 米以及高度 [−3, 5] 米的空间范围内,使用 Chamfer distance 作为主要指标。在短期和长期预测方面,Genesis 始终优于现有方法。在预测时长为 1 秒时,它的 Chamfer distance 达到 0.611,比之前的最佳值(HERMES 的 0.78)高出 21%。在预测时长为 3 秒时,优势扩大到相对减少 45%(从 1.17 降至 0.633)。

下游任务实验



本文的方法在多个下游感知任务上评估了生成数据的效用。如表 5 所示,本文的方法在 BEVFormer 3D 目标检测中取得了最佳的平均交并比(38.01)和平均精度均值(27.90)。如表 6 所示,本文评估了生成数据在 BEVFusion 3D 目标检测框架上的有效性。在所有设置中,本文的方法都取得了一致的改进,mAP 从 66.87 提高到 67.78,NDS 从 69.65 提高到 71.13。摄像头和激光雷达模态的联合生成实现了的最高增益(+0.91 mAP / +1.48 NDS),证明了多模态生成的互补优势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他突然被传死亡了?

他突然被传死亡了?

奋斗在韩国
2025-11-14 14:12:10
从中产抢着打卡,到集体甩卖倒闭:疯狂扩张的五星级酒店,为何突然崩了?

从中产抢着打卡,到集体甩卖倒闭:疯狂扩张的五星级酒店,为何突然崩了?

快刀财经
2025-11-14 22:46:29
卓伟爆了一个新瓜!

卓伟爆了一个新瓜!

八卦疯叔
2025-11-15 10:16:28
高市早苗涉台错误言论,在日本国内遭到多方质疑

高市早苗涉台错误言论,在日本国内遭到多方质疑

环球时报新闻
2025-11-15 14:08:40
官方提醒国人“避免前往”:日本旅游雪上加霜?

官方提醒国人“避免前往”:日本旅游雪上加霜?

环球旅讯
2025-11-15 09:58:16
洪秀柱痛批高市早苗涉台谬论:台海的事,关你日本人什么事?

洪秀柱痛批高市早苗涉台谬论:台海的事,关你日本人什么事?

环球网资讯
2025-11-15 14:34:38
公摊电梯厅成火锅涮菜区和“私人影院”?福州业主爆改一梯一户引争议 律师提醒

公摊电梯厅成火锅涮菜区和“私人影院”?福州业主爆改一梯一户引争议 律师提醒

封面新闻
2025-11-15 09:17:05
今年以来,中国已经垮塌了3座特大桥

今年以来,中国已经垮塌了3座特大桥

基本常识
2025-11-14 23:37:04
中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

中日两国必有一战,谁也无法调和,谁也无法阻挡中华民族统一大业

易玄
2025-11-13 06:25:22
真假?大批媒体曝吴亦凡狱中绝食去世?家人也失联,知情者发声

真假?大批媒体曝吴亦凡狱中绝食去世?家人也失联,知情者发声

180视角
2025-11-12 12:05:43
“台独”顽固分子沈伯洋被爆怕去新加坡

“台独”顽固分子沈伯洋被爆怕去新加坡

环球网资讯
2025-11-15 06:46:18
钧正平:中国网友满屏“一言为定”回应高市早苗妄言,是最有力的民意宣言

钧正平:中国网友满屏“一言为定”回应高市早苗妄言,是最有力的民意宣言

澎湃新闻
2025-11-15 13:41:30
羁绊!樊振东单打赢了,但他与王楚钦的全运会对决仍未结束

羁绊!樊振东单打赢了,但他与王楚钦的全运会对决仍未结束

澎湃新闻
2025-11-15 16:30:29
林诗栋4-1战胜袁励岑,职业生涯首次晋级全运会男单决赛

林诗栋4-1战胜袁励岑,职业生涯首次晋级全运会男单决赛

懂球帝
2025-11-15 14:57:33
如果有人问:你觉得美国好,你为什么不去美国?怎么回答比较好?

如果有人问:你觉得美国好,你为什么不去美国?怎么回答比较好?

翻开历史和现实
2025-11-15 09:03:25
日媒:中国600年来都是手下败将,现在他们也不是日本的对手

日媒:中国600年来都是手下败将,现在他们也不是日本的对手

音乐时光的娱乐
2025-11-15 15:23:29
让日本开第一枪

让日本开第一枪

求实处
2025-11-14 21:40:03
云浮市生态环境局党组成员、副局长叶灿辉接受纪律审查和监察调查

云浮市生态环境局党组成员、副局长叶灿辉接受纪律审查和监察调查

极目新闻
2025-11-15 10:31:18
女歌手“阿珍”意外身亡,很多剧院都有的电动座椅竟如此危险?业内人士推测:事发时可能忘切电源

女歌手“阿珍”意外身亡,很多剧院都有的电动座椅竟如此危险?业内人士推测:事发时可能忘切电源

极目新闻
2025-11-14 20:10:12
日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

日本民众82%支持涉台武力表态 中日军力对决风险下的亚太局势变局

行者聊官
2025-11-12 16:59:14
2025-11-15 17:35:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

撕掉流量外衣,小米还剩什么?

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

头条要闻

山西"狗咬人被摔死"案狗主家10人进院 喊"弄死你全家"

体育要闻

樊振东和他的尖子班 勇闯地表最强乒乓球赛

娱乐要闻

争议!评委张艺谋被质疑保送易烊千玺

财经要闻

小米之“惑”

汽车要闻

限时10.59万起 新款星海S9将11月19日上市

态度原创

健康
本地
艺术
数码
军事航空

金振口服液助力科学应对呼吸道疾病

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

艺术要闻

1.7亿建成,1.5亿拆掉!荆州“天下第一关公”雕像

数码要闻

曝疑似小米Watch S5将支持UWB技术 采用表冠设计

军事要闻

解密福建舰电磁弹射背后的硬核支撑

无障碍浏览 进入关怀版