网易首页 > 网易号 > 正文 申请入驻

英伟达开源自适应多模态「世界生成」模型!开启机器人、自动驾驶训练革命

0
分享至

新智元报道

编辑:定慧

【新智元导读】Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1,可以根据多种模态的空间控制输入(如分割、深度和边缘)生成世界模拟,使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境,用于训练机器人和自动驾驶车辆。

Nvidia带着最新「黑科技」模型Cosmos-Transfer1震撼登场,可以创建高度逼真的模拟环境,反向生成「真实世界」!

Cosmos-Transfer1,是一种自适应多模态世界生成模型。可以根据多种模态的空间控制输入(如分割、深度和边缘)生成真实世界模拟。

注意!右边的场景并非「真实场景」,而通过HD Map高清地图和Lidar雷达图实时「生成」的!

这种生成能力给未来数字世界带来太多想象力和可能性!

也有望解决物理AI开发中的一个长期挑战:缩小模拟训练环境与实际应用之间的差距。

真实物理世界就是以多种模态被感知的,比如上图中的四个模态:RGB Camera、Lidar雷达图、Depth深度图和HD Map高清地图。

Cosmos Transfer使得高度可控的「世界生成」成为可能,并在各种世界到世界的转换用例中找到应用,包括Sim2Real(虚拟模拟世界向现实世界转换)。

Cosmos Transfer强大的「世界生成」能力

首先通过基于真实物理的引擎,如Nvidia Omniverse、Genesis等,生成遵循现实物理规律的模拟视频数据。

通过Cosmos Transfer来提升模拟数据的真实性和多样性。

Cosmos Transfer不仅可以通过单一模态控制生成,也允许在不同的空间位置对不同的条件输入进行不同的加权。


单一模态控制生成

Cosmos Transfer通过单一模态可以生成逼真的现实场景。

下图展示了通过输入Edge边缘图、Depth深度图、Segmentation分块图来生成诸如自行车维修车间、自动驾驶场景和真实机械臂场景。

下图展示了通过输入Blur Visual模糊场景图 、HD Map高清地图 、Lidar雷达图来生成诸如机械臂操作、自动驾驶场景。


多模态控制生成

在Cosmos-Transfer1模型设计中,空间条件方案是自适应和可定制的。 它允许在不同的空间位置对不同的条件输入进行不同的加权。

通过输入HD Map和Lidar雷达图,可以生成应用于自动驾驶训练的真实视频。

在多模态的基础上,Cosmos Transfer1还引入了Spatiotemporal Control Maps时空控制权重图,控制权重图在黑色像素区域为0.0,在白色区域为0.5,所以在右侧生成的视频中,权重高的部分效果更加明显。


一种输入,多种可能

除了可以单模态和多模态控制生成视频,Cosmos Transfer1也能生成多种现实风格的内容。

比如下图输入高清地图HD Map,可以生成5种不同风格的视频:Night夜景、Foggy大雾天气、Daytime白天、Snow雪天和Night,Rainy夜晚下雨天。

输入Lidar雷达 图,同样可以生成5种不同 风格的 视频内容 。


风格变换

同时,Cosmos Transfer可以将生成的视频内容进行风格变换 。

对生成的视频风格可变换为Modern现代风格、Simplistic简约风和Warm风格。

以下是Modern现代风格、Bakery风和Sci-Fi科幻风格。

机械臂的模拟 视频 可生成Factory工厂 风格、Construction Site建筑场景风格和Living Room起居风等 。

不论是单一模态、多模态还是生成各种风格的视频,Cosmos Transfer都表现出不俗的能力。

「世界生成器」Cosmos Transfer1技术路线

多模态可控世界生成是指基于分割、深度和边缘等多模态视频输入生成世界模拟视频的问题。

Cosmos-Transfer1是一个具有自适应多模态控制的世界生成器。它包含多个控制分支,用于从不同的模态输入(如分割、深度和边缘)中提取控制信息。

应用时空控制图w={w1,w2,…,wN}来加权由控制分支计算出的输出,然后再将其反馈到主生成分支。

时空控制图使模型能够利用不同区域中最相关的模态以获得最佳输出质量。

Cosmos-Transfer1训练成果展示

Nvidia第一个Cosmos-Transfer1的实现被称为Cosmos-Transfer1-7B。

使用1024个NVIDIA H100 GPU对每个控制分支进行2到4周的训练,具体时间取决于模态。

以上展示使用相同提示在各个单独模态(Vis、Edge、Depth、Seg)设置下,Cosmos-Transfer1-7B的生成视频效果。

  • Cosmos-Tr ansfer1-7B [Vis] 在保持颜色和整体构图的同时,改变了纹理细节。

  • Cosmos-Transfer1-7B [Edge]在改变颜色的同时保持了物体边界。

  • Cosmos-Transfer1-7B [Depth]保持了场景几何结构。

  • Cosmos-Transfer1-7B [Seg]保持了场景语义。

Cosmos-Transfer1-7B-Sample-AV是特别为自动驾驶设计的模型。

  • Cosmos-Transfer1-7B-Sample-AV [HDMap] 保留了驾驶场景的原始道路布局。

  • Cosmos-Transfer1-7B-Sample-AV [LiDAR] 保留了输入的语义细节。

最后,Nvidia还训练了一个Upscale ControlNet,将生成的视频从 720p 提升到 4k 分辨率。

在下图中展示了4K Upscaler的例子,4K Upscaler版本称为Cosmos-Transfer1-7B-4KUpscaler。

Cosmos-Transfer1-7B-4KUpscaler将视频从720p提升到4k分辨率!

效果评估

为了评估Cosmos-Transfer1的特性,Nvidia精心策划了TransferBench——一个包含600个示例的评估数据集。

首先是单模态和多模态的对比。

对各种Cosmos-Transfer1配置在TransferBench上的定量评估,考虑所有模态的模型获得了最高的Quality Score。

其次,对不同模式(Vis、Edge、Depth 和Seg)的考虑不同的权重进行研究。

控制权重在黑色像素区域为 0.0 ,在白色区域为 0.5 。

注意到,虽然标题大致指定了一个自行车修理店的场景,但由于这些像素受到 Vis 和 Edge 的控制,蓝色衬衫上的白色标志和男子的肤色保持不变。

另一方面,对于由 Depth 和分割控制的背景,物体在场景中的位置保持一致,但其颜色和纹理被随机化(例如红色工具箱、黄色三脚架、白色修理架)。模型还在右侧墙上添加了一个新的工具架。

另一个例子是Cosmos-Transfer1在机器人数据生成中的示例结果。

左列显示由NVIDIA Lab生成的基于物理引擎的虚拟输入视频,而右边三列则展示了使用不同提示词在单模态和多模态控制下的Cosmos-Transfer1-7B生成结果。

Nivdia Cosmos平台

NVIDIA Cosmos 是一个以开发者为先的世界基础模型平台,旨在帮助物理人工智能开发者更快更好地构建他们的物理人工智能系统。Cosmos 包含:

  1. 预训练模型(可通过Hugging Face获取),这些模型在 NVIDIA 开放模型许可下允许免费商业使用。

  2. 在Apache 2许可下的训练脚本,用于对各种下游物理 AI 应用的模型进行后训练。

Cosmos-Transfer1模型可通过Hugging Face获取。

参考资料:

https://github.com/nvidia-cosmos/cosmos-transfer1

https://x.com/_akhaliq/status/1902187161841000938

https://huggingface.co/papers/2503.14492

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
民生直通车丨一季度新增就业299万人 下一步稳就业有实招

民生直通车丨一季度新增就业299万人 下一步稳就业有实招

新华社
2026-04-28 17:23:04
余承东在华为权力排名

余承东在华为权力排名

生活新鲜市
2026-04-27 18:30:53
差价30万竟是换壳!普拉多对比雷克萨斯GX谁更值!

差价30万竟是换壳!普拉多对比雷克萨斯GX谁更值!

华庭讲美食
2026-04-30 05:58:23
中方军舰越聚越多,日本闯大祸,高市早苗猛然发现,自己惹错人了

中方军舰越聚越多,日本闯大祸,高市早苗猛然发现,自己惹错人了

爱吃醋的猫咪
2026-04-29 21:18:26
西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

西方害怕中国治沙?《自然》新评揭开真相:他们怕的并非沙漠消失

生活的哲学
2026-04-29 06:41:35
辛柏青回应吴越撮合,没有翻脸没有接梗,把分寸和家人稳稳守住

辛柏青回应吴越撮合,没有翻脸没有接梗,把分寸和家人稳稳守住

一盅情怀
2026-04-28 17:18:29
朱琳老了,林芳兵面相变了,沈丹萍肿了,唯有她63岁看起来像36岁

朱琳老了,林芳兵面相变了,沈丹萍肿了,唯有她63岁看起来像36岁

小徐讲八卦
2026-04-28 06:20:12
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
美股科技七巨头多数走低,存储芯片深夜爆发

美股科技七巨头多数走低,存储芯片深夜爆发

21世纪经济报道
2026-04-29 22:55:08
浙江一女子有严重洁癖,婚后19年无法同房,夫妻俩渴望拥有孩子,就医后发现妻子卵巢储备功能下降,通过两次人工授精才顺利诞下一健康女宝

浙江一女子有严重洁癖,婚后19年无法同房,夫妻俩渴望拥有孩子,就医后发现妻子卵巢储备功能下降,通过两次人工授精才顺利诞下一健康女宝

台州交通广播
2026-04-29 20:46:57
女子婚内出轨被出轨对象杀害,一审宣判后家属递交抗诉申请 检察院:量刑适当,决定不予抗诉

女子婚内出轨被出轨对象杀害,一审宣判后家属递交抗诉申请 检察院:量刑适当,决定不予抗诉

红星新闻
2026-04-29 20:47:02
刘冰冰,被免去佛山高新区管委会财政金融局局长职务

刘冰冰,被免去佛山高新区管委会财政金融局局长职务

南方都市报
2026-04-28 18:21:08
女子自导自演霸王茶姬“水银奶茶”,不仅无知还法盲

女子自导自演霸王茶姬“水银奶茶”,不仅无知还法盲

胡言炫语
2026-04-30 04:54:56
赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

DS北风
2026-04-29 15:00:15
后续!岳阳高三水杯投毒案:施害者停课,受害者却可能无缘高考

后续!岳阳高三水杯投毒案:施害者停课,受害者却可能无缘高考

户外阿毽
2026-04-29 17:29:15
好消息!美国刚暂停向华虹供应半导体设备,阿斯麦就送来了光刻机

好消息!美国刚暂停向华虹供应半导体设备,阿斯麦就送来了光刻机

科技虎虎
2026-04-29 21:15:47
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
从百星争艳到门可罗雀:何榜时代终结,谁按下了停止键?

从百星争艳到门可罗雀:何榜时代终结,谁按下了停止键?

非常先生看娱乐
2026-04-29 16:36:43
朝鲜库尔斯克纪念馆正式落地,暴露其在库尔斯克阵亡的真实人数!

朝鲜库尔斯克纪念馆正式落地,暴露其在库尔斯克阵亡的真实人数!

阿龙聊军事
2026-04-29 06:20:12
2026-04-30 07:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15095文章数 66819关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

普京与特朗普通话:美对伊朗采取地面行动是危险选择

头条要闻

普京与特朗普通话:美对伊朗采取地面行动是危险选择

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

艺术
本地
数码
亲子
时尚

艺术要闻

许家印收藏的字

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

极米RS30系列投影仪发布,8822-13499元

亲子要闻

青岛配眼镜哪里好,儿童配镜和成人配镜的区别在哪里

夏天穿维希格,原来这么好看

无障碍浏览 进入关怀版