网易首页 > 网易号 > 正文 申请入驻

斯坦福具身智能大佬看好的世界模型,竟出自英伟达Cosmos?

0
分享至



让机器人成为能主动想象、理解、行动的智能体。

作者 |许丽思

编辑 |漠影

前阵子,特斯拉释放重磅消息,Optimus 3即将亮相,它将是一款通用人形机器人,也是特斯拉第一款走向量产的机器人,将在今年年底前启动生产。同时,Optimus已经在特斯拉工厂执行一些简单任务。

机器人行业的叙事,正从会跑会跳的技术演示转向能落地干活的使用能力,距离走进人类生活似乎越来越近了。不过,在demo和规模化落地之间,还需要迈过安全、可靠性与功能成熟度等门槛。

在这道门槛前,数据问题变得更尖锐。以特斯拉Optimus的研发为例,早期团队曾采用动作捕捉服和远程操作方案,但在去年开始探索其他训练方式。

这种困境并非个例,行业普遍面临真实机器人数据昂贵、稀缺且强依赖硬件形态,进而导致训练与评估难以规模化复制、场景泛化能力有限。

此前,英伟达打造了“三台计算机”解决方案:DGX系列提供强劲算力支撑,Omniverse平台Cosmos世界基础模型平台高效生产仿真数据,AGX作为边端完成部署和验证,三者协同形成完整闭环,为物理AI开发提供全链条支持。

其中,Cosmos的角色,在于成为物理AI破解数据难题的关键工具。它能够轻松生产大量符合物理规律的逼真合成数据,解决真实世界数据稀缺、模型测试风险高等挑战,让机器人在虚拟环境中先试错、再实战。

同时,开发者还可通过微调 Cosmos WFM构建自定义模型,大幅降低物理AI开发门槛。


01.

轻松生成大量逼真合成数据,

让机器人更能适配真实场景挑战

与只需要处理单一模态数据的传统AI不同,物理AI需要支撑机器人在真实场景中完成复杂任务,比如工厂抓取零部件时的准确受力反馈、户外场景移动时的复杂地形应对与行动策略调整等,对数据的真实性、多样性、规模化需求极高。

物理AI模型的开发成本高且需要大量真实数据和测试,而Cosmos世界基础模型使开发者能够轻松生成大量符合物理规律的逼真合成数据,以用于训练和评估其现有的模型。

具体来说,Cosmos世界基础模型包括了三大部分:Cosmos Predict、Cosmos Transfer和Cosmos Reason。

Cosmos Predict让机器人拥有一种堪称提前看结局的能力,能够预测动态环境的未来状态。Cosmos Predict 2.5已将多种预测能力整合到单一模型中,实现了在单帧输入条件下快速生成30秒预测视频。

它为机器人复杂任务规划提供了强大支撑,开发者可基于此对模型进行后期训练,将视频预测能力转化为策略建模所需的动作生成能力。

比如,在机器人执行精密装配任务前,先通过Cosmos Predict模拟不同操作路径的结果,选择最优方案,从而让机器人在实战中更精准、更安全,大幅减少试错成本与操作风险。


Cosmos Transfer通过ControlNet架构,能基于输入数据生成高保真世界场景,改变光照、天气、物体材质等条件,生成同一场景的无数种可能。最新的Cosmos Transfer 2.5能够生成更高质量、逼真的数据,且大小仅为Cosmos Transfer 1的三分之一。

对机器人来说,它可以在虚拟环境中体验千变万化的现实世界。无需依赖海量真实场景数据采集,就能有效提升机器人对不同场景的泛化能力,降低适配多场景应用的开发成本,加速规模化落地进程。


Cosmos Reason则是一个完全可定制的多模态AI推理模型,专为理解运动、物体交互和时空关系而构建。它让机器人能够理解空间、时间和物理特性,还能给Cosmos Predict生成多样化、逼真的提示,并使用基于文本的控件从视频中筛选高质量的合成数据。

当机器人拥有了像人类一样推理的能力,它就不再只是执行预设指令的工具,而是能理解物理世界规律、进行有意识决策的智能体,提升了在复杂未知场景中的自主应对能力,打破规模化落地的场景适配局限。

除了这些基础模型,Cosmos还包括由NVIDIA Cosmos Curate提供支持的数据处理和管理工作流,使开发者能够在NVIDIA HopperGPU上仅用40天处理2000万小时的数据,在NVIDIA BlackwellGPU上只需14天就能处理2000万小时的数据。

Cosmos还配备一套视频和图像tokenizer,可以将视频转换为不同视频压缩比的标记,用于训练各种Transformer模型。与现在先进的tokenizer相比,Cosmos tokenizer的总压缩率高出8倍,处理速度快12倍,让训练成本大幅降低。

02.

基于Cosmos开发的WOW:

让机器人看懂、理解并行动于世界

去年,北京人形机器人创新中心(以下简称“北京人形”)发布具身世界模型WoW,备受学术界、产业界关注。

不仅Huggingface官方留言“Excellent work”催更开源,斯坦福具身智能大佬、PI创始人Chelsea Finn还在与清华合作文章中引用了WoW技术报告。

值得一提的是,WoW正是北京人形研发团队以Cosmos为基座,结合自身在机器人交互数据、算法优化等方面的积累打造而成,可以说是Cosmos在具身智能领域的最佳实践之一,充分验证了Cosmos平台的灵活性与扩展性。

WOW是一个能让机器人真正看见、理解并行动于世界的世界模型,提出了一个全新的框架,将世界生成、动作预测、视觉理解和自我反思融合为一个统一系统,使得AI不再只是看视频或生成图像,而能通过交互学习世界的物理规律,并在真实环境中自主操作。

模型怎么样才能够像人类一样,通过实践不断进步,越来越聪明?WoW给出了答案:其提出的SOPHIA框架,把大语言模型与扩散Transformer结合起来,在语言引导下生成物理上合理的未来,让AI形成"生成预测-批评-修正"的闭环,使得模型在执行任务时能不断优化。


▲SOPHIA框架让AI生成结果后自我评估、给出反馈,并通过Refiner Agent改进提示词或推理链

WOW中还有一个基于Diffusion Transformer架构的世界生成引擎,它能够根据环境状态与智能体当前观测,预测未来场景、推演物理演化、还原动态因果链。

光有视觉“想象”还不够,WoW还能实现视频生成和机器人动作执行的闭环。只要给定连续两帧预测视频,FM-IDM逆动力学模型就能够计算出机器人末端执行器的动作变化量,将想象的视频预测转化为可执行动作,让AI的想象真正落地。


▲FM-IDM让模型实现从视频到行动的闭环

在泛化能力上,WoW表现突出:无需微调,即可在UR5、Franka、AgileX等不同机器人平台上执行任务,甚至能操作从未见过的物体,比如定制文化衫、气球等柔性物体等,展现出强大的物理规律抽象能力。


总而言之,基于Cosmos,Wow实现了“想象世界-理解物理-生成视频-执行动作-再学习”的完整闭环,推动AI拥有直觉物理的能力,加快通用机器人的规模化落地与泛化。

03.

结语:拥有对物理世界的想象力,

AI加快成为真正的具身智能体

Cosmos及开发者基于其构建的模型,让机器人不再只是物理世界的被动观察者,而是成为能主动想象、理解、行动的智能体,让人看到了AI真正成为具身智能体的未来。

随着机器人能像人类一样通过互动学习物理规律,而不是依赖海量数据“死记硬背”,具身智能的终极目标,让AI真正理解世界、在现实世界中行动就不再是遥不可及的未来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
军统谷正文晚年回忆:所有被捕的人中,只有张志忠算得上硬汉

军统谷正文晚年回忆:所有被捕的人中,只有张志忠算得上硬汉

朝子亥
2026-02-15 15:50:03
“流水220万,利润0” 2026开年多了个新词——无利润繁荣

“流水220万,利润0” 2026开年多了个新词——无利润繁荣

餐饮界
2026-02-13 19:49:19
我们熟悉的她早已离世,29岁与男友坠机而亡,双双殒命大海之中

我们熟悉的她早已离世,29岁与男友坠机而亡,双双殒命大海之中

往史过眼云烟
2026-02-15 17:28:03
李玮锋:踢日本恨不得把鞋钉换成刀!我们比赛没赢过 场上没怂过

李玮锋:踢日本恨不得把鞋钉换成刀!我们比赛没赢过 场上没怂过

念洲
2026-02-15 17:07:32
中戏原表演系主任陈刚主动投案的消息引热议,他的妻子身份被扒出

中戏原表演系主任陈刚主动投案的消息引热议,他的妻子身份被扒出

魔都姐姐杂谈
2026-02-15 18:46:50
1993年六位上将,还有三位健在,都快100岁了

1993年六位上将,还有三位健在,都快100岁了

文史茶馆2020
2026-02-15 16:43:24
女子在上海浦东机场崩溃:一辈子忘不了这天!结果奇迹突现,超10万人点赞,翟女士意外走红

女子在上海浦东机场崩溃:一辈子忘不了这天!结果奇迹突现,超10万人点赞,翟女士意外走红

新民晚报
2026-02-15 12:54:21
哈登爽了!你好,DPOY!骑士四巨头即将合体

哈登爽了!你好,DPOY!骑士四巨头即将合体

篮球实战宝典
2026-02-15 17:39:57
WTA官宣:郑钦文因病退出迪拜站 无缘连续两年战斯特恩斯

WTA官宣:郑钦文因病退出迪拜站 无缘连续两年战斯特恩斯

醉卧浮生
2026-02-15 15:04:22
网红幼虎去世后被“替身”直播,死亡7天后饲养员称“正晒太阳”;区政府成立调查组,信息上报、跨园转运真相成谜

网红幼虎去世后被“替身”直播,死亡7天后饲养员称“正晒太阳”;区政府成立调查组,信息上报、跨园转运真相成谜

大风新闻
2026-02-15 18:00:11
刚刚! 中国当局已抵澳, 与澳洲联手, 全力追捕这个让全球震怒的中国留学生!

刚刚! 中国当局已抵澳, 与澳洲联手, 全力追捕这个让全球震怒的中国留学生!

澳洲红领巾
2026-02-15 11:58:23
泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

大风新闻
2026-02-15 15:23:15
中央戏剧学院表演系主任王鑫的权多大?震碎三观

中央戏剧学院表演系主任王鑫的权多大?震碎三观

雪中风车
2026-02-15 10:46:55
重庆两套法拍房以192万余元起拍,物业欠费却达108万余元,物业方回应:实际欠费28万余元,80万余元滞纳金可协商处理

重庆两套法拍房以192万余元起拍,物业欠费却达108万余元,物业方回应:实际欠费28万余元,80万余元滞纳金可协商处理

极目新闻
2026-02-15 14:37:25
林肯汽车,还能挺过明年吗?

林肯汽车,还能挺过明年吗?

汽车K线
2026-02-14 09:16:15
日本首相高市病情恶化,紧急入院

日本首相高市病情恶化,紧急入院

亚太观澜
2026-02-14 21:00:04
颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

医诺维
2026-02-14 16:34:57
看哭太多人!四川男子9000工资,5000给生病的母亲,妻子闹离婚了

看哭太多人!四川男子9000工资,5000给生病的母亲,妻子闹离婚了

火山詩话
2026-02-14 06:28:40
央视曝光黄金回收套路:不良商家在足金涂抹洗洁精等让其变黑而压价

央视曝光黄金回收套路:不良商家在足金涂抹洗洁精等让其变黑而压价

每日经济新闻
2026-02-14 21:01:20
那个教小米做手机的厂商,要断气了

那个教小米做手机的厂商,要断气了

蓝字计划
2026-02-14 11:40:57
2026-02-15 21:44:49
机器人前瞻
机器人前瞻
专注于机器人报道的媒体
361文章数 7关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

小米YU7刚交付20分钟传出一声巨响 车主看到裂痕崩溃

头条要闻

小米YU7刚交付20分钟传出一声巨响 车主看到裂痕崩溃

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

房产
旅游
艺术
家居
公开课

房产要闻

三亚新机场,又传出新消息!

旅游要闻

春节假期首日,北京市属公园接待游客20.95万人次

艺术要闻

159米!北京CBD最被低估的建筑:设计很能打,存在感却不高

家居要闻

中古雅韵 乐韵伴日常

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版