网易首页 > 网易号 > 正文 申请入驻

打通视频生成与机器人世界模型!BridgeV2W让机器人学会预演未来

0
分享至




机器人如何 "脑补" 未来?

想象一下,你面前摆着一杯咖啡,你伸手去拿,在你的手真正触碰到杯子之前,你的大脑已经在 "脑补" 了整个过程:手臂将如何移动、杯子会是什么触感、抬起后桌面的样子…… 这种对未来场景的想象和预测能力,正是人类操控世界的核心认知基石。

那么,能否赋予机器人同样的 “预演能力”,先在 “脑海” 中模拟动作后果,再付诸执行?这就是具身世界模型要做的事情:让机器人在行动前,就能 “看见” 未来。近年来,借助大规模视频生成模型(如 Sora、Wan 等)强大的视觉先验,这一方向取得了令人瞩目的进展。

然而,一个尴尬的问题始终悬而未决:视频生成模型的世界由像素编织而成,而机器人的语言却是关节角度与位姿坐标,它们使用完全不同的 “表征语言” 描述同一个物理世界。

为了解决上述问题,具身智能公司中科第五纪联合中科院自动化所团队推出BridgeV2W,它通过一个极为优雅的设计,具身掩码(Embodiment Mask),一种由机器人动作渲染出的 “动作剪影”,将坐标空间的动作无缝映射到像素空间,从而真正打通预训练视频生成模型与世界模型之间的桥梁,让机器人学会可靠地 “预演未来”。



  • 论文标题:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
  • 论文链接:https://arxiv.org/pdf/2602.03793
  • 项目链接:https://bridgev2w.github.io/

困境:三座大山挡住了机器人的 "预演能力"

尽管前景广阔,当前的具身世界模型仍面临三大核心挑战:

1.动作与画面 “语言不通”。机器人动作是关节角、末端位姿等坐标数值,而视频生成模型只 “看” 像素。直接拼接动作向量效果有限,往往缺乏空间对齐的 “硬连接”,模型难以理解。

2.视角一变,世界就 “崩”。同一动作在不同视角下外观迥异。现有方法在训练视角上尚可,一旦换视角,预测质量骤降,而真实场景中,相机位置几乎不可能复现训练设置。

3.换一个机器人就得 “从零开始”。单臂、双臂、移动底盘…… 结构千差万别。现有方法往往需为每种机器人定制架构,难以构建统一的世界模型。

核心创新:仅凭 "动作剪影",一举破解三大难题

BridgeV2W的核心洞察极其直觉:既然鸿沟源于 “坐标 vs 像素”,那就把动作直接 “画” 进画面里!

它提出具身掩码:利用机器人的 URDF 模型和相机参数,将动作序列实时渲染为每帧图像上的二值 “动作剪影”,精准标出机器人在画面中的位置与姿态。

这一设计,一举破解前述三大难题:

  • 动作 - 像素对齐:掩码是天然的像素级信号,与视频模型输入空间完全匹配,无需模型 “猜” 坐标的含义。
  • 视角自适应:掩码随当前相机视角动态生成,动作与画面始终对齐,模型因此天然泛化到任意新视角。
  • 跨具身通用:只要提供 URDF,单臂、双臂机器人都能用同一套框架生成对应掩码,无需修改模型结构。

技术上,BridgeV2W 采用 ControlNet 式的旁路注入,将掩码作为条件信号融入预训练视频生成模型,在保留其强大视觉先验的同时,赋予其理解机器人动作的能力。此外,为防止模型 “偷懒”(只复现静态背景),还引入光流驱动的运动损失,引导其聚焦于任务相关的动态区域。

实验结果:多场景、多机器人、多视角的全面验证

研究团队在多个设置下系统验证了 BridgeV2W 的能力,涵盖不同机器人平台、不同操作场景、未见视角和下游任务应用。

DROID 数据集:大规模单臂操作

DROID 是目前最大规模的真实世界机器人操作数据集之一,数据采集跨越多个实验室和环境。BridgeV2W 在该数据集上的表现尤为亮眼,在 PSNR、SSIM、LPIPS 等核心指标上超越 SOTA 方法。

尤其在 “未见视角” 测试中,对比方法常出现画面崩塌、肢体错位,而 BridgeV2W 依然生成物理合理、视觉连贯的未来视频,充分验证了其视角鲁棒性。在 “未见场景”(全新桌面布局、背景)下,泛化能力同样出色。





AgiBot-G1 数据集:双臂人形机器人

AgiBot-G1 是一个完全不同的双臂平台,自由度与运动模式与 DROID 截然不同。

关键结果:无需修改模型架构,仅替换 URDF 并重新渲染掩码,BridgeV2W 就能无缝适配,并取得媲美单臂的预测质量,这是迈向通用具身世界模型的重要一步。





下游任务应用:从 "想象" 到 "行动"

BridgeV2W 不仅仅是一个 "能生成好看视频" 的模型,研究团队进一步在真实世界的下游任务中验证了其实用价值:

策略评估: 在世界模型中 “试跑” 不同策略,无需真实机器人反复试错。实验显示,BridgeV2W 的评估结果与真实成功率高度相关,大幅降低策略迭代成本。

目标图像操作规划: 给定一张目标图像(如 “把杯子放到盘子上”),BridgeV2W 能在 “想象空间” 中搜索出可行动作序列,实现从视觉目标到物理动作的闭环规划。

关键亮点:海量无标注人类视频,全都能用!

你可能会问:具身掩码不是需要 URDF 和相机参数吗?没有这些几何信息的数据怎么办?

BridgeV2W 的巧妙之处在于:

  • 推理时需轻量几何信息(URDF + 相机参数)渲染 “计算掩码”,用于精准控制;
  • 训练时却无需任何标定:只需分割模型(如 SAM)提取的 “分割掩码”,即可提供有效监督。

团队将 AgiBot-G1 机器人数据与无标定的 Ego4D FHO(第一人称手部操作视频)混合训练,仅用 SAM 提取的手部掩码,就实现了惊人效果:

  • 仅用分割掩码训练,模型仍能学到合理的运动规律;
  • 加入大量 Ego4D 视频 + 少量机器人标定数据,性能几乎媲美全量标定训练。



这说明:人类视频蕴含丰富的动作先验,只需少量机器人数据,就能完成 “具身对齐”。

一句话总结:训练靠 “野生” 视频扩规模,部署靠轻量几何保精度:BridgeV2W 兼得可扩展性与准确性。

BridgeV2W 揭示了一条极具前景的技术路线:

视频生成模型 + 具身掩码 = 可扩展的机器人世界模型

这条路线有三个关键优势值得深思:

1. 数据飞轮真正启动:互联网视频规模远超机器人数据数个数量级。BridgeV2W 无需几何先验即可利用人类视频,为构建 “机器人数据飞轮” 迈出关键一步。

2. 技术红利自动继承:视频生成领域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架构使其能自然受益于底座模型升级,底座越强,“预演” 越真。

3. 通用智能的坚实基石:从单臂到双臂,从已知场景到未知视角,BridgeV2W 展现出的跨平台、跨场景、跨视角泛化能力,是迈向通用具身智能的重要里程碑。

总结与展望

BridgeV2W 通过 “具身掩码” 这一简洁而优雅的中间表征,成功架起了从大规模视频生成模型到实用具身世界模型的桥梁。它不仅解决了动作 - 像素对齐、视角鲁棒性、跨具身通用性三大核心挑战,更关键的是:训练无需 URDF 或相机标定,可直接利用海量无标注人类视频,为世界模型的规模化训练开辟了全新路径。

目前展现的能力,或许只是冰山一角。

试想未来:当视频生成底座从十亿参数迈向千亿,当训练数据从数千小时机器人视频扩展到百万小时人类操作视频,当具身掩码从机械臂延伸至全身人形、乃至多机协作,机器人的 “预演能力” 将迎来怎样的飞跃?

正如 DreamZero 等工作预示的 “机器人 GPT 时刻”,BridgeV2W 从另一个维度证明:

让机器人借助视频生成模型 “预演” 自身行动的后果 —— 这条路,不仅走得通,而且可以走得很远。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

姐弟俩被继母逼吃大便、热水烫下体、垃圾桶觅食、浑身淤青......生父威胁邻居别管闲事,已被逮捕!

新民周刊
2026-03-26 19:12:17
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
同曦胜北控!帕克轰44+13,赵柏清统治内线,廖三宁+双外空砍!

同曦胜北控!帕克轰44+13,赵柏清统治内线,廖三宁+双外空砍!

篮球资讯达人
2026-03-26 21:43:02
万科创始人妻子解除边控

万科创始人妻子解除边控

地产微资讯
2026-03-26 20:23:02
斯柯达将退出中国,大众中国回应

斯柯达将退出中国,大众中国回应

第一财经资讯
2026-03-26 15:14:56
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

恶毒诋毁张雪峰离世:千万粉丝“留几手”被罚!网友:应永久封杀

影像温度
2026-03-26 11:25:05
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
四川某设计院爆大瓜!

四川某设计院爆大瓜!

黯泉
2026-03-26 18:36:06
内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

看看新闻Knews
2026-03-26 14:21:02
伊朗称正在搜捕逃亡美军

伊朗称正在搜捕逃亡美军

界面新闻
2026-03-25 23:21:14
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

都市快报橙柿互动
2026-03-26 08:00:05
3月26日俄乌最新:靴子终于落地了

3月26日俄乌最新:靴子终于落地了

西楼饮月
2026-03-26 19:48:54
全线跳水!刚刚,伊朗发动攻击

全线跳水!刚刚,伊朗发动攻击

中国基金报
2026-03-26 16:15:26
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

狼叔评论
2026-03-26 22:22:04
2026-03-26 22:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
亲子
时尚
艺术
公开课

转头就晕的耳石症,能开车上班吗?

亲子要闻

你好,我是馒头,快开门!

这些才是适合春季的穿搭!不沉闷、不单调,大方靓丽又减龄

艺术要闻

哪一座桥不是风景?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版