网易首页 > 网易号 > 正文 申请入驻

打通视频生成与机器人世界模型!BridgeV2W让机器人学会预演未来

0
分享至




机器人如何 "脑补" 未来?

想象一下,你面前摆着一杯咖啡,你伸手去拿,在你的手真正触碰到杯子之前,你的大脑已经在 "脑补" 了整个过程:手臂将如何移动、杯子会是什么触感、抬起后桌面的样子…… 这种对未来场景的想象和预测能力,正是人类操控世界的核心认知基石。

那么,能否赋予机器人同样的 “预演能力”,先在 “脑海” 中模拟动作后果,再付诸执行?这就是具身世界模型要做的事情:让机器人在行动前,就能 “看见” 未来。近年来,借助大规模视频生成模型(如 Sora、Wan 等)强大的视觉先验,这一方向取得了令人瞩目的进展。

然而,一个尴尬的问题始终悬而未决:视频生成模型的世界由像素编织而成,而机器人的语言却是关节角度与位姿坐标,它们使用完全不同的 “表征语言” 描述同一个物理世界。

为了解决上述问题,具身智能公司中科第五纪联合中科院自动化所团队推出BridgeV2W,它通过一个极为优雅的设计,具身掩码(Embodiment Mask),一种由机器人动作渲染出的 “动作剪影”,将坐标空间的动作无缝映射到像素空间,从而真正打通预训练视频生成模型与世界模型之间的桥梁,让机器人学会可靠地 “预演未来”。



  • 论文标题:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
  • 论文链接:https://arxiv.org/pdf/2602.03793
  • 项目链接:https://bridgev2w.github.io/

困境:三座大山挡住了机器人的 "预演能力"

尽管前景广阔,当前的具身世界模型仍面临三大核心挑战:

1.动作与画面 “语言不通”。机器人动作是关节角、末端位姿等坐标数值,而视频生成模型只 “看” 像素。直接拼接动作向量效果有限,往往缺乏空间对齐的 “硬连接”,模型难以理解。

2.视角一变,世界就 “崩”。同一动作在不同视角下外观迥异。现有方法在训练视角上尚可,一旦换视角,预测质量骤降,而真实场景中,相机位置几乎不可能复现训练设置。

3.换一个机器人就得 “从零开始”。单臂、双臂、移动底盘…… 结构千差万别。现有方法往往需为每种机器人定制架构,难以构建统一的世界模型。

核心创新:仅凭 "动作剪影",一举破解三大难题

BridgeV2W的核心洞察极其直觉:既然鸿沟源于 “坐标 vs 像素”,那就把动作直接 “画” 进画面里!

它提出具身掩码:利用机器人的 URDF 模型和相机参数,将动作序列实时渲染为每帧图像上的二值 “动作剪影”,精准标出机器人在画面中的位置与姿态。

这一设计,一举破解前述三大难题:

  • 动作 - 像素对齐:掩码是天然的像素级信号,与视频模型输入空间完全匹配,无需模型 “猜” 坐标的含义。
  • 视角自适应:掩码随当前相机视角动态生成,动作与画面始终对齐,模型因此天然泛化到任意新视角。
  • 跨具身通用:只要提供 URDF,单臂、双臂机器人都能用同一套框架生成对应掩码,无需修改模型结构。

技术上,BridgeV2W 采用 ControlNet 式的旁路注入,将掩码作为条件信号融入预训练视频生成模型,在保留其强大视觉先验的同时,赋予其理解机器人动作的能力。此外,为防止模型 “偷懒”(只复现静态背景),还引入光流驱动的运动损失,引导其聚焦于任务相关的动态区域。

实验结果:多场景、多机器人、多视角的全面验证

研究团队在多个设置下系统验证了 BridgeV2W 的能力,涵盖不同机器人平台、不同操作场景、未见视角和下游任务应用。

DROID 数据集:大规模单臂操作

DROID 是目前最大规模的真实世界机器人操作数据集之一,数据采集跨越多个实验室和环境。BridgeV2W 在该数据集上的表现尤为亮眼,在 PSNR、SSIM、LPIPS 等核心指标上超越 SOTA 方法。

尤其在 “未见视角” 测试中,对比方法常出现画面崩塌、肢体错位,而 BridgeV2W 依然生成物理合理、视觉连贯的未来视频,充分验证了其视角鲁棒性。在 “未见场景”(全新桌面布局、背景)下,泛化能力同样出色。





AgiBot-G1 数据集:双臂人形机器人

AgiBot-G1 是一个完全不同的双臂平台,自由度与运动模式与 DROID 截然不同。

关键结果:无需修改模型架构,仅替换 URDF 并重新渲染掩码,BridgeV2W 就能无缝适配,并取得媲美单臂的预测质量,这是迈向通用具身世界模型的重要一步。





下游任务应用:从 "想象" 到 "行动"

BridgeV2W 不仅仅是一个 "能生成好看视频" 的模型,研究团队进一步在真实世界的下游任务中验证了其实用价值:

策略评估: 在世界模型中 “试跑” 不同策略,无需真实机器人反复试错。实验显示,BridgeV2W 的评估结果与真实成功率高度相关,大幅降低策略迭代成本。

目标图像操作规划: 给定一张目标图像(如 “把杯子放到盘子上”),BridgeV2W 能在 “想象空间” 中搜索出可行动作序列,实现从视觉目标到物理动作的闭环规划。

关键亮点:海量无标注人类视频,全都能用!

你可能会问:具身掩码不是需要 URDF 和相机参数吗?没有这些几何信息的数据怎么办?

BridgeV2W 的巧妙之处在于:

  • 推理时需轻量几何信息(URDF + 相机参数)渲染 “计算掩码”,用于精准控制;
  • 训练时却无需任何标定:只需分割模型(如 SAM)提取的 “分割掩码”,即可提供有效监督。

团队将 AgiBot-G1 机器人数据与无标定的 Ego4D FHO(第一人称手部操作视频)混合训练,仅用 SAM 提取的手部掩码,就实现了惊人效果:

  • 仅用分割掩码训练,模型仍能学到合理的运动规律;
  • 加入大量 Ego4D 视频 + 少量机器人标定数据,性能几乎媲美全量标定训练。



这说明:人类视频蕴含丰富的动作先验,只需少量机器人数据,就能完成 “具身对齐”。

一句话总结:训练靠 “野生” 视频扩规模,部署靠轻量几何保精度:BridgeV2W 兼得可扩展性与准确性。

BridgeV2W 揭示了一条极具前景的技术路线:

视频生成模型 + 具身掩码 = 可扩展的机器人世界模型

这条路线有三个关键优势值得深思:

1. 数据飞轮真正启动:互联网视频规模远超机器人数据数个数量级。BridgeV2W 无需几何先验即可利用人类视频,为构建 “机器人数据飞轮” 迈出关键一步。

2. 技术红利自动继承:视频生成领域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架构使其能自然受益于底座模型升级,底座越强,“预演” 越真。

3. 通用智能的坚实基石:从单臂到双臂,从已知场景到未知视角,BridgeV2W 展现出的跨平台、跨场景、跨视角泛化能力,是迈向通用具身智能的重要里程碑。

总结与展望

BridgeV2W 通过 “具身掩码” 这一简洁而优雅的中间表征,成功架起了从大规模视频生成模型到实用具身世界模型的桥梁。它不仅解决了动作 - 像素对齐、视角鲁棒性、跨具身通用性三大核心挑战,更关键的是:训练无需 URDF 或相机标定,可直接利用海量无标注人类视频,为世界模型的规模化训练开辟了全新路径。

目前展现的能力,或许只是冰山一角。

试想未来:当视频生成底座从十亿参数迈向千亿,当训练数据从数千小时机器人视频扩展到百万小时人类操作视频,当具身掩码从机械臂延伸至全身人形、乃至多机协作,机器人的 “预演能力” 将迎来怎样的飞跃?

正如 DreamZero 等工作预示的 “机器人 GPT 时刻”,BridgeV2W 从另一个维度证明:

让机器人借助视频生成模型 “预演” 自身行动的后果 —— 这条路,不仅走得通,而且可以走得很远。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国币圈富豪孙宇晨:快删除所有90后之前出生人的联系方式 停用微信换豆包

中国币圈富豪孙宇晨:快删除所有90后之前出生人的联系方式 停用微信换豆包

快科技
2026-02-25 18:52:04
当因杀死毒贩,而让半个国家燃起战火后,终于理解了墨西哥的绝望

当因杀死毒贩,而让半个国家燃起战火后,终于理解了墨西哥的绝望

阅微札记
2026-02-24 17:06:05
WTT新加坡大满贯:女单16强诞生!国乒7人日本6人,伊藤美诚过关

WTT新加坡大满贯:女单16强诞生!国乒7人日本6人,伊藤美诚过关

全言作品
2026-02-25 21:05:41
两大概念明天有望脉冲拉升!

两大概念明天有望脉冲拉升!

鸿牛
2026-02-25 15:21:51
何超琼春节到四太女儿家做客,跟何超盈女儿穿亲子装,姐妹俩很亲

何超琼春节到四太女儿家做客,跟何超盈女儿穿亲子装,姐妹俩很亲

观察者海风
2026-02-25 12:09:32
历时9小时、鏖战243轮,越秀地产豪掷236亿元夺下马场1期地块

历时9小时、鏖战243轮,越秀地产豪掷236亿元夺下马场1期地块

新快报新闻
2026-02-25 19:31:07
沈腾大年初八在海南宴客,妻子王琦素颜出镜胖又圆,儿子已8岁了

沈腾大年初八在海南宴客,妻子王琦素颜出镜胖又圆,儿子已8岁了

动物奇奇怪怪
2026-02-25 19:36:50
我用三个真实的病例告诉你:为啥我总建议重症病人去一线城市看病

我用三个真实的病例告诉你:为啥我总建议重症病人去一线城市看病

千秋文化
2026-02-24 20:25:25
重庆烤全羊宰客社死!人民日报怒批,坑惨当地文旅,下场大快人心

重庆烤全羊宰客社死!人民日报怒批,坑惨当地文旅,下场大快人心

青梅侃史啊
2026-02-24 16:59:25
3-1进16强!中国女乒27岁王牌再闪耀:追赶孙颖莎冲世界第1?

3-1进16强!中国女乒27岁王牌再闪耀:追赶孙颖莎冲世界第1?

李喜林篮球绝杀
2026-02-24 21:39:32
俄记者曝大瓜:俄军进攻潜力耗尽,英国否定英法用核弹保护乌克兰

俄记者曝大瓜:俄军进攻潜力耗尽,英国否定英法用核弹保护乌克兰

史政先锋
2026-02-25 19:08:44
被对手贴脸挑衅,伊万-托尼:我这辈子都没闻过这么臭的口气

被对手贴脸挑衅,伊万-托尼:我这辈子都没闻过这么臭的口气

懂球帝
2026-02-25 12:49:05
封神!株洲司机最后1秒冲过收费站,收费员比他还疯,全网笑炸

封神!株洲司机最后1秒冲过收费站,收费员比他还疯,全网笑炸

观察鉴娱
2026-02-25 10:09:22
湖人输在哪:东契奇眼睛受伤最后两攻甩锅 詹姆斯丢压哨绝杀三分

湖人输在哪:东契奇眼睛受伤最后两攻甩锅 詹姆斯丢压哨绝杀三分

醉卧浮生
2026-02-25 14:00:24
WTT大满贯:女单8强,国乒名将1-3出局,王曼昱压力大

WTT大满贯:女单8强,国乒名将1-3出局,王曼昱压力大

余憁搞笑段子
2026-02-25 09:55:01
孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

青苹果sht
2026-02-20 05:52:21
卫冕冠军高歌猛进!孙颖莎3-1力克欧洲老将,1/8决赛将迎来德比战

卫冕冠军高歌猛进!孙颖莎3-1力克欧洲老将,1/8决赛将迎来德比战

钉钉陌上花开
2026-02-25 20:37:23
李亚鹏年初六到陈光标家做客!为陈环保送行,陈光标妻子罕见露脸

李亚鹏年初六到陈光标家做客!为陈环保送行,陈光标妻子罕见露脸

离离言几许
2026-02-22 23:36:16
欧冠悲喜夜:国米惨遭黑马双杀2-5出局 马竞7-4晋级 勒沃库森2-0

欧冠悲喜夜:国米惨遭黑马双杀2-5出局 马竞7-4晋级 勒沃库森2-0

狍子歪解体坛
2026-02-25 05:55:00
2018年张扣扣复仇王家唯独不杀王妻:她有不死的理由

2018年张扣扣复仇王家唯独不杀王妻:她有不死的理由

失我者永失qq
2026-02-24 21:59:11
2026-02-25 21:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12362文章数 142569关注度
往期回顾 全部

科技要闻

“机器人只跳舞,没什么用”

头条要闻

被指涉爱泼斯坦案 挪威前首相自杀未遂命悬一线

头条要闻

被指涉爱泼斯坦案 挪威前首相自杀未遂命悬一线

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

黄晓明新恋情!与小22岁美女同游新加坡

财经要闻

上海楼市放大招,地产预期别太大

汽车要闻

750km超长续航 2026款小鹏X9纯电版将于3月2日上市

态度原创

本地
房产
家居
教育
公开课

本地新闻

津南好·四时总相宜

房产要闻

海南楼市春节热销地图曝光!三亚、陵水又杀疯了!

家居要闻

艺居办公 温度与效率

教育要闻

超短学期!新学期校历来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版