网易首页 > 网易号 > 正文 申请入驻

NovaFlow从生成视频中提取动作流,实现零样本操控

0
分享至



本文共同第一作者为李鸿宇(布朗大学博士生)和孙凌峰(Robotics and AI Institute 研究员,博士毕业于加州大学伯克利分校)。通讯作者付佳慧在 Robotics and AI Institute 任研究员,博士毕业于麻省理工学院。George Konidaris 为布朗大学副教授。

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人,是机器人学领域一个长期追逐的圣杯。近年来,随着大型语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,许多研究者将希望寄托于视觉 - 语言 - 动作(VLA)模型,期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。然而,理想很丰满,现实却很骨感。VLA 模型的端到端训练范式,要求海量与特定机器人相关的 “视觉 - 语言 - 动作” 数据。与 LLM 和 VLM 可以轻易获取的网络规模数据不同,机器人数据的采集成本极高、难度极大,这形成了一个巨大的 “数据瓶颈”。有没有可能绕过这个瓶颈,让机器人不依赖于昂贵的 “亲身经历” 数据,也能学会新技能呢?

最近,来自布朗大学(Brown University)和机器人与人工智能研究所(Robotics and AI Institute,前波士顿动力人工智能研究所)的研究团队提出了一个全新的自动操作框架NovaFlow。该方法另辟蹊径,不再要求通过机器人或者人类演示去收集数据,而是巧妙地利用了大型视频生成模型中蕴含的、源于互联网海量视频的 “常识” 知识。通过让机器人 “观看” 由视频模型生成的任务视频,并从中提炼出一种名为 “可执行 3D 对象流” 的任务表征,NovaFlow 成功实现了在无需任何真实演示或额外训练的情况下,让机器人零样本(Zero-Shot)完成复杂的操控任务。这项工作为通用机器人的实现提供了一条极具潜力的新路径。



  • 论文标题:NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos
  • 论文地址:https://novaflow.lhy.xyz/
  • 作者信息:Hongyu Li (hli230@cs.brown.edu), Jiahui Fu (jfu@rai-inst.com)


https://mp.weixin.qq.com/s/qolvGDUY22luJYzmq07tgw

核心思想:从 “观看” 视频到 “理解” 动作

传统的机器人学习范式,要么需要人类提供大量的示教数据(模仿学习),要么需要机器人在环境中进行大量的试错(强化学习),两者都效率不高且泛化能力有限。NovaFlow 的核心洞见在于:将人类指令的 “任务理解” 与机器人的 “底层控制” 彻底解耦。

研究团队假设,在互联网海量视频数据上训练出来的视频生成模型,已经学习到了关于世界如何运作的丰富常识和物理知识。比如,如何 “把杯子挂到架子上”,这个任务中物体间的相对位置关系和轨迹等信息,都已涵盖在视频模型中。因此,我们不再需要从头教机器人这些知识,而是可以通过一个简单的文本指令(例如 “把杯子挂到架子上” 或者 “把抽屉打开”)和一张现场照片,让视频模型生成一段展示该任务如何完成的 “教学视频”。

然而,原始的视频像素无法直接被机器人控制器使用。这里的关键挑战是如何将视频中非结构化的视觉信息,转化为机器人可以理解和执行的结构化指令。为此,NovaFlow 引入了一个核心的中间表征 ——可执行 3D 对象流(Actionable 3D Object Flow)。

这种 “动作流” 本质上是目标物体在三维空间中运动轨迹的点云集合。它只描述物体本身应该如何移动,而与执行任务的是人手还是机械臂无关。这种以物体为中心的设计,是 NovaFlow 能够跨不同机器人平台(embodiment-agnostic)实现泛化的关键。



图 1:NovaFlow 框架概览。给定任务指令,模型生成一段任务视频,并从中提炼出与机器人观测对齐的 3D 可执行对象流,进而生成机械臂轨迹,完成对刚性、关节体和可变形物体的操作。

NovaFlow 的工作流程:两步走

NovaFlow 的整体框架由两个核心组件构成:动作流生成器(Flow Generator) 和动作流执行器(Flow Executor)。

动作流生成器:四步将视频 “翻译” 成 3D 动作指令

这个模块的目标是,根据用户输入的一句自然语言指令和一张初始场景的 RGB-D 图像,生成目标物体的 3D 动作流。整个过程无需任何人工干预,完全由一系列预训练好的视觉模型完成。



图 2:动作流生成器。从初始图像和文本提示生成视频,再通过一系列视觉模块将其提炼为以对象为中心的 3D 可执行流。

1.视频生成:首先,使用像 通义万相 或 可灵 AI 这样的 SOTA 视频生成模型,根据初始图像和文本指令(如 “打开抽屉”)生成一段几秒钟的视频。


https://mp.weixin.qq.com/s/qolvGDUY22luJYzmq07tgw

2.2D 到 3D 提升:由于生成的视频是 2D 的,而我们在 3D 世界中执行任务,我们需要将 2D 信息提升到 3D 空间。NovaFlow 通过单目视频深度估计算法,为视频的每一帧生成对应的深度图。由于单目深度估计模型会产生系统性误差,研究团队额外利用了第一帧真实的深度图来对估计的单目深度视频进行校准。

3.3D 点追踪:在有了 3D 视频后,使用 3D 点追踪模型,密集地追踪视频中每一个点在三维空间中的运动轨迹。

4.对象分割与提取:上一步追踪了整个场景的运动。为了得到 “对象” 的动作流,NovaFlow 使用开放词汇的对象检测和分割模型(如 Grounded-SAM2),将视频中的目标物体(如抽屉)从背景中分割出来。最后,只保留属于该物体的运动轨迹,就得到了最终的、纯净的 “可执行 3D 对象流”。

值得一提的是,由于视频生成模型有时会产生不符合物理规律或指令的 “幻觉” 内容,研究团队还引入了一个拒绝采样步骤:并行生成多个候选视频及其动作流,然后利用一个强大的 VLM 模型(如 Gemini)来评估哪个动作流最 “合理”,并选择最优的那个用于后续执行。



动作流执行器:将 3D 动作流转化为机器人动作

这个模块负责将抽象的 3D 对象流 “翻译” 成机器人可以执行的具体动作序列。它针对不同类型的物体,采用了不同的策略:

  • 对于刚性物体(和铰接物体如抽屉):由于移动物体是刚性的,它的运动可以用一个简单的刚体变换(旋转和平移)来描述。执行器通过分析动作流中关键点的变化,计算出物体在每个时间步的 6D 位姿(位置 + 姿态)。然后,结合抓取位姿生成模型,计算出机械臂末端执行器需要达到的相应位姿序列,最后通过轨迹优化生成平滑且无碰撞的关节指令。
  • 对于可变形物体(如绳子):可变形物体的动力学更为复杂,无法用简单的刚体变换描述。此时,3D 动作流就成了一个更强大的工具。它被用作一个密集的追踪目标,指导一个基于模型的规划器(如模型预测控制 MPC)进行操作。规划器会利用一个粒子动力学模型来预测绳子的形态变化,并不断优化机器人的动作,使得绳子的实际状态尽可能地去拟合动作流所定义的理想状态。

“真金火炼”:实验效果如何?

研究团队在 Franka 机械臂(桌面操作)和波士顿动力的 Spot 四足机器人(移动操作)上,对 NovaFlow 进行了广泛的实验验证。任务涵盖了刚性物体(挂杯子、插木块)、铰接物体(开抽屉)和可变形物体(拉直绳子)三大类。



图 3:真实世界桌面操作任务的成功率对比。NovaFlow(紫色)在所有零样本方法中表现最佳,甚至优于使用 10 个和 30 个示教数据训练的模仿学习策略(DP)。

实验结果令人印象深刻:

1.超越同类零样本方法:与 AVDC、VidBot 等同样不需要示教数据的零样本方法相比,NovaFlow 在各项任务上均取得了最高的成功率。这得益于其精确的 3D 动作表示,而其他方法多依赖 2D 光流,缺乏 3D 感知和长期一致性。

2.超越需要数据的模仿学习方法:更引人注目的是,NovaFlow 的表现甚至超过了使用 10 个乃至 30 个真实示教数据为每个任务单独训练的模仿学习基线(Diffusion Policy)。这充分证明了从生成视频中提取常识知识的巨大潜力,成功绕过了对真实机器人数据的依赖。

挑战与未来展望





尽管 NovaFlow 取得了显著成功,但研究也揭示了当前方法的局限性。失效分析表明,大部分的失败并非发生在 “理解” 阶段,而是发生在物理执行的 “最后一公里”,如抓取失败、或因意外的物理动态导致的执行偏差。这暴露了当前开环(open-loop)规划系统的脆弱性 —— 计划制定后便不再根据实际情况调整。未来的一个重要研究方向是开发闭环反馈系统。通过实时感知环境反馈,动态地调整或重新规划生成的动作流,从而使系统对现实世界中的不确定性和干扰更加鲁棒。

总而言之,NovaFlow 为机器人自主操作提出了一个全新的、无需示教的框架。它通过解耦任务理解与底层控制,并创造性地利用大型视频生成模型作为常识知识的来源,有力地证明了在没有机器人特定数据的情况下实现通用、泛化操作的可能性。这或许将是我们向着能够 “举一反三” 的通用机器人迈出的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
意大利经济发展部前副部长:建议想要与中国合作的外企都读一读“十五五”规划

意大利经济发展部前副部长:建议想要与中国合作的外企都读一读“十五五”规划

界面新闻
2026-03-25 15:50:08
水亦诗也没想到,她同父异母的弟弟妹妹,如今已经开始给父亲争光

水亦诗也没想到,她同父异母的弟弟妹妹,如今已经开始给父亲争光

云舟史策
2026-03-23 14:32:43
我57岁,退休后参加了3个老年团,发现不同圈子的不同“潜规则”

我57岁,退休后参加了3个老年团,发现不同圈子的不同“潜规则”

十指说情
2026-03-24 09:06:31
法国大区主席:法甲争冠战延期令人遗憾;朗斯捍卫的是体育公平

法国大区主席:法甲争冠战延期令人遗憾;朗斯捍卫的是体育公平

懂球帝
2026-03-26 23:02:22
土耳其老丈人来中国,被亲家一桌菜整破防:庆幸女儿嫁过来!

土耳其老丈人来中国,被亲家一桌菜整破防:庆幸女儿嫁过来!

晨光苏醒a
2026-03-27 03:23:20
上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

上映4天,仅3个观众,总票房104元,2026年最惨电影诞生

错过美好
2026-03-24 23:41:07
绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

绿箭口香糖烟盒包装热销,网友评价褒贬不一,客服:购买无年龄限制

极目新闻
2026-03-26 16:43:13
2026年3月25日摩托车补贴新消息:国补地补叠加,最高可省近万元

2026年3月25日摩托车补贴新消息:国补地补叠加,最高可省近万元

刘哥谈体育
2026-03-26 08:43:40
伊媒:伊朗若遭美国地面入侵将打击曼德海峡

伊媒:伊朗若遭美国地面入侵将打击曼德海峡

参考消息
2026-03-26 11:02:08
李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

李连杰当面一句“我刚换了心脏”,谢苗脸唰一下白了,气都不敢喘

西楼知趣杂谈
2026-02-28 21:36:48
张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

潮鹿逐梦
2026-03-26 11:53:28
4.66克变2.71克?女子用两件金饰换“一口价”项链后克重“缩水”严重;金店:可补折旧费换回足克

4.66克变2.71克?女子用两件金饰换“一口价”项链后克重“缩水”严重;金店:可补折旧费换回足克

大风新闻
2026-03-26 19:31:03
【2026.3.26】爆姐的饭后爆料:生命不止,爆料不息!

【2026.3.26】爆姐的饭后爆料:生命不止,爆料不息!

娱乐真爆姐
2026-03-26 23:33:09
香港车市新王诞生:以9751辆战绩创新高,凭硬核实力改写市场格局

香港车市新王诞生:以9751辆战绩创新高,凭硬核实力改写市场格局

不凡智库官方
2026-03-15 19:03:06
安徽一女护士回娘家路上失踪,15年后给哥哥托梦:我在院子里

安徽一女护士回娘家路上失踪,15年后给哥哥托梦:我在院子里

清茶浅谈
2025-02-27 14:55:55
施海荣若下课,谁来执掌江苏女排?张常宁,沈富麟还是外教

施海荣若下课,谁来执掌江苏女排?张常宁,沈富麟还是外教

金毛爱女排
2026-03-27 00:00:04
中国大使馆迁新址,做墙体检查时,发现35枚“中国制造”的窃听器

中国大使馆迁新址,做墙体检查时,发现35枚“中国制造”的窃听器

华人星光
2025-10-08 11:27:35
陕西男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知酿成惨剧

陕西男子用2条毒蛇泡酒,12年后打开本想品尝美酒,谁知酿成惨剧

红豆讲堂
2025-03-26 10:05:43
公安部172号令落地,70岁以上开车,记住“一测一体检”就够了

公安部172号令落地,70岁以上开车,记住“一测一体检”就够了

阿芒娱乐说
2026-03-25 10:25:03
油价一夜突变!3月25日全国油价调整后92/95汽油价格、0号柴油价格最新公布

油价一夜突变!3月25日全国油价调整后92/95汽油价格、0号柴油价格最新公布

沙雕小琳琳
2026-03-25 15:38:00
2026-03-27 04:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
房产
健康
数码
旅游

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

转头就晕的耳石症,能开车上班吗?

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

无障碍浏览 进入关怀版