网易首页 > 网易号 > 正文 申请入驻

达摩院最新研究| RynnVLA-001:让机器人从人类视频中学习操作技巧

0
分享至

近年来,视觉-语言-动作(Vision-Language-Action, VLA)模型在机器人领域取得了显著进展,它使得机器人能够理解人类的语言指令并执行相应的物理操作。然而,VLA模型的发展长期受限于一个核心瓶颈:高质量机器人训练数据的稀缺。收集大规模的机器人操作数据既昂贵又耗时。为了解决这一难题,来自阿里巴巴达摩院的研究者们提出了RynnVLA-001,一个创新的VLA模型,其核心思想是让机器人通过观看海量的第一人称视角人类操作视频,来学习通用的物理世界交互知识,从而显著提升其在真实世界中的操作能力。

论文标题: RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
论文链接: https://www.arxiv.org/pdf/2509.15212
项目链接: https://github.com/alibaba-damo-academy/RynnVLA-001
机构: 阿里巴巴达摩院,湖畔实验室

核心挑战:如何弥合人类视频与机器人动作之间的鸿沟?

互联网上存在着不计其数的第一人称(ego-centric)视频,其中包含了丰富的人类操作演示,例如烹饪、修理、手工等。这些视频本质上是关于“如何与世界互动”的宝贵数据。然而,直接将这些视频用于训练机器人面临两大挑战:

  1. 1. 视觉差异: 人类的手与机器人的机械臂在外观和运动学上完全不同。

  2. 2. 动作空间不匹配: 视频只包含像素信息,而机器人需要的是精确的低层控制指令(如关节角度、末端执行器坐标)。

RynnVLA-001通过一个精心设计的三阶段训练流程,逐步解决了这些问题。


图:该框架利用了三种类型的训练数据:(1) 第一人称视频生成预训练 (Ego-Centric Video Generative Pretraining) 使用数百万个人类第一人称操作视频进行未来帧的预测。(2) 以人为中心的轨迹感知视频建模 (Human-Centric Trajectory-Aware Video Modeling) 在带有个人关键点标注的视频上进行训练,实现了帧和轨迹的联合预测。(3) 以机器人为中心的视觉-语言-动作建模 (Robot-Centric Vision-Language-Action Modeling) 使用与语言指令配对的机器人数据集,来学习从视觉观察和语言到机器人动作的映射。

RynnVLA-001 的三阶段训练方法

研究团队提出了一种渐进式的预训练策略,分三步将从人类视频中学到的知识迁移到机器人上。

图: RynnVLA-001 的三阶段训练流程,(1) 第一人称视频生成预训练 训练一个基于Transformer的图像到视频 (I2V) 模型用于未来帧预测。(2) 以人为中心的轨迹感知视频建模 通过增加动作 (轨迹) 预测头,扩展了I2V模型,融合了视觉和状态嵌入(蓝色块)。(3) 以机器人为中心的视觉-语言-动作建模 将预训练权重迁移到机器人数据上,模型生成由ActionVAE解码为可执行动作的动作嵌入。

阶段一:第一人称视频生成预训练

此阶段的目标是让模型学习物理世界的基本动态规律。研究团队首先从网络上筛选并整理了1200万段第一人称视角的短视频。模型(一个基于Transformer的图像到视频I2V模型)的任务是:给定视频的第一帧图像和一个描述任务的文本指令(如“用螺丝刀拧螺丝”),预测接下来会发生什么,即生成后续的视频帧。

通过这个过程,模型被迫学习物体如何移动、工具如何使用以及手部操作如何改变环境。这为模型注入了关于“操作”的通用先验知识。

阶段二:以人为中心的轨迹感知建模

第一阶段模型只学会了“看”,但还不会“动”。为了建立视觉变化与具体动作之间的联系,第二阶段引入了人类手部关键点轨迹数据。模型在继续预测未来视频帧的同时,还被要求联合预测人类手腕关键点在未来的运动轨迹

人类手腕的轨迹可以被看作是机器人末端执行器轨迹的一种“弱监督”信号。通过学习将视觉变化与轨迹运动关联起来,模型开始理解“什么样的动作会导致什么样的视觉结果”,从而初步搭建起从视觉到动作的桥梁。

为了高效地表示动作,研究者还提出了一个名为ActionVAE的变分自编码器。它能将一段连续的动作序列(无论是人类轨迹还是机器人动作)压缩成一个紧凑的、连续的潜在嵌入向量。这不仅降低了预测的复杂度,还保证了生成动作的平滑性和连贯性。

阶段三:以机器人为中心的VLA建模

最后,模型将在机器人上进行“实战”训练。此阶段将前两个阶段预训练好的模型权重迁移过来,并在真实的机器人操作数据集上进行微调。

此时,模型的输入变成了真实的机器人摄像头视图(前置和手腕视角)、机器人当前状态(如关节角度)和语言指令。模型的输出目标不再是视频帧或人类轨迹,而是机器人动作的ActionVAE嵌入向量。这个嵌入向量随后被ActionVAE的解码器还原成一段可执行的机器人动作序列。

通过这种方式,模型将在前两阶段学到的通用物理知识和操作理解,适配到具体的机器人硬件上,学会如何控制机械臂完成任务。

实验结果:显著优于现有模型

为了验证RynnVLA-001的有效性,研究者在一个真实机器人平台上进行了多项操作任务的评测,包括“拾取并放置绿色积木”、“拾取并放置草莓”和“将笔放入笔筒”,并与当前主流的开源VLA模型(如英伟达的GROOT N1.5和谷歌的Pio)进行了比较。

图:评估任务图示

1. 整体性能对比

实验结果表明,RynnVLA-001在所有任务上的成功率均显著高于基线模型。

方法

平均成功率 (%)

GR00T N1.5

55.6

Pio

70.4

RynnVLA-001 (Ours) 90.6

表1: RynnVLA-001与SOTA模型在三个操作任务上的平均成功率对比。

这一结果有力地证明,通过从大规模人类视频中进行预训练,可以为VLA模型提供一个更有效的初始化,从而在下游机器人任务上取得更优异的表现。

2. 预训练的有效性分析

为了进一步探究预训练的每个阶段所起的作用,研究者进行了一系列消融实验:

  • 从零开始训练 (Scratch): 不使用任何预训练权重,模型几乎无法完成任务(成功率仅4.4%)。

  • 仅使用图像预训练 (Chameleon): 直接使用强大的图生文模型权重,成功率提升至50.0%,但定位能力有限。

  • +视频预训练 (Video): 在图像预训练基础上增加第一阶段的视频生成预训练,成功率大幅提升至84.4%。

  • +轨迹预训练 (Full): 在此基础上再增加第二阶段的轨迹感知预训练,即完整的RynnVLA-001,成功率达到最高的 90.6%

这些结果清晰地揭示了RynnVLA-001成功的关键:

  1. 1. 视频预训练至关重要: 学习物理世界的动态变化规律,比单纯从静态图像学习更有效。

  2. 2. 轨迹感知是点睛之笔: 显式地将视觉与动作(轨迹)关联起来,能有效弥合纯视觉预测与机器人动作生成之间的鸿沟。

结论与展望

RynnVLA-001项目展示了一条极具潜力的路径,即通过利用海量、易获取的人类视频数据,来克服机器人领域高质量训练数据稀缺的瓶颈。其提出的三阶段渐进式训练框架,成功地将人类视频中蕴含的通用操作知识迁移到机器人身上,使其在真实世界的操作任务中取得了领先的性能。

尽管当前工作主要在单一类型的机械臂上进行了验证,但这项工作无疑为构建更通用、更强大的机器人智能体开辟了新的思路。未来,我们期待看到这种方法被扩展到更多样的机器人平台和更复杂的环境中,让机器人能从人类世界中学会更多的本领。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
詹皇进总决赛含金量遭质疑!9次从实力较弱分区突围:NBA史上最多

詹皇进总决赛含金量遭质疑!9次从实力较弱分区突围:NBA史上最多

罗说NBA
2026-04-12 06:42:23
你遇到过哪些惊为天人的人物?网友:启动一小时休眠一整天

你遇到过哪些惊为天人的人物?网友:启动一小时休眠一整天

夜深爱杂谈
2026-03-20 19:32:42
减重30%,成本还更低!中国电动车掀起镁代铝浪潮:问界单车用镁达20公斤级,零跑、长安急寻供应商⋯⋯

减重30%,成本还更低!中国电动车掀起镁代铝浪潮:问界单车用镁达20公斤级,零跑、长安急寻供应商⋯⋯

每日经济新闻
2026-04-10 19:23:16
洗脸熊一夜成名!公司聊天记录流出,网友:500万花出5亿的效果

洗脸熊一夜成名!公司聊天记录流出,网友:500万花出5亿的效果

火山詩话
2026-04-11 07:38:12
路云任河南省委党校(河南行政学院)常务副校(院)长

路云任河南省委党校(河南行政学院)常务副校(院)长

汲古知新
2026-04-10 21:31:23
谢娜宣布将举办个人演唱会!“我会拿出百分百的诚意,特别想谢谢我的杰哥”

谢娜宣布将举办个人演唱会!“我会拿出百分百的诚意,特别想谢谢我的杰哥”

都市快报橙柿互动
2026-04-11 23:06:04
美国外交官遭“伏击”

美国外交官遭“伏击”

陆弃
2026-04-11 08:05:03
苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

世界圈
2026-04-04 13:13:03
荒唐一幕出现了?孙俪44岁演大尺度戏,郝蕾19年前的话被印证!

荒唐一幕出现了?孙俪44岁演大尺度戏,郝蕾19年前的话被印证!

动物奇奇怪怪
2026-04-12 08:35:44
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
强弱瞬息万变,国羽4席闯进亚锦赛决赛,多项目面临洗牌

强弱瞬息万变,国羽4席闯进亚锦赛决赛,多项目面临洗牌

真理是我亲戚
2026-04-11 21:14:52
美国被气死,中国高超导弹用水泥造: 想了100种可能都没试过水泥

美国被气死,中国高超导弹用水泥造: 想了100种可能都没试过水泥

基斯默默
2026-04-10 22:52:21
美伊谈判前夕,卡塔尔突然公开美军“铺路爪”被炸画面,啥意思?

美伊谈判前夕,卡塔尔突然公开美军“铺路爪”被炸画面,啥意思?

兵国大事
2026-04-11 17:14:10
戏多的利斯何时能撤下帽子上的乌克兰国旗?

戏多的利斯何时能撤下帽子上的乌克兰国旗?

网球之家
2026-04-11 13:15:27
欧洲为什么那么有钱?你以为是工业革命?别逗了。就连保加利亚那种犄角旮旯...

欧洲为什么那么有钱?你以为是工业革命?别逗了。就连保加利亚那种犄角旮旯...

网络易不易
2026-04-11 13:06:37
24岁韩国球星闪耀欧洲:无敌双响炮,率土超劲旅4-2,稳居前列

24岁韩国球星闪耀欧洲:无敌双响炮,率土超劲旅4-2,稳居前列

凌空倒钩
2026-04-11 06:45:04
800万豪宅拟作深圳大学宿舍引争议,高校住宿难如何破局?

800万豪宅拟作深圳大学宿舍引争议,高校住宿难如何破局?

南方都市报
2026-04-11 23:41:51
40岁单亲妈妈扛楼16年赚钱养儿女,当事人:坚持不了的时候,两个孩子就是我的动力

40岁单亲妈妈扛楼16年赚钱养儿女,当事人:坚持不了的时候,两个孩子就是我的动力

极目新闻
2026-04-11 22:32:39
南通0-3惨败!防线跟纸糊一样?常州年轻阵容凭什么碾压亚军?

南通0-3惨败!防线跟纸糊一样?常州年轻阵容凭什么碾压亚军?

小潌拍客在北漂
2026-04-11 23:07:57
2026-04-12 09:04:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5467文章数 64622关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

男子自带茅台就餐饮用时感觉不对味 服务员还"消失"了

头条要闻

男子自带茅台就餐饮用时感觉不对味 服务员还"消失"了

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

郑钧回应儿子走路:会监督他挺直腰板

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

艺术
教育
亲子
时尚
健康

艺术要闻

郑丽文缺席丈夫引争议!洪秀柱书法爆红,传统与现代的碰撞!

教育要闻

“父亲的心已经死了”,10后女孩报到职高,父亲全程背对引人心疼

亲子要闻

人为什么会没有3岁前的记忆呢?

春季穿衣别死气沉沉,看看这27套日常穿搭,活力时尚又减龄

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版