网易首页 > 网易号 > 正文 申请入驻

10%训练数据超越100%表现,机器人学习领域迎来重要突破

0
分享至

第一作者陈昌和是美国密歇根大学的研究生,师从 Nima Fazeli 教授,研究方向包括基础模型、机器人学习与具身人工智能,专注于机器人操控、物理交互与控制优化。

第二作者徐晓豪是美国密歇根大学机器人学院博士生,研究涵盖3D 感知、视觉语言模型驱动的多模态异常检测及鲁棒三维重建。

共同第一作者 Quantao Yang 是瑞典皇家理工学院博士后,师从 Olov Andersson 教授,研究聚焦于利用视觉语言模型与大型语言模型提升自主系统在动态环境中的感知与导航能力。

密歇根大学和瑞典皇家理工学院的研究团队提出了 ViSA-Flow 框架,这是一种革命性的机器人技能学习方法,能够从大规模人类视频中提取语义动作流,显著提升机器人在数据稀缺情况下的学习效率。该方法在 CALVIN 基准测试中表现卓越,仅使用 10% 的训练数据就超越了使用 100% 数据的现有最佳方法。

  • 作者: Changhe Chen, Quantao Yang, Xiaohao Xu, Nima Fazeli, Olov Andersson
  • 机构: 密歇根大学、瑞典皇家理工学院
  • 网页: https://visaflow-web.github.io/ViSAFLOW
  • 论文链接:https://arxiv.org/abs/2505.01288
  • 代码开源: 即将发布

研究背景与挑战

机器人模仿学习在使机器人获得复杂操作技能方面取得了显著成功,但传统方法面临一个根本性限制:需要大量精心策划的机器人数据集,收集成本极其昂贵。这已成为开发能够执行多样化现实世界任务的机器人的关键瓶颈。

相比之下,人类展现出通过观察他人学习新技能的非凡能力。无论是面对面学习、观看教学视频还是体育转播,人类本能地专注于语义相关的组件。例如,学习网球时,我们自然地关注球员的身体动作、球拍处理技巧和球的轨迹,同时有效过滤无关的背景信息。

核心创新:语义动作流表示

人类和机器人操作共享相似原子动作

ViSA-Flow 框架的核心创新在于引入了语义动作流(Semantic Action Flow)作为中间表示,捕捉操作器 - 物体交互的本质时空特征,且不受表面视觉差异影响。该框架包含以下关键组件:

1. 语义实体定位

利用预训练的视觉语言模型(VLM)对操作器(如 "手"、"夹具")和任务相关物体(如 "红色方块")进行文本描述定位,然后使用分割模型(如 SAM)生成初始分割掩码。

2. 手 - 物体交互跟踪

由于语义分割在连续帧间的不稳定性,研究团队提出跟踪正确分割的手 - 物体交互掩码。通过在初始掩码内密集采样点,使用点跟踪器(如 CoTracker)估计这些点在序列中的 2D 图像轨迹。

3. 流条件特征编码

为产生最终的 ViSA-Flow 表示,研究团队将流信息编码为丰富的特征向量,同时保留视觉上下文。使用跟踪点轨迹生成空间局部化放大掩码,通过放大因子调制感兴趣区域内的像素强度。

ViSA-Flow 架构和策略学习框架图

两阶段学习框架

第一阶段:预训练 - 学习 ViSA-Flow 动态先验

使用大规模人类视频数据集,预训练生成模型以建模 ViSA-Flow 空间内的动态。模型学习基于过去上下文和语言指令预测未来表示,目标函数为:

L_pretrain (ψ) = E [||g_ψ(z≤t, l)[OBS] - z_{t+1:t+n}||²]

第二阶段:微调 - 策略适应

使用少量机器人演示数据集微调模型,学习目标策略。采用多任务目标函数,结合动作预测和持续动态建模:

L_finetune (ψ) = E [L_act + λ_fwd*L_obs + λ_prog*L_prog]

实验评估

CALVIN 仿真实验

研究团队在 CALVIN 基准测试上进行了全面评估,使用 ABC→D 分割,在环境 A、B、C 上训练,在未见环境 D 上进行零样本评估。

预训练,微调以及评估所使用数据集

CALVIN ABC→D 基准测试的对比评估结果

关键发现

1. 数据效率优势:ViSA-Flow 仅使用 10% 的注释机器人轨迹(1,768 个),就超越了所有基线方法,包括使用 100% 数据的方法。

2. 连续任务性能:在 5 个连续任务完成方面,ViSA-Flow 达到 31.4% 的成功率,几乎是使用 10% 数据的次佳方法 GR-MG(16.2%)的两倍,甚至超过了使用 100% 数据训练的SuSIE(26.0%)。

3. 平均序列长度:2.96 的平均序列长度进一步证明了 ViSA-Flow 在处理长时程操作任务方面的有效性。

消融研究

评估 ViSA-Flow 关键组件贡献的消融研究结果

消融研究结果表明:

  • 移除语义实体定位显著降低性能,5 任务序列成功率从 31.4% 降至 9.6%
  • 省略时间跟踪阶段使平均成功长度从 2.96 降至 2.78
  • 排除操作器定位导致适度性能下降

真机实验

研究团队在真实世界环境中评估了 ViSA-Flow 的性能,包括两个单阶段操作任务和一个长时程操作任务。

实验设置:

  • 使用 7 自由度 Franka Emika Panda 机械臂
  • 通过 Oculus 应用程序进行遥操作数据收集
  • 双摄像头设置(眼内、眼外)提供 RGB 观察

真机实验设置

结果分析:

真实世界实验结果图表

  • 单阶段任务:ViSA-Flow 在 MoveContainer 和 PickEggplant 任务上显著优于 GR-MG
  • 长时程任务:ViSA-Flow 达到 56.3% 的整体成功率,而 GR-MG 和 DP 分别仅达到 8.3% 和 13.8%

定性分析

真实世界长时程任务的定性结果可视化

定性结果显示,ViSA-Flow 的单步预测在整个长时程执行过程中与真实流保持紧密对齐:

  • 模型持续聚焦于机器人夹具和任务相关物体
  • 空间支持随场景转换平滑连贯地演化
  • 在两个连续子任务中保持相同的准确性水平

奖励差异水平的性能分析

为评估 LLM 在不同难度水平下选择更优设计的能力,研究团队采用了难度加权准确率 (DWA) 指标进行分析。结果显示,ViSA-Flow 在处理细微性能差异的任务时表现更稳定,证明了语义动作表示的有效性。

提示设计分析

研究还探索了不同组件对框架性能的影响:

1. 语义分割的重要性:准确的语义实体识别是框架成功的关键

2. 时间跟踪的必要性:一致的点对应关系对保持时间动态至关重要

3. 跨域泛化能力:语义表示有效缓解了视觉外观差异的影响

技术优势与局限性

技术优势

1. 数据效率:仅需少量机器人演示数据即可达到优异性能

2. 跨域泛化:有效利用人类视频知识转移到机器人执行

3. 长时程稳定性:在复杂序列任务中保持稳定表现

4. 语义一致性:关注任务关键交互而非视觉外观

当前局限性

1.3D 几何建模缺失:缺乏显式的 3D 几何和接触动力学建模

2. 预训练组件依赖:依赖预训练 VLM 组件可能限制新领域适应性

3. 物理交互精度:在需要精细物理交互的任务中可能存在限制

未来发展方向

1. 物理建模增强:将接触物理学整合到 ViSA-Flow 表示中

2. 端到端训练:减少对预训练组件的依赖,实现联合训练

3. 强化学习集成:将 ViSA-Flow 先验与强化学习算法结合

4. 大规模预训练:扩展到网络规模的视频语料库进行预训练

研究意义与展望

ViSA-Flow 为机器人学习领域带来了重要突破,证明了从大规模人类视频中提取语义表示进行机器人技能学习的可行性。该方法不仅在理论上具有创新性,在实际应用中也展现出强大的性能优势。

通过引入语义动作流这一中间表示,ViSA-Flow 成功桥接了人类演示视频观察与机器人执行之间的差距,为构建更加智能、高效的机器人学习系统开辟了新的研究方向。

随着技术的进一步发展和完善,ViSA-Flow 有望在工业自动化、家庭服务机器人、医疗辅助等多个领域发挥重要作用,推动机器人技术向更加智能化和普适化的方向发展。

参考文献

本研究基于机器人操作、模仿学习和视频学习等多个前沿领域的最新进展,为推动机器人智能化发展提供了重要的理论基础和技术支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

每日经济新闻
2026-03-26 09:53:07
一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

一天蒸发6200亿!谷歌算法黑科技击溃存储股,华尔街痛批市场“不懂技术”

每日经济新闻
2026-03-26 19:00:13
联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

联大认定“奴隶制”为最严重反人类罪:123票赞成,美国、以色列、阿根廷共3票反对

扬子晚报
2026-03-26 07:27:54
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
山姆曲奇礼盒紧急下架!监管部门:已立案

山姆曲奇礼盒紧急下架!监管部门:已立案

中国品牌
2026-03-26 19:00:21
争端升级,菲船刚闯中方禁区,日本自卫就要登陆菲,还有23国介入

争端升级,菲船刚闯中方禁区,日本自卫就要登陆菲,还有23国介入

共工之锚
2026-03-27 01:13:22
官方:CCTV5、央视频等平台将转播国足vs库拉索

官方:CCTV5、央视频等平台将转播国足vs库拉索

懂球帝
2026-03-26 17:12:06
猝死三件套:熬夜、咖啡、跑步——人生最后一课

猝死三件套:熬夜、咖啡、跑步——人生最后一课

水滴的声音
2026-03-25 08:36:43
千万网红留几手账号被禁,彻底翻车

千万网红留几手账号被禁,彻底翻车

新浪财经
2026-03-26 18:59:50
皇马“6300万金童”到底怎么了?全阿根廷都在等他打脸质疑者

皇马“6300万金童”到底怎么了?全阿根廷都在等他打脸质疑者

仰卧撑FTUer
2026-03-26 23:09:03
这5种海鲜全是“科技与狠活”,老板自己都不吃,看完告诉家人!

这5种海鲜全是“科技与狠活”,老板自己都不吃,看完告诉家人!

乐天闲聊
2026-03-26 06:41:09
“我的部长同学进去了”

“我的部长同学进去了”

霹雳炮
2026-03-21 16:58:17
中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

中美都在赌,美国赌中国不敢打日本,而中国则在赌美国不会下场

南权先生
2026-03-24 15:30:39
威廉夫妇出席大主教就职典礼!英国王储穿西服很绅士,凯特美翻了

威廉夫妇出席大主教就职典礼!英国王储穿西服很绅士,凯特美翻了

八八尚语
2026-03-26 11:20:24
一口气刷完全集,Netflix新剧又杀疯了

一口气刷完全集,Netflix新剧又杀疯了

来看美剧
2026-03-26 19:45:54
索尼把7个音箱塞进1根长条,定价870美元赌用户听不出区别

索尼把7个音箱塞进1根长条,定价870美元赌用户听不出区别

我是一个养虾人
2026-03-26 00:31:09
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
A股:刚刚,关键信号落地,准备好,3月27日周五将迎来新的变化

A股:刚刚,关键信号落地,准备好,3月27日周五将迎来新的变化

云鹏叙事
2026-03-27 00:00:07
2026-03-27 03:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
游戏
亲子
本地
公开课

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版