网易首页 > 网易号 > 正文 申请入驻

顶会收录!机器人刷视频就学会操作?南科大×逐际动力×港大新成果

0
分享至

想象一下,如果机器人也能像我们一样,通过刷视频就能学习各种操作技能——比如从抖音上的叠衣服技巧学会整理衣物,从B站的收纳教程学会归置物品——那会是什么样子?

听起来很科幻?但在本月公布的CoRL 2025论文收录名单中,一篇来自南方科技大学CLEAR Lab、逐际动力和香港大学的联合研究,正在把这个设想变成现实。



收录地址:https://www.corl.org/program

Conference on Robot Learning (CoRL)可不是一般的学术会议。作为机器人学习领域的顶级学术会议,自2017年创办以来,CoRL始终引领着机器人学习的技术前沿。今年CoRL 2025关注操作与模仿学习、感知、规划与安全、运动控制、人形与硬件等大热核心主题,竞争之激烈可想而知。

在这样的背景下,南方科技大学CLEAR Lab联合逐际动力、香港大学的论文《Generative Visual Foresight Meets Task-Agnostic Pose Estimation in Robotic Table-top Manipulation》能够成功入选,是因为它提出了一种巧妙的机器人训练范式:让机器人通过视频来预测任务执行过程,进而学会自主操作。这也是逐际动力在利用视频数据进行具身智能训练的又一突破,有望加速机器人自主操作能力的发展。


[图:机器人通过观察人类来学习]


▍GVF-TAPE:让机器人先"看懂"再操作的新范式

在具身智能训练的数据金字塔中,视频数据是最大的变量。为什么这么说?因为互联网上有海量的人类操作视频——从美食教程到手工DIY,从工业装配到日常家务,这些视频本质上都是宝贵的"教学资源"。

问题是,如何让机器人真正"看懂"这些视频并转化为自己的技能?

传统方法就像让机器人死记硬背——工程师需要针对特定场景、特定操作任务进行手把手示教,告诉机器人每个动作的精确参数。这种方式下的人力、时间成本高昂,且无法应对环境的变化,导致部署和泛化的效率低下。

论文中所介绍的GVF-TAPE(Generative Visual Foresight with Task-Agnostic Pose Estimation)算法,核心创新在于将生成式视觉预测和与任务解耦的姿态估计相结合,简单来说,就是让机器人通过看视频学习操作,像人类一样先在脑海里"演练"一遍完成任务的整个过程:

1.先从视频学习一遍:机器人“看”同类的操作视频,学习操作动作

2.准确预测完成任务的画面:通过视频生成模型,预测出自己完成任务时的RGB-D视频,既有颜色信息,更重要的是还有深度信息。

3.再根据想象的画面推理动作:从生成的视频中提取末端执行器的姿态信息

4.最后执行具体操作:通过低层控制器将姿态转化为可执行的运动指令


[图.方法框图概览]


▍三项突破,让机器人更快学会操作

突破一:无需深度相机即可生成RGB-D视频

传统方法生成的只是2D RGB视频,没有空间信息,机器人无法在三维空间准确执行操作。而GVF-TAPE的突破在于,仅凭RGB图像就能生成RGB-D视频——既有颜色信息,也有深度信息,不需要再借助额外的深度相机来植入空间信息。


生成RGB-D操作视频,第一行代表RGB图,第二行代表对应的深度图


这就像给机器人装上了"立体视觉",让它能更准确地判断物体在三维空间中的位置。在仿真实验中,加入深度信息后,任务成功率平均提升了6.78%。更重要的是,不需要深度相机后,对于数据采集工具要求进一步降低,成本下降的同时效率也大幅提高。

突破二:与具体任务解耦的机器人姿态预测

让人眼前一亮的是GVF-TAPE的训练方式。不同于传统的手把手示教,它采用了"机器人随机探索"训练模式,机器人随机运动,就能获得对场景泛化有价值的数据:

机器人在环境中随意运动,利用内置的本体感知系统记录当前场景下机器人位姿(位置和姿态)。这些看似毫无章法的动作,实际上是在构建一个庞大的"场景-位姿"对应关系数据库,让算法对场景“免疫”,在任何场景都能识别机器人的位姿。

这种方法的巧妙之处在于:

动作与任务完全解耦,同一份数据可以用于训练各种不同任务,提高了数据复用率

数据采集完全自动化,不需要任何人工标注,大幅减少了人力成本,也加速了数据库的积累与迭代速度

可扩展性极强,数据库越大,泛化能力越强,模型将在更多任务中有更稳健的表现

通过这种自主探索方式,机器人建立了丰富的位姿数据库。面对新场景、新任务时,它能够调用相关经验,快速排除场景噪音,生成最优控制轨迹,真正实现了"一次训练,多任务、多场景应用"。

突破三:实时响应的视频生成速度

以往基于扩散模型(Diffusion Model)的视频生成方法,就像传统胶片相机的冲印过程——需要经过显影、定影等多个步骤才能得到清晰照片,往往要花好几秒甚至十几秒才能生成一段动作视频。

GVF-TAPE采用了"流匹配"(Flow Matching)技术,就像数码相机的即拍即得——虽然两者都是通过降噪来生成清晰图像,但Flow Matching能用更少的步骤达到同样甚至更好的效果,将单个动作的预测时间缩短到0.6秒。


[图. 生成质量对比]


从图中可以看到,左侧图表显示的是视频生成误差——流匹配(红线)在相同步数下,误差值大大小于扩散模型(蓝线)。右侧图表展示的是生成视频的图像质量,流匹配仅用前三步就达到了大大高于扩散模型的质量。这种速度提升,让机器人能够在不同场景下快速、准确地执行操作,真正实现了实时闭环控制。

▍实验验证:更高的效率和成功率

为了验证这种"先预测再操作"方法的有效性,研究团队在仿真和真实环境中都进行了大量测试。

仿真环境表现

在LIBERO基准测试中,GVF-TAPE与多个最先进的方法进行了对比。结果显示:


[图. 仿真试验结果]


在LIBERO-Spatial和LIBERO-Object测试中,GVF-TAPE分别取得了95.5%和86.7%的成功率

整体平均成功率达到83%,比第二名高出11.56%

最关键的是,其他方法都需要20%的动作标注数据,而GVF-TAPE完全不需要

实机部署验证

在真实环境中,研究团队测试了7个不同难度的任务,包括刚体、柔体和铰接物体操作等。具体包括把碗放进微波炉并关门、抓取纸巾、折叠衣服、把抹布扔进垃圾桶等。

从简单抓取到复杂的开合操作,从刚性到柔性物体,GVF-TAPE在不同场景和操作变化下都展现出了强大的适应性。特别值得一提的是,在引入人类操作视频进行预训练后,成功率从56%飙升至86%。

▍基于生成视频数据的自主操作探索再升级

作为该成果的研究团队成员之一,逐际动力一直在探索"多元数据配方"策略——通过整合不同模态、不同来源的数据,让机器人更高效地学习操作技能。在视频数据驱动的机器人训练这一方向上,他们取得了多项突破。

今年年初,逐际动力推出的LimX VGM(VideoGenMotion)算法,首次实现了将人类操作视频实现机器人操作。而这次的GVF-TAPE,进一步优化了这一技术栈:

从分钟级延迟到亚秒级响应,实现了实时视频生成

从依赖深度相机到纯视觉生成,增强了空间感知能力

以本体随机探索替代人类示教,大幅降低了数据采集成本

这种持续的技术迭代,正在让视频数据成为机器人学习的"通用教材",推动着具身智能向更实用、更高效的方向发展。

试想一下,未来的场景:工厂里的机器人,通过学习大量操作视频就能快速上岗;家里的服务机器人,参考网上的教程视频不断学习新技能;医院的手术机器人,通过观摩手术录像持续提升操作水平。

这种让机器人通过视频学习的能力,或许正是具身智能真正走向大规模应用的关键一步。

毕竟,谁不想身边有一个通过视频就学会干活的机器人助手呢?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浓眉将结束独行侠生涯?大学校友沃尔爆料:有传言说他想回芝加哥

浓眉将结束独行侠生涯?大学校友沃尔爆料:有传言说他想回芝加哥

罗说NBA
2025-11-14 06:15:26
大幅降温!今年下半年首场寒潮来袭 青藏高原至西南地区多阴雨雪

大幅降温!今年下半年首场寒潮来袭 青藏高原至西南地区多阴雨雪

极目新闻
2025-11-14 08:56:37
重庆这个“低调”的医院,凭啥让全国患者纷纷慕名而来?

重庆这个“低调”的医院,凭啥让全国患者纷纷慕名而来?

白宸侃片
2025-11-14 07:10:40
石破茂卸任后直言:中日若开战,日本百分之百会亡国

石破茂卸任后直言:中日若开战,日本百分之百会亡国

丹徒生
2025-11-12 05:53:54
于和伟羽绒服成焦点,红毯规矩被打破?300元涨幅背后藏着什么?

于和伟羽绒服成焦点,红毯规矩被打破?300元涨幅背后藏着什么?

勺哥乡村味道
2025-11-14 12:53:01
奥运冠军李晓霞,退役当大学教授,结婚生俩娃,年入百万很幸福

奥运冠军李晓霞,退役当大学教授,结婚生俩娃,年入百万很幸福

篮球国度
2025-11-14 10:06:34
2909亿身家有何用?97岁的李嘉诚无力回天,两个60岁儿子已成心病

2909亿身家有何用?97岁的李嘉诚无力回天,两个60岁儿子已成心病

特特农村生活
2025-11-14 07:57:56
江苏快递员被捅后续:双方争执女子丈夫失控,知情人透露更多

江苏快递员被捅后续:双方争执女子丈夫失控,知情人透露更多

史行途
2025-11-14 13:37:38
朱元璋为啥不愿传位给朱棣?史学家:其实谁都可以,唯独朱棣不行

朱元璋为啥不愿传位给朱棣?史学家:其实谁都可以,唯独朱棣不行

掠影后有感
2025-11-10 08:02:51
一人身亡!北京五环发生严重事故!

一人身亡!北京五环发生严重事故!

美丽大北京
2025-11-13 17:47:33
陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

陈伟霆机场接妈妈,何穗穿情侣装首晒照迎婆婆

日不西沉
2025-11-12 05:45:28
日本政府正式宣布!11 月 11 日日本政府官宣 2026 年上调签证费

日本政府正式宣布!11 月 11 日日本政府官宣 2026 年上调签证费

南权先生
2025-11-13 15:52:13
见过自带财运的人吗?来自网友分享:感觉财神爷都跟着他走

见过自带财运的人吗?来自网友分享:感觉财神爷都跟着他走

一桶浆糊要一统江湖
2025-10-14 23:50:03
快递员河边救下一儿童,却被拘留7天,获释后被救者一家五口被灭门

快递员河边救下一儿童,却被拘留7天,获释后被救者一家五口被灭门

悬案解密档案
2025-11-06 10:39:29
福特CEO自述拆解特斯拉及中国电动车后“自愧不如”,“发现的东西令人震惊”

福特CEO自述拆解特斯拉及中国电动车后“自愧不如”,“发现的东西令人震惊”

环球网资讯
2025-11-12 17:06:55
赵丽颖和冯绍峰一起送儿子上学,两个人步伐一致,看上去关系很好

赵丽颖和冯绍峰一起送儿子上学,两个人步伐一致,看上去关系很好

老吴教育课堂
2025-11-12 10:10:14
1-0!1亿人口国家狂欢:第91分钟绝杀!送8次晋级世界杯常客出局

1-0!1亿人口国家狂欢:第91分钟绝杀!送8次晋级世界杯常客出局

球场没跑道
2025-11-14 10:28:28
暴跌19℃!常州一地开始集中供暖!

暴跌19℃!常州一地开始集中供暖!

中吴网
2025-11-14 13:28:44
蔡磊已确诊晚期!拒见老婆孩子,3名阿姨伺候,用针管喝水都勉强

蔡磊已确诊晚期!拒见老婆孩子,3名阿姨伺候,用针管喝水都勉强

来科点谱
2025-11-01 09:26:41
林生斌现状曝光:定居澳洲富人区,一家幸福,现任是前公司员工

林生斌现状曝光:定居澳洲富人区,一家幸福,现任是前公司员工

林轻吟
2025-09-21 09:21:51
2025-11-14 17:07:00
机器人大讲堂 incentive-icons
机器人大讲堂
立德机器人平台,是一个集媒体品牌、智库咨询、投资孵化、引智招商为一体的机器人垂直领域服务平台
5930文章数 4552关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

29岁程序员疑被骗至东南亚 出租屋内留下一张神秘纸条

头条要闻

29岁程序员疑被骗至东南亚 出租屋内留下一张神秘纸条

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

本地
教育
房产
健康
军事航空

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

教育要闻

九宫格填数字,四年级三阶幻方

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

金振口服液助力科学应对呼吸道疾病

军事要闻

美军多海域再现“航母真空”

无障碍浏览 进入关怀版