网易首页 > 网易号 > 正文 申请入驻

10万+,超大规模人手交互视频数据集!面向可泛化机器人操作|CVPR 2025

0
分享至

新智元报道

编辑:LRST

【新智元导读】香港中文大学(深圳)的研究团队发布TASTE-Rob数据集,含100856个精准匹配语言指令的交互视频,助力机器人通过模仿学习提升操作泛化能力。团队还开发三阶段视频生成流程,优化手部姿态,显著提升视频真实感和机器人操作准确度。

随着具身智能的不断发展,机器人操作也逐渐融入到人们的日常生活中,可辅助完成物体抓取、倒水、表面清洁和整理等任务。

通过模仿学习,如今的机器人能够模仿视频演示中的动作,完成对应的任务。但要求操作环境与视频演示中的环境几乎完全相同,这限制了其在新场景中的泛化能力,比如:当被操作物体的位置或被操作物体本身发生变化时,机器人便无法准确地完成任务。

为解决机器人操作泛化能力不足的问题,近期研究将模仿学习与视频生成等生成模型结合,通过生成机器人-物体交互的演示视频来提升泛化能力。

但是,由于机器人数据难以采集,无法收集到大量的高质量数据,这类方法所提供的泛化能力仍然有限。

鉴于人手操作视频数据量庞大且采集难度低,一种更具扩展性的方案是生成「人手-物体」交互的演示视频,以实现更优的泛化效果。

此外,当前先进的策略模型已能够有效弥合人手与机器人操作之间的差异,通过模仿人手交互动作控制机器人执行任务,并展现出良好的应用潜力,进一步验证了该方案的可行性。

不过,由于缺乏高质量的人手-物体交互视频及其详细任务指令,当前通用视频生成模型在生成特定任务和环境下的交互视频时,仍然面临挑战。

为攻克现有挑战,香港中文大学(深圳)的研究团队推出了首个面向任务的大规模人手-物交互数据集TASTE-Rob,涵盖了100,856个匹配精准语言指令的第一视角交互视频。

论文地址:https://arxiv.org/abs/2503.11423

项目主页:https://taste-rob.github.io/

GitHub地址:https://github.com/GAP-LAB-CUHK-SZ/TASTE-Rob

区别于Ego4D,TASTE-Rob通过固定机位,独立拍摄单次的完整交互过程,确保了环境稳定指令与视频精准对应等特性,为模仿学习等领域提供了高质量数据。

研究团队提出三阶段视频生成流程:先基于指令和环境图像生成初步演示视频,再借助运动扩散模型优化手部姿态序列以解决抓取姿态不稳定的问题,最后再根据优化后的姿态重新生成视频,显著提升了手物交互真实感。

实验证实,该数据集与三阶段流程的结合,在视频生成质量和机器人操作准确度上均大幅超越现有生成模型。

数据集属性

TASTE-Rob包含了100,856组视频及其对应的详细语言任务指令。为满足人手-物交互视频生成需求,TASTE-Rob旨在实现以下目标:1)所有视频采用固定机位拍摄,每个视频仅记录一段与任务指令高度匹配的动作;2)覆盖多样化的环境和任务类型;3)包含各类人手-物交互场景下的丰富手部姿态。

图1展示了数据集覆盖的环境包括厨房、卧室、餐桌、办公桌等场景;以及数据采集过程中,采集者需与各类常用物品进行交互,执行拿取、放置、推挪、倾倒等操作。

图1:TASTE-Rob场景及动作类型统计

图2展示了数据集中手部抓握姿态的分布,主要关注拇指、食指和中指的指间夹角与弯曲度。由于被抓取物体和执行动作类型的多样性,数据集覆盖了丰富的抓握姿态。

图2:TASTE-Rob手部抓握姿态统计

TASTE-Rob与现有HOI数据集的对比

表1展示了TASTE-Rob数据集与现有的第一视角人手-物交互(HOI)视频数据集的对比情况,主要的区别体现在以下几点:

表1:TASTE-Rob与现有HOI数据集的对比

1.相机视角及动作-指令匹配程度考虑到模仿学习中的视频演示一般从固定的摄像机视角进行录制,并且仅包含一个与任务指令相匹配的单一动作,因此TASTE-Rob中用了同样的设置条件;

2.语言指令的详细程度:为了进一步提升对语言指令的理解程度,TASTE-Rob在指令中融入了丰富多样的物体限定词,从而生成有效且准确的演示视频;

3.数据量及数据质量:TASTE-Rob拥有最多的视频片段数量和1080p的视频分辨率。

三阶段视频生成流程

当给定一张环境图像和一个任务指令描述,所生成的人手-物交互视频需满足:

1.准确的任务理解:能正确理解要操作的物体以及操作方式;

2.可行的手物交互:在整个操作过程中保持一致的手部抓握姿势。

如图3的第一阶段所示,在TASTE-Rob数据集上微调的视频生成模型所生成的视频虽然能准确理解任务,但在保持一致抓握姿势方面表现一般。

为了满足这两个要求,该研究团队在第二阶段从生成视频中提取手部姿态序列,并使用训练得到的运动扩散模型对其进行优化,并在第三阶段基于优化后的手部姿态序列,生成同时满足上述两个要求的高真实度人手-物交互视频。

图3:三阶段视频生成流程

TASTE-Rob的意义

TASTE-Rob数据集能带来什么?

研究团队探索了TASTE-Rob对视频生成质量的帮助:对比了在TASTE-Rob数据集上微调(Coarse-TASTE-Rob)与在Ego4D数据集上微调(Ego4D-Gen)的视频生成性能,两者间唯一的区别在于所使用的训练数据集不同。

如表2和图4所示,TASTE-Rob数据集带来了更优的生成质量。

表2:在Ego4D/TASTE-Rob上微调视频生成模型的数值结果

图4:在Ego4D/TASTE-Rob上微调视频生成模型的可视化结果

三阶段视频生成流程能带来什么?

研究团队从三个评估维度上探索了三阶段视频生成流程对视频生成质量的帮助:如表3的视频生成指标和图5所示,视频生成的宏观表现上,该流程能够生成更高质量的手物交互视频。

视频生成的细节表现上,表3中的抓握姿态一致性指标和图5的结果进一步验证了,该流程有效解决了抓握姿态不稳定的问题,成功帮助机器人实现更准确的操作。

此外,在机器人的模仿学习效果上,如图6和表3中的成功率指标所示,该流程有助于策略模型更准确地完成任务,显著提升了任务成功率。

表3:使用/不使用三阶段视频生成流程的数值结果

图5:使用/不使用三阶段视频生成流程在真实场景测试集的可视化结果

图6:使用/不使用三阶段视频生成流程在机器人仿真平台测试集的可视化结果

总的来说,TASTE-Rob将会为整个具身智能社区带来很多诸多可能性与挑战,更多数据集与实验细节请参阅原论文。

参考资料:

https://arxiv.org/abs/2503.11423

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

何超琼没想到,倒贴14亿嫁东北小伙的何超盈,如今竟给她狠狠长脸

往史过眼云烟
2026-03-26 20:33:55
猝死三件套:熬夜、咖啡、跑步——人生最后一课

猝死三件套:熬夜、咖啡、跑步——人生最后一课

水滴的声音
2026-03-25 08:36:43
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
小雨!中雨!局地大雨或暴雨+雷暴大风冰雹!未来7天广西有3轮降雨......

小雨!中雨!局地大雨或暴雨+雷暴大风冰雹!未来7天广西有3轮降雨......

广西气象
2026-03-26 19:34:30
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
A股:今天收3889.08,尾盘已明确,做好准备,明天周五,要变盘了

A股:今天收3889.08,尾盘已明确,做好准备,明天周五,要变盘了

虎哥闲聊
2026-03-26 15:09:13
“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

“鸟面妈妈”王小妞:不听劝阻生二胎,儿子遗传其外貌,现如何

观察者海风
2026-03-24 23:04:30
越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

越扒越猛!释永信在少林寺有多爽,你根本想不到!终于落到这下场

林轻吟
2026-03-26 07:34:21
伊媒:伊朗若遭美国地面入侵将打击曼德海峡

伊媒:伊朗若遭美国地面入侵将打击曼德海峡

参考消息
2026-03-26 11:02:08
伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

伊朗外长:霍尔木兹海峡只对敌人关闭 中国、俄罗斯等国船只都安全通过了

闪电新闻
2026-03-26 10:48:55
A股“分红王”来了,拟10股派70元

A股“分红王”来了,拟10股派70元

数据宝
2026-03-26 22:16:46
52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

股经纵横谈
2026-03-16 21:56:42
Manus终于喝下自己藏好的毒

Manus终于喝下自己藏好的毒

蓝媒汇财经plus
2026-03-25 21:27:26
马斯克最新回复来了

马斯克最新回复来了

新浪财经
2026-03-26 19:29:33
为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

为什么闲鱼很多卖家只支持自提?网友:等你碰上到手刀的就老实了

另子维爱读史
2026-03-22 22:34:48
“橄榄绿”今年爆火,太显白了!

“橄榄绿”今年爆火,太显白了!

超级数学建模
2026-03-25 22:39:01
“抱抱我,不炸了...” 极端分子去炸医院,竟被路人大哥嘴炮感化,当场自首?!

“抱抱我,不炸了...” 极端分子去炸医院,竟被路人大哥嘴炮感化,当场自首?!

英国那些事儿
2026-03-25 23:14:43
2026-03-26 23:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
旅游
数码
时尚
军事航空

教育要闻

天天学习|走进课堂的“大朋友”

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

400万人爱过的女孩,被黄谣网暴180天后

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版