网易首页 > 网易号 > 正文 申请入驻

香港大学与字节跳动联手:教机器人"看"人类动作来学习新技能

0
分享至


这项由香港大学HKU-MMLab与字节跳动Seed团队联合开展的研究,以预印本形式于2026年6月26日发布在arXiv平台,论文编号为arXiv:2606.28133。有兴趣深入了解的读者可以通过该编号在arXiv上查询完整论文。

研究的核心问题其实很贴近我们的生活直觉:既然人类做家务、整理厨房的视频随处可见,能不能让机器人直接"看"这些视频来学习干活?这个想法听起来很诱人,但实现起来却藏着一个巨大的陷阱——研究团队花了大量精力来找到这个陷阱,并想出了一个巧妙的办法绕开它。

一、机器人学徒的烦恼:为什么直接"抄"人类动作行不通

先设身处地感受一下这个挑战。假设你是一个刚入职的厨房学徒,师傅让你通过观看前辈切菜的视频来学习刀工。视频里的前辈用的是专业大刀,而你手边只有一把普通水果刀。即便你把前辈每一个手腕扭转的角度都记录下来,照着做的时候也可能切得一团糟——因为刀具形状不同,适合大刀的握法和角度对水果刀来说完全是另一回事。

双臂机器人和人类之间的关系正是如此。机器人的末端执行器是两个夹爪,就像两把平行的夹子;人类的手则有五根手指,可以灵巧地捏、握、钩、绕。当我们用电脑视觉技术从人类操作视频中提取手腕的"姿态"——包括位置和朝向——再让机器人照着做时,问题就出现了:人类手腕扭转一定角度是为了让五根手指配合着抓住物品,但机器人的夹爪根本不需要那个角度,强行模仿只会让夹爪对着错误的方向夹空气。

更糟糕的是,从视频里提取人类手腕的旋转角度本身就不准确。计算机视觉算法估算手腕朝向时会产生误差,就像用尺子量一个不停颤抖的物体,每次读数都略有不同。把这些带噪声的旋转数据喂给机器人,结果就是机器人做出奇怪的扭曲动作,完全没有抓住人类操作的本质。

研究团队在实验中直接验证了这一点:把从人类视频提取的完整六自由度腕部动作(位置加旋转)输入机器人时,机器人会做出变形、偏离目标的奇怪姿势,根本无法完成任务。

二、关键洞察:扔掉旋转,保留平移

研究团队在反复思考中抓住了一个关键事实:不论是人类还是机器人,在操作物体时,手腕(或夹爪)需要移动到哪个位置,这件事是高度一致的。打开微波炉门,手要先向前伸出去、靠近门把手;擦微波炉台面,手要从左往右横向移动。这种"手在空间中如何移动"的轨迹,对于人类和机器人来说本质上是一样的——都需要从A点移动到B点。

至于手到了那个位置之后,手腕应该朝哪个方向、指头应该怎么弯曲,那才是人类和机器人真正不一样的地方。

由此,研究团队提出了他们称之为"桥接动作"的表示方法:只记录手腕(或夹爪)在三维空间中的平移轨迹,彻底丢掉旋转信息。具体来说,他们把手腕在世界坐标系中的位置,投影到机器人头部摄像头所观察到的画面坐标系里,然后记录手腕在接下来若干时间步内,相对于当前位置的位移变化。

用更生活化的方式理解:这就像用GPS导航只记录"从当前位置向北走50米,再向东走30米",而不去管你走路时两只脚的姿势或身体的朝向。导航关心的只是你的轨迹,不关心你的步态。同样,这个"桥接动作"只关心手腕在空间中走了什么路径,而不关心手腕自身如何旋转。

这个设计有三个直接好处。其一,平移信息比旋转信息容易从视频中准确提取,噪声小得多。其二,平移轨迹对人类和机器人来说具有相同的物理含义——都是在描述末端执行器在空间中的运动路径。其三,不同夹持机构在相同任务中确实走相似的平移轨迹,这是动作本质的共性所在。

三、搭建"翻译桥梁":让人类数据和机器人数据在同一个模型里共存

光有这个桥接动作的概念还不够。人类的数据通常只有平移信息(因为旋转信息不可靠),而机器人要实际运动则需要完整的六自由度指令(三个位置分量加三个旋转分量),还需要控制夹爪开合的离散信号。怎么让一个统一的模型同时处理这些来源不同、格式不同的数据,就成了第二个需要解决的工程问题。

研究团队构建了一个基于大型视觉-语言-动作模型的系统,其架构思路借鉴自业内知名的π?模型。这个系统的工作方式可以用餐厅后厨的协作来理解:有一个"大厨"负责理解食材(视觉信息和语言指令),把理解结果传递给"炒锅师傅"(动作生成模块),由后者实际输出具体的操作动作。

为了处理不同数据来源的动作格式差异,研究团队设计了一种"交错动作序列"的表示方式。每个时间步的动作被分成三段依次排列:第一段是三维平移的桥接信息,第二段是完整的六自由度末端执行器动作,第三段是夹爪开合信号。对于人类数据,第二段和第三段可能缺失;对于机器人数据,三段都存在。通过在注意力机制中设置掩码(可以理解为给某些内容贴上"请忽略"的标签),模型在处理不同来源数据时能够自动跳过缺失的部分,不会因为数据不完整而出错。

这种设计的妙处在于,模型在学习人类数据时专注于理解三维平移轨迹所蕴含的操作意图,而在学习机器人数据时则把这个意图与实际的机器人控制指令关联起来。三维平移信息排在序列的最前面,是经过深思熟虑的:当模型生成六自由度机器人动作时,它可以"回头看"已经生成的平移信息,利用从人类数据中学到的运动知识来指导机器人动作的生成。

在训练机器人数据时,研究团队还采用了一个关键的数据增强策略:随机地在训练目标中加入平移信息,或者直接用平移信息替换六自由度信息作为训练目标。这个操作强迫模型建立桥接动作和可执行机器人动作之间的明确联系,就像反复练习将中文翻译成英文,才能在需要时自如地进行翻译。

四、三阶段训练:从海量人类数据到精准机器人技能

整个训练过程分三个阶段推进,逻辑清晰,像是一个从宽泛到精准的学习路径。

第一阶段是在大规模人类动作数据上进行预训练。研究团队汇集了约600小时的人类手部操作数据:其中约70小时来自公开的EgoDex数据集(一个专门收录第一人称视角手部操作视频的数据集),约500小时是外包采集的自由形式家务操作视频,还有约45小时是在实验室内用专业VR设备采集的数据。这一阶段只训练模型预测三维平移的桥接动作,不涉及任何机器人控制指令。目的是让模型积累丰富的操作知识:手在空间中如何运动才算是在"打开微波炉",手在空间中如何运动才算是在"擦桌子"。

第二阶段是人类数据与机器人数据的联合训练。研究团队加入了约72小时的通用机器人抓取-放置操作数据(覆盖100多种物品)以及每个任务约3小时的任务专属实验室人类操作数据。这一阶段三种损失函数(平移、六自由度、夹爪)全部激活,模型开始学习如何把操作意图转化为实际的机器人控制信号。

第三阶段是少量机器人数据的精调。研究团队为每个任务采集了100条机器人遥操作轨迹,但在精调时每个任务只使用其中10条,专门研究预训练对数据效率的提升效果。

五、实验:15个任务,真实机器人,令人信服的结果

研究团队在实际机器人平台上进行了系统评测。使用的是ByteMini双臂移动操作机器人,配备两条7自由度机械臂、两个平行夹爪,以及安装在头部和两个腕部的RGB-D摄像头。评测任务涵盖15项不同难度的操作任务,按操作对象分为四组。

微波炉相关任务共6项,包括打开和关闭微波炉门、从微波炉中取出碗和放入碗、以及从左到右和从右到左擦拭微波炉顶面。抽屉相关任务共2项:打开和关闭抽屉。马克杯与杯子相关任务共4项:将左侧/右侧马克杯挂到杯架上,以及将左侧/右侧杯子叠放到另一个杯子上。其他任务共3项:将吸管插入杯中、从烤面包机取出吐司放到盘子里、以及拔出充电器。

每个任务在两种不同的场景布置下各测试4次,合计8次试验。评分标准分两种:成功率(任务是否完成)和进度分(即便没有完全成功,做到哪一步了)。进度分的设计让评测更加细致——哪怕机器人没有完全打开微波炉门,只要它成功够到了门把手,也能得到相应的分数。

结果首先验证了桥接动作的必要性。仅用通用抓取-放置机器人数据训练的模型在15项任务上表现极差,整体进度分约为0.21,成功率更低。引入人类数据并使用桥接动作联合训练后,整体进度分跃升至0.45,成功率达到0.22。在此基础上加入大规模人类预训练(第一阶段),进度分进一步提升至0.60,成功率达到0.38。再加入每任务10条机器人精调数据后,整体进度分达到0.72,成功率达到0.60。

与此同时,研究团队也直接对比了使用完整六自由度人类腕部动作(包含旋转)与只使用三维平移的桥接动作。在联合训练中,六自由度人类动作对应的整体进度分仅有34.67%,成功率12.50%;而三维平移的桥接动作对应的整体进度分达到44.58%,成功率22.50%。定性观察同样清晰:使用六自由度人类动作时,机器人经常产生扭曲偏离的奇怪姿势;使用桥接动作时,机器人的行为自然流畅,末端执行器能准确指向操作目标。

六、深入探究:预训练、数据效率与上界分析

研究团队还做了几组补充实验,回答了几个有价值的追问。

关于人类预训练如何提升少量机器人数据的利用效率:不经过人类预训练直接用10条机器人数据精调,整体进度分为53.79%,成功率35.83%;经过人类预训练再精调,整体进度分提升至71.21%,成功率达到55.00%。也就是说,即便机器人自己从来没有"看过"可以实际执行的动作指令(预训练阶段只有平移信息),光是学习了大量人类操作的平移轨迹,就已经为后续快速掌握完整机器人技能打下了坚实基础。

关于训练损失的分析:研究团队比较了有无人类预训练时,联合训练阶段三种损失函数(平移、六自由度、夹爪)的收敛曲线。有趣的是,尽管人类预训练只优化了平移损失,但从人类预训练初始化的模型在联合训练时,六自由度和夹爪损失都比从零开始训练收敛得更快、更低。这说明平移动作和六自由度动作在优化目标上具有天然的相似性——学好了平移,在学完整动作时事半功倍。

关于桥接动作自身的性能上界:研究团队做了一个思想实验,把任务专属的机器人遥操作数据(每任务100条)也转换成只包含平移信息的格式,用与人类数据完全相同的训练方式处理。这相当于消除了视觉差异(机器人有腕部摄像头,数据更完整)和动作噪声(机器人数据比手势估计精准得多)。结果显示,这种"理想情况"下整体进度分可达73.54%,成功率55.83%,显著高于使用真实人类数据的结果。这说明桥接动作本身作为知识迁移的媒介是有效的,当前性能的瓶颈主要来自视觉差异和人类动作数据的固有噪声,随着采集技术和视觉对齐方法的改进,还有相当大的提升空间。

七、局限性与失败案例:诚实面对翻译的代价

研究团队没有回避这套方法的局限。最典型的失败案例出现在"将吸管插入杯中"和"打开抽屉"这两个任务上。前者需要精准地抓住一根细小的吸管,后者需要在握住把手后进行特定方向的腕部扭转才能建立有效的拉力。这两个任务的失败恰好都指向同一个根源:旋转信息的缺失。

就像前面餐厅学徒的比喻——记录路径可以学会走到哪里,但如果接下来需要做一个精确的旋转动作(比如拧开瓶盖),光靠路径信息就不够了。研究团队在结论中也明确指出,在未来工作中引入少量可靠的旋转信息是一个有价值的方向,目标是在保持大规模人类数据可用性的同时,补充那些确实需要旋转信息的操作技能。

此外,机器人在联合训练后对拾取薄片状物体的能力有所下降,研究团队将此归因于视觉差异(人类和机器人看到的画面角度不同)以及人类动作数据中不可避免的噪声积累。

说到底,这项研究做的事情可以用一句话概括:找到了人类操作知识和机器人控制指令之间真正共通的那一部分——手在空间中如何移动——并以此为桥梁,让海量廉价的人类操作视频真正能够转化为机器人的实用技能。这套方法不依赖昂贵的机器人演示数据,也不要求解决手部旋转估计不准确的难题,而是干脆把那部分不可靠的信息丢掉,专注于可靠的、有意义的信息。

对于普通人来说,这项研究意味着未来的家用机器人可能会通过观看大量普通家务视频来习得技能,而不需要为每一个新任务单独进行昂贵的机器人程序开发。当然,从实验室演示到真正的家用场景还有相当长的路要走,但这个方向上的每一步进展都让那个目标变得更加清晰可见。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2606.28133查阅完整论文。

Q&A

Q1:桥接动作(Bridging Action)到底是什么意思,和普通机器人动作有什么区别?

A:桥接动作是研究团队提出的一种简化的动作表示方式,它只记录手腕在三维空间中的位置移动轨迹,去掉了手腕旋转方向的信息。普通机器人动作包含六个维度(三个位置加三个旋转),而桥接动作只保留三个位置维度。这样做的好处是人类和机器人在"手往哪里移动"这件事上是一致的,而在"手朝哪个方向转"这件事上由于夹持机构不同而存在根本差异,去掉旋转信息可以避免把错误的旋转习惯从人类数据迁移给机器人。

Q2:为什么从视频里直接学习人类动作之前没人这样做过?

A:实际上已经有很多研究在尝试从人类视频学习机器人技能,但主流做法是把人类手腕的完整姿态(包括旋转)都提取出来直接让机器人模仿。这项研究的新颖之处在于指出了旋转信息的两个根本问题:一是视频中提取旋转信息本身就不准确,噪声大;二是人类旋转手腕的原因(配合手指抓物)和机器人夹爪的工作方式完全不同,直接模仿旋转反而有害。去掉旋转专注于平移,这个看似"退步"的决定反而带来了更好的效果。

Q3:这套方法训练出来的机器人能完成哪些任务,成功率大概是多少?

A:研究团队在15个双臂操作任务上进行了评测,包括开关微波炉门、从微波炉存取碗、擦拭台面、开关抽屉、挂杯子、叠杯子、插吸管、取吐司和拔充电器。在三阶段完整训练(大规模人类预训练加联合训练再加每任务10条机器人精调数据)后,整体平均成功率约为60%,任务进度分约为72%。不同任务差异较大,微波炉开门等任务成功率可达100%,而插吸管等需要精确旋转的任务成功率较低,约为20%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再见了!冯小刚,《抓特务》票房惨败,属于冯小刚的时代结束了

再见了!冯小刚,《抓特务》票房惨败,属于冯小刚的时代结束了

翰飞观事
2026-07-01 14:52:44
贺娇龙被追授为全国优秀共产党员!纪录片公布最后工作影像

贺娇龙被追授为全国优秀共产党员!纪录片公布最后工作影像

南方都市报
2026-07-02 10:52:27
“你恩断义绝,我大卸八块”,女子求复合遭拒,杀死男友砌入墙内

“你恩断义绝,我大卸八块”,女子求复合遭拒,杀死男友砌入墙内

易玄
2026-06-30 22:58:00
外媒:以色列前国防军参谋长宣布开始竞选活动

外媒:以色列前国防军参谋长宣布开始竞选活动

参考消息
2026-07-01 16:51:29
当年强令全国只生一个孩子的发起人,却被曝出自己生了八个孩子

当年强令全国只生一个孩子的发起人,却被曝出自己生了八个孩子

人生录
2026-06-30 11:17:00
盛赞对手!克罗地亚主帅:葡萄牙是夺冠热门之一 C罗随时可能进球

盛赞对手!克罗地亚主帅:葡萄牙是夺冠热门之一 C罗随时可能进球

画夕
2026-07-02 17:00:08
讲话千万不要有奴才之相。

讲话千万不要有奴才之相。

人间清醒柒奶奶
2026-06-30 12:55:50
李小璐沉默8年后,她首次公开发声:那个时候的我是个恋爱脑

李小璐沉默8年后,她首次公开发声:那个时候的我是个恋爱脑

文刀贰
2026-06-30 21:19:47
CCTV5+直播,申花重组后卫搭档 阿苏埃冲3场破门 王钰栋被浪费了

CCTV5+直播,申花重组后卫搭档 阿苏埃冲3场破门 王钰栋被浪费了

替补席看球
2026-07-02 15:02:26
今年最热时间变了!全年高温顶峰不在七月初,别再按老办法防暑

今年最热时间变了!全年高温顶峰不在七月初,别再按老办法防暑

荆医生科普
2026-07-02 15:53:16
非夫妻开房,民警直白提醒:不碰这条红线,没人管你是不是夫妻

非夫妻开房,民警直白提醒:不碰这条红线,没人管你是不是夫妻

皓皓情感说
2026-07-01 09:05:51
印尼砍30%配额想收割中企,结果反被掐住喉咙:中企3周拆光生产线

印尼砍30%配额想收割中企,结果反被掐住喉咙:中企3周拆光生产线

李砍柴
2026-07-02 14:15:06
比经济拮据更沉重的是中国60后开始退场后,正在逼近那些隐性压力

比经济拮据更沉重的是中国60后开始退场后,正在逼近那些隐性压力

王二哥老搞笑
2026-07-01 06:20:07
当今社会内卷成什么样了?网友说:5年刑期以下的生意都没利润了

当今社会内卷成什么样了?网友说:5年刑期以下的生意都没利润了

灯锦年
2026-07-02 18:05:22
世界杯夺冠概率如何,法国居首,阿根廷恐难卫冕,西班牙也有机会

世界杯夺冠概率如何,法国居首,阿根廷恐难卫冕,西班牙也有机会

刘哥谈体育
2026-07-02 12:54:09
清华大学一院系毕业照中孩童坐第一排引关注,目前公众号该照片已删除;工作人员:不太了解相关情况

清华大学一院系毕业照中孩童坐第一排引关注,目前公众号该照片已删除;工作人员:不太了解相关情况

大象新闻
2026-06-30 23:58:19
人,不能长期待在家里,会损耗运势

人,不能长期待在家里,会损耗运势

十点读书
2026-07-01 13:17:44
凡尔赛太香了!坎爷没能给卡戴珊的城堡梦,这次全补给了比安卡

凡尔赛太香了!坎爷没能给卡戴珊的城堡梦,这次全补给了比安卡

新欧洲
2026-07-01 23:29:47
老牌国货发文:价值观冲突,全面停止合作

老牌国货发文:价值观冲突,全面停止合作

南方都市报
2026-07-02 08:21:48
西安赛格购物中心坠楼发酵!离职10年的员工发声:严总做人特别好

西安赛格购物中心坠楼发酵!离职10年的员工发声:严总做人特别好

火山詩话
2026-07-02 04:50:43
2026-07-02 18:55:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
9007文章数 565关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

冒死救出起火特斯拉女司机的理想车主找到了 本人发声

头条要闻

冒死救出起火特斯拉女司机的理想车主找到了 本人发声

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

艺术
旅游
房产
数码
军事航空

艺术要闻

这个封疆大吏的字,田蕴章力挺,专家却说俗气,您觉得这书法怎么样

旅游要闻

藏在曲靖乡野的大地裂缝,洞内常年恒温,夏天进去不用开空调!

房产要闻

稀缺预警!海岸线200米+限墅令下,海南「绝版硬通货」来了!

数码要闻

消息称10-12-13-14代全系英特尔CPU供货将明显放量

军事要闻

美军“航母杀手”首次公开 此前从未展示

无障碍浏览 进入关怀版