网易首页 > 网易号 > 正文 申请入驻

30分钟人类第一人称视频,零样本教会机器人双臂操作

0
分享至



过去要 30 天机器人遥操作,现在只要戴上一副眼镜走一走。 当机器人的数据接口从实验室搬到日常生活,制约 scale 的瓶颈就不再是数据量,而是数据接口本身。



HumanEgo 总览:人类戴 Aria 眼镜采集第一人称视频(左),转化为交互中心表征并训练 flow matching 策略(中),策略零样本迁移到机器人——不受环境、相机、本体限制(右)。

视觉-语言大模型这几年的成功,本质上吃的是一个廉价、可无限扩展的数据接口——互联网。任何人写博客、拍照片,都在为下一代大模型喂数据。

但机器人学习一直没有这样的接口。当前 SOTA 操作策略依赖机器人遥操作(teleoperation)数据:专业操作员通过控制器远程操作机器人,把每一次抓取、放置手动"演示"给机器人。这条路又贵又慢,必须在装备齐全的实验室里完成,而且数据和机器人硬件强耦合——换一个机器人、换一个工作站,数据几乎完全不能复用。

最近一年,学界开始尝试把人类第一人称视频当作机器人的训练数据,从 EgoMimic、EgoZero 到 AINA,不同团队都在探索这条路。但已有工作大多沿着两条路线展开:要么用人类视频与机器人数据做协同训练(co-training),要么先在数千小时视频上做大规模预训练——两者都还没有完全摆脱对机器人数据的依赖。一个自然的问题随之而来:一个普通人,只拿一副智能眼镜、几分钟视频,能不能直接训练出一个可部署的机器人策略

来自马里兰大学(UMD)的团队提出新框架HumanEgo,给出了肯定的答案:

只用 30 分钟人类第一人称视频,不需要任何机器人数据、不需要针对机器人的后训练、不需要互联网级预训练,就能在 4 个真实世界双手协作任务上达到92.5%成功率,并零样本迁移到不同机器人、相机与场景。

值得一提的是,HumanEgo 一经公开便在社区引发广泛关注:X(推特)相关讨论帖浏览量已接近10 万,开源代码在短短数日内收获230+ GitHub star,不少研究者留言希望复现这套从人类视频学习的流程。



  • 论文标题:
  • HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos
  • 作者团队:
  • Zhi (Leo) Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos(University of Maryland)
  • 论文链接:
  • https://arxiv.org/abs/2605.24934
  • 项目主页:
  • https://humanego-ai.github.io
  • 代码仓库:
  • https://github.com/TX-Leo/HumanEgo
  • 完整视频:
  • https://www.youtube.com/watch?v=pdL46diijuY

为什么"人类视频"这么难直接拿来用?

让普通人戴上 Meta Aria 这类智能眼镜,就能在厨房、车间、办公室里采集带 6-DoF 头部轨迹和 3D 手部关键点的高质量视频。但人类视频要直接训练机器人,横亘着两道难关:

其一,跨形态的表征鸿沟(embodiment gap)。 人手和机器人夹爪在视觉外观运动学上都不同:人手有 21 个关节、会自遮挡;机器人夹爪是金属平行开合。直接用人手视频训练的策略,部署到机器人上必然失效。

其二,极少数据下的学习难题。 30 分钟视频仅约 60 条轨迹,这个数据量下主流模仿学习(ACT、Diffusion Policy)极易过拟合,更别提泛化到没见过的场景。





数据采集:戴一副 Aria Gen1 眼镜,在任意环境完成演示,每条演示只需几秒,无需标定或专用工作站。

核心思路:

把表征建在"交互"上,而不是"身体"上

HumanEgo 的核心 insight 可以浓缩为一句话:机器人不该模仿人的身体,而该恢复任务相关的"手-物交互几何"

团队把场景中每只手和每个物体都看作一个实体(entity),为每个实体计算一个 29 维的交互中心 Token(Interaction-Centric Token, ICT),编码实体在参考系下的 6D 位姿、左右手相对该实体的位姿,以及抓取状态。



系统架构:视觉端通过抠除人臂 + 渲染虚拟夹爪消除外观差异;空间端用 ICT 序列编码实体间关系;flow matching 策略配合三个密集辅助目标,从分钟级人类数据学出双手机器人动作。

这个表征有三个关键性质:

实体相对——每个 token 描述"手相对物体怎么靠近、抓取、运输",正是操作的本质信号;

形态无关——人手经过简单重定向被抽象成"虚拟双指夹爪",无论人手还是 Trossen / UR5 / Franka 夹爪,都产生同样的 token;

变长接口——场景里有几个物体就有几个 token,天然适配不同任务。



手到夹爪:人手 21 个关键点被重定向为一个 SE(3) 虚拟夹爪 + 1 维开合状态。

物体一侧,团队用 Grounding DINO + SAM2 检测分割,CoTracker3 跨帧追踪关键点并三角化到 3D,再用 Orient-Anything 估计朝向。抓取时物体常被手遮挡,HumanEgo 引入运动学锁定(kinematic latching)——从抓取那一刻起把物体位姿刚性绑定到手上,保证遮挡期间表征依然稳定连续。所有这些量都来自现成感知模型,无需任何人工标注。

视觉端,HumanEgo 用 SAM2 + LaMa抠除人手人臂,再把虚拟夹爪和物体关键点渲染回原图,得到"看起来已经像机器人在操作"的本体无关观测——用轻量渲染绕开了昂贵的域适应或图像翻译。

策略采用flow matching(比 diffusion 更快、比 ACT 更具表达力),并叠加三个密集辅助目标:物体运动预测、2D 轨迹回归、潜在一致性。它们在 3D 物理、2D 视觉、潜在空间三个互补空间里预测场景如何演变,让每条演示不再只产生一个动作监督,而是榨出四种密集信号——这正是低数据下高效学习的关键。

实验:

92.5% 成功率,比遥操作高 41%

团队在 4 个真实世界双手任务上系统评估,分别考验抓取放置、长程多步、接触密集双手协同、持续旋转控制——其中拆叠杯子要求三步动作零误差累积,浇花则要两臂严格按时序配合。



Serve Bread:从任意位置抓起面包,平稳放到盘子中央。



Downstack Cups:长程多步——推倒、抓取、重新堆叠三个嵌套杯子,任一步出错都会累积。



Water Flowers:接触密集双手协同——一臂举喷头,一臂开阀门,严格时序配合。



Adjust Table:握住摇把连续旋转三整圈,全程不松手。

每个任务 40 次试验,对比 5 个零样本基线(EgoZero、PointPolicy、ZeroMimic、Track2Act、SPOT)与匹配时长的 ACT 遥操作基线。结果:



HumanEgo-30 在四个任务上全面领先;仅用 15 分钟数据的 HumanEgo-15 已超过用 30 分钟机器人数据训练的 ACT。

  • 92.5%平均成功率(30 分钟人类视频,四任务);
  • 仅 15 分钟人类数据即达75%,已超过 30 分钟遥操作的 51%;
  • 比匹配时长的 ACT 遥操作高41%
  • 8 分钟人类视频(57.5%)即超过30 分钟机器人数据(52.5%)——3.75× 数据效率

五个零样本基线只能捕捉操作的局部侧面,在需要精确手-物推理的任务上集体失守(最高不超过 45%),HumanEgo 是唯一在四个任务上都保持高成功率的方法。



数据效率曲线:人类数据曲线全程高于机器人遥操作,8 分钟即反超 30 分钟遥操作。

更关键的是消融实验。团队对比五种表征配置发现:纯视觉方法的天花板只有 32.5%,无论怎么抠图、渲染;而一旦加入 ICT,成功率直接跳到 85%(+52.5pp),完整模型达 95%。显式的交互中心空间表征,才是跨形态迁移的真正使能者



表征消融:纯视觉天花板 32.5%,加入 ICT 后跃升至 85%;三个辅助目标进一步带来增益。

一个策略,零样本适配多种机器人、相机与环境

把单一策略直接部署到 9 个分布外条件(不同机器人 / 相机 / 光照 / 物体)下,成功率全部维持在85–95%,无需任何重训练或微调。



零样本跨条件泛化:跨本体、跨相机、跨环境均保持 85–95% 成功率。



跨本体:同一策略零样本部署到不同机器人手臂。



跨环境:更换背景、光照、干扰物,策略依然稳定。



跨设置:更换相机、视角、桌面高度,策略零样本适配。

不止四个任务:更多真实世界能力

除四个主任务外,HumanEgo 同样能学会一系列日常操作,全部来自分钟级人类视频:



给设备充电。



拧开瓶盖。



开门。



开柜子。



抽取纸巾。

写在最后:当数据接口从实验室搬到日常

HumanEgo 单看是一项技术工作,但它真正想说的是一个更大的判断:机器人学习的瓶颈,不是"数据太少",而是"数据接口和机器人硬件绑死了"

当可穿戴的第一人称视频成为新的数据接口,机器人数据收集就从"实验室里的稀缺资源"变成"人人可参与、可设计的工作流":任何人都能贡献数据,采集可以发生在真实世界的任意角落,同一份数据可以跨多个机器人复用。团队也指出了下一步方向——把这套范式扩展到多指灵巧操作、长程工业流程,以及从大规模人类视频中持续学习。正如论文结尾所写——有了对的表征和学习目标,人类第一人称视频可以成为机器人学习的通用数据接口。



视频链接:https://mp.weixin.qq.com/s/C7rvC5-3WDndJJYTHEIIGA?click_id=129

HumanEgo 完整演示视频(约 1 分 30 秒):一镜看完数据采集、方法原理与真实机器人执行。

关于团队

HumanEgo 由马里兰大学(UMD)研究团队完成,作者包括 Zhi (Leo) Wang、Botao He、Kelin Yu、Seungjae Lee、Ruohan Gao、Furong Huang、Yiannis Aloimonos。

一作 王治是马里兰大学的研究者,研究聚焦于面向机器人学习的可扩展数据接口——如何让人类经验通过可穿戴感知 scale 成下一代通用操作策略,方向涵盖跨形态学习与从人类视频中高效学习。HumanEgo 正是这一思路的集中体现。

个人主页:https://tx-leo.github.io

导师 Yiannis Aloimonos是马里兰大学计算机系教授、UMIACS 计算机视觉实验室主任,主动视觉(active vision)与认知机器人领域的奠基性学者之一,长期研究视觉、行动与语言的交汇,致力于让机器人像人一样在与世界的交互中学习。

个人主页:

https://robotics.umd.edu/clark/faculty/350/Yiannis-Aloimonos

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

北海史记
2026-06-22 18:00:09
郑丽文有大动作!国民党“二号人物”出手,李四川尴尬、急忙改口

郑丽文有大动作!国民党“二号人物”出手,李四川尴尬、急忙改口

悦心知足
2026-06-22 18:51:39
“女儿嫌弃我是外卖员”,父亲崩溃哭泣:都不敢穿工服接她放学

“女儿嫌弃我是外卖员”,父亲崩溃哭泣:都不敢穿工服接她放学

泽泽先生
2026-06-22 19:43:16
深圳男子买彩票中2亿,6天后去兑奖,却被工作人员赶了出去

深圳男子买彩票中2亿,6天后去兑奖,却被工作人员赶了出去

今天说故事
2025-05-28 14:49:59
Shams:麦科勒姆与老鹰队达成1年2100万美元提前续约合同

Shams:麦科勒姆与老鹰队达成1年2100万美元提前续约合同

懂球帝
2026-06-22 01:50:05
你知道哪些因果报应的真实案例?网友:这现世报来的太快太准了

你知道哪些因果报应的真实案例?网友:这现世报来的太快太准了

解读热点事件
2026-05-10 01:59:22
“全班就2个女生表情正常”,廉价毕业照被吐槽,家长咋不管管

“全班就2个女生表情正常”,廉价毕业照被吐槽,家长咋不管管

世界圈
2026-06-22 08:50:58
中蒙达成两百亿目标才两天,矿区遭围堵,美日的反应快得耐人寻味

中蒙达成两百亿目标才两天,矿区遭围堵,美日的反应快得耐人寻味

椰青美食分享
2026-06-21 09:28:20
第一位牺牲的政治局常委:中央收到噩耗,命陈赓亲自带队处决叛徒

第一位牺牲的政治局常委:中央收到噩耗,命陈赓亲自带队处决叛徒

历史龙元阁
2026-06-22 06:45:12
约旦vs阿尔及利亚:丢分即出局,两队必须拼

约旦vs阿尔及利亚:丢分即出局,两队必须拼

懂球帝
2026-06-22 19:11:46
日本球迷又开始捡垃圾了,这戏码上演了快30年了,真的不觉得烦吗

日本球迷又开始捡垃圾了,这戏码上演了快30年了,真的不觉得烦吗

西楼知趣杂谈
2026-06-18 17:32:47
1换2!NBA休赛期首笔交易达成!雷霆节省6100万美金

1换2!NBA休赛期首笔交易达成!雷霆节省6100万美金

世界体育圈
2026-06-22 11:17:43
宋美龄临终前提到宋庆龄,说了这样3句话,说完含泪去世

宋美龄临终前提到宋庆龄,说了这样3句话,说完含泪去世

小莜读史
2024-09-21 03:46:36
库尔图瓦:这可能是我最后一次世界杯,想在皇马再踢4-5年

库尔图瓦:这可能是我最后一次世界杯,想在皇马再踢4-5年

顺静自然
2026-06-22 17:24:05
双子星横空出世!一个23+6,一个12+1,苏群盛赞,静待1人补短板

双子星横空出世!一个23+6,一个12+1,苏群盛赞,静待1人补短板

萌兰聊个球
2026-06-21 21:49:55
澳门一警员执行任务遭围堵抢劫,7人被捕,其中包括3名澳门本地男子,分别姓赖、45岁、地产发展商,姓郑、63岁、商人,姓梁、64岁、商人

澳门一警员执行任务遭围堵抢劫,7人被捕,其中包括3名澳门本地男子,分别姓赖、45岁、地产发展商,姓郑、63岁、商人,姓梁、64岁、商人

大风新闻
2026-06-22 16:32:50
中国最珍贵的资源,不是石油不是稀土,是北方最常见的黄土层?

中国最珍贵的资源,不是石油不是稀土,是北方最常见的黄土层?

抽象派大师
2026-06-21 23:10:18
大冷门!世界杯首支出局强队,三位天才成笑柄,世界名帅头号罪人

大冷门!世界杯首支出局强队,三位天才成笑柄,世界名帅头号罪人

叹为观止易
2026-06-22 10:48:44
非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

非必要不做CT?医生强调:只要做过CT,患者一定多加关注这4点!

医学原创故事会
2026-06-22 19:27:32
西方汉学家研究了100年上古中国存在过一个“被删除的魔法时代”

西方汉学家研究了100年上古中国存在过一个“被删除的魔法时代”

自说自话的总裁
2026-06-19 17:24:46
2026-06-22 20:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13329文章数 142677关注度
往期回顾 全部

科技要闻

智谱盘中狂飙超40%,市值破万亿港元

头条要闻

29岁女主持人患癌去世:确诊仅几个月 申请做大体老师

头条要闻

29岁女主持人患癌去世:确诊仅几个月 申请做大体老师

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

多部门核查"婴幼儿纸尿裤甲酰胺问题"

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

艺术
亲子
教育
家居
数码

艺术要闻

董其昌写的神仙字,启功学了60年也仅得皮毛

亲子要闻

倾尽小小心意,为辛苦的爸爸准备惊喜……

教育要闻

中考,是孩子真正的成人礼

家居要闻

绿意盎然 自然之境

数码要闻

英特尔拟借Raptor Lake Next盘活DDR4库存 游戏本或成重点落点

无障碍浏览 进入关怀版