北京时间4月7日(周二)晚19点,将门-TechBeat人工智能社区组织的线上 Talk《以人类自中心演示赋能人形机器人泛化操作》将在视频号准时直播。
本次直播我们很开心邀请到——香港大学助理教授李弘扬、北京航空航天大学博士生史默迪。他们将分享如何打通具身智能数据壁垒的工作——EgoHuamanoid:采集人类第一视角视频与动作轨迹,通过视角对齐与动作对齐,将其转化为可训练的监督信号,并与少量机器人数据协同训练。
点击下方“预约”,锁定直播
EgoHumanoid 介绍
在具身数据金字塔中,底层是海量的互联网视频(Web Data),中层是人类示教数据(Human Data),顶层则是精确的机器人录制数据(Robot Data)。数据量自下而上递减,且与机器人执行的相关性自下而上递增。
![]()
在工厂实现流畅分拣、1X 走向家庭场景,均基于主流的机器人遥操作(Teleoperation)获取大量顶层机器人数据训练。然而,当前绝大多数“惊艳演示”仍局限在单独的操作或运动能力,并依赖精心布置的环境。一旦进入拥有杂乱地面、复杂光照、非平整地形等的真实世界,现有系统往往出现显著的性能退化。
机器人遥操作的采集范式受成本、操作复杂度与硬件安全限制,往往被束缚在实验室,难以覆盖真实世界的环境多样性,进而造成训练数据分布的结构性缺口,到了真实世界就迅速“失灵”。
EgoHumanoid 首次打通了人形机器人移动操作领域金字塔上两层之间的壁垒:引入中层大量易得的第一视角(Egocentric)人类示教数据, 将其转化为机器人可直接协同训练的有效监督,并与少量机器人示教进行协同训练(Co-training)。在不增加额外机器人采集的前提下,将未见场景的任务成功率提升51%。
项目主页:https://opendrivelab.com/EgoHumanoid
论文链接: https://arxiv.org/abs/2602.10106
EgoHumanoid:具身数据进化论
EgoHumanoid 提出并系统验证了一条“可扩展且工程上可落地”的路线,构建一套从“人类观测与行为”到“人形机器人可执行动作”的跨本体对齐框架,实现人机协同训练,为进一步向规模化数据扩展提供了方法论基础与实证信心。
![]()
EgoHumanoid 框架
实验室VS现实:人形机器人的“数据断崖”
表面上,人形机器人在移动-操作耦合(Loco-manipulation)任务中,同时面临“移动带来的视角与分布剧烈变化”与“操作阶段对精确接触/姿态控制的高要求”两大挑战。
而背后,是人形机器人发展面临的四大深层次挑战:
1、数据规模鸿沟
移动、视觉与操作的组合技能使数据需求呈指数级增长,而现有公开人形机器人演示数据规模远不足以支撑大模型训练。
2、采集成本困境
依赖实验室遥操作进行机器人数据采集,成本高、效率低,设备难以进入多样真实场景,数据被“锁”在实验室。
3、泛化能力脆弱
模型在标准化环境中表现良好,却难以适应真实世界的复杂光照、材质与动态变化,出现明显性能退化。
4、人机形态鸿沟
虽然人类数据规模庞大,但视角与运动结构差异显著,缺乏有效对齐机制,难以直接迁移到机器人。
三步搭建“人机共训”的桥梁
技术原理一句话说清:采集人类第一视角视频与动作轨迹,通过视角对齐与动作对齐,将其转化为可训练的监督信号,并与少量机器人数据协同训练。
![]()
人类-机器人数据对齐流程
视角对齐:利用深度估计与三维重投影,将人类视角重建并映射到机器人身高与相机位姿下,使机器人获得符合自身几何条件的第一视角输入。
动作对齐:不直接模仿人类关节角度,而是抽取与形态无关的运动语义(如末端位移方向与距离),映射到机器人动作空间,实现“意图一致、形态自适”。
混合训练:少量机器人数据提供物理一致性与执行精度,大规模人类数据提供场景多样性与泛化能力,两者协同提升未见场景表现。
四大真实任务验证
人类数据助力场景泛化
研究团队在四种复杂度递增的真实任务中进行了系统测试,在 in-domain 和泛化环境中均实现了对仅机器人基准的全面改进,并验证了 人类数据规模化扩增(Scaling)的有效性 。
![]()
枕头放置
![]()
垃圾处理
![]()
玩具转运
![]()
购物推车装物
结果最炸的点在于“未见场景泛化”:
实验室环境(In-domain):平均分从 59% → 78%
未见真实环境(Generalization):平均分从 31% → 82%,也就是——在从没采过机器人现场数据的情况下,直接把“泛化场景成绩”提高了 51 个百分点。
我们还需要机器人数据吗?
我们仍然需要机器人数据,但它的角色正在被重新定义。论文中分析了到底哪些能力因人类数据而被大大加强,并得到几个有意思的结论:
金字塔中层的人类数据,能够直接迁移导航与场景接近等能力。Human-only 在多个以移动为主的子阶段达到 100%,说明人类的大规模第一视角数据天然提供场景多样性与空间经验,这是实验室机器人数据最稀缺的部分。
金字塔上层的机器人数据,则承担“精度锚点”的角色。随着任务进入精细接触与高精度操作阶段,人类数据的优势逐渐减弱。精细子阶段中,Human-only 明显落后,而加入少量机器人数据后成功率大幅提升,说明金字塔顶层数据提供的是物理一致性与精度约束。
当中层规模与顶层精度协同时,性能呈现非线性跃升。Co-training 在精细阶段显著优于单独使用任一数据源,表明金字塔不是替代关系,而是结构互补:规模提供泛化边界,精度提供执行锚点。
从"实验室囚徒"到"场景自由",人形机器人正在经历它的突破时刻
EgoHumanoid已经证明:人形机器人学习技能的范式,正在从“以机器人为中心的昂贵采集”迈向“以人类数据为核心、通过对齐实现可迁移学习”的新路径。
机器人不必在实验室反复试错——人类的每一次日常动作,都是机器人学习的宝贵财富。而这一切,始于让机器人学会"站在人类的视角看世界"。
直播介绍
主题:以人类自中心演示赋能人形机器人泛化移动操作
时间:北京时间 4 月 7 日 (周二) 19:00-20:00
简介:
人形机器人相比固定基座的机械臂,最大优势在于能够在人类环境中自由移动并同时操作物体,即全身移动操作(loco-manipulation)。然而,过去的研究大多将 locomotion 与 manipulation 割裂开来,固定基座操作局限于有限工作空间,而单独的运动控制又无法完成与物体的交互——真实场景恰恰要求机器人边走边操作,在保持动态平衡的同时完成灵巧操控。
当前 loco-manipulation 研究严重依赖遥操作采集数据,但成本高昂且局限于实验室,难以覆盖多样化的真实场景。基于一个朴素观察:人类每天都在机器人预期部署的环境中自然地执行移动操作任务,我们首次探索从人类自中心演示到人形机器人全身移动操作的跨具身迁移,通过视角对齐与动作对齐解决人机本体差异,将丰富的人类演示与少量机器人数据联合训练 VLA 模型,使人形机器人具备在多样化真实环境中泛化执行移动操作的能力。
相关工作
![]()
论文链接: https://arxiv.org/abs/2602.10106 项目主页: https://opendrivelab.com/EgoHumanoid/
![]()
论文链接: https://arxiv.org/abs/2512.11047 项目主页: https://opendrivelab.com/WholeBodyVLA/
![]()
GitHub: https://github.com/NVlabs/GR00T-WholeBodyControl
![]()
讲者介绍
![]()
李弘扬
香港大学助理教授
李弘扬,香港大学计算与数据科学院助理教授,OpenDriveLab团队(opendrivelab.com)联合创始人。研究方向为端到端智能系统在机器人、自动驾驶的应用。他主导的端到端自动驾驶方案 UniAD 于 2022 年提出,获 IEEE CVPR 2023 最佳论文奖。他构造的超大规模具身智能训练场 AgiBot World,是业界首个百万真机、千万仿真数据集,系统研究具身 Scaling Law 方法论。他提出的BEVFormer,获2022年百强影响力人工智能论文榜单,成为业界广泛使用的纯视觉检测基准。他多次担任 CVPR、NeurIPS、ICLR、ICCV、ICML、RSS 等国际会议领域主席(AC),其中获得NeurIPS 2023 Notable AC。他是《自然·通讯》的审稿人、期刊《Automotive Innovations》客座编委。IEEE、CCF、CSIG高级会员、IEEE汽车委员会自动驾驶国际标准工作组组长。荣获 2024 年中国吴文俊人工智能青年科技奖、2023 年上海市东方英才计划领军项目。
个人主页:https://lihongyang.info/
![]()
史默迪
北京航空航天大学博士生
史默迪,北京航空航天大学与上海创智学院联培博士生(导师为黄迪教授与李弘扬教授),研究方向聚焦于人形机器人移动操作、大规模机器人数据与通用机器人策略,在TRO、CVPR、ICLR、ICRA、IROS 等顶级期刊会议发表多篇论文,其中 AgiBot World 获得 IROS 2025 最近论文候选。
个人主页: https://modishi.github.io/
-The End-
![]()
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
![]()
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.