![]()
ROBOT INDUSTRY
随着具身智能赛道持续升温,数据短缺已成为行业最大挑战之一。从运动控制到精细操作,从单一任务到复杂交互,机器人的每一次进化都依赖于海量、高质量的训练数据。而如何采集这些数据、如何评测机器人的真实能力,正是动捕技术切入产业核心的突破口。
![]()
上海青瞳视觉科技有限公司(以下简称“青瞳视觉”)成立于2015年,是全球领先、面向全球市场的光学动作捕捉与多模态数据采集基础设施提供商。
青瞳视觉创始人兼CEO张海威用一句话点明了青瞳视觉的核心定位:“动捕对于机器人而言,是生态链上的一个辅助角色,可以说是机器人的‘教练’或‘考官’—既提供高质量的数据供给,也负责能力评估与验证。”从服务知名影视游戏与数字内容生产的动捕应用,到如今成为宇树、智元等头部具身智能企业的合作伙伴,青瞳视觉正完成从影视幕后工作者到机器人基础设施建设者的角色转变。
1
从“会动”到“能动好”的首席教练
![]()
在张海威看来,人形机器人的成长轨迹与人类有着惊人的相似:“刚开始是运动能力的发展,接下来是操作能力,最后是感知能力、协作能力。”这一“进化三部曲”的第一阶段,正是运动智能的构建。
![]()
图1 青瞳视觉创始人兼CEO 张海威
运动智能是机器人最基础的生存能力,核心在于让机器人掌握平衡与协调—走路时重心如何转移、转弯时关节如何配合、跑步时如何保持稳定。这些看似本能的能力,对机器人而言需要通过海量数据学习才能获得。传统机器人运动控制依赖工程师手动编程,效率低且泛化能力差。而动捕技术的价值在于,可以将人类运动数据“复刻”给机器人:动捕师穿戴设备做出各种动作,系统记录关节角度、运动轨迹、重心变化,再通过算法映射到机器人身上。
青瞳视觉的光学动捕系统以亚毫米级精度实时捕捉机器人全身运动轨迹,支持多机器人复杂动作并行采集。在宇树G1人形机器人的武术训练中,青瞳视觉的动作捕捉设备记录了人类武术运动员的髋关节、膝关节角度变化,以及重心转移的时序数据,帮助机器人学会行云流水的武术动作。张海威指出:“研发运控算法时,在仿真里部署和到真机上的表现会有差距,或者说Gap有多大需要用动捕进行定量测量,帮助找到Gap所在,做运动调优、姿态调优。”
与惯性动捕相比,光学方案的最大优势在于无累积误差—每一帧解算的位置和角度都是确定的。但传统光学动捕的致命缺陷是“怕遮挡”:当相机看不见标记点时,数据就会丢失。这一痛点在人形机器人场景中尤为突出,因为机器人的手指、关节很容易遮挡标记点。青瞳视觉的创新在于“光惯混合前融合”方案:不是光学和惯性分别解算后再融合,而是用两者的底层数据联合解算。“前融合是在深度融合中把双方优点集成、缺点过滤,”张海威解释,“松耦合方案就像5个专家各自打分再平均,缺点全叠加了;紧耦合方案就像5个专家一起讨论打分,优点互补,缺点抵消。”
除了运动训练,检测同样是动捕的重要价值。张海威指出,检测有两个应用场景:一是研发过程中,用动捕检测机器人的运动状态,辅助升级迭代控制算法;二是机器人进入量产环节后,需要对各项性能指标进行评价,看是否满足出厂要求。“机器人有很多性能指标,其中最重要的就是运动能力。测试运动能力,目前看动捕是最直接、最高效的方式。”
2
解锁五指灵巧手的精细密码
![]()
在2026年春晚《武BOT》节目中,宇树机器人的棍法对练环节令人印象深刻:机器人在高速运动中完成抓棍、捋棍、握棍三个步骤,牢牢握住棍子与小演员完成整套对练功夫。这正是操作智能的核心挑战。
与运动控制相比,精细操作对数据精度和模态的要求呈指数级上升。张海威指出:“抓杯子,人类手指会根据杯子的形状调整力度,指尖关节的弯曲角度误差不能超过1度,传统动捕根本做不到这么精准。”
![]()
图2 青瞳视觉产品进行灵巧手操作研究
青瞳视觉的手指动捕方案实现了两大技术突破:一是主动发光编码Mark点,二是光惯混合手指捕捉。
编码Mark点是青瞳视觉为手指操作做的技术革新。“通过编码给每个光点打上独特标签,每个光点都有唯一ID,”张海威解释,“这样在做动捕时不会混淆—手指之间经常重叠交叉,如果不打标签容易误识别,数据变脏,有效数据减少,后期需要大量数据清理。”编码Mark点保证数据非常干净,没有误识别。
在手指捕捉领域,青瞳视觉的方案精度已达到行业领先水平。灵巧手检测要求极高,关节精度需在0.5度以内,而灵巧手关节非常小,动作变形细微,达到0.5度很难。这套方案让以前需要20多台相机的光学动捕,现在2~3台就够了。相机数量减少80%,不仅降低了设备成本,还简化了部署,让工厂车间、家庭厨房都能快速搭建动捕环境。
与UMI、Ego-centric等技术路线相比,青瞳视觉的方案是全集的视角。张海威认为,UMI只采集夹爪位置和二指动作,Ego-centric只采集第一人称视角下的双手动作,“这两者都是人体操作的一部分或简化,而青瞳视觉提供的是人操作的全集—既包含动作、触觉,也包含手的位置、肢体动作和物体信息,而且是五指的。五指数据可以迁移到两指三指,但反过来很难。”在他看来,UMI和Ego-centric扛起了无本体采集的大旗,让行业从遥操作转向这条技术路线,但这两个方案都是过渡性的,“最终要转向全模态、高质量的方案。要真正指导机器人做操作,一定需要动作、触觉、第一人称视角、其他视角的图像信息、被操作物体的信息。”
3
破解人形机器人的“数据饥渴症”
![]()
人形机器人对数据的需求,远超ChatGPT和自动驾驶—因为ChatGPT只需要文字数据,自动驾驶是“二维空间无交互”,而人形机器人是“三维空间强交互”,需要动作、触觉、环境、物体属性等多维度数据。对于“数据需求是自动驾驶1000倍”的说法,张海威认为“1000倍可能还是保守估计”。
这一判断基于三点理由:第一,自动驾驶是准二维空间,具身操作是三维空间,维度提升带来的复杂度远非十倍;第二,自动驾驶是半结构化场景,任务明确、规则明确,而具身操作场景千奇百怪,千行百业各不相同;第三,也是最大的区别—具身智能要改变物理世界、发生交互,而语言大模型、视觉大模型、驾驶大模型都不改变物理世界。“从这个维度也会增加至少一个数量级。”
![]()
图3 青瞳视觉进行全尺寸通用人形机器人“青龙“性能评测和数据采集
针对数据难题,青瞳视觉正在推进“高质量人形机器人数据集”建设,核心抓手是“数采工厂”。张海威透露:“我们正在全国各地筹划建设‘数采工厂’,可能在几个城市同时建厂,采集大量数据。”这一模式类似于自动驾驶行业的数据采集中心,让数据在真实劳动过程中自然产生—这样的数据成本最低,场景也足够泛化。
高质量数据的第一个标准是“多模态”。以“拧螺丝”为例,除了手指关节的运动轨迹,还要采集指尖的压力变化、螺丝的材质硬度、工作台的高度。同时,这些数据必须实现“时空对齐”—所有模态要在同一时间和空间下。青瞳视觉的方案从硬件底层设计保证对齐:无论是光学、惯性还是触觉,都在同一时钟体系下同步触发采集,各传感器的时间戳一致。空间一致性方面,动捕相机和RGB相机共同校准、同时触发,在空间坐标系上严格对齐。
高质量数据的第二个标准是“三高”:高精度、高灵敏度、高自由度。张海威强调:“如果数据集的自由度低,那么训练出的机器人只能做简单动作,没法用工具、没法适应不同场景。”在数据构成上,他认为“高质量数据肯定不是唯一的,但真人的无本体高质量数据一定是核心。所有大模型训练都离不开高质量、全模态的数据训练。在此基础上补充仿真数据、泛化的低质量数据,可能有助于泛化性。”
4
构建机器人能力量化评测体系
![]()
对于人形机器人而言,技术路线仍在早期,设计并未收敛,没有经过严格评测的动作,就是不安全的动作。这正是青瞳视觉“金牌考官”角色的核心价值。
在研发阶段,动捕是机器人的性能调优工具。青瞳视觉的光学动捕系统可以记录人形机器人髋关节、踝关节的运动轨迹,对比人类正常走路的数据,找出异常动作的根源—可能是膝关节的角度误差,也可能是重心转移的时机。张海威形容:“就像给机器人做动作CT,传统调优靠肉眼观察,误差大、效率低,而动捕能把动作精度控制在亚毫米级,调优效率提升10倍以上。”
![]()
图4 青瞳视觉光惯混合动捕方案
到了量产阶段,动捕变成“质检官”。机器人有很多性能指标,其中运动能力是最重要环节之一。张海威指出,“现在强化学习的运控方法对机器人一致性要求较高,这些都是动捕可以赋能的”。通过动捕检测机器人的运动状态,可以量化评估其是否满足出厂要求。
更深层的评测是对机器人操作能力和感知能力的量化。灵巧手技能的检测是一大难点:让机器人干活,干得好不好目前缺乏标准,大家更多关注成功率,没有过多关注质量、完成效率、时间等。张海威认为,“动捕可以在很多方面做检测和评价”。此外,还可以让机器人在仿真环境中执行任务、与环境交互,用动捕监测其状态,评估感知能力和交互能力。“直白说就是让机器人戴VR眼镜—当然机器人不需要戴眼镜,只要放进仿真环境,本质上和人戴VR眼镜玩游戏一样。动捕检测机器人玩游戏时的表现,评估其感知、协同、规划能力。”
对于机器人的后期维护,动捕同样可以发挥作用。张海威展望:“如果机器人真正进入千行百业,在使用过程中也需要检测和标定。在工业场景,如果更换零部件、摔跤、长期工作疲劳导致关节形变或齿轮间隙变化,仍需要检测和标定。”这是动捕技术尚未规模化应用但潜力巨大的方向。
关于成本问题,张海威有着清醒的认识:“成本一定是综合考量,不能只看硬件成本。UMI、Ego-centric也好,动捕也好,都是数采设备,生产的是数据产品。对生产力工具,要看综合使用成本。”随着硬件铺开形成规模,成本也可以大幅降低——青瞳视觉2023年发布的普罗米修斯产品已进入万元级别,“成本已经和惯性动捕产品在同一水平线了”。
阅读更多内容,欢迎订购《机器人产业》杂志。
点击跳转!圈内人都在看的专家观点
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.