一组人排队等着戴上头盔和手套,一遍遍重复叠被子、折毛巾、整理桌面。他们的每一个动作——先拿什么、用什么姿势、抓物品的哪个地方、使多大劲——都会被相机和传感器记录下来,转换成数据,经过质检和标注后,用于训练机器人模型。
在北京的一间民宿里,被裁员的程序员、背着房贷的前房产中介、结伴来的大学生,把自己的身体经验拆成数据,卖出去。全勤一个月能拿大约6000元。这份工作叫“机器人数据采集员”,他们也被称为“机器人的老师”。
![]()
(图:https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0702%2Fe84b053dj00thjhkw003dd000u000mip.jpg&thumbnail=660x2147483647&quality=80&type=jpg)
一面是需求:机器人需要“人类燃料”
就像人类幼儿要学会走路、拿筷子,需要大人手把手地教,机器人也一样,需要大量的人类动作数据来“喂”它。这些数据在互联网上十分稀缺。机器人要学会叠衣服、擦桌子、开门、整理书籍,必须先有人一遍遍地做给它看。
这个刚刚兴起的行业,目前主流的方案大致可以分为三类。第一类是真机遥操数据——由人远程操作或通过外骨骼设备,控制机器人在真实环境中完成任务,机器人身上的传感器同步记录全过程。这类数据最接近机器人未来实际工作的场景,被认为价值最高,但成本也最高,相当于同时承担机器人本体和人工操作两层成本,目前主要由机器人厂商自建采集体系完成。
第二类是仿真数据,在虚拟环境中生成,不需要真实场地和真人,成本主要来自算力,可以大规模并行训练。但虚拟世界与现实世界有差距——材质、摩擦、光照等细节很难完全复刻,训练出来的机器人到了现实里可能会“水土不服”。
第三类是真人数据。一种情况是仅采集真人行为视频,成本最低,但能提供的信
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.