网易首页 > 网易号 > 正文 申请入驻

百万真机数据只是杯水车薪,数据匮乏成为具身智能行业困境

0
分享至

·目前具身智能领域正处在类似于从GPT-1到GPT-2的过渡阶段,连最基础的物理世界的数据都还十分匮乏。遥操作方式获取的数据成本过于高昂且采集效率低,导致行业内很难获取。除了缺乏高质量数据,徐良威认为,具身智能数据服务行业内面临的首要难题是缺乏统一的数据集定义标准。

过去的一年,具身智能、人形机器人引发的关注与日俱增,但喧嚣过后,这一行业的发展也正面临着艰巨的挑战,其中训练具身智能大模型所需要的高质量数据在哪的问题成为眼下行业的一大共同的困扰。

日前,上海机器人初创公司智元机器人正式开源百万真机数据集AgiBot World使得数据缺乏问题再次被提起。智元机器人联合创始人、首席技术官彭志辉(网名为“稚晖君”)表示,在具身智能领域,真机数据的采集成本和门槛非常高,此次开源希望众多科研团队基于真实数据进行具身智能算法的训练,加速技术创新和产品应用。但在业内人士看来,“百万条真机数据量”对于行业来说只是杯水车薪,“只能训练一个动作的泛化,譬如分拣,对实现理想状态中的具身智能还远不够。”

除了数据缺乏的困扰之外,已有数据的标准化也是一个待解难题。

连最基础的数据都缺乏

不同于语言大模型的训练得益于互联网上海量的数据,具身智能“大脑”的训练则需要更多来自物理世界即真实世界动态环境中的交互数据,如何解决物理世界数据匮乏问题,成为眼下人形机器人技术演进路上最大的难题。

人形机器人创业企业之一——银河通用的创始人兼CTO、北京大学助理教授王鹤此前在不同场合多次提及具身智能领域面临数据集短缺的难题。王鹤认为,通用机器人背后的技术一定是具身大模型,要用数据驱动基础机器人大模型,让机器人能够有极高的泛化性和跨行业应用能力。但现有数据量不足以支持通用机器人的发展。

泛化性是指模型经过训练后,能够将一项行为应用到陌生的应用场景中的能力,在陌生场景中能自主识别任务并采取行动。国家地方共建人形机器人创新中心(以下简称“国地中心”)相关数据负责人在接受澎湃科技(www.thepaper.cn)采访时表示,行业内对于机器人泛化数据的获取始终是一大难题,现阶段,特斯拉的Optimus仍需要人为远程操作来帮助机器人完成任务,还不具备泛化能力。

国家地方共建人形机器人创新中心具身智能数据看板,澎湃科技记者拍摄。

北京航空航天大学机器人研究所名誉所长王田苗此前在接受澎湃科技采访时也指出,数据的匮乏让人形机器人很难具备泛化性。当前,机器人任务泛化、感知泛化和运动操作的三个泛化数据很难获取,比如让机器人叠衣服、骑自行车等这些数据很难得到。

王鹤团队从2023年开始探索大规模的灵巧手数据合成和大规模的泛化,2024年合成了10亿规模的数据体量,用于训练机器人的灵巧手。

总部位于深圳的一家向具身智能机器人提供基础场景数据和解决方案的创业公司艾欧智能联合创始人徐良威告诉澎湃科技,经过一年多对于机器人技术路径的探索发现,“只有通过海量数据训练才能够真正地通向具身智能”已经成为行业共识,通过仿真数据实现智能的可能性远远小于使用真实数据。然而,目前具身智能领域正处在类似于从GPT-1到GPT-2的过渡阶段,连最基础的物理世界的数据都还十分匮乏。

在徐良威看来,对于训练具身智能泛化能力来说,AgiBot World这种百万量级的数据集虽然已经取得明显的进步,但只是“杯水车薪,洒洒水而已”,达到理想的效果需要更大量的数据。

高质量数据获取采集成本过于昂贵

澎湃科技记者了解到,在具身智能领域实践中发展出四种具身智能采集训练数据:第一种是遥操作机器人数据,即需要一位人工数据采集员戴着遥操作手套,手把手示教,获取真机操作数据。通过这种方式获取的数据质量最高,但成本昂贵。第二种是仿真合成数据,在虚拟的3D仿真环境里从无到有地积累训练数据,这类训练数据以生成数据为主,与真实世界仍有较大差异。第三种是通过人类动作捕捉数据,也称为动作捕捉或动作追踪数据,是通过传感器、摄像头或其他设备,精确记录和分析人体运动的技术。这类方式获取的数据质量较高,但通过人类动作捕捉获取的数据,与机器人能否适配仍存在一定差异,需要后期继续做构型对齐相关工作。第四种数据来源是通过互联网获取人类动作视频或图像数据。这类方式的特点是能获得海量数据,但都是单一模态、非结构化且无标注的二维图像或视频信息,质量很差。

国地中心数据负责人指出,目前行业内最匮乏的是通过遥操作方式获取的高质量数据,仿真合成类数据获取成本低,但仍需要弥合仿真与现实世界的差距。然而,遥操作方式获取的数据成本过于高昂且采集效率低,导致行业内很难获取。

数据训练员穿上特制的动作捕捉服装训练人形机器人捕捉数据

“一台遥操设备投入约35万元,再加上人工数据采集员的成本,每人每天大约采集500条数据,人工成本至少需要300元,即便长期投入也无法保证成功。”国地中心数据负责人估算,特斯拉的人形机器人Optimus至少需要数百万小时的数据才能完全准备好在特斯拉工厂工作,这期间可能需要至少5亿美元的数据采集成本。

上述国地中心数据负责人向澎湃科技透露,即便银河通用专注于强化机器人大脑模型,强调仿真合成数据的使用,但仍面临一定挑战。“在仿真环境中参数看似正确,但在物理世界中,即使是微小的偏差也会导致完全不同的结果。比如,人形机器人执行蹲下起身这类动作时,不同机器人可能会有不同表现,电机参数任何微小变化可能会导致机器人出现完全不同的行为,很难控制。”

由于泛化数据采集成本高、获取难度大,国地中心数据负责人透露,现阶段行业内大部分按照1:9或者1:10的数据比例训练机器人,即一条遥操作机器人数据配以9条或者10条仿真合成数据,但这个比例目前还没有定论。

缺乏统一标准的数据集

徐良威认为,另一个关键问题是如何实现高效的数据采集。虽然通过人工操作机器人可以获取高质量的数据,但这种方式的效率极低。徐良威称,智元对外称一周可采集50万条数据,综合一年数据量也不过只能达到千万量级,这对具身智能训练效率非常低,难以提速。

除了缺乏高质量数据,徐良威认为,具身智能数据服务行业内面临的首要难题是缺乏统一的数据集定义标准。尽管海外有Google这类科技巨头已开源部分数据集,国内也有智元机器人开源百万条真机数据集等,但不同公司开放的数据集格式能否兼容、能否保持数据质量的一致性很难说。

“北京和上海的开源数据集能否兼容、数据格式是否一致,以及数据托管的方式有哪些不同,这些还有待出台统一的数据标准。”徐良威说,目前国内众多机器人公司正处于“百花齐放”的状态,在数据管理上也各自为政,这导致公司之间沟通成本非常高。

在数据处理上,目前行业内也缺少统一的数据处理标准。“不同公司、机构或平台对处理数据的方法不一,机器人如果要有效利用这些数据,还需进一步处理。”徐良威说,每个团队或公司可能都需要从头开始处理标注数据,这会浪费大量时间和资源,且无法保证训练结果的通用性。

近期,国家地方共建具身智能机器人创新中心牵头立项的《人工智能具身智能数据采集规范》工信部行业标准,规范了具身智能数据集采集的格式,使不同公司采集的数据可以互相共享开源,加速模型“涌现”,在徐良威看来,对从业者来说无疑是一个积极的信号。

2025年会出现更多的数据采集训练场

世界模型的出现似乎给人形机器人带来一些新的希望。去年12月,李飞飞的世界模型开启了从数字世界向物理世界的跨越征程,实现了从一维数字智能向三维空间智能的重大转变。2025年1月6日,英伟达创始人兼首席执行官黄仁勋在2025CES(国际消费类电子产品展览会)期间,推出了涵盖生成世界基础模型的Cosmos世界基础模型平台,旨在加速自动驾驶汽车、机器人等物理AI系统开发。黄仁勋认为,“机器人的ChatGPT时刻即将到来。与大语言模型一样,世界基础模型对于推进机器人和自动驾驶汽车的开发至关重要。”

徐良威称,这一类世界模型为通用智能提供空间、时间、物理、语义等各方面的模型表征。理论上来说,一方面,世界模型的成功使得机器人“理解世界”具备可能性;另一方面,世界模型能够在各维度下生成符合世界规律的数据,有潜力成为机器人合成数据的新范式。不过,虽然世界已经有一些阶段性的成果推出,但真正在机器人上应用,直至能够商业落地也还需要进一步发展。

数据缺乏在成为业内共识的同时,各方也在采取解决方案。2024年8月,特斯拉对外高薪招募“数据采集员”;2024年12月27日,北京国地共建具身智能机器人创新数据采集基地亮相。

据了解,从2024年下半年开始,位于上海张江的国家地方共建人形机器人创新中心也在搭建基于自己平台的数据采集训练场,目前,训练场的场地搭建工作以及数据采集机器人设备也基本到位,2025年计划招聘一些数据采集员来配合遥操作数据采集。2025年预期量产机器人的数量会上升,随之带来的数据采集量也会大幅增长,在数据采集成本方面也会下降。“今后可能会有一批便携式数据采集工具出现,这样会进一步降低数据采集成本。”相关人士透露。

在徐良威看来,北京、上海相继表示要共建具身智能机器人创新数据采集基地和搭建实训、模拟应用场景建设,核心价值远不止数据采集本身,更重要的是能够集中资源、缩短数据积累的时间,也相应地缩短了具身智能市场准入时间。他预测,2025年不同地区会加快建设数据采集训练场,以便从0到1的过程中尽快实现机器人的落地应用,此外数据采集方式将更加多样化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
康熙用30名宫女做“试验”,结果导致四人死亡,试验成果至今受用

康熙用30名宫女做“试验”,结果导致四人死亡,试验成果至今受用

观史搜寻着
2026-04-12 10:45:23
毕业于哈工大的中国籍连环迷奸犯 在德国被判囚14年

毕业于哈工大的中国籍连环迷奸犯 在德国被判囚14年

吃瓜体
2026-02-11 14:25:36
4换1!森林狼报价伦纳德!重磅交易方案曝光

4换1!森林狼报价伦纳德!重磅交易方案曝光

篮球实战宝典
2026-05-27 19:39:43
90%退休职工全搞错!个人档案根本不在社保局,难怪养老金吃亏

90%退休职工全搞错!个人档案根本不在社保局,难怪养老金吃亏

小影的娱乐
2026-05-28 11:31:53
华为韬定律到底含金量如何?现在的舆论环境,就是不让人说实话

华为韬定律到底含金量如何?现在的舆论环境,就是不让人说实话

担扑
2026-05-27 16:17:14
卢伟展望总决赛G2:洛夫顿出战看个人,直指困难,表扬国内球员!

卢伟展望总决赛G2:洛夫顿出战看个人,直指困难,表扬国内球员!

篮球资讯达人
2026-05-28 12:54:19
曝光了!哈登第一心仪下家!已经离开整整5年时间

曝光了!哈登第一心仪下家!已经离开整整5年时间

篮球实战宝典
2026-05-27 20:39:24
装修5天就入住,曾沛慈、阚清子、孙怡、谢楠、范玮琪相继出现咽痛、流鼻血、麦粒肿等症状,《乘风2026》宿舍被指甲醛超标

装修5天就入住,曾沛慈、阚清子、孙怡、谢楠、范玮琪相继出现咽痛、流鼻血、麦粒肿等症状,《乘风2026》宿舍被指甲醛超标

大风新闻
2026-05-28 11:11:09
南部战区对荷兰侵入舰机警示电子干扰,专家:已相当克制

南部战区对荷兰侵入舰机警示电子干扰,专家:已相当克制

环球网资讯
2026-05-27 22:59:11
晚到却是全球第一!纯电轿跑续航635km,拥有50万的档次仅售15万多

晚到却是全球第一!纯电轿跑续航635km,拥有50万的档次仅售15万多

隔壁说车老王
2026-05-28 07:56:36
白玉兰奖入围名单出炉:3人实至名归,2人镀金成功,1人被骂惨

白玉兰奖入围名单出炉:3人实至名归,2人镀金成功,1人被骂惨

君笙的拂兮
2026-05-27 13:15:11
蔚来ES9上市:李斌称是公司集大成之作 姚明是首席体验官

蔚来ES9上市:李斌称是公司集大成之作 姚明是首席体验官

雷递
2026-05-28 13:00:15
并非危言耸听:印度,正被遗弃在酷热中自生自灭

并非危言耸听:印度,正被遗弃在酷热中自生自灭

小莜读史
2026-05-27 04:25:03
诬告朱军性骚扰的“弦子”,终于被封禁了

诬告朱军性骚扰的“弦子”,终于被封禁了

韬闻
2026-05-27 12:46:12
57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

57岁大妈做饭爱加蚝油,2年后去医院体检,医生疑惑平时咋吃的?

芹姐说生活
2026-05-27 22:40:29
中国男篮VS塞尔维亚球队!全新阵容亮相,赵维仑首秀,央视直播

中国男篮VS塞尔维亚球队!全新阵容亮相,赵维仑首秀,央视直播

体坛瞎白话
2026-05-28 09:59:00
湖北大娘讹收割机后续:警方介入,当地人曝恶行

湖北大娘讹收割机后续:警方介入,当地人曝恶行

草莓信箱
2026-05-28 03:42:14
女子坐网约车对司机心动,高情商追爱!客服:我只是个工具人罢了

女子坐网约车对司机心动,高情商追爱!客服:我只是个工具人罢了

用车指南
2026-05-27 10:02:03
“不认识他,上来就扇我媳妇的脸,给她打个脑震荡”,河南一小区多位业主称物业经理喝酒后,对业主们又打又骂无差别攻击,警方已立案调查

“不认识他,上来就扇我媳妇的脸,给她打个脑震荡”,河南一小区多位业主称物业经理喝酒后,对业主们又打又骂无差别攻击,警方已立案调查

潇湘晨报
2026-05-27 21:20:16
尼泊尔为何愿意放弃7万平方公里,却对372平方公里寸土必争?

尼泊尔为何愿意放弃7万平方公里,却对372平方公里寸土必争?

究竟谁主沉浮
2026-05-27 08:56:11
2026-05-28 15:04:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
900102文章数 5091581关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

男子疑遭妻子家暴跳楼身亡:女儿没考好 妻子要罚他5万

头条要闻

男子疑遭妻子家暴跳楼身亡:女儿没考好 妻子要罚他5万

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

广电总局发布2026年“微短剧+”行动计划推荐剧目

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

本地
数码
亲子
房产
公开课

本地新闻

用剪纸的方式,打开江苏扬州

数码要闻

LG或出售电视业务 近60年电视制造历史将终结

亲子要闻

女儿以为爸爸给买的礼物,高兴的不知所措,知道是别人的反应太逗

房产要闻

突发重磅!三亚新机场公司正式成立!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版