网易首页 > 网易号 > 正文 申请入驻

人形机器人,如何跑出数据荒漠

0
分享至

2026.04.20


本文字数:2943,阅读时长大约5分钟

作者 |第一财经 彭海斌

4月19日,北京亦庄机器人马拉松决出胜负。

300余台机器人参与竞逐,它们或是自主导航,或是人类遥控完成了比赛。相比去年,机器人的运动能力大幅提升。现在机器人除了跑马,还已经登上春晚舞台,进入工厂流水线。这种技术进步有目共睹,而缺憾也一目了然:机器人依然不够聪明。

机器人现在困于数据荒漠里。高质量数据,比石油还稀缺,阻碍了人工智能技术进入真实世界的脚步。“具身智能一定会出现涌现时刻的,而且涌现时刻一定是和数据量与数据组成挂钩的。”觅蜂科技董事长兼CEO姚卯青不久前对第一财经记者表示。

缺口有多大

具身智能以机器人的形态,走出实验室、奔赴千行百业。

人形机器人已经可以以自主的方式跑完半场马拉松,它们也进入龙旗科技的平板工厂完成上下料工作,更不必提在舞台上武术表演了。但机器人现在跑步的时候还是踉踉跄跄,工厂流水线上只能完成特定环节的工作,舞台表演看上去还有些憨傻。

这些机器人,能完成一些工作,但确实还不太聪明。大语言模型比如ChatGPT、DeepSeek都已经见证了智能涌现,而机器人智能还在等待这一刻的到来。

高质量、标准化、规模化的数据,是驱动机器人奔向智能化时代的核心基石。姚卯青认为,机器人的智能涌现时刻一定是和数据量与数据组成挂钩的。

“人形机器人是一个比汽车更大更具想象力的空间,我们正在这个时代的起点。虽然万亿产业蓄势待发,但整个行业却面临着很大的瓶颈和挑战——数据荒漠。”姚卯青在17日的智元合作伙伴大会上表示。

大语言模型的数据获取成本比较低,可以从互联网的各种日常应用里面轻松获取。迪士尼的动画、电子版的苏东坡词集,都可以成为大语言模型的高质量数据。

“目前最领先的大语言模型,比如GPT5用了100万亿token的训练语料。”姚卯青说,1个token近似于0.75个英语单词,正常人如果每分钟诵读150个单词,需要100亿个小时才能读完这些语料集。

机器人所需数据的获取难度高很多。高质量的真机数据,需要机器人去真实世界里摸爬滚打。比如机器人上手搬运行李、清洁房屋,才能获取这些动作反馈的数据。如果说大语言模型需要的是一维的文本资料,机器人需要的就是三维开放世界的知识,数量级、复杂度、获取成本都不可同日而语。

从数据供给侧来看,过去两年全国各地陆陆续续出现数据采集企业,它们有场景资源,有采集能力,但是缺少标准化的运营和管理体系,以及一套完整成熟的数据后处理、治理和流通的能力。只有原始数据是远远不够的,它们需要经过很多的加工和标注,才能为人工智能企业所用。这导致一些数据采集企业空有资源却没法变现。

从数据的需求侧来看,AI大模型公司、科技大厂的具身团队、初创的人形机器人公司都需要海量的高质量数据,但是却无法找到能稳定、快速地供给和高质量的方案,严重拖慢了AI类产品的落地。

极佳视界是一家具身智能和通用机器人的独角兽公司,4月份刚刚完成新一轮的15亿融资。在智元合作伙伴大会的圆桌环节,极佳视界联合创始人朱政表示,该公司在训练模型的过程中,大概使用了几十万个小时的数据。这些数据主要有两个来源,第一是各种网上公开的数据,包括合作伙伴,包括学术机构开源出来的数据;第二则是极佳视界自己采集的数据。

“大部分数据都是在实验室环境下,或者说在人工设置好的场景下采集的。我们觉得还不够真实,希望数据更多一些泛服务场景、工业场景,甚至家庭场景,更加真实我们觉得更好。”朱政说。

外购数据质量往往不达标,数据质量参差不齐。

“我们之前做多模态模型的时候,一张图可能给它几千句话的标注,详细地描述这张图里面的背景、前景、发生了什么,以及不同标注员对它的理解。现在的视频数据,除了自己采回来的数据之外,都是非常简略地标注,对整个环境的标注、对任务的描述远远不够。”朱政表示。

姚卯青深有同感。

“这些数据里面,标注很多是不太规范的,各种传感器之间的空间标定,时间上的同步也有很多问题。标注质量也比较粗糙,脏数据还是充斥着整个市场的。”姚卯青说,现在的大模型都是数据驱动,什么样的数据就产生什么样的模型。“garbage in、garbage out,如果你是垃圾数据进,就垃圾模型出。”

数据低质,造成的深层次问题是,如果有一个好的算法,训练后却没有得到好的效果,机器人企业将难以分辨,到底是数据不好,还是模型出了问题,甚至可能因此而否定掉优秀的算法。

“今天整个行业的高质量数据汇聚在一起,凑凑可能就50万小时的规模。”姚卯青认为,要达到智能涌现时刻,1亿小时的训练数据可能都不够。高质量真机数据的供需之间,存在成千上万倍的差距。

鸿沟如何填平

各家机器人企业,数据标准各自为战。

不少机器人企业在自主生产数据,但数据格式、标注等都是自成体系。

“它们都是一个个的孤岛,很难互通复用。这就造成了企业与企业之间、上游与下游、应用方与数据生产方等的协作成本非常高,整个产业很难形成合力快速地往规模化发展。”姚卯青分析说。

真机数据成本高昂,采集一小时数据大概需要200元甚至更高。按照这样的成本核算,人类恐怕会因为总体成本太高而难以采集几百亿小时数据。仿真数据等虽然训练效果不及真机数据,是一个退而求其次的选择,但也变得不可或缺。

智元专门成立了觅蜂科技以采集和加工数据。根据觅蜂科技的规划,2026年要实现千万小时级的数据产能,其中包括真机、仿真,也包括人类数据。

“数据金字塔包括三层,最上面这一层是真机的数据,它一定是最有针对性、质量最高的数据;中间这一层是仿真数据;下面这一层是视频数据、互联网数据,现在我认为可能更具代表性的是人类数据。”光轮智能CEO谢晨表示。

数据的核心问题,谢晨认为不在数据本身,而是在模型评价上。现在缺乏一个足够开放的、足够真实的,且可规模化的落地到真实场景的具身模型评价方式。如果没有合适的评价体系,企业就不知道用什么样的数据能够做好具身模型。

这个可规模化的评价体系,谢晨认为底层需要的是仿真,所以他认为真机数据、仿真数据、人类数据都至关重要。它们都是智能涌现的必要条件。

就如同特斯拉FSD有上百万辆车,不断地从真实场景拿回数据。具身智能需要用人类的手脚与全世界各种各样的物体进行交互以获取数据。具身数据的难度、数据需求的规模可能会在特斯拉FSD的1000倍。

谢晨认为,比照特斯拉的100万辆汽车,具身智能需要10亿个数据生成器,这需要动员真机、仿真和人类三大核心来源。

在数据稀缺的情况下,现在对数据的利用效率还很低,亟待提高。

据朱政透露,极佳视界用了几十万个小时的数据训练模型,为此每年要在GPU算力上花掉几千万人民币。如果按照当下的数据使用效率,极佳把训练数据扩增100倍甚至1000倍的时候,单单为GPU烧掉的钱就会超过它所能承受的支付能力。

“我们一方面要扩增数据,一方面要努力地改善模型的架构,提高运行的效率。”朱政说。

在今年的北京亦庄机器人马拉松上,人形机器人奔跑的速度已经追平人类运动员。但人形机器人企业探寻高质量数据的马拉松才刚刚开始。

微信编辑| 苏小

:bianjibu@yicai.com

:business@yicai.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界超级摩托车锦标赛捷克站:“张雪机车”位列超级杆位赛第三名

世界超级摩托车锦标赛捷克站:“张雪机车”位列超级杆位赛第三名

新京报
2026-05-15 21:22:10
感谢穆里尼奥!曝回归皇马后将挖角巴萨,曼联成最大受益者

感谢穆里尼奥!曝回归皇马后将挖角巴萨,曼联成最大受益者

体坛鉴春秋
2026-05-16 15:03:07
返回美国途中,特朗普正式回应对台军售问题,非常不一般

返回美国途中,特朗普正式回应对台军售问题,非常不一般

kio鱼
2026-05-15 23:43:30
22笔房贷断供、贷款人集体失联,警方披露案件细节

22笔房贷断供、贷款人集体失联,警方披露案件细节

澎湃新闻
2026-05-15 15:46:05
平野美宇教练张成:孙颖莎打张本美和那场球,就是一场伟大的比赛

平野美宇教练张成:孙颖莎打张本美和那场球,就是一场伟大的比赛

观察鉴娱
2026-05-16 09:56:14
吴宜泽:媒体虚假报道!父母没有为了我卖房子 目标成为世界第一

吴宜泽:媒体虚假报道!父母没有为了我卖房子 目标成为世界第一

念洲
2026-05-16 11:15:12
特朗普贴身助理,34岁单身娜塔莉·哈普果然漂亮

特朗普贴身助理,34岁单身娜塔莉·哈普果然漂亮

三叔的装备空间
2026-05-16 08:32:33
恭喜!陈思诚又当爹!26岁小女友晒生日照,一脸孕相得到父母认可

恭喜!陈思诚又当爹!26岁小女友晒生日照,一脸孕相得到父母认可

八卦王者
2026-05-14 11:39:43
仅售15.68万!蔚来新车官宣,正式上市!

仅售15.68万!蔚来新车官宣,正式上市!

新浪财经
2026-05-16 09:51:24
iPhone 17 Pro Max突然降价,首批降价受害者出现了

iPhone 17 Pro Max突然降价,首批降价受害者出现了

搞机小帝
2026-05-16 00:18:45
马斯克儿子“小X”为什么可以随行?他为什么受马斯克宠爱?

马斯克儿子“小X”为什么可以随行?他为什么受马斯克宠爱?

楠楠自语
2026-05-15 14:48:33
离开中国就表态!特朗普欲撕毁“对台六项保证”,台当局密集发声

离开中国就表态!特朗普欲撕毁“对台六项保证”,台当局密集发声

爱下厨的阿酾
2026-05-16 15:04:13
10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

听风喃
2026-04-06 11:16:04
敬完了酒,特朗普访华画上句号,从中国临走之前,终于说出真心话

敬完了酒,特朗普访华画上句号,从中国临走之前,终于说出真心话

孤城落叶
2026-05-16 15:37:18
高市早苗派人访问中国,想和中方见见面!中方:不认错你就别想见

高市早苗派人访问中国,想和中方见见面!中方:不认错你就别想见

桑启红原
2026-05-16 15:08:22
范·迪塞尔戛纳落泪拥抱保罗·沃克女儿

范·迪塞尔戛纳落泪拥抱保罗·沃克女儿

热搜摘要官
2026-05-15 00:54:16
中美会谈结束,特朗普松开了中方的手,中方邻国对此态度截然不同

中美会谈结束,特朗普松开了中方的手,中方邻国对此态度截然不同

介知
2026-05-16 14:10:22
消费者诉酒店价格欺诈拒调解后却被通知领赔偿,法院:还在审理中

消费者诉酒店价格欺诈拒调解后却被通知领赔偿,法院:还在审理中

澎湃新闻
2026-05-16 12:56:27
39岁杨幂喜提新头衔,职务不一般,释放2大信号,地位彻底变了

39岁杨幂喜提新头衔,职务不一般,释放2大信号,地位彻底变了

小俎娱乐
2026-05-16 10:08:56
孙俪教子有方!女儿英国比赛获奖身披国旗上台,自信大方像邓超

孙俪教子有方!女儿英国比赛获奖身披国旗上台,自信大方像邓超

白面书誏
2026-05-15 13:56:08
2026-05-16 16:43:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
253191文章数 622348关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

学生请假回家后在外省坠亡 父母起诉学校索赔近34万

头条要闻

学生请假回家后在外省坠亡 父母起诉学校索赔近34万

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

数码
旅游
健康
游戏
军事航空

数码要闻

2999元带自动制冰!小米推出新款米家法式400L冰箱:60cm超薄平嵌

旅游要闻

【海上记忆】汇龙潭的水,有至刚之德

专家揭秘干细胞回输的安全风险

《极限竞速:地平线6》设定车辆无法撞毁樱花树

军事要闻

联合国安理会审议叙利亚局势

无障碍浏览 进入关怀版