网易首页 > 网易号 > 正文 申请入驻

机器人的“数据战争”:烧钱难解数据饥渴,数据集需“排毒”

0
分享至

当马斯克正在担忧AI训练数据已经耗尽的时候,具身智能企业正在面临残酷的数据生死局:训练一个倒水动作需要一台超算运算千万亿次、第三方的数据“有毒”随时会让模型崩溃,仿真数据成本也正在攀升……

在这场决定未来机器人进化速度和方向的隐形数据大战中,有具身智能企业正通过“反直觉”的训练方法撕开突破口,让机器人在不相关的杂乱任务中领悟物理法则,试图建立数据护城河。

当AI向物理空间延伸,数据极有可能成为重塑技术权力的关键。不过,机器人想要跨越临界值,迎来具身大模型的GPT时刻,还需要解决数据质量、算法、算力等多方面的问题。毕竟,具身智能的终局不会是单点技术的胜利,而是软件、硬件与商业模式的系统战争。

克服“数据饥渴”

想要训练一个机器人的大模型,究竟需要多少数据?

“通常来讲,一台超级计算机,每秒钟可以进行千万亿次到数百亿亿次浮点运算,而光是想要模拟人晃动杯中的水这一个动作,所涉及的计算量可能就需要一台超级计算机算十分钟。”

具身大模型企业自变量机器人(X Square)的创始人兼CEO王潜向第一财经记者举了上述例子,来说明想要让机器人实现物理世界的复杂交互,需要多少多模态的真实和仿真数据支持。“更重要的是,对于一些复杂的动作,按照此前业界普遍采用的分层模型逻辑,几乎是无法实现的事情。”王潜说道。

分层模型,曾经被认为是机器人领域的黄金法则:先建模、再规划、最后执行。但在执行过程中,王潜发现,随着每一层模型的传递,模型在某一层产生的微小误差,将会在后续的环节呈现指数级的扩散。

每分出一个步骤,就有可能给模型引入噪声。“如果一开始建模的误差在1%,那随着分层模型的传导,在执行的最终结果中,很有可能会出现几十倍的误差。”王潜说道。因此,端到端的模型也逐渐成为了下一个发展方向。在端到端的模型设计里,直接连接输入与输出的“黑箱”特性,让具身大模型的自我修正成为可能。

技术路径更迭,海量的数据,始终是横亘在具身智能大模型面前的天堑。王潜告诉第一财经记者,“数据饥渴”在行业中一直存在。“它的底层逻辑是,强化学习的路径需要指数级增长的数据,而仿真数据又容易因为物理交互的复杂性难以迁移到现实。”

这种数据饥渴一直到GPT-3的出现才有所缓解。“GPT-3的出现,其实带给我们的是‘反人类直觉’的启示。”王潜解释,此前训练机器人的某一动作模型,总是喂给其相似的任务数据语料。“但GPT-3的底层逻辑是,通过多任务学习,模型被迫提炼跨任务的共性规律,从而具备少样本甚至零样本的学习能力。”

看似完全不相干的任务,能够逼迫具身大模型更快地学习物理世界的通用原理。王潜说,当模型同时学习倒水、换衣服等任务时,看似没有直接关联,但大模型能通过大量的这些任务,学习如何处理类似的摩擦,认识到“抓握”“材质”等物理世界通用的逻辑。

一旦这条逻辑得到验证,那么大语言模型少样本甚至零样本的学习能力将有机会在具身智能大模型上重现,帮助机器人跨越数据的死亡谷。

第三方数据需“排毒”

尽管GPT3的出现,给具身智能大模型带来了“解药”,但具身智能数据场中的隐形战争,仍未停止。

Jerry是一家高校的助理教授,也是国际上最早一批研究具身智能数据的学者之一,他告诉第一财经记者,相比于大语言模型上的数据资源,具身大模型的数据成本会高很多。“过去很长时间内,互联网已经完成了人类知识的沉淀,这些资源是一个新的能源,只是过去在底层,AI训练的时候被‘挖’了出来。”

他告诉记者,大模型的数据来源主要分为三块,第一块是过去由互联网完成了数字化沉淀的数据,它记录了人类对这个世界的感知;第二块是嫁接了图文、3D等多种模态的数据;第三块则是通过不同传感器获取的数据。

“在训练机器人大模型过程当中,我们实际遇到的情况是,这个行业本来就没有数据资源,所以我们需要冷启动,将数据收集起来,才能实际推动行业。”王潜说道。

过去几年,人工智能的火爆,令训练AI模型数据添加标签的Scale AI炙手火热,在机器人领域是否也会出现类似Scale AI的独角兽?

随着机器人行业的拓展,上游的数据供应商也不断涌现。2023年前后,艾欧智能等国内第三方的具身智能机器人场景数据供应商开始出现。2024年年底,智元机器人宣布开源 AgiBot World,智元称它是一个汇集百万真实机器人数据的开源数据集。2025年1月,松灵机器人推出全新通用数据采集方案,配备了200°鱼眼相机、双目深度相机等传感器确保数据感知。

不过,另一位使用过第三方提供数据的具身智能从业者告诉第一财经记者,就大模型的训练要求来说,第三方的数据使用率可能不足1%。“我们经常遇到的情况是,买了100万条数据,经过严格的质量筛选后,实际投入使用的数据量可能只有1万条甚至更少。”

上述从业者向记者解释,当遥操作时,数据操作员在操作中的微小停顿或轨迹抖动都会被记录下来。“这样的数据,不光是无用的数据,更可能是有毒的数据。有毒的数据多了,模型就会崩溃。”

数据的质量高低,是拉开具身智能大模型竞争力的重要评判标准。王潜告诉记者,为了确保数据的质量符合标准,自变量机器人投入大量精力和资源自研数据系统来给数据“排毒”。

在这场隐形的数据战争中,高质量的数据也许会成为将来具身智能企业的核心壁垒。“未来,数据集的护城河也许比算法更深。”Jerry说道。

模拟数据也要讲性价比

相比具身智能大模型,大语言模型走得更前也更快,一些数据问题已经暴露了出来。

马斯克在今年社交媒体X上的一场直播中提到,人工智能数据训练已经耗尽。他表示:“我们基本上已经用尽了人类知识的累积总和来进行AI训练,这种情况大约在去年就已经发生了。”去年12月,OpenAI 的前首席科学家 Ilya Sutskever 也在一次分享中提及,尽管现有的数据仍能推动人工智能的发展,但这个行业里称得上可用的新数据已经接近枯竭。

“对于大模型的预训练来说,我们所用到的数据的确已经接近峰值。”明月(化名)是国内头部大语言模型的数据标注师,她认为,人类生成的优质内容占比正在下降。“而且现在大语言模型训练已经走向了垂直领域,公用数据资源更少。以医疗领域来举例,合法、公开的数据是很有限的。”

因此,合成数据又成为了“救命稻草”。明月告诉第一财经记者,合成数据在大模型训练中的占比走高,这是行业中默认的规则。“但是否会生成幻觉,会生成多少幻觉,业内也还在讨论中。”

对于具身智能而言,合成数据并不一定比真实数据“划算”。王潜告诉第一财经记者,模拟不同状态物体所需要的数据量不同。“因为我们不可能用一个超算中心计算10分钟来精确模拟晃动一杯水这一几秒钟的动作。所以模拟器的精度在合成数据时,我们常常都会设置得比较低。”

因此,一般在模拟器中训练出的模型迁移到现实世界会遇到严重的障碍,也就是所谓的泛化性不高。要想训练出泛化性高到可以在现实世界中部署的模型,一种常见的做法是在模拟器中模拟出不同物理规律的世界,并将大模型放在这些环境中训练。“如果它在这些环境中都能够获得很好的效果,那么理论上,它再转移到现实世界中去就很简单了。”

王潜向记者举例,如果想要训练出一个能够操作六个自由参数量的刚体模型,那需要模拟的数量级可能在十的六次方。“但如果是一个柔性的物体,它也许有100个参数,模拟环境数量的量级可能就会大很多,成本和技术难度都太高了。”王潜说道。

“在GPU里跑模拟数据也是需要成本的,因此在稍微复杂一点的任务上,模拟器其实已经有很明显的劣势了。”王潜判断,未来机器人灵巧的手部操作,无法纯粹靠模拟器数据做出来。

具身智能发展至今,一些大模型也逐渐浮出水面。星动纪元在去年12月发布了原生端到端机器人大模型ERA-42;同一时期,灵初智能也发布了基于强化学习的端到端具身模型Psi R0;银河通用也在今年1月发布了基于仿真合成大数据的具身模型GraspVLA。

不过第一财经记者注意到,这些大模型在演示中大多都集中突出了一些简单的手部姿势,动作集中在拿放,大模型的泛化性和输出稳定性如何均未有明确展示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

巨亏36.8亿!中国光刻机突围,没想到最先顶不住的竟是日本?

百科密码
2026-03-26 14:50:58
国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

国际油价暴涨,国内油价却“压着不涨”!国家出手了:每吨少涨1000多块

思如哲思
2026-03-26 06:36:02
王洪文的狂草背后隐藏的秘密,赵孟頫书法的真实价值揭秘!

王洪文的狂草背后隐藏的秘密,赵孟頫书法的真实价值揭秘!

书画相约
2026-03-26 07:50:37
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
就不能一次晴个够!盯紧下一场雨

就不能一次晴个够!盯紧下一场雨

上海预警发布
2026-03-26 17:31:59
年入850万儿子生病转账15万,梁靖崑复婚协议揭开国乒真相

年入850万儿子生病转账15万,梁靖崑复婚协议揭开国乒真相

科学发掘
2026-03-26 16:14:56
太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

太扎心!辽宁一中年男子小便怒斥妻子举布遮挡稍高,就撒手人寰了

火山詩话
2026-03-26 06:16:11
崩了,知名光伏公司大规模停产,大面积待岗!

崩了,知名光伏公司大规模停产,大面积待岗!

黯泉
2026-03-25 21:36:39
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
是什么,让这个日本自卫官竟敢对中国大使馆举刀?

是什么,让这个日本自卫官竟敢对中国大使馆举刀?

环球时报国际
2026-03-26 00:13:51
张雪峰父亲因肺癌去世,母亲得知儿子去世昏倒,家人还在瞒着奶奶

张雪峰父亲因肺癌去世,母亲得知儿子去世昏倒,家人还在瞒着奶奶

博士观察
2026-03-26 18:44:27
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

沙特实战封神!中国“天盾”21发全中,15亿美制系统竟惨遭反杀

素衣读史
2026-03-25 21:26:46
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

所有人都在盯中东打仗,中国却悄悄干了件大事:欧洲突然赚麻了

青青子衿
2026-03-26 01:37:03
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

破防!小县城殡仪馆大屏流出,中年人扎堆离世,网友:还争什么?

川渝视觉
2026-03-23 19:26:44
2026-03-26 20:40:49
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
248301文章数 621904关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
教育
旅游
本地
公开课

转头就晕的耳石症,能开车上班吗?

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

旅游要闻

20元人民币背景观景台乱收费?景区通报:不存在封闭管控、强制收费等

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版