网易首页 > 网易号 > 正文 申请入驻

机器人的“数据战争”:烧钱难解数据饥渴,数据集需“排毒”

0
分享至

当马斯克正在担忧AI训练数据已经耗尽的时候,具身智能企业正在面临残酷的数据生死局:训练一个倒水动作需要一台超算运算千万亿次、第三方的数据“有毒”随时会让模型崩溃,仿真数据成本也正在攀升……

在这场决定未来机器人进化速度和方向的隐形数据大战中,有具身智能企业正通过“反直觉”的训练方法撕开突破口,让机器人在不相关的杂乱任务中领悟物理法则,试图建立数据护城河。

当AI向物理空间延伸,数据极有可能成为重塑技术权力的关键。不过,机器人想要跨越临界值,迎来具身大模型的GPT时刻,还需要解决数据质量、算法、算力等多方面的问题。毕竟,具身智能的终局不会是单点技术的胜利,而是软件、硬件与商业模式的系统战争。

克服“数据饥渴”

想要训练一个机器人的大模型,究竟需要多少数据?

“通常来讲,一台超级计算机,每秒钟可以进行千万亿次到数百亿亿次浮点运算,而光是想要模拟人晃动杯中的水这一个动作,所涉及的计算量可能就需要一台超级计算机算十分钟。”

具身大模型企业自变量机器人(X Square)的创始人兼CEO王潜向第一财经记者举了上述例子,来说明想要让机器人实现物理世界的复杂交互,需要多少多模态的真实和仿真数据支持。“更重要的是,对于一些复杂的动作,按照此前业界普遍采用的分层模型逻辑,几乎是无法实现的事情。”王潜说道。

分层模型,曾经被认为是机器人领域的黄金法则:先建模、再规划、最后执行。但在执行过程中,王潜发现,随着每一层模型的传递,模型在某一层产生的微小误差,将会在后续的环节呈现指数级的扩散。

每分出一个步骤,就有可能给模型引入噪声。“如果一开始建模的误差在1%,那随着分层模型的传导,在执行的最终结果中,很有可能会出现几十倍的误差。”王潜说道。因此,端到端的模型也逐渐成为了下一个发展方向。在端到端的模型设计里,直接连接输入与输出的“黑箱”特性,让具身大模型的自我修正成为可能。

技术路径更迭,海量的数据,始终是横亘在具身智能大模型面前的天堑。王潜告诉第一财经记者,“数据饥渴”在行业中一直存在。“它的底层逻辑是,强化学习的路径需要指数级增长的数据,而仿真数据又容易因为物理交互的复杂性难以迁移到现实。”

这种数据饥渴一直到GPT-3的出现才有所缓解。“GPT-3的出现,其实带给我们的是‘反人类直觉’的启示。”王潜解释,此前训练机器人的某一动作模型,总是喂给其相似的任务数据语料。“但GPT-3的底层逻辑是,通过多任务学习,模型被迫提炼跨任务的共性规律,从而具备少样本甚至零样本的学习能力。”

看似完全不相干的任务,能够逼迫具身大模型更快地学习物理世界的通用原理。王潜说,当模型同时学习倒水、换衣服等任务时,看似没有直接关联,但大模型能通过大量的这些任务,学习如何处理类似的摩擦,认识到“抓握”“材质”等物理世界通用的逻辑。

一旦这条逻辑得到验证,那么大语言模型少样本甚至零样本的学习能力将有机会在具身智能大模型上重现,帮助机器人跨越数据的死亡谷。

第三方数据需“排毒”

尽管GPT3的出现,给具身智能大模型带来了“解药”,但具身智能数据场中的隐形战争,仍未停止。

Jerry是一家高校的助理教授,也是国际上最早一批研究具身智能数据的学者之一,他告诉第一财经记者,相比于大语言模型上的数据资源,具身大模型的数据成本会高很多。“过去很长时间内,互联网已经完成了人类知识的沉淀,这些资源是一个新的能源,只是过去在底层,AI训练的时候被‘挖’了出来。”

他告诉记者,大模型的数据来源主要分为三块,第一块是过去由互联网完成了数字化沉淀的数据,它记录了人类对这个世界的感知;第二块是嫁接了图文、3D等多种模态的数据;第三块则是通过不同传感器获取的数据。

“在训练机器人大模型过程当中,我们实际遇到的情况是,这个行业本来就没有数据资源,所以我们需要冷启动,将数据收集起来,才能实际推动行业。”王潜说道。

过去几年,人工智能的火爆,令训练AI模型数据添加标签的Scale AI炙手火热,在机器人领域是否也会出现类似Scale AI的独角兽?

随着机器人行业的拓展,上游的数据供应商也不断涌现。2023年前后,艾欧智能等国内第三方的具身智能机器人场景数据供应商开始出现。2024年年底,智元机器人宣布开源 AgiBot World,智元称它是一个汇集百万真实机器人数据的开源数据集。2025年1月,松灵机器人推出全新通用数据采集方案,配备了200°鱼眼相机、双目深度相机等传感器确保数据感知。

不过,另一位使用过第三方提供数据的具身智能从业者告诉第一财经记者,就大模型的训练要求来说,第三方的数据使用率可能不足1%。“我们经常遇到的情况是,买了100万条数据,经过严格的质量筛选后,实际投入使用的数据量可能只有1万条甚至更少。”

上述从业者向记者解释,当遥操作时,数据操作员在操作中的微小停顿或轨迹抖动都会被记录下来。“这样的数据,不光是无用的数据,更可能是有毒的数据。有毒的数据多了,模型就会崩溃。”

数据的质量高低,是拉开具身智能大模型竞争力的重要评判标准。王潜告诉记者,为了确保数据的质量符合标准,自变量机器人投入大量精力和资源自研数据系统来给数据“排毒”。

在这场隐形的数据战争中,高质量的数据也许会成为将来具身智能企业的核心壁垒。“未来,数据集的护城河也许比算法更深。”Jerry说道。

模拟数据也要讲性价比

相比具身智能大模型,大语言模型走得更前也更快,一些数据问题已经暴露了出来。

马斯克在今年社交媒体X上的一场直播中提到,人工智能数据训练已经耗尽。他表示:“我们基本上已经用尽了人类知识的累积总和来进行AI训练,这种情况大约在去年就已经发生了。”去年12月,OpenAI 的前首席科学家 Ilya Sutskever 也在一次分享中提及,尽管现有的数据仍能推动人工智能的发展,但这个行业里称得上可用的新数据已经接近枯竭。

“对于大模型的预训练来说,我们所用到的数据的确已经接近峰值。”明月(化名)是国内头部大语言模型的数据标注师,她认为,人类生成的优质内容占比正在下降。“而且现在大语言模型训练已经走向了垂直领域,公用数据资源更少。以医疗领域来举例,合法、公开的数据是很有限的。”

因此,合成数据又成为了“救命稻草”。明月告诉第一财经记者,合成数据在大模型训练中的占比走高,这是行业中默认的规则。“但是否会生成幻觉,会生成多少幻觉,业内也还在讨论中。”

对于具身智能而言,合成数据并不一定比真实数据“划算”。王潜告诉第一财经记者,模拟不同状态物体所需要的数据量不同。“因为我们不可能用一个超算中心计算10分钟来精确模拟晃动一杯水这一几秒钟的动作。所以模拟器的精度在合成数据时,我们常常都会设置得比较低。”

因此,一般在模拟器中训练出的模型迁移到现实世界会遇到严重的障碍,也就是所谓的泛化性不高。要想训练出泛化性高到可以在现实世界中部署的模型,一种常见的做法是在模拟器中模拟出不同物理规律的世界,并将大模型放在这些环境中训练。“如果它在这些环境中都能够获得很好的效果,那么理论上,它再转移到现实世界中去就很简单了。”

王潜向记者举例,如果想要训练出一个能够操作六个自由参数量的刚体模型,那需要模拟的数量级可能在十的六次方。“但如果是一个柔性的物体,它也许有100个参数,模拟环境数量的量级可能就会大很多,成本和技术难度都太高了。”王潜说道。

“在GPU里跑模拟数据也是需要成本的,因此在稍微复杂一点的任务上,模拟器其实已经有很明显的劣势了。”王潜判断,未来机器人灵巧的手部操作,无法纯粹靠模拟器数据做出来。

具身智能发展至今,一些大模型也逐渐浮出水面。星动纪元在去年12月发布了原生端到端机器人大模型ERA-42;同一时期,灵初智能也发布了基于强化学习的端到端具身模型Psi R0;银河通用也在今年1月发布了基于仿真合成大数据的具身模型GraspVLA。

不过第一财经记者注意到,这些大模型在演示中大多都集中突出了一些简单的手部姿势,动作集中在拿放,大模型的泛化性和输出稳定性如何均未有明确展示。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破防了!土耳其排协体面送别老将,中国女排功勋,只剩默默退场

破防了!土耳其排协体面送别老将,中国女排功勋,只剩默默退场

金毛爱女排
2026-06-24 00:00:07
还是来了,为了制衡中国,印度开出天价筹码!蒙古这次有点心动了

还是来了,为了制衡中国,印度开出天价筹码!蒙古这次有点心动了

潘冹旅行浪子
2026-06-24 12:52:10
陪玩陪睡只是皮毛!继关晓彤后,向佐再曝“猛料”,谢娜也没逃过

陪玩陪睡只是皮毛!继关晓彤后,向佐再曝“猛料”,谢娜也没逃过

趣文说娱
2026-06-21 23:14:56
“开屏广告没了”登顶热搜,大量网友惊喜反馈高德地图、百度地图、微博等App能“秒进”主页,体验极为“丝滑”

“开屏广告没了”登顶热搜,大量网友惊喜反馈高德地图、百度地图、微博等App能“秒进”主页,体验极为“丝滑”

大风新闻
2026-06-23 22:27:03
杨某某(女,36岁)开车致1死2伤,官方公布伤情:3岁男孩病情危重,妈妈将进行胸椎骨折手术

杨某某(女,36岁)开车致1死2伤,官方公布伤情:3岁男孩病情危重,妈妈将进行胸椎骨折手术

南方都市报
2026-06-23 19:06:52
官宣:2027级起,研究生学制延长!

官宣:2027级起,研究生学制延长!

老吕教你考MBA
2026-06-22 11:58:15
特朗普炮轰参议院:给伊朗“送安慰”,让谈判更艰难

特朗普炮轰参议院:给伊朗“送安慰”,让谈判更艰难

观察者网
2026-06-24 11:44:10
被老师当众诬陷作弊,从此我天天交白卷,高考结束后却被清华录取

被老师当众诬陷作弊,从此我天天交白卷,高考结束后却被清华录取

历史八卦社
2025-05-12 22:35:58
快讯!伊朗结束,该轮到朝鲜了?

快讯!伊朗结束,该轮到朝鲜了?

故事终将光明磊落
2026-06-24 12:11:49
历史总是惊人地相似!解放台湾,康熙340年前的经验值得学习借鉴

历史总是惊人地相似!解放台湾,康熙340年前的经验值得学习借鉴

近史谈
2026-06-09 16:59:24
外资掉到2010年还刹不住,国家再开大门!

外资掉到2010年还刹不住,国家再开大门!

家传编辑部
2026-06-23 17:16:50
“崔贤”号新型多用途驱逐舰正式进入朝鲜海军服役

“崔贤”号新型多用途驱逐舰正式进入朝鲜海军服役

澎湃新闻
2026-06-24 08:54:32
世界杯预测,巴西队与苏格兰队刺刀见红,瑞士队要击败加拿大队

世界杯预测,巴西队与苏格兰队刺刀见红,瑞士队要击败加拿大队

足球分析员
2026-06-24 11:00:07
iPhone Ultra 9 月发布,售价很猛!

iPhone Ultra 9 月发布,售价很猛!

花果科技
2026-06-22 15:35:19
遭中方制裁两周,菲军方与菲防长撇清关系,特奥多罗墙倒众人推?

遭中方制裁两周,菲军方与菲防长撇清关系,特奥多罗墙倒众人推?

蹲坑看世界
2026-06-24 14:58:44
伊朗飞行员懵了!刚扔完炸弹拼命逃,扭头看见美军被击落?

伊朗飞行员懵了!刚扔完炸弹拼命逃,扭头看见美军被击落?

咸鱼金脑袋
2026-06-24 04:22:17
巴萨脸都被打肿!8000 万水货世界杯现形 愚蠢操作差点坑死英格兰

巴萨脸都被打肿!8000 万水货世界杯现形 愚蠢操作差点坑死英格兰

奶盖熊本熊
2026-06-24 06:33:47
WOW!热火报价詹姆斯!组建史诗级三巨头

WOW!热火报价詹姆斯!组建史诗级三巨头

篮球实战宝典
2026-06-23 18:26:29
78岁老人:去养老院住了一年后,我才发现,在那里养老是一种煎熬

78岁老人:去养老院住了一年后,我才发现,在那里养老是一种煎熬

烙任情感
2026-06-23 10:45:59
沉默96小时后,台当局公开道歉,蒋万安开始行动,两岸已签约成功

沉默96小时后,台当局公开道歉,蒋万安开始行动,两岸已签约成功

果妈聊娱乐
2026-06-24 13:32:54
2026-06-24 15:43:00
第一财经资讯 incentive-icons
第一财经资讯
第一财经官方账号
257002文章数 622774关注度
往期回顾 全部

科技要闻

豆包专业版上线:定价68-500元每月

头条要闻

媒体:辽宁舰编队训练 中国海军"御用摄影师"交了白卷

头条要闻

媒体:辽宁舰编队训练 中国海军"御用摄影师"交了白卷

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

爆料人:如果我错了,赔偿坐牢都接受

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

本地
房产
亲子
艺术
公开课

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

房产要闻

今年13.7万,明年15.4万!海南教育,正在疯狂扩容!

亲子要闻

暴风骤雨纸尿裤

艺术要闻

Ui ART|新展首发|第二次抵抗:跨世纪以来的另一种艺术

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版