网易首页 > 网易号 > 正文 申请入驻

具身智能“卷”数据:行业共识质量为先 多样性和流通性仍有不足

0
分享至

6月16日,在北京亦庄举行的以“Build with Galaxea”为主题的星海图全球开发者大会(Galaxea WDC 2026)上,“数据”成为关键词之一。

围绕具身智能数据问题,多位行业人士分享了大量一线数据和判断:当前国内可用于训练的具身数据量级约为百万小时,与大语言模型动辄几千万小时的视频数据、几十万亿Token(词元)的文本数据相比仍有明显差距。

星海图CEO(首席执行官)高继扬在接受包括《每日经济新闻》记者在内的媒体记者采访时表示,与大语言模型主要依赖互联网公开数据不同,具身智能的数据几乎都来自现实世界的采集,具有强烈的私有化属性。

这意味着,行业面临的不仅是数据量不足的问题,更包括数据质量、采集成本、流通效率以及安全合规等一系列挑战。

“百万小时”之后,行业缺的仍是高质量数据

在采访中,高继扬首先回应了业界关于VLA(视觉-语言-动作模型)与世界模型路线之争的问题。他认为,两者并非对立,而是同源共生。无论训练哪一种模型,本质上都需要将多模态数据转化为Token,再进行编码和学习。

他进一步将具身智能的数据需求拆解为四个维度:动作、对象、场景和本体。所谓“采数据”,本质上是要尽可能把这四个维度的不同类型数据全部采集到。其中,Human-Centric Data(以人为中心的数据)和Robot-Centric Data(以机器人为中心的数据)各有作用。前者能够以较低成本快速覆盖大量场景和不同人体形态,后者则更贴近最终部署机器人的真实运动特性。

对于使用的数据类型,高继扬表示,现在的预训练基本全部使用真实数据,几乎不用仿真数据。在公司达到100万小时数据规模之前,暂时看不到大规模采用仿真数据的必要性,因为真实数据更能有效覆盖上述四个维度。

海天瑞声CEO李科在6月16日上午的圆桌对话中表示,在当前具身智能领域中,虽然已经出现大量训练场和数据采集中心,但真正可用于训练的数据规模仍然有限。他估算,目前国内可用于具身模型训练的数据大约在百万小时量级,而学术界公开数据集大多只有数百小时,少数达到万小时规模。

李科认为,目前之所以智能没有涌现,问题不仅在于数据总量不足,还在于数据多样性和流通性不够。不同训练场基于不同机器人本体采集数据,形成了明显的数据孤岛。

对此,鲸跃动力CEO李广宇则进一步指出,高质量的数据也是重要因素。“我们希望,今年如果整个行业积累千万小时的数据,其中真正有价值的可以达到100万小时,从量变到质变。”

在具身智能领域,数据采集往往被视为一项昂贵工程。

高继扬以星海图的实践为例,给出了较为具体的成本测算。Human-Centric Data的采集成本约每小时50元至100元,Robot-Centric Data约每小时250元。综合来看,行业平均数据成本约每小时100元至150元。按照这一标准,采集100万小时数据的成本在1亿元至2亿元之间。

高继扬强调,相比大模型训练动辄数亿美元的算力投入,这笔钱“必须得花,而且非常划算”。他提出,衡量数据投入不能只看数据单项成本,而应该关注智能总成本。“智能总成本分三部分:数据成本、算力成本以及研发团队工程师成本。我们(指星海图)的实践至少是1∶10,即1块钱的数据至少花10块钱去做训练才能把它训明白。”

在高继扬看来,真正昂贵的不是数据本身,而是低质量数据带来的训练浪费。“如果输入的是不那么有效的数据,产生的模型也不会有太大价值,在数据上量之前一定要先把数据质量解决,而什么是最高质量的数据?真实数据是最高质量的。”

除了成本,数据壁垒也成为行业关注焦点,高继扬直言,未来具身智能模型的竞争很大程度上取决于数据质量。他认为,数据差异会逐层传导:从数据质量差异,到模型能力差异,再到应用效果差异,最终体现为商业价值差异。

在商业模式上,高继扬将具身智能的发展分为两个阶段:当前阶段仍以整机销售为主,真正面向生产力的方案订阅模式阶段尚未成熟。他认为,现阶段行业尚未有企业真正实现大规模生产力场景落地,因此更大的市场空间仍在未来。

从数据到智能,行业正在寻找下一次跃迁

具身智能正处于从数据冷启动向智能涌现过渡的关键阶段。

清科灵境创始人杨子江将具身数据比作人工智能时代的石油。在他看来,真正的挑战不仅是采集数据,更是如何完成数据的提取、加工、提纯和流通。“具身智能如何获得三维的多模态的数据,怎么样才能高效地把其提取并加工成有用的数据,这也是需要不断积累的过程。”

对于未来的数据来源,业内也出现了一些新的探索方向。

李广宇认为,消费电子设备可能成为重要的数据入口,例如手机、智能眼镜等终端具备摄像头和端侧算力,可以在用户日常生活中持续采集具身数据。与此同时,随着机器人逐步进入真实生产和生活场景,其运行过程本身也将不断产生新的训练数据。“大家认为今年是具身应用元年,预期未来有更多的机器人能够实际铺到真实的生产生活当中,这些机器人产生的数据也是很有价值的。”

高继扬在受访时表示,行业真正的Scaling(规模化扩展)尚未开始。在他看来,具身智能的数据增长不会是线性的,而应是指数级扩张。

此外,高继扬认为,目前具身基础模型的成长速度已经快于婴幼儿学习技能的成长速度。因此,他并不认为行业进展缓慢。但高继扬同时强调,数据量的上升并不直接带来模型执行速度的提升,执行速度更多取决于后训练而非预训练。

他介绍,预训练解决的是泛化性问题,即面对新场景、新任务能否在不增加新数据的前提下完成;后训练则是针对特定场景的补充训练,类似于劳动者上岗前的专项培训,只有经过培训后,执行速度才会真正提升。

如果将当前具身智能水平类比为婴儿,那么发展到相当于七八岁孩子的智能水平,大致需要多长时间、多大规模的数据?

面对这一问题,李科判断需要3至5年时间,对应的有效数据量级在千万小时左右。在他看来,关键在于有效数据并非简单的数据总量。同时,与本体直接相关的特定数据,如机器人手腕自由度带来的差异化操作数据等,可能比泛化数据更具价值。

星海图CFO(首席财务官)罗天奇则表示,星海图内部判断的中性预测周期为3年左右,如果算法层面出现重大突破,这一进程有可能进一步提速。他同时提到,在数据成本中,算力仍是最大开销,数据本身相对是“小头”,但数据质量比规模更为关键。数据基础设施能力以及标注环节的降本增效,将是行业接下来需要持续投入的重点方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
资金越跌越买!有色金属ETF天弘(159157)盘中申购额近8000万份居深市同标的第一,成交额超2亿元

资金越跌越买!有色金属ETF天弘(159157)盘中申购额近8000万份居深市同标的第一,成交额超2亿元

每日经济新闻
2026-06-23 14:11:11
两次将妻子捉奸在床,情夫:睡你老婆怎样!丈夫绝望,喝下百草枯

两次将妻子捉奸在床,情夫:睡你老婆怎样!丈夫绝望,喝下百草枯

黑哥讲现代史
2026-04-26 06:00:24
寄生虫太多,开水都烫不死的4种食物,很多人却蒙在鼓里一直吃

寄生虫太多,开水都烫不死的4种食物,很多人却蒙在鼓里一直吃

方舟健客科普
2026-06-23 20:16:15
陪跑12年,这笔投资赚了186亿

陪跑12年,这笔投资赚了186亿

我是一个粉刷匠2
2026-06-23 02:45:07
一个家庭最大的灾难是:夫妻到了六十岁,还处于这3种状态

一个家庭最大的灾难是:夫妻到了六十岁,还处于这3种状态

三农老历
2026-06-11 17:37:26
3.2亿灵活就业:桥接住了很多人,但没有人告诉他们岸在哪里

3.2亿灵活就业:桥接住了很多人,但没有人告诉他们岸在哪里

不一定有用的频道
2026-06-23 18:00:03
CBA最新消息!争议后卫离开北京首钢,袁堂文确定完成续约

CBA最新消息!争议后卫离开北京首钢,袁堂文确定完成续约

体坛瞎白话
2026-06-23 15:24:51
人老了,躺在病床上才明白,废掉身体最快速的方式,不是抽烟、喝酒、打麻将,而是这3件事

人老了,躺在病床上才明白,废掉身体最快速的方式,不是抽烟、喝酒、打麻将,而是这3件事

二胡的岁月如歌
2026-06-01 19:17:37
世体:尤文有意皇马5将,或助皇马清洗

世体:尤文有意皇马5将,或助皇马清洗

懂球帝
2026-06-23 19:14:23
别了,郑丽文!别了,司徒雷登!不明大势不可逆道理终被大势淘汰

别了,郑丽文!别了,司徒雷登!不明大势不可逆道理终被大势淘汰

放开他让wo来
2026-06-23 11:40:02
伊朗总统拿出哈梅内伊的教令,不能再让强硬派无法无天下去

伊朗总统拿出哈梅内伊的教令,不能再让强硬派无法无天下去

黑鹰观军事
2026-06-23 13:56:45
日本女星婚前和老公协定:每月只能5次,超一次收费50万

日本女星婚前和老公协定:每月只能5次,超一次收费50万

章荳解说体育
2026-06-05 22:44:25
记者:放走梅西是巴萨最大错误,花1.5亿买小蜘蛛不如请回他

记者:放走梅西是巴萨最大错误,花1.5亿买小蜘蛛不如请回他

海阔山遥YAO
2026-06-23 11:29:06
今天起!2026高考公布考生成绩,快查分

今天起!2026高考公布考生成绩,快查分

史海流年号
2026-06-23 07:41:26
家中250万元黄金不翼而飞,男子崩溃报警!民警排查后,冒出一个大胆的想法……

家中250万元黄金不翼而飞,男子崩溃报警!民警排查后,冒出一个大胆的想法……

新浪财经
2026-06-22 14:53:16
71岁卢卡申科新伴仅22岁,常年被美女模特环绕,分居妻子杳无音信

71岁卢卡申科新伴仅22岁,常年被美女模特环绕,分居妻子杳无音信

译言
2026-06-21 07:11:28
迪拜到底富到了什么程度?我在那边打工了三年,说几句实话

迪拜到底富到了什么程度?我在那边打工了三年,说几句实话

千秋文化
2026-04-23 20:07:47
《人世间》:永远不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白费,每个人都有自己的三生因果,都要在自己的因果中轮回

《人世间》:永远不要操心你的孩子,也不要操心你的父母,你所有的操心基本上是白费,每个人都有自己的三生因果,都要在自己的因果中轮回

心理观察局
2026-06-22 06:55:14
印博主 10万印度人建设了深圳,印专家 印度人为啥不在印度建深圳

印博主 10万印度人建设了深圳,印专家 印度人为啥不在印度建深圳

王新喜
2026-06-24 00:11:24
普京拒绝与泽连斯基会谈:你还在打俄本土,没必要谈

普京拒绝与泽连斯基会谈:你还在打俄本土,没必要谈

桂系007
2026-06-23 23:20:04
2026-06-24 03:16:49
每日经济新闻 incentive-icons
每日经济新闻
中国主流财经全媒体平台。
1597510文章数 2726706关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

"纸尿裤风波"第一爆料人:如果我错了 坐牢都接受

头条要闻

"纸尿裤风波"第一爆料人:如果我错了 坐牢都接受

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

AI“算力稀缺”信仰开始动摇?

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

游戏
健康
亲子
房产
公开课

收藏党必冲!PS5蓝色限量手柄官宣 经典配色实在惊艳

同样是中风,急救方向竟完全相反?

亲子要闻

炮哥的媳妇怀二胎长胖了20斤,炮哥却担心没人带,听听他怎么说

房产要闻

洞察新局|预算不变 居住升级 2026广州置业成本观察

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版