网易首页 > 网易号 > 正文 申请入驻

赛迪前瞻:我国具身智能数据集工程化落地亟待破解四大瓶颈

0
分享至


具身智能包括本体、数据集、模型、场景四大组成要素,其中,数据集关系到具身智能的智能涌现和能力泛化。当前,在数据集领域,国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力,形成了“真机遥操+灵巧手采集+仿真数据”三层数据供给体系,支撑视觉-语言-动作(VLA)模型与世界模型并进式发展。但具身智能数据集供给仍呈现点状分散格局,受限于标注工具不足、采集成本高昂、多模态技术滞后与标准体系缺失等瓶颈,掣肘了具身智能从技术验证向规模化商业应用的进程。亟需培育高质量具身智能数据训练场,打造数据集标注平台,建设数据集开源社区,研制数据集标准规范,开展规模化场景应用示范,探索具身智能数据集产业高质量发展的“中国路径”。

一、我国具身智能数据集的建设现状

从建设主体看,国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力,具身智能数据集开发生态纵深性发展。一是国家级训练场构建“2+N”数据生产体系。国家层面,已在北京和上海建成2个国家级具身智能训练场。其中,北京国家地方共建具身智能机器人创新中心已建成近万平米的中试验证工厂,年产能达数千台套,配备近百套关键测试仪器,支持整机、一体化关节、机械臂等全链条测试验证。上海国家地方共建人形机器人创新中心训练场已部署102台异构人形机器人,具备每日生成5万条数据的能力。地方层面,河南、江苏、北京、深圳等省市正积极推进人形机器人创新中心分训练场建设。其中河南分训练场聚焦12大传统产业,部署近百台机器人,覆盖20多个真实场景。二是行业级开源社区推动关键资源共建共享。地方、企业及科研机构主动开放资源,以共建方式降低行业创新门槛。如傅利叶智能开源了包含3万条真机数据的ActionNet数据集及配套工具链,地瓜机器人等也积极打造开发者社区。北京国家地方共建具身智能机器人创新中心上线了开源社区,提供具身天工机器人本体、慧思开物SDK、RoboMIND数据集及训练工具链等资源。三是机器人本体企业和技术服务平台企业推动企业级数据研发和服务。机器人本体企业基于自有硬件进行真机数据的采集积累,如智元机器人AgiBot World真机数据集、宇树科技G1机器人操作数据集、帕西OmniSharing DB全模态具身智能数据集。技术服务平台企业则提供数据采集平台、仿真工具、数据标注服务等数据服务,助力企业数据集开发。如群核科技提供虚拟数字道场平台SpatialVerse,通过生成可交互的三维合成数据,支持机器人进行避障、抓取及紧急制动等任务的仿真训练;智源研究院则打造高保真仿真框架AgiBot Digital World,为机器人设计提供仿真数据生成解决方案。

从技术路径看,形成了数据供给“真机遥操+灵巧手采集+仿真数据”三层体系,规模化采集能力初步建成。一是真机遥操。智元机器人、傅利叶智能等企业,通过覆盖单臂、多臂、人形、四足等多形态机器人,可在家居、餐饮、工业、办公等200多个真实场景中执行复杂操作,积累大量真实交互数据。二是灵巧手采集,通过触觉传感器精准记录人手精细动作,为精密装配、柔性物体操控等任务提供关键数据。灵巧智能DexCanvas数据集,汇聚了22类人手操作模式、超1000小时真人多模态演示数据,驱动五指灵巧操作模型。三是仿真数据。银河通用、光轮智能、深信科创、云道智造等企业,借助物理引擎和图形学构建虚拟环境,可低成本生成大规模数据。

从建设成效看,具身智能数据集支撑VLA与世界模型发展,涌现一批典型模型。一是在VLA模型方向,大规模、多模态数据集为其提供了训练基础,使机器人能够融合视觉感知、语言理解与动作控制,高效执行复杂任务。比如银河通用机器人依托具身大模型GraspVLA,通过十亿帧数据训练,掌握机器人泛化闭环抓取能力。星动纪元发布VLA模型ERA-42驱动的双足机器人,学习人类操作视频和真机数据,可实现4m/s疾速奔跑、360°旋转跳及工业级精细作业。二是在世界模型方向,机器人通过海量视频数据,学习环境中物体与事件的演变规律,提升其对未来状态的预测与因果推理能力。如智元机器人的Genie Envisioner世界模型平台,基于3000小时的真机操控视频数据,赋能机器人实现“制作三明治”“倒茶”“擦拭桌面”等任务。宇树科技基于5个涵 盖 机 械 臂 和 人 形 机 器 人 的 任 务 数 据 集 , 搭 建UnifoLM-WMA-0世界模型架构。三是技术架构正从分层架构向端到端演进,VLA与世界模型或将融合。当前具身智能仍以分层架构为主,随着仿真与真实数据的进一步融合,“世界模型为大脑、VLA为手眼”的融合架构将成为新趋势。

二、具身智能数据集工程化落地存在四大瓶颈

当前,我国具身智能数据集建设已形成多主体协同、多层次供给的格局,但仍呈点状分散状态。要实现具身智能领域的技术迭代与规模化商业落地,必须加快推进数据集工程化落地——即构建覆盖数据采集、标注、应用、评估全流程的标准化和产品化,实现数据集的高效生产与可靠复用,为具身智能模型训练与场景适配提供系统化支撑。目前,该进程仍面临四大瓶颈制约。

(一)数据标注工具制约高质量数据集构建

一是具身智能标注工具仍显匮乏。VLA模型要求对视觉场景、语言指令及动作轨迹进行时空关联标注,世界模型更需要标注视频序列中的物理属性、物体状态变化及潜在的因果联系。然而,现有工具多侧重于静态图像或简单视频标注,难以高效支持VLA模型和世界模型对长序列、3D空间和物理动态标注的需求,数据标注精度不足。二是缺乏数据标注全生命周期平台。标注规范、工具接口和数据格式各异,使得不同企业的标注数据复用性与集成性较差,制约了数据生态的协同效率。

(二)数据采集成本限制数据集规模化扩张

一是软硬件投入高。与传统AI数据集采集相比,构建覆盖多任务、多环境的具身智能真实数据集需投入大量机器人、传感器及专业标注工具,成本高昂,单台设备产生一万小时训练数据需要消耗上百万元。二是人员成本高。一个数采员一天只能采集300-500条数据,如果是复杂任务,数据采集产出会更低。

(三)多模态融合技术影响数据集有效性

一是仿真数据的迁移可靠性不足。由于物理引擎难以完全模拟复杂的真实力学特性,如接触、摩擦、材料变形,导致依托仿真数据训练的策略模型迁移到真实环境时出现显著性能衰减。例如依托仿真数据LIBERO-LONG训练的世界模型在办公桌面的现实环境中失效。二是多模态数据精准融合困难。视觉和触觉数据的精度需求存在跨量级鸿沟,精准对齐和标注仍是行业难题,制约人形机器人作业的精确性和适应性。尽管戴盟、帕西尼、叠动等企业在传感器与算法层面已取得突破,但高精度的视触觉融合技术仍有待攻克。

(四)数据标准缺失阻碍数据集共享与复用

一是开源数据标准化程度不高。不同机构的开源数据集在数据格式、标注体系、传感器参数与任务定义等方面存在显著差异,缺乏统一的本体描述与接口规范,导致数据难以跨项目集成与复用。此外,数据采集设备、环境配置与操作协议不统一,也使得多源数据难以有效对齐与合并。二是具身智能数据标准体系有待完善。目前国家和地方层面发布或正在起草的标准多集中于数据生产环节,对数据质量评估、数据集泛化性能评测等,仍需更完善的标准制定和平台支持。

三、对策建议

(一)加强载体建设,培育高质量数据训练场

一是支持国家级具身智能数据训练场聚焦行业发展的前瞻性、基础性问题,攻克共性技术难题、制定数据标准、建设普惠性基础设施。二是鼓励有条件的地方立足自身产业优势,通过设立专项、配套政策与资金,建设一批聚焦工业装配、家庭服务等细分领域的具身智能数据训练场,构建特色化、差异化的具身智能数据体系。

(二)突破关键技术,打造数据集标注平台

一是强化软硬件协同,系统发展具身智能多模态传感器、仿真建模、数字孪生等关键技术,深度适配VLA模型和世界模型发展。二是突破数据处理的核心算法,加强多模态数据融合、仿真-真实数据迁移、数据合成与增强等核心技术攻关,为高效、高精度数据标注提供核心驱动力。三是鼓励标注企业与机器人企业共建具身智能多模态数据集标注平台,加强核心算法研发,推动标注工具智能化,形成可复用、可推广的行业级解决方案。

(三)注重开源开放,建设数据集开源社区

一是建设具身智能开源社区,推动基础模型、训练数据、工具链、操作系统、仿真环境等技术开源,推动构建万亿级多模态开源数据库。二是支持高校、龙头企业与开源社区共建课程与实践平台,通过举办具身智能算法竞赛、设立开源贡献奖励等方式,培育一批既懂技术又具开源精神的复合型人才,激发产业创新活力。

(四)加快标准制定,研制数据集标准规范

一是加强标准统筹。坚持“统筹部署、软硬协同、急用先上、开源先行”的原则,加快推进具身智能分行业、分场景数据集标准体系制定,积极推动开源数据集标准化。二是突出核心任务。面向物体抓取、自主导航、复杂指令遵循等核心任务,支持行业建设具身智能数据集测试标准体系。三是开展评测认证。鼓励第三方机构建立数据集质量评测与认证体系,推动标准在典型场景中先行试用与迭代优化,为数据流通与应用建立基础信任。

(五)深化行业应用,开展规模化场景应用示范

一是聚焦工业制造、商业零售、医疗康养、家政服务等重点领域,开展场景征集与任务揭榜,探索具身智能应用新业态。二是组织开展具身智能数据集典型案例遴选,支持行业企业打造可推广可复制的示范应用标杆,推动具身智能规模化商用落地。

来源 | 赛迪智库

编辑 | 办公室


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场机车冠军,正在悄悄冲击印度的经济底层逻辑

一场机车冠军,正在悄悄冲击印度的经济底层逻辑

趣文说娱
2026-04-03 23:22:48
连赢英法 中国U16女足杀入决赛:遭争议红牌+逼平墨西哥 将战日本

连赢英法 中国U16女足杀入决赛:遭争议红牌+逼平墨西哥 将战日本

风过乡
2026-04-04 06:13:50
28万彩礼到手!女子哭诉闺蜜嫁给自己的相亲对象,开始羡慕嫉妒恨

28万彩礼到手!女子哭诉闺蜜嫁给自己的相亲对象,开始羡慕嫉妒恨

火山詩话
2026-04-03 05:47:58
买莴笋,挑"大根"还是"小根"?老菜农说透区别,选错等于白花钱

买莴笋,挑"大根"还是"小根"?老菜农说透区别,选错等于白花钱

开心美食白科
2026-04-03 16:10:38
“4月1日新规,全国严查后排安全带?”“休息几小时就不算酒驾?”假的!

“4月1日新规,全国严查后排安全带?”“休息几小时就不算酒驾?”假的!

新浪财经
2026-04-04 18:26:54
战功赫赫的红军军团长,整编时竟无人愿收,主席震怒直言纯属瞎胡闹

战功赫赫的红军军团长,整编时竟无人愿收,主席震怒直言纯属瞎胡闹

磊子讲史
2026-03-30 15:41:41
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
印度一名政府女雇员在家中遭性侵,嫌犯以讨要饮用水为由进入住所,实施性侵后将其双手捆绑,并进行殴打和折磨,警方正全力抓捕嫌犯

印度一名政府女雇员在家中遭性侵,嫌犯以讨要饮用水为由进入住所,实施性侵后将其双手捆绑,并进行殴打和折磨,警方正全力抓捕嫌犯

潇湘晨报
2026-04-04 14:50:12
日本摩圈集体破防!张雪夺冠后日媒评价撕开“中国制造”百年偏见

日本摩圈集体破防!张雪夺冠后日媒评价撕开“中国制造”百年偏见

行者聊官
2026-04-04 16:05:43
曾经的“发审委一姐”郭旭东,主动投案半年后被审查起诉

曾经的“发审委一姐”郭旭东,主动投案半年后被审查起诉

元芳有看法
2026-04-02 09:40:18
CCTV5直播马洛卡vs皇马:皇马分心欧冠战拜仁 门将+队长缺席

CCTV5直播马洛卡vs皇马:皇马分心欧冠战拜仁 门将+队长缺席

智道足球
2026-04-04 13:31:07
48小时紧急封禁,6.4万元特斯拉FSD遭极客破解

48小时紧急封禁,6.4万元特斯拉FSD遭极客破解

新浪财经
2026-04-03 19:50:52
美军伊战以来最落魄的24小时:“攻击鹰”和“疣猪”坠毁,“黑鹰”受伤

美军伊战以来最落魄的24小时:“攻击鹰”和“疣猪”坠毁,“黑鹰”受伤

红星新闻
2026-04-04 13:19:21
覆水难收,“两人的关系回不去了”

覆水难收,“两人的关系回不去了”

观察者网
2026-04-04 17:14:08
伊能静大方晒自己的打针照片,坦言每年医美费超出七位数。

伊能静大方晒自己的打针照片,坦言每年医美费超出七位数。

老吴教育课堂
2026-04-04 14:39:50
张姩菡感谢网友抓拍全家福,网友纷纷晒偶遇照,一家3口同框感人

张姩菡感谢网友抓拍全家福,网友纷纷晒偶遇照,一家3口同框感人

古希腊掌管松饼的神
2026-04-03 10:05:05
张凌赫被高层开研讨会处理!?

张凌赫被高层开研讨会处理!?

八卦疯叔
2026-04-04 10:32:03
家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

家里有废旧手机的要留意,手机店员工说漏嘴,记得提醒家人朋友

小谈食刻美食
2026-04-02 08:57:37
后悔也晚了,中国反制加码,直接瞄准巴拿马经济支柱产业

后悔也晚了,中国反制加码,直接瞄准巴拿马经济支柱产业

毛豆新鲜
2026-04-04 15:03:34
天龙三号运载火箭发射失利

天龙三号运载火箭发射失利

财联社
2026-04-03 13:05:08
2026-04-04 18:59:00
中国电子信息产业发展研究院 incentive-icons
中国电子信息产业发展研究院
工信部直属的科研事业单位
2959文章数 912关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

不邀请中国参加G7峰会 马克龙又改主意了

头条要闻

不邀请中国参加G7峰会 马克龙又改主意了

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

阚清子口碑赢了!全开麦跑调拒绝重唱

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

家居
健康
亲子
教育
军事航空

家居要闻

温馨多元 爱的具象化

干细胞抗衰4大误区,90%的人都中招

亲子要闻

这条线干嘛用的

教育要闻

同一个法学专业,有人年薪百万,有人毕业即失业:差在哪?

军事要闻

美军又一架战机坠毁 此前F-15E被击落

无障碍浏览 进入关怀版