网易首页 > 网易号 > 正文 申请入驻

智源研究院揭秘具身智能数据治理新路径

0
分享至



未来将出现专业的具身数据服务机构,提供“场景定制采集+数据治理+模型训练支持”的一体化服务。

文|钱丽娜

ID | BMR2004

“在人工智能技术飞速发展的今天,数据作为核心生产要素,其治理水平直接决定着大模型的性能与产业落地的深度。”北京智源人工智能研究院副院长兼总工程师林咏华在2025世界人工智能大会暨人工智能全球治理高级别会议(简称WAIC 2025)期间,接受《商学院》杂志专访时表示。

作为国内人工智能领域的领军机构,智源研究院在数据治理领域深耕多年,构建了一套涵盖审查标准、管理规范、创新应用的完整体系。从开源数据的质量管控到具身智能的特殊数据治理,从多元数据使用模式到未来商业模式探索,智源的实践为行业提供了宝贵的参考样本,也深刻揭示了数据治理在智能时代的核心价值。

01

数据审查:以技术筑起质量与安全防线

开源数据因质量参差不齐、采集基准缺失等问题广受诟病,建立科学的数据审查标准成为行业亟待解决的难题。

智源研究院从隐私保护、质量过滤、安全管控三个维度,构建了全流程的数据审查体系,为高质量数据应用奠定了基础。

在隐私保护方面,智源对所有采集的数据实行“双重筛查”机制。对于合作方提供的数据集,首先区分其使用权限——哪些可用于模型训练但不可开源,哪些可部分开源,哪些完全禁止对外披露。例如,某企业提供的用户行为数据,经过脱敏处理后可用于模型训练,但原始数据因涉及个人隐私被严格限制在内部使用。这种分类处理既保障了数据的利用价值,又守住了隐私保护的红线。

数据质量过滤则依托技术手段实现标准化。2023年初,智源研究院承担国家级高质量语料库建设与开源任务时,便意识到人工审核存在标准不统一、效率低下的问题。为此,研究院训练出质量过滤模型,构建起完善的算法库,通过机器审核实现数据质量的统一把控。当遇到新的数据质量问题时,算法库会迅速迭代更新,将新规则纳入模型训练中。例如,在处理文本数据时,模型能自动识别并过滤掉重复内容、低信息密度文本以及涉黄、涉毒等违规信息,确保入库数据的纯净度。

安全管控贯穿数据审查的全流程。除了常见的内容安全筛查,智源还针对不同数据类型制定了专项审查标准。对于多模态数据中的图像、视频,增加了对敏感场景、标识信息的识别;对于工业场景采集的数据,重点排查是否涉及企业商业机密。这种全方位的审查机制,为数据的安全合规使用提供了坚实保障。

林咏华同时也表示:“实际上我们在使用数据时,很多时候我们发现汇聚数据容易,但使用数据却变成整个产业的问题。”

02

管理规范:创新数据使用模式破解产业难题

智源研究院在2024年联合产业机构推出三种数据使用模式,通过开源共享、共建共享、数算一体的多元模式,破解数据流通与保护的难题。具体来看:

开源数据模式聚焦科研与产业普惠。智源将可开放的数据打包发布,支持学术界和产业界免费下载使用。

共建共享模式以积分制激发数据流通活力。针对不愿开源但愿意在可信机构间交换数据的企业,智源设计了一套基于数据质量和数量的积分体系——企业贡献的数据经质量评估后转化为积分,积分可用于兑换其他企业的共享数据。这种模式既保护了数据所有权,又打破了“数据壁垒”。

数算一体模式则为版权要求高的数据提供安全使用方案,数据和算力放在一起。对于来自影视作品的高质量的视频和音频数据,智源构建了“数据与算力绑定”的安全域,特定团队可在安全域内使用数据训练模型,但数据本身不可带出,训练成果(模型)则可自主带走。这种模式在保护版权的同时,也实现了数据的高效利用。

三种模式的协同推进,形成了“分层分类、安全可控”的数据管理生态。这种生态既满足了不同类型数据的使用需求,又通过规范的流程设计,降低了数据泄露、滥用的风险,为数据要素的市场化配置提供了重要支撑。

03

具身智能:数据治理的新挑战与新突破

随着具身智能的兴起,数据治理进入更为复杂的新阶段。与传统大模型相比,具身智能的数据具有多模态、高维度、场景敏感等特点,智源研究院在继承传统治理经验的基础上,创新出一套适配具身智能的数据治理方法,为该领域的技术突破扫清了障碍。

林咏华指出,具身智能的数据多样性远超普通多模态模型。以机械臂数据为例,除了摄像头采集的视频信息,还涉及机械臂的运动轨迹、多自由度(XYZ轴)数据、加速度数据等传感器信息。除了上述的单机数据采集,工程师还要跨机器人本体采集数据,增加了设备数据的采集,同时为了在真实场景中采集数据,公司还在实验室里搭建仿真场景。可以说,具身智能的数据维度增加,格式各异,传统的分类方法难以应对。

场景敏感性是具身智能数据治理的另一大挑战。在工业场景采集数据时,部分企业因担心流水线作业流程泄露,对数据采集持保守态度。智源通过“物理场景分级”策略解决这一问题。

智源为此建立了“行业+场景+操作复杂度” 的三维分类体系:按行业划分为工业、家庭服务、医疗等领域;按场景细分为厨房操作、流水线作业等具体场景;按操作复杂度分为原子操作(如几秒之内的一个抓取动作)、长程操作(如叠衣服,涉及多个步骤)、复杂组合操作(如整理房间的指令中涉及到叠衣服、整理被子、扫地等不同的操作)。

数据采集效率是制约具身智能发展的关键瓶颈。具身数据的采集依赖硬件设备,不同构型的机械臂(单臂、双臂、轮式等)、不同类型的末端执行器(夹爪、灵巧手等),都需要针对性的采集方案。此外,遥操过程中的视角差异、设备校准误差,进一步降低了采集效率。目前有一些解决方案,包括开发VR映射校准系统等。

具身智能的数据治理创新,不仅解决了该领域的技术痛点,更拓展了数据治理的边界。这种创新证明,数据治理必须与具体技术场景深度融合,才能真正发挥支撑作用。

04

仿真数据:平衡真实与效率的治理探索

仿真合成数据的价值与局限,是行业争论的焦点。智源研究院在实践中形成了以“真机数据为核心、仿真数据为补充”的治理思路,通过二者的有机融合,既保证了数据的真实性,又提升了数据的覆盖范围,为模型训练提供了更丰富的“养料”。

“真机采集很难构造所有的场景,所以这就是为什么大家觉得仿真数据很重要。但是仿真数据也有仿真不了的场景,例如真实物体的重量、摩擦力、质感等物理特性。”林咏华说。

仿真数据的价值在于“场景泛化”。通过数据增强技术,智源将单一真机数据扩展出多种场景变体:改变光线强度、替换背景颜色、调整物体摆放角度等。这种处理使得一条原始数据可生成多条有效训练数据,大幅提升了数据的利用效率。

真机数据与仿真数据的融合是治理的关键。智源探索出“物理属性保真+场景灵活替换”的融合策略:保留真机数据中的物理参数(如力量、速度),通过仿真技术替换场景背景、物体外观等非关键信息。这种方法既保证了数据的物理真实性,又拓展了场景覆盖范围。

数据治理的终极目标是释放数据价值。智源研究院在夯实治理基础的同时,积极探索具身数据服务的商业模式,推动公共平台建设,为数据要素的规模化应用描绘了清晰的路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《沉默的荣耀》:吴石被害的幕后真相,都藏在《蒋介石日记》里

《沉默的荣耀》:吴石被害的幕后真相,都藏在《蒋介石日记》里

白羽居士
2025-11-06 19:38:08
赖清德下令台军备战,蒋万安亮明态度反对统一!台海局势一触即发

赖清德下令台军备战,蒋万安亮明态度反对统一!台海局势一触即发

刚哥说法365
2025-11-04 10:32:20
一种能延缓衰老的锻炼,建议提前练起来!

一种能延缓衰老的锻炼,建议提前练起来!

蝌蚪五线谱
2025-10-30 20:39:51
梅西隔空回击C罗:世界杯是终极成就!夺冠的感觉无法描述

梅西隔空回击C罗:世界杯是终极成就!夺冠的感觉无法描述

叶青足球世界
2025-11-06 09:44:22
全运会:四川33分大胜香港豪取3连胜 周琦25+12胡金秋33+6

全运会:四川33分大胜香港豪取3连胜 周琦25+12胡金秋33+6

醉卧浮生
2025-11-06 15:27:51
心疼!广东3岁娃坐在摩托车后座,转弯时摔下!额头“深度撕裂”!

心疼!广东3岁娃坐在摩托车后座,转弯时摔下!额头“深度撕裂”!

广东活动
2025-11-06 12:19:31
愤怒的川普

愤怒的川普

西楼饮月
2025-11-05 19:14:33
3:0!中国女排晋级四强,大胜对手47分,双喜临门,接应新星5发

3:0!中国女排晋级四强,大胜对手47分,双喜临门,接应新星5发

跑者排球视角
2025-11-05 23:54:00
俄上门请求深度兼容北斗,拿到中方回复后,俄已做好最后的打算

俄上门请求深度兼容北斗,拿到中方回复后,俄已做好最后的打算

诺诺谈史
2025-11-06 16:04:43
小S女儿曝心疼具俊晔后玥儿“出手了”!一细节暴露与张兰的关系

小S女儿曝心疼具俊晔后玥儿“出手了”!一细节暴露与张兰的关系

乐悠悠娱乐
2025-11-06 13:19:00
上海一医生因服务病人太多,被刑拘!

上海一医生因服务病人太多,被刑拘!

医脉圈
2025-11-05 12:12:00
运气不好!王钰栋被淘汰,浙江抽签输给新疆,8强山东vs福建

运气不好!王钰栋被淘汰,浙江抽签输给新疆,8强山东vs福建

小金体坛大视野
2025-11-06 19:49:04
曼联新星迎机遇!6500万先生缺席,18岁天才接班。

曼联新星迎机遇!6500万先生缺席,18岁天才接班。

奶盖熊本熊
2025-11-06 13:25:39
郑丽文第五波人事安排出炉!赵少康面临羁押,连忙求饶!

郑丽文第五波人事安排出炉!赵少康面临羁押,连忙求饶!

南宫一二
2025-11-06 15:38:49
美高层曾提议,中国可以用1万多亿美债,从美国手中“赎回”台湾

美高层曾提议,中国可以用1万多亿美债,从美国手中“赎回”台湾

扶苏聊历史
2025-11-06 16:26:57
封杀4年后,49岁赵薇又有消息,因胃癌去世传闻 5个月前就真相大白

封杀4年后,49岁赵薇又有消息,因胃癌去世传闻 5个月前就真相大白

TVB的四小花
2025-11-06 10:55:25
解放军干部回忆:在越南严防异性关系!但还是有越南姑娘爱上战士

解放军干部回忆:在越南严防异性关系!但还是有越南姑娘爱上战士

顾史
2025-11-06 20:16:22
定档开播!今晚到8号将播5部王炸大剧,众星云集,你想追哪部?

定档开播!今晚到8号将播5部王炸大剧,众星云集,你想追哪部?

失宠的小野猪
2025-11-06 14:01:25
股票起飞前,"换手率"都会出现这样的特征,不懂的散户请不要炒股

股票起飞前,"换手率"都会出现这样的特征,不懂的散户请不要炒股

股经纵横谈
2025-11-05 17:30:10
退休多年后才发现:晚年幸不幸福,要看子女有无稳定的工作和婚姻

退休多年后才发现:晚年幸不幸福,要看子女有无稳定的工作和婚姻

小马达情感故事
2025-11-05 18:00:03
2025-11-06 20:59:00
商学院杂志 incentive-icons
商学院杂志
本号由《中国经营报》社有限公司主办,为商业领袖提供管理实践与方法
6964文章数 22717关注度
往期回顾 全部

科技要闻

小鹏机器人里藏真人?何小鹏发一镜到底视频

头条要闻

重庆一套百平米"凶宅"191万上架法拍 欠缴物业费超3万

头条要闻

重庆一套百平米"凶宅"191万上架法拍 欠缴物业费超3万

体育要闻

送走两位全明星,公牛成了东部第一

娱乐要闻

“黑料缠身”的白百何 谁给她的勇气?

财经要闻

南银法巴加速发展背后:资金饥渴症待解

汽车要闻

是我眼花了么?怎么大猩猩都来参加新车发布了?

态度原创

旅游
亲子
教育
本地
公开课

旅游要闻

需求泛化酒店如何适“数”?首届旅游住宿业创新发展大会启幕

亲子要闻

孩子发烧真的会烧坏脑子吗?

教育要闻

小学生书包里翻出“解剖图”,主角是美术老师,真相令人脊背发凉

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版