来源:市场资讯
(来源:CAAI认知系统与信息处理专委会)
导语:当具身智能社区的注意力被VLA模型、人形机器人马拉松和百万真机数据集轮番轰炸时,一个更底层的问题正在悄然浮出水面:机器人能看见世界,但它摸不到。 过去几年积累的大量人类操作视频记录了手在画面里抓、拧、推、捏的全过程,却从不知道手指哪个部位正在受力,力有多大,接触面积是什么形状。2026年春天,OPENTOUCH将全手触觉、第一视角视频与手部姿态三路信号在真实日常环境中同步采集,补上了这块最关键的感知盲区。与此同时,从智元的AGIBOT WORLD到戴盟的数百万小时触觉数据集,从RoboMIND 2.0的触觉增强到SABER的“无机器人”采集管线,一场围绕“机器人如何感知物理世界”的数据基础设施竞赛已经全面打响。本文以OPENTOUCH为切入点,系统梳理2025-2026年具身智能数据采集的最新进展,勾勒这场数据革命的全景图。
一、OPENTOUCH:补上第一视角数据最缺的那块拼图
1.1 视觉看见了手动,却看不见手在感受什么
想象一下闭着眼睛从口袋里掏钥匙。手指在摸索的过程中,靠的不是视觉,而是指尖和掌面传回的压力分布——哪里硌了一下,哪里滑了一点,哪里卡住了。这种信息在现有的第一视角数据集里完全缺失。
已有的触觉数据集要么局限在实验室里、对象数量极少,要么依赖热成像或固定压感垫,无法穿戴到手上在野外自然采集。而那些有运动学数据的方案,又往往没有触觉。真正能做到“可穿戴、全手覆盖、野外自然采集、还能和视频及手部姿态严格时间同步”的数据,在OPENTOUCH之前几乎是空白。
这也不是一个锦上添花的问题。对于抓握理解、接触建模、灵巧操作策略学习来说,触觉是核心输入而非辅助通道。没有它,模型只能猜手和物体之间发生了什么。
1.2 看不见的接触,触觉能告诉你什么
OPENTOUCH用几组例子直击要害:同样的手势,看上去几乎没变,但触觉图已经能分出这一刻到底只是搭在物体上,还是已经施加了足够的力把椅子推走。面对透明量杯、手部部分出画、或者中指轻点按钮这种细微动作时,视觉不是完全没信息,但最关键的接触证据并不在画面里。
这正是OPENTOUCH最核心的贡献——它补的不是“更多画面”,而是视觉最难补的一层物理状态:接触有没有发生?接触面在哪里?受力在怎么变化?
1.3 低成本的硬件哲学:一只手套、一副眼镜、一套同步方案
OPENTOUCH的硬件方案刻意追求低成本和可复现。触觉采集部分采用柔性印刷电路布线夹住商业压阻薄膜,形成16×16电极网格,最终在手指和掌面上布置了169个触觉像素点。这不是实验室里的定制MEMS阵列,而是一套开源、可自行组装的方案。
手部姿态由Rokoko Smartglove捕获,第一视角视频来自Project Aria眼镜,三路数据的时序同步通过终端上的视觉提示完成,平均同步延迟仅约2毫秒——对于30Hz采样率来说,这个延迟基本可以忽略。
1.4 采集策略与标注方案
数据采集的设计同样值得关注:参与者没有被要求执行预设动作,而是被放到14个日常环境里——厨房、办公室、车库、洗衣房等——自由操作现场已有物体。 最终数据集包含5.1小时同步三模态数据、2,900个人工审核片段、超过8,000个物体和约800个物体类别。
标注层面采用了一个巧妙的设计:围绕压力峰值采样三个关键时刻——峰值前最低压力帧、峰值帧、峰值后最低压力帧——用这三张RGB-触觉对驱动GPT-5自动生成标签与描述,人工审核准确率约90%。
1.5 Benchmark:触觉不是万能模态,但在抓握理解上不可替代
OPENTOUCH的基准测试设计了跨模态检索和分类两大任务。对比学习方法在video→tactile检索上将线性基线(CCA的R@1仅0.50%)甩开一个数量级,达到7.15%。当视频和姿态同时作为查询去检索触觉时,mAP从双模态的15.47%跳到26.86%。
分类实验进一步揭示了触觉的能力边界:在抓握类型分类上,三模态融合达到68.09%准确率,纯视频仅57.45%;但在动作分类上,纯视频以40.26%超过三模态融合的35.02%-37.32%。触觉擅长局部接触理解,而非全局动作意图推断。 把触觉当成万能模态是危险的,它的价值在于补足视觉的接触盲区。
二、行业全景:数据不再只是“附属品”,而是“基础设施”
OPENTOUCH只是2026年具身智能数据浪潮中的一个缩影。放眼全球,一场围绕数据规模、模态丰富度和采集效率的竞争已经全面展开。来自清华大学、南京航空航天大学等机构的综述分析指出,具身智能数据的获取成本远高于自然语言处理和计算机视觉领域,如何高效获取、处理并组织这些数据,已成为制约具身智能发展的关键问题。
行业正从多个维度破局。
2.1 中国力量崛起:从智元到国地中心
AGIBOT WORLD 2026是智元机器人继2024年发布百万真机数据集后的又一次升级,旨在为具身智能领域打造“ImageNet时刻”。该数据集摒弃了传统实验室环境,所有数据采集自100%真实世界,涵盖商业空间、酒店、商超、家居等多元场景,包含遮挡、杂乱摆放、光照变化等随机干扰,长程数据规模较Google的Open X-Embodiment高出10倍,场景覆盖面扩大100倍。
国家地方共建人形机器人创新中心联合纬钛机器人发布了“白虎-VTouch”数据集,规模超60,000分钟,涵盖轮臂机器人、双足人形机器人、手持智能终端等多种本体构型,首创跨本体视触觉多模态真实交互数据采集新范式,系统破解了高保真触觉信息不足和跨本体泛化能力弱的核心瓶颈。
戴盟机器人则联合Google DeepMind、中国移动、新加坡国立大学、香港科技大学、北京大学、清华大学等多家全球顶尖机构,发布Daimon-Infinity数据集,规划年内形成数百万小时级数据规模,融合触觉、视觉、动作轨迹、执行动作、语音文本等多维信息,其中10,000小时高质量数据已率先开源。验证数据显示,使用该数据集对具身模型进行预训练时,仅需约十分之一的数据量即可在精细操作任务中达到更优效果,训练效率提升10倍。
灵初智能也发布了全球最大人类手部数据集,全模态覆盖视觉、语言、关节角度、触觉四类信息,通过自研外骨骼手套采集,3D轨迹精度达亚毫米级,涵盖工业装配、生活操作、物体抓取等多场景任务。
2.2 全球前沿:规模与质量的双重突破
在国际学术界和产业界,数据集的迭代同样密集:
RoboMIND 2.0由华人团队主导,包含超过310K条双臂操作轨迹,跨6种不同机器人本体、739项复杂任务,并特别纳入12K触觉增强episodes和20K移动操作轨迹,还同步开源了20K条基于数字孪生技术的仿真数据。
World In Your Hands构建了超1,000小时的野外人类操作数据,以毫米级精度采集,集成了视觉、语言、触觉和动作四模态。实验显示,引入这些人类中心数据后,机器人在杂乱场景中的操作成功率从8%跃升至60%。
SABER则另辟蹊径,提出“无机器人”数据采集范式——通过在真实零售环境中部署头戴式第一视角相机和360°全景相机,积累超100小时自然店内捕获数据,包含44.8K训练样本。当这些人类行为数据用于微调GR00T N1.6时,在十项零售操作任务上的平均成功率达到29.3%,是仅用机器人数据微调基线(13.4%)的2.19倍。
2.3 数据金字塔与“无本体”路线
具身智能在数据层面形成了一套清晰的“金字塔”结构:底层是互联网数据,往上是人类行为数据,再往上是合成数据,顶层是真实世界数据。
更值得注意的是“无本体真人数据”路线的兴起。这一范式直接采集真实场景中人类操作者的动作、视觉、力控数据,不依赖特定机器人本体。其核心优势在于数据与机器人本体解耦,一次采集,多次复用。理论上能解决技能泛化问题,且大幅降低成本——传统真机遥操数据采集成本高达约180美元/小时,而无本体路线通过去硬件化实现了规模化潜力。
2.4 数据生态建设:从数据集到数据平台
2025-2026年,具身智能的数据建设正从“发布数据集”走向“构建数据生态”。腾讯发布Tairos具身智能开放平台,京东上线具身智能数据交易平台并计划发动60万人采集1000万小时数据,百度推出具身智能数据超市,试图解决数据质量参差不齐、格式标准不一、使用成本高等痛点。Open X-Embodiment项目则汇集了全球34个实验室的60余个数据集,将22种不同机器人平台的数据联合训练,得到RT-2-X模型,在新任务上的成功率比单平台基线高出3倍,证明了跨本体数据的多样性能够带来能力的涌现。
这些进展共同揭示了一个趋势:决定具身智能能否真正走出实验室的,已经不只是模型本身,而是高质量、规模化、可持续生产的物理世界数据。
三、从“视觉智能”到“物理智能”:下一次范式转换
3.1 触觉:具身智能最后一块感知拼图
回顾过去五年的具身智能研究,一条清晰的进化脉络浮现出来:从纯视觉的2D感知,到引入深度信息的三维空间理解,再到今天触觉数据的规模化采集。每一次模态的加入,都对应着机器人能力的质变。
OPENTOUCH在论文最后做了一个很有前瞻性的应用:把学到的跨模态检索能力用到Ego4D这类没有触觉的大型第一视角视频数据集上做零样本检索。给定一段Ego4D视频,模型会从OPENTOUCH的数据库中检索最相近的触觉序列——这相当于给海量纯视频数据接上了一层“伪触觉索引”。
这一步的意义远超技术演示:它证明了一条可扩展的路径——先用少量高质量触觉数据学习跨模态对齐,再把这种对齐能力迁移到更大的视频语料上。 这对当前以互联网视频为主要数据来源的具身学习路线,是一个关键的补充。
3.2 当前行业的主要瓶颈
尽管进展显著,具身智能数据采集仍面临多重挑战。
一是真实数据的绝对规模仍然不够。 当前具身智能领域的高质量真实数据规模仅在约50万小时左右,而一个技能点要达到交付级,模型需要2,000-5,000小时甚至过万训练数据——这意味着行业数据存量几乎只够支撑几十个技能点,距离大规模商用所需的数万技能点差距悬殊。
二是数据格式和标准尚未统一。 Open X-Embodiment虽然汇集了60余个数据集,但各子集在格式、质量和场景多样性上参差不齐。没有统一的数据“语言”,跨数据集的联合训练效率将大打折扣。
三是触觉数据的空间分辨率和动态范围仍然有限。 以OPENTOUCH为例,全手仅169个触觉像素点,对于需要精细力控的任务——比如区分纸张厚度或感知织物纹理——当前的硬件可能还不够。
四是跨模态对齐仍处于早期阶段。 OPENTOUCH的跨模态检索R@1虽然显著优于基线,但绝对数字约7%的水平说明距离实用还有很长的路要走。
3.3 三条值得关注的技术路线
展望未来,三个方向最值得关注:
第一,数据规模从小时级到百万小时级的跃迁。 戴盟Daimon-Infinity规划年内达到数百万小时,京东计划发动60万人采集1000万小时——当数据规模再提升一个数量级,跨模态对齐的上限是否会显著提高?这是行业最期待的回答。
第二,“无机器人”采集范式的成熟。 SABER已证明在零售场景中,完全不需要机器人参与的数据采集就能显著提升策略性能。当这一范式扩展到更多场景,具身智能的数据成本将迎来断崖式下降。
第三,触觉数据的直接策略迁移。 OPENTOUCH目前还停留在感知和检索层面,但问题已经摆在那里:这套触觉数据能否直接迁移到机器人灵巧手的策略学习中,让sim-to-real不再只靠视觉和力矩反馈?
四、结语:当机器人学会“摸”
给第一视角数据加上触觉,然后呢?
然后,机器人开始拥有一种它从未真正获得过的能力:不仅知道物体在哪里,还知道自己和物体之间正在发生什么。 这是一种从“看见世界”到“接触世界”的范式转换。
OPENTOUCH没有解决这个问题,但它第一次证明了全手触觉可以在真实世界里规模化采集、自动标注,并用于跨模态学习。它的贡献不在于某个benchmark上的绝对分数,而在于证明了触觉作为独立模态在抓握理解上的不可替代性,以及三模态同步采集的工程可行性。
而放眼整个2026年的具身智能数据格局,从智元到戴盟,从RoboMIND 2.0到SABER,行业正在从多个方向同时发力:更大规模、更多模态、更低成本、更强泛化。具身智能的“数据战”远未结束,但它所争夺的,不是某个模型的性能百分点,而是一张通向真正物理智能的入场券。
触觉这条路,刚刚铺下第一块砖。但方向已经清晰:当机器人真正学会“摸”这个世界的时候,它才算真正“具身”了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.