给机器人一双能“摸”的手：触觉、规模化与具身智能的数据革命|轨迹|视觉|模态|大模型

分享至

来源：市场资讯

（来源：CAAI认知系统与信息处理专委会）

导语：当具身智能社区的注意力被VLA模型、人形机器人马拉松和百万真机数据集轮番轰炸时，一个更底层的问题正在悄然浮出水面：机器人能看见世界，但它摸不到。过去几年积累的大量人类操作视频记录了手在画面里抓、拧、推、捏的全过程，却从不知道手指哪个部位正在受力，力有多大，接触面积是什么形状。2026年春天，OPENTOUCH将全手触觉、第一视角视频与手部姿态三路信号在真实日常环境中同步采集，补上了这块最关键的感知盲区。与此同时，从智元的AGIBOT WORLD到戴盟的数百万小时触觉数据集，从RoboMIND 2.0的触觉增强到SABER的“无机器人”采集管线，一场围绕“机器人如何感知物理世界”的数据基础设施竞赛已经全面打响。本文以OPENTOUCH为切入点，系统梳理2025-2026年具身智能数据采集的最新进展，勾勒这场数据革命的全景图。

一、OPENTOUCH：补上第一视角数据最缺的那块拼图

1.1 视觉看见了手动，却看不见手在感受什么

想象一下闭着眼睛从口袋里掏钥匙。手指在摸索的过程中，靠的不是视觉，而是指尖和掌面传回的压力分布——哪里硌了一下，哪里滑了一点，哪里卡住了。这种信息在现有的第一视角数据集里完全缺失。

已有的触觉数据集要么局限在实验室里、对象数量极少，要么依赖热成像或固定压感垫，无法穿戴到手上在野外自然采集。而那些有运动学数据的方案，又往往没有触觉。真正能做到“可穿戴、全手覆盖、野外自然采集、还能和视频及手部姿态严格时间同步”的数据，在OPENTOUCH之前几乎是空白。

这也不是一个锦上添花的问题。对于抓握理解、接触建模、灵巧操作策略学习来说，触觉是核心输入而非辅助通道。没有它，模型只能猜手和物体之间发生了什么。

1.2 看不见的接触，触觉能告诉你什么

OPENTOUCH用几组例子直击要害：同样的手势，看上去几乎没变，但触觉图已经能分出这一刻到底只是搭在物体上，还是已经施加了足够的力把椅子推走。面对透明量杯、手部部分出画、或者中指轻点按钮这种细微动作时，视觉不是完全没信息，但最关键的接触证据并不在画面里。

这正是OPENTOUCH最核心的贡献——它补的不是“更多画面”，而是视觉最难补的一层物理状态：接触有没有发生？接触面在哪里？受力在怎么变化？

1.3 低成本的硬件哲学：一只手套、一副眼镜、一套同步方案

OPENTOUCH的硬件方案刻意追求低成本和可复现。触觉采集部分采用柔性印刷电路布线夹住商业压阻薄膜，形成16×16电极网格，最终在手指和掌面上布置了169个触觉像素点。这不是实验室里的定制MEMS阵列，而是一套开源、可自行组装的方案。

手部姿态由Rokoko Smartglove捕获，第一视角视频来自Project Aria眼镜，三路数据的时序同步通过终端上的视觉提示完成，平均同步延迟仅约2毫秒——对于30Hz采样率来说，这个延迟基本可以忽略。

1.4 采集策略与标注方案

数据采集的设计同样值得关注：参与者没有被要求执行预设动作，而是被放到14个日常环境里——厨房、办公室、车库、洗衣房等——自由操作现场已有物体。最终数据集包含5.1小时同步三模态数据、2,900个人工审核片段、超过8,000个物体和约800个物体类别。

标注层面采用了一个巧妙的设计：围绕压力峰值采样三个关键时刻——峰值前最低压力帧、峰值帧、峰值后最低压力帧——用这三张RGB-触觉对驱动GPT-5自动生成标签与描述，人工审核准确率约90%。

1.5 Benchmark：触觉不是万能模态，但在抓握理解上不可替代

OPENTOUCH的基准测试设计了跨模态检索和分类两大任务。对比学习方法在video→tactile检索上将线性基线（CCA的R@1仅0.50%）甩开一个数量级，达到7.15%。当视频和姿态同时作为查询去检索触觉时，mAP从双模态的15.47%跳到26.86%。

分类实验进一步揭示了触觉的能力边界：在抓握类型分类上，三模态融合达到68.09%准确率，纯视频仅57.45%；但在动作分类上，纯视频以40.26%超过三模态融合的35.02%-37.32%。触觉擅长局部接触理解，而非全局动作意图推断。把触觉当成万能模态是危险的，它的价值在于补足视觉的接触盲区。

二、行业全景：数据不再只是“附属品”，而是“基础设施”

OPENTOUCH只是2026年具身智能数据浪潮中的一个缩影。放眼全球，一场围绕数据规模、模态丰富度和采集效率的竞争已经全面展开。来自清华大学、南京航空航天大学等机构的综述分析指出，具身智能数据的获取成本远高于自然语言处理和计算机视觉领域，如何高效获取、处理并组织这些数据，已成为制约具身智能发展的关键问题。

行业正从多个维度破局。

2.1 中国力量崛起：从智元到国地中心

AGIBOT WORLD 2026是智元机器人继2024年发布百万真机数据集后的又一次升级，旨在为具身智能领域打造“ImageNet时刻”。该数据集摒弃了传统实验室环境，所有数据采集自100%真实世界，涵盖商业空间、酒店、商超、家居等多元场景，包含遮挡、杂乱摆放、光照变化等随机干扰，长程数据规模较Google的Open X-Embodiment高出10倍，场景覆盖面扩大100倍。

国家地方共建人形机器人创新中心联合纬钛机器人发布了“白虎-VTouch”数据集，规模超60,000分钟，涵盖轮臂机器人、双足人形机器人、手持智能终端等多种本体构型，首创跨本体视触觉多模态真实交互数据采集新范式，系统破解了高保真触觉信息不足和跨本体泛化能力弱的核心瓶颈。

戴盟机器人则联合Google DeepMind、中国移动、新加坡国立大学、香港科技大学、北京大学、清华大学等多家全球顶尖机构，发布Daimon-Infinity数据集，规划年内形成数百万小时级数据规模，融合触觉、视觉、动作轨迹、执行动作、语音文本等多维信息，其中10,000小时高质量数据已率先开源。验证数据显示，使用该数据集对具身模型进行预训练时，仅需约十分之一的数据量即可在精细操作任务中达到更优效果，训练效率提升10倍。

灵初智能也发布了全球最大人类手部数据集，全模态覆盖视觉、语言、关节角度、触觉四类信息，通过自研外骨骼手套采集，3D轨迹精度达亚毫米级，涵盖工业装配、生活操作、物体抓取等多场景任务。

2.2 全球前沿：规模与质量的双重突破

在国际学术界和产业界，数据集的迭代同样密集：

RoboMIND 2.0由华人团队主导，包含超过310K条双臂操作轨迹，跨6种不同机器人本体、739项复杂任务，并特别纳入12K触觉增强episodes和20K移动操作轨迹，还同步开源了20K条基于数字孪生技术的仿真数据。

World In Your Hands构建了超1,000小时的野外人类操作数据，以毫米级精度采集，集成了视觉、语言、触觉和动作四模态。实验显示，引入这些人类中心数据后，机器人在杂乱场景中的操作成功率从8%跃升至60%。

SABER则另辟蹊径，提出“无机器人”数据采集范式——通过在真实零售环境中部署头戴式第一视角相机和360°全景相机，积累超100小时自然店内捕获数据，包含44.8K训练样本。当这些人类行为数据用于微调GR00T N1.6时，在十项零售操作任务上的平均成功率达到29.3%，是仅用机器人数据微调基线（13.4%）的2.19倍。

2.3 数据金字塔与“无本体”路线

具身智能在数据层面形成了一套清晰的“金字塔”结构：底层是互联网数据，往上是人类行为数据，再往上是合成数据，顶层是真实世界数据。

更值得注意的是“无本体真人数据”路线的兴起。这一范式直接采集真实场景中人类操作者的动作、视觉、力控数据，不依赖特定机器人本体。其核心优势在于数据与机器人本体解耦，一次采集，多次复用。理论上能解决技能泛化问题，且大幅降低成本——传统真机遥操数据采集成本高达约180美元/小时，而无本体路线通过去硬件化实现了规模化潜力。

2.4 数据生态建设：从数据集到数据平台

2025-2026年，具身智能的数据建设正从“发布数据集”走向“构建数据生态”。腾讯发布Tairos具身智能开放平台，京东上线具身智能数据交易平台并计划发动60万人采集1000万小时数据，百度推出具身智能数据超市，试图解决数据质量参差不齐、格式标准不一、使用成本高等痛点。Open X-Embodiment项目则汇集了全球34个实验室的60余个数据集，将22种不同机器人平台的数据联合训练，得到RT-2-X模型，在新任务上的成功率比单平台基线高出3倍，证明了跨本体数据的多样性能够带来能力的涌现。

这些进展共同揭示了一个趋势：决定具身智能能否真正走出实验室的，已经不只是模型本身，而是高质量、规模化、可持续生产的物理世界数据。

三、从“视觉智能”到“物理智能”：下一次范式转换

3.1 触觉：具身智能最后一块感知拼图

回顾过去五年的具身智能研究，一条清晰的进化脉络浮现出来：从纯视觉的2D感知，到引入深度信息的三维空间理解，再到今天触觉数据的规模化采集。每一次模态的加入，都对应着机器人能力的质变。

OPENTOUCH在论文最后做了一个很有前瞻性的应用：把学到的跨模态检索能力用到Ego4D这类没有触觉的大型第一视角视频数据集上做零样本检索。给定一段Ego4D视频，模型会从OPENTOUCH的数据库中检索最相近的触觉序列——这相当于给海量纯视频数据接上了一层“伪触觉索引”。

这一步的意义远超技术演示：它证明了一条可扩展的路径——先用少量高质量触觉数据学习跨模态对齐，再把这种对齐能力迁移到更大的视频语料上。这对当前以互联网视频为主要数据来源的具身学习路线，是一个关键的补充。

3.2 当前行业的主要瓶颈

尽管进展显著，具身智能数据采集仍面临多重挑战。

一是真实数据的绝对规模仍然不够。当前具身智能领域的高质量真实数据规模仅在约50万小时左右，而一个技能点要达到交付级，模型需要2,000-5,000小时甚至过万训练数据——这意味着行业数据存量几乎只够支撑几十个技能点，距离大规模商用所需的数万技能点差距悬殊。

二是数据格式和标准尚未统一。 Open X-Embodiment虽然汇集了60余个数据集，但各子集在格式、质量和场景多样性上参差不齐。没有统一的数据“语言”，跨数据集的联合训练效率将大打折扣。

三是触觉数据的空间分辨率和动态范围仍然有限。以OPENTOUCH为例，全手仅169个触觉像素点，对于需要精细力控的任务——比如区分纸张厚度或感知织物纹理——当前的硬件可能还不够。

四是跨模态对齐仍处于早期阶段。 OPENTOUCH的跨模态检索R@1虽然显著优于基线，但绝对数字约7%的水平说明距离实用还有很长的路要走。

3.3 三条值得关注的技术路线

展望未来，三个方向最值得关注：

第一，数据规模从小时级到百万小时级的跃迁。戴盟Daimon-Infinity规划年内达到数百万小时，京东计划发动60万人采集1000万小时——当数据规模再提升一个数量级，跨模态对齐的上限是否会显著提高？这是行业最期待的回答。

第二，“无机器人”采集范式的成熟。 SABER已证明在零售场景中，完全不需要机器人参与的数据采集就能显著提升策略性能。当这一范式扩展到更多场景，具身智能的数据成本将迎来断崖式下降。

第三，触觉数据的直接策略迁移。 OPENTOUCH目前还停留在感知和检索层面，但问题已经摆在那里：这套触觉数据能否直接迁移到机器人灵巧手的策略学习中，让sim-to-real不再只靠视觉和力矩反馈？

四、结语：当机器人学会“摸”

给第一视角数据加上触觉，然后呢？

然后，机器人开始拥有一种它从未真正获得过的能力：不仅知道物体在哪里，还知道自己和物体之间正在发生什么。这是一种从“看见世界”到“接触世界”的范式转换。

OPENTOUCH没有解决这个问题，但它第一次证明了全手触觉可以在真实世界里规模化采集、自动标注，并用于跨模态学习。它的贡献不在于某个benchmark上的绝对分数，而在于证明了触觉作为独立模态在抓握理解上的不可替代性，以及三模态同步采集的工程可行性。

而放眼整个2026年的具身智能数据格局，从智元到戴盟，从RoboMIND 2.0到SABER，行业正在从多个方向同时发力：更大规模、更多模态、更低成本、更强泛化。具身智能的“数据战”远未结束，但它所争夺的，不是某个模型的性能百分点，而是一张通向真正物理智能的入场券。

触觉这条路，刚刚铺下第一块砖。但方向已经清晰：当机器人真正学会“摸”这个世界的时候，它才算真正“具身”了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.