网易首页 > 网易号 > 正文 申请入驻

给机器人一双能“摸”的手:触觉、规模化与具身智能的数据革命

0
分享至

来源:市场资讯

(来源:CAAI认知系统与信息处理专委会)

导语:当具身智能社区的注意力被VLA模型、人形机器人马拉松和百万真机数据集轮番轰炸时,一个更底层的问题正在悄然浮出水面:机器人能看见世界,但它摸不到。 过去几年积累的大量人类操作视频记录了手在画面里抓、拧、推、捏的全过程,却从不知道手指哪个部位正在受力,力有多大,接触面积是什么形状。2026年春天,OPENTOUCH将全手触觉、第一视角视频与手部姿态三路信号在真实日常环境中同步采集,补上了这块最关键的感知盲区。与此同时,从智元的AGIBOT WORLD到戴盟的数百万小时触觉数据集,从RoboMIND 2.0的触觉增强到SABER的“无机器人”采集管线,一场围绕“机器人如何感知物理世界”的数据基础设施竞赛已经全面打响。本文以OPENTOUCH为切入点,系统梳理2025-2026年具身智能数据采集的最新进展,勾勒这场数据革命的全景图。

一、OPENTOUCH:补上第一视角数据最缺的那块拼图

1.1 视觉看见了手动,却看不见手在感受什么

想象一下闭着眼睛从口袋里掏钥匙。手指在摸索的过程中,靠的不是视觉,而是指尖和掌面传回的压力分布——哪里硌了一下,哪里滑了一点,哪里卡住了。这种信息在现有的第一视角数据集里完全缺失。

已有的触觉数据集要么局限在实验室里、对象数量极少,要么依赖热成像或固定压感垫,无法穿戴到手上在野外自然采集。而那些有运动学数据的方案,又往往没有触觉。真正能做到“可穿戴、全手覆盖、野外自然采集、还能和视频及手部姿态严格时间同步”的数据,在OPENTOUCH之前几乎是空白。

这也不是一个锦上添花的问题。对于抓握理解、接触建模、灵巧操作策略学习来说,触觉是核心输入而非辅助通道。没有它,模型只能猜手和物体之间发生了什么。

1.2 看不见的接触,触觉能告诉你什么

OPENTOUCH用几组例子直击要害:同样的手势,看上去几乎没变,但触觉图已经能分出这一刻到底只是搭在物体上,还是已经施加了足够的力把椅子推走。面对透明量杯、手部部分出画、或者中指轻点按钮这种细微动作时,视觉不是完全没信息,但最关键的接触证据并不在画面里。

这正是OPENTOUCH最核心的贡献——它补的不是“更多画面”,而是视觉最难补的一层物理状态:接触有没有发生?接触面在哪里?受力在怎么变化?

1.3 低成本的硬件哲学:一只手套、一副眼镜、一套同步方案

OPENTOUCH的硬件方案刻意追求低成本和可复现。触觉采集部分采用柔性印刷电路布线夹住商业压阻薄膜,形成16×16电极网格,最终在手指和掌面上布置了169个触觉像素点。这不是实验室里的定制MEMS阵列,而是一套开源、可自行组装的方案。

手部姿态由Rokoko Smartglove捕获,第一视角视频来自Project Aria眼镜,三路数据的时序同步通过终端上的视觉提示完成,平均同步延迟仅约2毫秒——对于30Hz采样率来说,这个延迟基本可以忽略。

1.4 采集策略与标注方案

数据采集的设计同样值得关注:参与者没有被要求执行预设动作,而是被放到14个日常环境里——厨房、办公室、车库、洗衣房等——自由操作现场已有物体。 最终数据集包含5.1小时同步三模态数据、2,900个人工审核片段、超过8,000个物体和约800个物体类别。

标注层面采用了一个巧妙的设计:围绕压力峰值采样三个关键时刻——峰值前最低压力帧、峰值帧、峰值后最低压力帧——用这三张RGB-触觉对驱动GPT-5自动生成标签与描述,人工审核准确率约90%。

1.5 Benchmark:触觉不是万能模态,但在抓握理解上不可替代

OPENTOUCH的基准测试设计了跨模态检索和分类两大任务。对比学习方法在video→tactile检索上将线性基线(CCA的R@1仅0.50%)甩开一个数量级,达到7.15%。当视频和姿态同时作为查询去检索触觉时,mAP从双模态的15.47%跳到26.86%。

分类实验进一步揭示了触觉的能力边界:在抓握类型分类上,三模态融合达到68.09%准确率,纯视频仅57.45%;但在动作分类上,纯视频以40.26%超过三模态融合的35.02%-37.32%。触觉擅长局部接触理解,而非全局动作意图推断。 把触觉当成万能模态是危险的,它的价值在于补足视觉的接触盲区。

二、行业全景:数据不再只是“附属品”,而是“基础设施”

OPENTOUCH只是2026年具身智能数据浪潮中的一个缩影。放眼全球,一场围绕数据规模、模态丰富度和采集效率的竞争已经全面展开。来自清华大学、南京航空航天大学等机构的综述分析指出,具身智能数据的获取成本远高于自然语言处理和计算机视觉领域,如何高效获取、处理并组织这些数据,已成为制约具身智能发展的关键问题。

行业正从多个维度破局。

2.1 中国力量崛起:从智元到国地中心

AGIBOT WORLD 2026是智元机器人继2024年发布百万真机数据集后的又一次升级,旨在为具身智能领域打造“ImageNet时刻”。该数据集摒弃了传统实验室环境,所有数据采集自100%真实世界,涵盖商业空间、酒店、商超、家居等多元场景,包含遮挡、杂乱摆放、光照变化等随机干扰,长程数据规模较Google的Open X-Embodiment高出10倍,场景覆盖面扩大100倍。

国家地方共建人形机器人创新中心联合纬钛机器人发布了“白虎-VTouch”数据集,规模超60,000分钟,涵盖轮臂机器人、双足人形机器人、手持智能终端等多种本体构型,首创跨本体视触觉多模态真实交互数据采集新范式,系统破解了高保真触觉信息不足和跨本体泛化能力弱的核心瓶颈。

戴盟机器人则联合Google DeepMind、中国移动、新加坡国立大学、香港科技大学、北京大学、清华大学等多家全球顶尖机构,发布Daimon-Infinity数据集,规划年内形成数百万小时级数据规模,融合触觉、视觉、动作轨迹、执行动作、语音文本等多维信息,其中10,000小时高质量数据已率先开源。验证数据显示,使用该数据集对具身模型进行预训练时,仅需约十分之一的数据量即可在精细操作任务中达到更优效果,训练效率提升10倍。

灵初智能也发布了全球最大人类手部数据集,全模态覆盖视觉、语言、关节角度、触觉四类信息,通过自研外骨骼手套采集,3D轨迹精度达亚毫米级,涵盖工业装配、生活操作、物体抓取等多场景任务。

2.2 全球前沿:规模与质量的双重突破

在国际学术界和产业界,数据集的迭代同样密集:

RoboMIND 2.0由华人团队主导,包含超过310K条双臂操作轨迹,跨6种不同机器人本体、739项复杂任务,并特别纳入12K触觉增强episodes和20K移动操作轨迹,还同步开源了20K条基于数字孪生技术的仿真数据。

World In Your Hands构建了超1,000小时的野外人类操作数据,以毫米级精度采集,集成了视觉、语言、触觉和动作四模态。实验显示,引入这些人类中心数据后,机器人在杂乱场景中的操作成功率从8%跃升至60%。

SABER则另辟蹊径,提出“无机器人”数据采集范式——通过在真实零售环境中部署头戴式第一视角相机和360°全景相机,积累超100小时自然店内捕获数据,包含44.8K训练样本。当这些人类行为数据用于微调GR00T N1.6时,在十项零售操作任务上的平均成功率达到29.3%,是仅用机器人数据微调基线(13.4%)的2.19倍。

2.3 数据金字塔与“无本体”路线

具身智能在数据层面形成了一套清晰的“金字塔”结构:底层是互联网数据,往上是人类行为数据,再往上是合成数据,顶层是真实世界数据。

更值得注意的是“无本体真人数据”路线的兴起。这一范式直接采集真实场景中人类操作者的动作、视觉、力控数据,不依赖特定机器人本体。其核心优势在于数据与机器人本体解耦,一次采集,多次复用。理论上能解决技能泛化问题,且大幅降低成本——传统真机遥操数据采集成本高达约180美元/小时,而无本体路线通过去硬件化实现了规模化潜力。

2.4 数据生态建设:从数据集到数据平台

2025-2026年,具身智能的数据建设正从“发布数据集”走向“构建数据生态”。腾讯发布Tairos具身智能开放平台,京东上线具身智能数据交易平台并计划发动60万人采集1000万小时数据,百度推出具身智能数据超市,试图解决数据质量参差不齐、格式标准不一、使用成本高等痛点。Open X-Embodiment项目则汇集了全球34个实验室的60余个数据集,将22种不同机器人平台的数据联合训练,得到RT-2-X模型,在新任务上的成功率比单平台基线高出3倍,证明了跨本体数据的多样性能够带来能力的涌现。

这些进展共同揭示了一个趋势:决定具身智能能否真正走出实验室的,已经不只是模型本身,而是高质量、规模化、可持续生产的物理世界数据。

三、从“视觉智能”到“物理智能”:下一次范式转换

3.1 触觉:具身智能最后一块感知拼图

回顾过去五年的具身智能研究,一条清晰的进化脉络浮现出来:从纯视觉的2D感知,到引入深度信息的三维空间理解,再到今天触觉数据的规模化采集。每一次模态的加入,都对应着机器人能力的质变。

OPENTOUCH在论文最后做了一个很有前瞻性的应用:把学到的跨模态检索能力用到Ego4D这类没有触觉的大型第一视角视频数据集上做零样本检索。给定一段Ego4D视频,模型会从OPENTOUCH的数据库中检索最相近的触觉序列——这相当于给海量纯视频数据接上了一层“伪触觉索引”。

这一步的意义远超技术演示:它证明了一条可扩展的路径——先用少量高质量触觉数据学习跨模态对齐,再把这种对齐能力迁移到更大的视频语料上。 这对当前以互联网视频为主要数据来源的具身学习路线,是一个关键的补充。

3.2 当前行业的主要瓶颈

尽管进展显著,具身智能数据采集仍面临多重挑战。

一是真实数据的绝对规模仍然不够。 当前具身智能领域的高质量真实数据规模仅在约50万小时左右,而一个技能点要达到交付级,模型需要2,000-5,000小时甚至过万训练数据——这意味着行业数据存量几乎只够支撑几十个技能点,距离大规模商用所需的数万技能点差距悬殊。

二是数据格式和标准尚未统一。 Open X-Embodiment虽然汇集了60余个数据集,但各子集在格式、质量和场景多样性上参差不齐。没有统一的数据“语言”,跨数据集的联合训练效率将大打折扣。

三是触觉数据的空间分辨率和动态范围仍然有限。 以OPENTOUCH为例,全手仅169个触觉像素点,对于需要精细力控的任务——比如区分纸张厚度或感知织物纹理——当前的硬件可能还不够。

四是跨模态对齐仍处于早期阶段。 OPENTOUCH的跨模态检索R@1虽然显著优于基线,但绝对数字约7%的水平说明距离实用还有很长的路要走。

3.3 三条值得关注的技术路线

展望未来,三个方向最值得关注:

第一,数据规模从小时级到百万小时级的跃迁。 戴盟Daimon-Infinity规划年内达到数百万小时,京东计划发动60万人采集1000万小时——当数据规模再提升一个数量级,跨模态对齐的上限是否会显著提高?这是行业最期待的回答。

第二,“无机器人”采集范式的成熟。 SABER已证明在零售场景中,完全不需要机器人参与的数据采集就能显著提升策略性能。当这一范式扩展到更多场景,具身智能的数据成本将迎来断崖式下降。

第三,触觉数据的直接策略迁移。 OPENTOUCH目前还停留在感知和检索层面,但问题已经摆在那里:这套触觉数据能否直接迁移到机器人灵巧手的策略学习中,让sim-to-real不再只靠视觉和力矩反馈?

四、结语:当机器人学会“摸”

给第一视角数据加上触觉,然后呢?

然后,机器人开始拥有一种它从未真正获得过的能力:不仅知道物体在哪里,还知道自己和物体之间正在发生什么。 这是一种从“看见世界”到“接触世界”的范式转换。

OPENTOUCH没有解决这个问题,但它第一次证明了全手触觉可以在真实世界里规模化采集、自动标注,并用于跨模态学习。它的贡献不在于某个benchmark上的绝对分数,而在于证明了触觉作为独立模态在抓握理解上的不可替代性,以及三模态同步采集的工程可行性。

而放眼整个2026年的具身智能数据格局,从智元到戴盟,从RoboMIND 2.0到SABER,行业正在从多个方向同时发力:更大规模、更多模态、更低成本、更强泛化。具身智能的“数据战”远未结束,但它所争夺的,不是某个模型的性能百分点,而是一张通向真正物理智能的入场券。

触觉这条路,刚刚铺下第一块砖。但方向已经清晰:当机器人真正学会“摸”这个世界的时候,它才算真正“具身”了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国防部一声炸雷,把憋了整整55年的窗户纸彻底捅破了!

国防部一声炸雷,把憋了整整55年的窗户纸彻底捅破了!

回京历史梦
2026-05-23 16:28:18
28岁的沈学勇不顾母亲跪地哀求,残忍杀害父母,被执行死刑

28岁的沈学勇不顾母亲跪地哀求,残忍杀害父母,被执行死刑

莫地方
2026-05-25 01:20:03
稳得让人羡慕!国乒退役规划曝光?29岁梁靖崑确实不简单!他走上了两条截然不同的路

稳得让人羡慕!国乒退役规划曝光?29岁梁靖崑确实不简单!他走上了两条截然不同的路

去山野间追风
2026-05-26 14:55:51
窦唯早期的这身打扮,至今看也很时尚,才华帅气集于一身

窦唯早期的这身打扮,至今看也很时尚,才华帅气集于一身

大江
2026-05-26 11:50:46
拒绝听命特朗普,美联储新主席宣誓,对华立场曝光,中方再抛美债

拒绝听命特朗普,美联储新主席宣誓,对华立场曝光,中方再抛美债

锅锅爱历史
2026-05-26 15:25:53
24小时爆卖1亿:中国人,终于等来了自己的拉夫劳伦

24小时爆卖1亿:中国人,终于等来了自己的拉夫劳伦

金错刀
2026-05-24 19:46:14
被央媒怒批,目不识丁 脑袋空空,这5位“绝望的文盲”凭啥走红?

被央媒怒批,目不识丁 脑袋空空,这5位“绝望的文盲”凭啥走红?

动物奇奇怪怪
2026-05-26 13:15:43
女子遗失24克金项链,陌生人捡到后扔了,称“看着不像金的”,失主报警

女子遗失24克金项链,陌生人捡到后扔了,称“看着不像金的”,失主报警

上观新闻
2026-05-25 14:41:14
卢比奥硬怼拉夫罗夫:是俄罗斯先侵略乌克兰的,自卫天经地义

卢比奥硬怼拉夫罗夫:是俄罗斯先侵略乌克兰的,自卫天经地义

史政先锋
2026-05-26 13:41:32
手机里的飞行模式作用太大了 如果每天不用,那就太可惜了

手机里的飞行模式作用太大了 如果每天不用,那就太可惜了

小柱解说游戏
2026-05-25 18:57:08
上海人注意:已进入高发期,今明或迎来高峰!让人头皮发麻…

上海人注意:已进入高发期,今明或迎来高峰!让人头皮发麻…

申消费
2026-05-26 10:40:38
地球的第二文明—AI破译鲸鱼语言,我们竟在深渊里找到了外星人

地球的第二文明—AI破译鲸鱼语言,我们竟在深渊里找到了外星人

自说自话的总裁
2026-05-08 19:25:33
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
被百亿富豪独宠30年,如今住进香港8层别墅,两个儿子都已成家

被百亿富豪独宠30年,如今住进香港8层别墅,两个儿子都已成家

云舟史策
2026-05-25 22:06:39
断供5个月才发现,日本稀土库存被低估,17年前就囤了20年的用量

断供5个月才发现,日本稀土库存被低估,17年前就囤了20年的用量

壹只灰鸽子
2026-05-25 16:58:17
劝大家极限储蓄吧,从5月开始!

劝大家极限储蓄吧,从5月开始!

林中木白
2026-05-25 10:06:15
美国人破防:中国简直逆天,竟想用电磁力,从月球将氦-3运回地球

美国人破防:中国简直逆天,竟想用电磁力,从月球将氦-3运回地球

心中的麦田
2026-05-22 21:43:16
原油大降超7.1%,油价降幅猛增至240元/吨,下次6月4日调价或大降

原油大降超7.1%,油价降幅猛增至240元/吨,下次6月4日调价或大降

猪友巴巴
2026-05-26 09:28:10
我在国安局工作20年,抓过很多间谍,但有一个让我终身难忘

我在国安局工作20年,抓过很多间谍,但有一个让我终身难忘

千秋文化
2026-03-06 20:59:14
忘我庆祝,瓜迪奥拉在巴士巡游时往自己头顶上挤防晒霜

忘我庆祝,瓜迪奥拉在巴士巡游时往自己头顶上挤防晒霜

懂球帝
2026-05-26 02:26:01
2026-05-26 16:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3334475文章数 7606关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

头条要闻

外媒称伊朗愿意"将浓缩铀移至中国" 中方回应

体育要闻

上赛季差点降入英甲,下赛季要踢英超了

娱乐要闻

台媒贴脸!S妈被问大S嗑药当场沉默

财经要闻

中国铝行业爆单 下一个“煤炭”大周期?

汽车要闻

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

艺术
旅游
本地
亲子
时尚

艺术要闻

画美,文字也美 | 日本著名画家内田正泰

旅游要闻

深挖西游文化 河南济源以经典赋能文旅融合发展

本地新闻

用云锦的方式,打开江苏南京

亲子要闻

为什么是妈妈笑了,孩子才能好?

全网刷屏,华语乐坛“嫡长女”终于来了!

无障碍浏览 进入关怀版