1月26日,国家地方共建人形机器人创新中心(简称“国地中心”)与上海纬钛科技有限公司(简称“纬钛机器人”)联合发布白虎-VTouch数据集。该数据集为全球首个跨本体视触觉多模态数据集,包含视触觉传感器数据、RGB-D数据、关节位姿数据等,涵盖轮臂机器人(DWheel)、双足机器人(青龙)、手持智能终端等本体构型,总规模超60000分钟,目前第一批6000分钟开源数据已上线OpenLoong开源社区。
![]()
下载地址:https://ai.atomgit.com/openloong/visuo-tactile。
▍数据集填补行业空白破解具身智能机器人三大核心交互难题
白虎-VTouch数据集首创跨本体视触觉多模态真实交互数据采集新范式,针对具身智能机器人面临的真实物理交互数据稀缺、高保真触觉信息不足、跨机器人本体泛化能力弱三大问题提供解决方案,是目前全球规模最大、模态最完整、任务结构最系统化的视触觉多模态机器人操作数据集。
该数据集补足了具身智能Scaling Law中“触觉与接触”维度的缺失,基于真实物理交互信息采集,填补了大规模真实视触觉交互数据的长期空白,为构建真正具备物理理解与精细操控能力的具身基础模型提供关键语料与工程底座,加速机器人从“能看”走向“能触、能控、能稳态泛化”的真实世界部署进程。
国地中心联合纬钛机器人在视触觉传感器数采适配、任务构建、数据审核等方面开展了系统工作。纬钛机器人起源于美国麻省理工学院,创始人李瑞博士与导师Edward Adelson教授共同开创视触觉技术路线,发明的全球第一款视触觉传感器GelSight,分辨率超越人类手指,被全球学术界认可为先进的触觉技术路径。此次双方在视触觉传感器数采适配、任务构建、数据审核等方面开展了系统合作。
▍采用“矩阵式”任务构建,覆盖四大类真实场景
白虎-VTouch数据集覆盖家居家政、工业制造、餐饮服务、特种作业4大类真实场景,包含380余种任务类型、100余项原子技能、500余件真实物品。白虎-VTouch数据集突破传统“单任务人工采集”的低效模式,提出“矩阵式”任务构建新范式,实现“数据规模化生成+能力结构化覆盖+泛化学习路径可控”的统一闭环,使机器人策略模型能够在精细触觉感知、闭环力控交互与复杂双臂协作等关键能力上实现系统性提升,而非依赖零散任务堆叠。
![]()
任务分类层级结构
任务设计按“协同模式→接触状态→触觉依赖”顺序,分为三大维度:
•维度一:双臂协同结构,覆盖机器人双臂协作的基础逻辑,包含对称协同、非对称协同、主从协同、并行协同4类子项,适配不同场景下的双臂分工需求;
•维度二:原子操作类型,机器人操作的基础动作单元,包含抓取、插入、旋转、放置等100+原子任务,覆盖90%的日常与工业操作;
•维度三:接触与触觉模式,捕捉物理交互的关键特征,包含软接触、硬接触、滑动接触等子项,通过视触觉传感器记录不同接触模式下的压力分布、形变数据。
![]()
任务词云
▍跨本体规模化数采平台解决方案支持多传感器同步采集
在跨本体规模化数采平台领域,研究团队构建了面向机器人操作任务的跨本体规模化数据采集解决方案,支持多机高带宽同步的大规模数据采集,具备六大技术优势。
高性能方面,采用多进程架构,实现100MB/s+的实时采集效率。多模态层面,可同时兼容视觉、触觉、力觉、位姿等10+种传感器。精确同步上,通过双时间戳设计保障多传感器的时序精准对齐。成本控制上,依托多机架构的性能优势,以分布式方式处理数据采集,大幅降低系统整体成本。可靠性上,搭载队列缓冲+进程监控的双重保障机制。易用性方面,配备Web控制面板,可实现采集过程的实时监控与一键录制操作。

跨本体规模化数采平台
▍跨本体规模化数采平台
构建三级标注体系,将分批次开源
基于真实物理交互与多模态感知数据,团队构建了跨层次交互理解具身标注体系,通过多模态语义联合建模与对齐,实现跨模态表征学习与统一理解,为下一代具身VTLA提供数据标准,白虎-VTouch数据标注体系将分批次开源。
• 抽象思维层:理解“为什么”。通过将任务抽象意图推演成通用化维度交叉思维链,模型直接学习背后的思维链规律组合。
• 动作逻辑层:明白“怎么做”。创建完备独立的原子动作元语,结合自然语言指令将复杂长流程任务操作拆解为动作步骤序列,涵盖操作逻辑与步骤内涵。
• 物理状态层:感受“做什么”。通过视触觉增强的物理交互信息深化智能体对自身状态的掌握,同时确保物理真实一致性和多模态同步对齐。
▍统一训推算法框架保障机器人稳定执行
面向真实机器人部署,团队构建了统一训–推算法框架,实现从多模态数据处理到模型训练与在线推理的完整闭环。框架兼容多种数据格式与控制方式,支持多类主流策略模型统一训练与一键切换,通过标准化数据处理与一致的训练–推理流程,保障模型在真实机器人上稳定执行与安全控制。在多类扩散策略与模仿学习算法验证中,数据集与框架组合提升了任务完成率与跨模型泛化能力。
![]()
面向真机模型训推的统一算法框架
白虎-VTouch数据集采用的视触觉传感器支持最高640×480分辨率与120Hz刷新率,在物体接触过程中可稳定记录物体接触过程中的细粒度接触变化,包含约9072万对视触觉接触图像的真实物体接触样本。视触觉接触数据占数据集规模的57%。在任务层面,视触觉信息重点覆盖260+接触密集型任务,其中,68%的任务在引入视触觉感知后获得了更完整、连续的接触状态描述,为精细操作、力控调整与失败恢复等关键环节提供了直接增益,充分体现了视触觉数据在提升复杂操作任务成功率方面的实际价值。
![]()
典型场景的真机操作
▍国地中心联合生态单位加速下一代具身VTLA与训练场标准建设
依托白虎-VTouch数据集,国地中心将联合生态单位持续推进具身VTLA模型研究,深度融合矩阵式任务设计、多层次语义标注与统一算法框架,充分发挥该数据集的核心价值,构建从数据到决策、从理解到执行的完整具身智能生态,推动机器人在真实复杂场景中的能力实现跨越式提升。
![]()
据悉,白虎-VTouch数据集的使用说明及相关研究成果Pre-print预印本将陆续发布。此外,该数据集也是国地中心围绕全国首个具身智能领域国家级标准化试点“上海虚实融合具身智能训练场标准化试点”建设的标志性成果之一,有效助力具身智能训练场国家试点标准体系建设与实践落地。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.