网易首页 > 网易号 > 正文 申请入驻

Sharpa 联合清华等高校,一套策略打通21种传感器与多类具身形态

0
分享至



过去几年,机器人视觉学习已经跨过了一个重要门槛。π₀.₅、GR00T N1.5 这类在大规模异构数据上预训练的 VLA 模型,正在成为下游操作任务的通用起点:拿到 checkpoint,针对具体任务微调,再部署到真实机器人上。

但触觉操作一直缺少这样的「基础模型时刻」。现有触觉策略大多仍为特定硬件定制:一个传感器、一只手、一个任务集,对应一套模型。虽然无论是 GelSight、Contactile,还是力 / 力矩传感器都在提供触觉信息,但它们的输入格式、分辨率和物理形态并不兼容,导致已有经验难以跨传感器、跨平台复用。

来自 Sharpa、清华大学、UC Berkeley、上海交通大学、ETH Zurich 等机构的研究者提出了首个通用触觉基础策略 FTP-1。它基于约 3,000 小时、来自 26 个数据来源和 21 种触觉传感器的数据进行预训练,结果显示它不仅能够在不同具身平台之间迁移,在预训练阶段从未见过的传感器上也展现出很强的泛化能力,成功率提升超过 31 个百分点。



  • 论文标题:FTP-1: A Generalist Foundation Tactile Policy Across Tactile Sensors for Contact-Rich Manipulation
  • 论文地址:https://arxiv.org/abs/2606.13102
  • GitHub:https://ftp1-policy.github.io/

一个长期难题:

触觉数据很重要,却很难被统一利用

通用视觉-语言-动作(VLA)策略已经证明,大规模数据和异构数据可以带来可迁移的操作能力。但真正的接触密集型操作,例如插入、力控擦拭、手内调整、拧瓶盖等,不能只依赖视觉。机器人需要知道接触是否稳定、力是否偏移、物体是否即将打滑,以及当前动作是否需要减速或调整。

长期以来,触觉学习难以规模化,主要卡在三个问题上:

  • 不同传感器难迁移

现有触觉策略大多绑定特定硬件,不同传感器、具身平台和观察格式之间难以复用,GelSight、Contactile 与力 / 力矩数据之间也很难直接迁移。

  • 简单融合往往无效

直接把触觉 token 注入 VLM backbone,可能反而干扰原有视觉-语言知识。在 Sharpa North 长程任务中,Tactile-VLA 成功率为 35.8%,低于 π₀.₅ 的 45.3%,说明触觉需要专门架构处理。

  • 缺少统一预训练语料

相比互联网图像和 EgoScale 超 20,000 小时人类视频,触觉操作长期缺少跨传感器、机械手和夹爪的统一数据集,FTP-1-Dataset 开始补上这一缺口。

FTP-1 想回答的核心问题是:一个触觉策略能否吸收异构触觉经验,并迁移到预训练之外的传感器和机器人本体上?

方案:形态感知 token + 独立触觉专家

FTP-1 基于 π₀.₅ 的多专家 VLA 架构进行扩展,实现了两点核心创新:

  • Morphology-Aware Tactile Token Space(MTTS,形态感知触觉 token 空间)

MTTS 提供了一个统一接口,可以把任意触觉输入映射到 24 个功能区域 token 上。输入可以是 GelSight 这类图像,也可以是 Contactile 这类阵列,或是力 / 力矩状态量;映射后的 token 则对应语义一致的手部区域,例如拇指指尖、食指指尖、掌心、腕部力 / 力矩等。

功能区域 embedding 会告诉模型:每个 token 来自末端执行器的哪个位置,而不依赖具体物理传感器。平行夹爪可以映射到拇指和食指槽位,灵巧手可以使用 0-14 号槽位,腕部和手指力 / 力矩传感器使用 15-20 号槽位。硬件不同,但语义保持一致。

  • Independent Tactile Transformer Expert(独立触觉 Transformer 专家,约 300M 参数)

不同于 adapter 式融合,FTP-1 会把所有触觉 token 路由到一个专门的触觉专家模块,再由动作头读取这些触觉表示;同时,它不会把梯度反传到视觉-语言专家中。这样既能保护原有 VLM 知识,又能学习可复用的触觉表示。

在下游微调阶段,如果遇到预训练中没见过的新传感器,只需要从头训练对应的传感器 encoder;预训练好的触觉专家、功能区域 embedding,以及共享的图像-触觉 Transformer 模块都可以继续复用。



数据:FTP-1-Dataset,

3,000 小时、21 种传感器、26 个来源

基础模型能否成立,数据规模至关重要。FTP-1-Dataset 汇集了来自 26 个来源的约 3,000 小时触觉操作数据,包含 21 种不同触觉传感器(7 种图像、5 种阵列、9 种状态),重采样后的数据混合约 20% 人类数据、30% 灵巧手数据、50% 夹爪数据。



其中,Sharpa 贡献了 Sharpa North-FTP-1:4,000 条在 Sharpa North 上采集的长程灵巧操作示教,使用 Sharpa DTC(Dynamic Tactile Array,动态触觉阵列)传感器。Sharpa DTC 也是预训练混合数据中的 21 种传感器之一。论文同时致谢 Sharpa Pte Ltd. 在硬件、算力和该数据集方面提供的支持。

所有标注都在 MTTS 框架下统一标准化,语言指令也通过 GPT-4o 进行改写,以增强表达多样性。它的意义类似触觉领域的 ImageNet:不是简单堆更多数据,而是在异构原始信号之上建立一个共享表示层。

测试:5 家机构、14 个任务,

覆盖已见与未见传感器

FTP-1 的 checkpoint 被分发给全球 5 家独立机构,用于下游微调和验证。这是一次对可复现性和迁移能力都更严格的测试。

  • 已见传感器设置(出现在预训练混合数据中)



  • 未见传感器设置(未出现在预训练中)



整体来看,14 个任务覆盖手内调整、力控按压、插入 / 拔出、柔性物体交互,以及长程双臂操作。

结果:已知传感器提升 17.2 个百分点,

未见传感器提升 31.6 个百分点

在仿真环境 UniVTAC 中,FTP-1 的平均成功率达到 66.7%,比最强基线高出 17.5 个百分点。如果排除相对简单的抓取,只看更依赖接触反馈的任务,FTP-1 达到 59.5%,而只做架构改造、没有触觉预训练的 FTP-π₀.₅ 为 42.0%。

在真实机器人、且传感器已出现在预训练数据中的设置下,FTP-1 的平均成功率为 62.5%,比 π₀.₅ 的 45.3% 高出 17.2 个百分点:



Twist Cap 和 Wipe Dish 这两个任务尤其能说明问题。π₀.₅ 会持续顶住瓶盖,却缺少对力的反应式调整;擦盘子时也容易丢失接触。相比之下,FTP-1 能保持更稳定的压力,并在触觉反馈提示对位不准时主动放慢插入动作。

未见传感器上的结果更关键:FTP-1 比最强基线模型高出 31.6 个百分点,而且只需要从头训练传感器 encoder。Insert Hanoi 任务中,FTP-1 展现出反应式插入控制,在对位不准时会减速;Insert USB 中,即使只有 100 条示范数据,FTP-1 也能生成稳定的接触感知动作,而基线模型更容易抖动并失败。



消融实验进一步说明,这不是「数据距离更近」带来的偶然结果。没有触觉预训练的 NTP-1,即使采用相同微调架构,在未见 FlexivXense 传感器上仍明显落后于 FTP-1。这表明 FTP-1 学到的是可迁移的触觉知识,而不是某个传感器或某个任务的局部技巧。

为什么 Sharpa 是关键支点?

FTP-1 并不是 Sharpa 技术栈之外的外部研究,而是建立在 Sharpa 的硬件、数据和模型能力之上。

Sharpa Wave 的 Dynamic Tactile Array(动态触觉阵列)在每个指尖提供超过 1,000 个触觉像素,并支持 6-DoF 力 / 力矩信息,是 FTP-1 预训练语料中的重要组成部分;Sharpa North 则作为真实机器人评测平台,承担 Draw Balloon、Fix Hand、Twist Cap 等长程接触任务,验证触觉预训练在复杂操作中的价值。

更重要的是,Sharpa Wave 的 22-DoF 拟人化动作空间,与 EgoScale、T-Rex 等研究中的动作表示形成呼应,使硬件、数据和模型围绕同一具身标准逐步对齐。FTP-1 也进一步验证了 CraftNet 的判断:触觉不应只是视觉-语言模型的附属输入,而需要独立、高频、可迁移的表示与控制通路。结合 Isaac Sim 资产与真实 Wave 灵巧手,Sharpa 正在从触觉硬件走向基础模型与生态闭环。

更大的图景:触觉进入基础模型时代

多年来,触觉机器人一直面临一个循环难题:没有共享表示,就难以形成共享数据集;没有共享数据集,又难以训练共享模型。FTP-1 用三个核心组件打破了这个循环:

  • MTTS:一种覆盖 21 种传感器的通用触觉 token 语言;
  • FTP-1-Dataset:约 3,000 小时异构触觉操作经验;
  • Tactile Expert:可复用的预训练触觉表示,而不是每个传感器从零训练;
  • 开放发布:预训练模型、数据集和训练代码已在 ftp1-policy.github.io 提供。

结合 SaTA 的空间触觉定位、Tacmap 的触觉仿真到现实迁移、T-Rex 的高频触觉反应,以及 CraftNet 的分层 VTLA 架构,FTP-1 让 Sharpa 触觉智能的技术路径变得更完整:触觉能力可以像视觉能力一样,被预训练、共享并迁移。

对 Sharpa 来说,FTP-1 也帮助 Wave 的硬件价值进一步延伸到软件层。未来,在 Sharpa 平台上采集的每一小时触觉数据,都不再只服务于某一个具体任务,而是会持续沉淀为可复用的模型能力,推动整个触觉机器人生态共同进化。

更多相关 research:

SaTA —— Spatially-Anchored Tactile Awareness

CraftNet —— Hierarchical VTLA for Fine Manipulation

T-Rex —— Tactile-Reactive Dexterous Manipulation

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泳池未安装漏电保护装置,三亚一男子清洗泳池时触电身亡,谁来担责?各方回应

泳池未安装漏电保护装置,三亚一男子清洗泳池时触电身亡,谁来担责?各方回应

潇湘晨报
2026-07-04 20:51:20
WTT美国大满贯:7月5日赛程公布!诞生2项冠军,中日主力对决

WTT美国大满贯:7月5日赛程公布!诞生2项冠军,中日主力对决

全言作品
2026-07-04 13:43:04
新一轮基建浪潮!大批项目来了

新一轮基建浪潮!大批项目来了

新浪财经
2026-07-03 14:48:19
女孩被奸杀,2001年凶手:侵犯5个女孩都做我的情人,她反抗就杀

女孩被奸杀,2001年凶手:侵犯5个女孩都做我的情人,她反抗就杀

情感艺术家
2026-07-04 20:46:02
伊朗葬礼暗藏杀机,中方出席不止吊唁,还能镇住美以斩首阴谋?

伊朗葬礼暗藏杀机,中方出席不止吊唁,还能镇住美以斩首阴谋?

君笙拂兮啊
2026-07-04 20:11:00
突发!豆包、千问集体宣布

突发!豆包、千问集体宣布

数据宝
2026-07-04 17:59:13
央视罕见公开西太对峙细节!日舰模拟攻击辽宁舰,结果沉默?

央视罕见公开西太对峙细节!日舰模拟攻击辽宁舰,结果沉默?

青青衫书生
2026-06-30 13:24:21
欧洲热成火炉,但日本以空调为代表的白色家电行业似乎已经凉透了

欧洲热成火炉,但日本以空调为代表的白色家电行业似乎已经凉透了

青陆
2026-07-02 15:45:57
钟景辉出殡谢君豪扶灵,侄子捧遗照神情哀伤,华仔发哥霍启刚送别

钟景辉出殡谢君豪扶灵,侄子捧遗照神情哀伤,华仔发哥霍启刚送别

胡一舸南游y
2026-07-04 17:07:58
告诉大家一个坏消息:上海、广州出现3大怪象,正在蔓延,需深思

告诉大家一个坏消息:上海、广州出现3大怪象,正在蔓延,需深思

明天见灌装冰块
2026-07-04 06:25:38
中国船员在被韩海警扣押期间死亡,家属质疑延误黄金救援时间

中国船员在被韩海警扣押期间死亡,家属质疑延误黄金救援时间

红星新闻
2026-07-03 17:16:47
奥莱报:阿根廷全队士气持续走低,对阵佛得角煎熬程度远超预想

奥莱报:阿根廷全队士气持续走低,对阵佛得角煎熬程度远超预想

砚底沉香
2026-07-04 11:57:09
央视犯罪剧《悬案》开播!看完3集,我断言:这部剧又要火向全国

央视犯罪剧《悬案》开播!看完3集,我断言:这部剧又要火向全国

乡野小珥
2026-07-04 00:51:39
“挂了快一年,从200多万降到160万,心一横,卖了。”房东割肉离场,杭州“老破小”价格回到十年前

“挂了快一年,从200多万降到160万,心一横,卖了。”房东割肉离场,杭州“老破小”价格回到十年前

都市快报橙柿互动
2026-07-04 09:57:12
西甲与西乙的双料金靴,却在西班牙队毫无存在感,还不适合豪门

西甲与西乙的双料金靴,却在西班牙队毫无存在感,还不适合豪门

足篮大世界
2026-07-04 22:32:50
三百名医生提醒:晚饭后散步对血糖血脂的影响,建议抽空看看

三百名医生提醒:晚饭后散步对血糖血脂的影响,建议抽空看看

任医生聊健康
2026-07-02 08:27:13
比亚迪市值蒸发超8000亿,价格战拖垮利润,龙头难抗内卷

比亚迪市值蒸发超8000亿,价格战拖垮利润,龙头难抗内卷

你是我心中最美星空
2026-07-04 22:17:53
为何啤酒厂从不禁止员工偷喝?老板揭秘:再贪嘴,最多撑一周

为何啤酒厂从不禁止员工偷喝?老板揭秘:再贪嘴,最多撑一周

老特有话说
2026-05-16 17:52:16
“莎头”输球仅2小时!王楚钦状态引发争议,担心的事还是发生了

“莎头”输球仅2小时!王楚钦状态引发争议,担心的事还是发生了

一窥究竟
2026-07-04 18:32:14
消失的彭加木:一场精心策划的逃亡?隐藏在罗布泊的离奇秘密

消失的彭加木:一场精心策划的逃亡?隐藏在罗布泊的离奇秘密

浩渺青史
2026-07-04 07:06:52
2026-07-04 22:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

一家三口新疆自驾游突遇山洪 母子避险被冲走失联多日

头条要闻

一家三口新疆自驾游突遇山洪 母子避险被冲走失联多日

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

时尚
艺术
本地
数码
军事航空

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

艺术要闻

风格独特,美国具象画家Alan Feltus

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

中国空调在欧洲卖爆 多品牌正加急补货

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版