这篇李飞飞、Jim Fan联手发表的论文，揭示了具身领域的最新方向|触觉|视觉|机器人|灵巧手

这篇李飞飞、Jim Fan联手发表的论文，揭示了具身领域的最新方向

2026-07-05 21:17:07　来源: 四木相对论

北京举报

分享至

当李飞飞、Jim Fan、Pieter Abbeel、Trevor Darrell这几个名字同时出现在一篇论文的作者栏里，你大概得停下来看一眼。

6月15日，就有一篇这样的论文挂上了 arXiv，它叫《T-Rex：Tactile-Reactive Dexterous Manipulation（T-Rex：带实时触觉反馈的机器人灵巧操作）》，作者有足足 34 人，来自 UC伯克利、英伟达、斯坦福大学、松下等团队。

它的作者阵容堪称豪华：有AI教母李飞飞、 NVIDIA 具身智能团队的核心研究负责人Jim Fan、Yuke Zhu。

还有UC 伯克利的Pieter Abbeel和Trevor Darrell ，他们分别是 Berkeley 机器人实验室的掌门级人物，以及计算机视觉领域被引用最多的学者之一；此外，还有具身领域知名的年轻学者徐丹飞等等。

这篇大佬云集论文，在讨论现在很火热的触觉问题。

论文给出了一个反直觉的结论：在用灵巧手执行的任务中，给现有 VLA（ Vision-Language-Action，视觉 - 语言 - 动作模型）直接加上触觉，不仅没用，还会让性能大幅下降。

他们举了开源 VLA 模型π0.5（Physical Intelligence 的模型）的实验数据来解释这个结论：原始π0.5进行12个触觉相关任务的平均成功率为17%，而在“未加修饰”的直接加上触觉输入后，任务成功率跌到了 6%。

从这个发现出发，论文聚焦起机器人的灵巧手操作。接下来，论文展开讲了三件事：为什么加触觉会越加越差？这篇论文的主角 —— T-Rex 怎么解决这个问题？以及，T-Rex 离真正有用还差多远？

加了触觉，怎么反而更笨了？

先说现状。

当前具身智能领域的主流基础模型范式是 VLA，即Vision-Language-Action，视觉-语言-动作模型。

简单来说，这类模型把视觉感知（看懂环境）、语言理解（听懂指令）、动作生成（输出机器人可执行的控制信号）三类能力整合在一个大模型里，目标是让机器人像人类一样看懂场景、听懂指令、自主完成操作任务。

它们有一个共同特点：活在一个能"看"但很难"摸"的世界里。这会影响机器人执行精细的操作任务。

好比说，执行拿杯子、推箱子、把物品从 A 点搬到 B 点这类大动作，纯视觉反馈还能用。但如果遇到需要接触力控制的任务，就抓瞎了。

像擦盘子这个任务，如果力度太大会直接把盘子推飞，力度太小又擦不掉污渍；还有机器人翻书页，也必须精准感知纸张刚好翘起的临界点，稍用力就会一次翻好几页，力不够又根本掀不起纸；就连拿生鸡蛋这种小事，可能要么捏碎蛋壳，要么没拿稳掉下去。

于是一个想法很自然地产生了：给机器人加上触觉传感器不就行了？

T-Rex 团队做了这个实验。他们给 π0.5 接上了 22 自由度的 Sharpa Wave 多指灵巧手。这款灵巧手自带高分辨率触觉阵列，可以输出每个指尖的接触形变深度 + 6 维力 / 力矩信号。

结果令人震惊：不加触觉，π0.5 平均成功率 17%。加了触觉，跌到 6%。

也就是说，触觉信号没有帮上忙，反而成了噪音。

关于这个有些吊诡的现象，论文用三个原因做了解释。我翻译成大白话理解：

第一，视觉和触觉的 “刷新率” 天生不一样，硬塞在一起一定会打架。

T-Rex 团队指出，现有 VLA 处理视觉信息的频率大约是 5Hz，但触觉反馈需要在更快的、至少 20Hz 的频率中才能发挥作用。把一个 20Hz 的高频信号硬塞进只能跑 5Hz 的模型里，关键的接触瞬间全丢了，快速跳变的触觉数据也打乱了视觉模型的注意力，连原本能做对的视觉决策也难以做对。

另一个问题是，VLA 从预训练开始就 “没见过触觉”。一直在海量视觉、语言数据上中学习，弄明白的是“视觉 - 语言 - 动作”，突然塞一堆陌生的触觉信号，会造成干扰。

最后还有编码问题。现有的触觉编码器大多只处理单帧的静态触觉数据，相当于只拍了一张"触觉照片"，但真正关键的接触信息藏在力随时间变化的动态过程里。像手指刚碰到物体、力度逐渐加大、开始发生滑动，这些时序变化被静态编码器直接丢掉了，模型拿到的只是残缺信息。

所以，问题的本质不是说触觉不应该加，是"现有的 VLA 在数据、架构和编码方式上都还没准备好接入触觉。"

这是 T-Rex 这篇论文真正要解决的事。

T-Rex 的"快与慢"

T-Rex 的解法是：将触觉作为一条独立的控制条件，最终确定动作该如何执行，而不是仅仅视为一种新模态的信号输入。

具体是怎么做的呢？

他们将机器人“大脑”分成了“慢”和“快”的三层：

第一层是潜在专家（Latent Expert）模块，它负责处理机器人接收到的视觉数据和语言指令，然后预测未来可能发生什么，为后续动作生成提供时间连贯的上下文信息。它给到的信息全程可复用，运行频率是 5Hz 左右，和现有 VLA 一样。

第二层是动作专家（Action Expert），同样也是以 5Hz 频率运行，在潜在专家处获取上下文之后，它负责粗粒度的动作规划，生成半成品动作，确定整段动作的大体走向，比如手去哪、怎么抓物体，不处理细微接触力调整。

第三层就到了快的部分，即 Tactile Expert 触觉专家，它以约 20 Hz的频率运行，作用是在接收动作专家（Action Expert）输出半完成的动作中间结果后，不重新跑视觉模型，直接根据触觉传感器的实时力、接触形变数据，做高频的动作残差修正，把半成品的动作 "补完" 成最终可执行的指令。

比如动作专家输出了 "收拢手指抓鸡蛋" 的中间动作，触觉专家会在抓的过程中每秒被调用超 20 次检测指尖的受力和形变，实时微调：再松一点、再紧一点、角度偏了往左调一点，刚好把鸡蛋捏住但不捏碎。

这就像一个公司的战略部和执行部分开办公。战略部每周开一次会定大方向，执行部每天盯现场做具体调整。

这套架构在论文里叫 MoT（Mixture-of-Transformer-Experts，混合 Transformer 专家）。

这里的关键设计巧思是，Tactile Expert 并不重新推理，它会复用前面 Latent Expert 和 Action Expert 已经算好的视觉、语言上下文和中间动作状态的缓存。这意味着，它不需要重新"看"一遍环境、重新"理解"一遍指令，只需要在已有的理解基础上，专注处理触觉增量。这是它能快速运转的核心原因。

*T-Rex的结构

然后是解决触觉的编码问题。

之前的一些 VLA 模型，要么不接触觉，要么把触觉信号当静态特征处理，相当于给接触状态拍了张 "触觉照片"，只能看到某一瞬间哪里受力。

但 T-Rex 发现接触任务的关键信息不止在单帧里。翻一页纸的时候，核心信息不是某一刻手指压力多大，而是最近几十毫秒里力的变化过程 —— 先是接触纸面、然后纸张被顶起、再到开始滑动，这是一个连续的时序过程，不是一张静态快照能涵盖的。

所以 T-Rex 设计了一个时空触觉编码器，同时捕捉触觉力的时间变化，以及接触面形变的空间分布，相当于录了一小段触觉 "短视频"，把每个手指的力变化压缩成紧凑的离散 token；最终的触觉 token 里同时包含空间信息（哪根手指、哪个位置在受力等）和时间信息（力度是在变大还是变小、有没有发生滑动等）。

最后是训练方式。

T-Rex 的训练分三步：第一步，用 22889 小时的人类第一人称视频做预训练，让模型先学会"看人怎么用手"。这完全不涉及触觉专家。

第二阶段，用 100 小时的真实机器人双臂遥操作数据做 "中训练"（mid-training），这些数据全部带同步的多视角画面、触觉信号、本体状态和语言标注，覆盖 22 种基础运动基元、200 多种日常物体，这一阶段加入了触觉专家，让模型学会把视觉理解和触觉信号对齐，练出触觉反应能力。

第三步，针对具体下游任务，只用约 100 条任务演示做轻量微调，就能快速适配特定任务。

*T-Rex团队采集了一套 100 小时的双手灵巧操作数据集：包含 200 多种日常物品、22 类基础手部动作，覆盖各式各样需要接触受力的操作行为。每一条操作轨迹都同步记录五类数据：彩色摄像头画面、指尖触觉传感数据、机器人自身关节状态、机器人执行动作、配套语言指令。

这套设计里，2 万多小时的人类第一视角数据是公开的大规模操作数据集，获取成本低。真正采集成本高、需要机器人真机带触觉采集的数据是 100 小时。相当于用低成本的通用数据打地基，用高价值的触觉数据做专项对齐，最后用极少量任务数据做适配，把触觉 VLA 的训练成本拉到了可落地的水平。

65%：很强，但每三次还是有一次失败

那么，做了这么多的工作之后，T-Rex 效果怎么样？

这次 T-Rex 在 12 项真实世界触觉交互任务完成了实测，整套硬件采用 Dexmate Vega-1 固定底座双臂机器人，单臂 7 自由度，搭配两台 Sharpa Wave 22 自由度灵巧手；机器人指尖搭载厂商自研触觉模块，可同步输出 6 轴力矢量 + 指尖形变图。

这 12 项任务覆盖力敏感（转移鸡蛋、挤牙膏、药剂装填、酸碱中和滴管操作）、形变感知（翻书页、擦盘子、分叠纸杯、抽卡片）、双手协同（分拣麻将、开锁、发扑克牌、拧灯泡）三大类。

数据显示，T-Rex 全任务平均成功率 65%。其他模型的数据相对就低了很多，ViTacFormer 是3%、RDP 为6%、Tactile-VLA 达到了15%、π0.5 为17%、π0.5+tactile只有 6%，最高的是英伟达面向灵巧手训练模型 EgoScale，达到了35%。

这个成绩在学术界已经是碾压级的了，但 65% 这个数字反过来看也很诚实：每三次操作，有一次会失败。

论文自己也做了失败分析。机器人发生的典型故障包括：物体碰撞、抓取滑脱、定位偏差、多指误摩擦、用力过大、滑动错位。

像抓取不准、整体轨迹跑偏这类大范围空间误差，根源都出自 Action Expert 低频视觉规划环节，触觉专家只能做指尖小幅实时微调，没办法修正手臂全局定位偏差，因此只能缓解这类问题，无法从根本解决。

另外，如果要真推广开这份工作，还有一个难题是工业落地可用。

T-Rex 用的硬件平台，有两只 Sharpa Wave 灵巧手，加两条机械臂，加摄像头、操作系统和算力，全套大约 15 万到 20 万美元（约 108 万到 144 万人民币）。这个价格还是有门槛的。

好的方面是，T- Rex 100小时的触觉同步数据集，全部是人类遥操作采集的。每小时的采集成本（操作员工资 + 设备损耗 + 质量筛选）不便宜，但论文开源了部分数据集，后续如果团队要做自己的任务，可以参考。

T- Rex 这份工作，和现在的产业热点结合很深。

触觉传感器正在成为灵巧手的标配，各个触觉厂商也都在出货。国内外触觉传感器、灵巧手厂商都在加速出货，整个触觉具身赛道肉眼可见地在升温。

但 T-Rex 这篇论文相当于给行业提了个醒：买了触觉传感器，不等于机器人就会用触觉，还需要匹配对应的模型架构、训练范式和推理机制，才能真正让触觉发挥作用，而不是变成干扰模型的噪音。

这个具身的新方向，刚刚开了个头。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.