网易首页 > 网易号 > 正文 申请入驻

这篇李飞飞、Jim Fan联手发表的论文,揭示了具身领域的最新方向

0
分享至

当李飞飞、Jim Fan、Pieter Abbeel、Trevor Darrell这几个名字同时出现在一篇论文的作者栏里,你大概得停下来看一眼。

6月15日,就有一篇这样的论文挂上了 arXiv,它叫《T-Rex:Tactile-Reactive Dexterous Manipulation(T-Rex:带实时触觉反馈的机器人灵巧操作)》,作者有足足 34 人,来自 UC伯克利、英伟达、斯坦福大学、松下等团队。

它的作者阵容堪称豪华:有AI教母李飞飞、 NVIDIA 具身智能团队的核心研究负责人Jim Fan、Yuke Zhu。

还有UC 伯克利的Pieter Abbeel和Trevor Darrell ,他们分别是 Berkeley 机器人实验室的掌门级人物,以及计算机视觉领域被引用最多的学者之一;此外,还有具身领域知名的年轻学者徐丹飞等等。


这篇大佬云集论文,在讨论现在很火热的触觉问题。

论文给出了一个反直觉的结论:在用灵巧手执行的任务中,给现有 VLA( Vision-Language-Action,视觉 - 语言 - 动作模型)直接加上触觉,不仅没用,还会让性能大幅下降。

他们举了开源 VLA 模型π0.5(Physical Intelligence 的模型)的实验数据来解释这个结论:原始π0.5进行12个触觉相关任务的平均成功率为17%,而在“未加修饰”的直接加上触觉输入后,任务成功率跌到了 6%。

从这个发现出发,论文聚焦起机器人的灵巧手操作。接下来,论文展开讲了三件事:为什么加触觉会越加越差?这篇论文的主角 —— T-Rex 怎么解决这个问题?以及,T-Rex 离真正有用还差多远?

加了触觉,怎么反而更笨了?

先说现状。

当前具身智能领域的主流基础模型范式是 VLA,即Vision-Language-Action,视觉-语言-动作模型。

简单来说,这类模型把视觉感知(看懂环境)、语言理解(听懂指令)、动作生成(输出机器人可执行的控制信号)三类能力整合在一个大模型里,目标是让机器人像人类一样看懂场景、听懂指令、自主完成操作任务。

它们有一个共同特点:活在一个能"看"但很难"摸"的世界里。这会影响机器人执行精细的操作任务。

好比说,执行拿杯子、推箱子、把物品从 A 点搬到 B 点这类大动作,纯视觉反馈还能用。但如果遇到需要接触力控制的任务,就抓瞎了。

像擦盘子这个任务,如果力度太大会直接把盘子推飞,力度太小又擦不掉污渍;还有机器人翻书页,也必须精准感知纸张刚好翘起的临界点,稍用力就会一次翻好几页,力不够又根本掀不起纸;就连拿生鸡蛋这种小事,可能要么捏碎蛋壳,要么没拿稳掉下去。

于是一个想法很自然地产生了:给机器人加上触觉传感器不就行了?

T-Rex 团队做了这个实验。他们给 π0.5 接上了 22 自由度的 Sharpa Wave 多指灵巧手。这款灵巧手自带高分辨率触觉阵列,可以输出每个指尖的接触形变深度 + 6 维力 / 力矩信号。

结果令人震惊:不加触觉,π0.5 平均成功率 17%。加了触觉,跌到 6%。

也就是说,触觉信号没有帮上忙,反而成了噪音。

关于这个有些吊诡的现象,论文用三个原因做了解释。我翻译成大白话理解:

第一,视觉和触觉的 “刷新率” 天生不一样,硬塞在一起一定会打架。

T-Rex 团队指出,现有 VLA 处理视觉信息的频率大约是 5Hz,但触觉反馈需要在更快的、至少 20Hz 的频率中才能发挥作用。把一个 20Hz 的高频信号硬塞进只能跑 5Hz 的模型里,关键的接触瞬间全丢了,快速跳变的触觉数据也打乱了视觉模型的注意力,连原本能做对的视觉决策也难以做对。

另一个问题是,VLA 从预训练开始就 “没见过触觉”。一直在海量视觉、语言数据上中学习,弄明白的是“视觉 - 语言 - 动作”,突然塞一堆陌生的触觉信号,会造成干扰。

最后还有编码问题。现有的触觉编码器大多只处理单帧的静态触觉数据,相当于只拍了一张"触觉照片",但真正关键的接触信息藏在力随时间变化的动态过程里。像手指刚碰到物体、力度逐渐加大、开始发生滑动,这些时序变化被静态编码器直接丢掉了,模型拿到的只是残缺信息。

所以,问题的本质不是说触觉不应该加,是"现有的 VLA 在数据、架构和编码方式上都还没准备好接入触觉。"

这是 T-Rex 这篇论文真正要解决的事。

T-Rex 的"快与慢"

T-Rex 的解法是:将触觉作为一条独立的控制条件,最终确定动作该如何执行,而不是仅仅视为一种新模态的信号输入。

具体是怎么做的呢?

他们将机器人“大脑”分成了“慢”和“快”的三层:

第一层是潜在专家(Latent Expert)模块,它负责处理机器人接收到的视觉数据和语言指令,然后预测未来可能发生什么,为后续动作生成提供时间连贯的上下文信息。它给到的信息全程可复用,运行频率是 5Hz 左右,和现有 VLA 一样。

第二层是动作专家(Action Expert),同样也是以 5Hz 频率运行,在潜在专家处获取上下文之后,它负责粗粒度的动作规划,生成半成品动作,确定整段动作的大体走向,比如手去哪、怎么抓物体,不处理细微接触力调整。

第三层就到了快的部分,即 Tactile Expert 触觉专家,它以约 20 Hz的频率运行,作用是在接收动作专家(Action Expert)输出半完成的动作中间结果后,不重新跑视觉模型,直接根据触觉传感器的实时力、接触形变数据,做高频的动作残差修正,把半成品的动作 "补完" 成最终可执行的指令。

比如动作专家输出了 "收拢手指抓鸡蛋" 的中间动作,触觉专家会在抓的过程中每秒被调用超 20 次检测指尖的受力和形变,实时微调:再松一点、再紧一点、角度偏了往左调一点,刚好把鸡蛋捏住但不捏碎。

这就像一个公司的战略部和执行部分开办公。战略部每周开一次会定大方向,执行部每天盯现场做具体调整。

这套架构在论文里叫 MoT(Mixture-of-Transformer-Experts,混合 Transformer 专家)。

这里的关键设计巧思是,Tactile Expert 并不重新推理,它会复用前面 Latent Expert 和 Action Expert 已经算好的视觉、语言上下文和中间动作状态的缓存。这意味着,它不需要重新"看"一遍环境、重新"理解"一遍指令,只需要在已有的理解基础上,专注处理触觉增量。这是它能快速运转的核心原因。


*T-Rex的结构

然后是解决触觉的编码问题。

之前的一些 VLA 模型,要么不接触觉,要么把触觉信号当静态特征处理,相当于给接触状态拍了张 "触觉照片",只能看到某一瞬间哪里受力。

但 T-Rex 发现接触任务的关键信息不止在单帧里。翻一页纸的时候,核心信息不是某一刻手指压力多大,而是最近几十毫秒里力的变化过程 —— 先是接触纸面、然后纸张被顶起、再到开始滑动,这是一个连续的时序过程,不是一张静态快照能涵盖的。

所以 T-Rex 设计了一个时空触觉编码器,同时捕捉触觉力的时间变化,以及接触面形变的空间分布,相当于录了一小段触觉 "短视频",把每个手指的力变化压缩成紧凑的离散 token;最终的触觉 token 里同时包含空间信息(哪根手指、哪个位置在受力等)和时间信息(力度是在变大还是变小、有没有发生滑动等)。

最后是训练方式。

T-Rex 的训练分三步:第一步,用 22889 小时的人类第一人称视频做预训练,让模型先学会"看人怎么用手"。这完全不涉及触觉专家。

第二阶段,用 100 小时的真实机器人双臂遥操作数据做 "中训练"(mid-training),这些数据全部带同步的多视角画面、触觉信号、本体状态和语言标注,覆盖 22 种基础运动基元、200 多种日常物体,这一阶段加入了触觉专家,让模型学会把视觉理解和触觉信号对齐,练出触觉反应能力。

第三步,针对具体下游任务,只用约 100 条任务演示做轻量微调,就能快速适配特定任务。


*T-Rex团队采集了一套 100 小时的双手灵巧操作数据集:包含 200 多种日常物品、22 类基础手部动作,覆盖各式各样需要接触受力的操作行为。 每一条操作轨迹都同步记录五类数据:彩色摄像头画面、指尖触觉传感数据、机器人自身关节状态、机器人执行动作、配套语言指令。

这套设计里,2 万多小时的人类第一视角数据是公开的大规模操作数据集,获取成本低。真正采集成本高、需要机器人真机带触觉采集的数据是 100 小时。相当于用低成本的通用数据打地基,用高价值的触觉数据做专项对齐,最后用极少量任务数据做适配,把触觉 VLA 的训练成本拉到了可落地的水平。

65%:很强,但每三次还是有一次失败

那么,做了这么多的工作之后,T-Rex 效果怎么样?

这次 T-Rex 在 12 项真实世界触觉交互任务完成了实测,整套硬件采用 Dexmate Vega-1 固定底座双臂机器人,单臂 7 自由度,搭配两台 Sharpa Wave 22 自由度灵巧手;机器人指尖搭载厂商自研触觉模块,可同步输出 6 轴力矢量 + 指尖形变图。

这 12 项任务覆盖力敏感(转移鸡蛋、挤牙膏、药剂装填、酸碱中和滴管操作)、形变感知(翻书页、擦盘子、分叠纸杯、抽卡片)、双手协同(分拣麻将、开锁、发扑克牌、拧灯泡)三大类。

数据显示,T-Rex 全任务平均成功率 65%。其他模型的数据相对就低了很多,ViTacFormer 是3%、RDP 为6%、Tactile-VLA 达到了15%、π0.5 为17%、π0.5+tactile只有 6%,最高的是英伟达面向灵巧手训练模型 EgoScale,达到了35%。


这个成绩在学术界已经是碾压级的了,但 65% 这个数字反过来看也很诚实:每三次操作,有一次会失败。

论文自己也做了失败分析。机器人发生的典型故障包括:物体碰撞、抓取滑脱、定位偏差、多指误摩擦、用力过大、滑动错位。

像抓取不准、整体轨迹跑偏这类大范围空间误差,根源都出自 Action Expert 低频视觉规划环节,触觉专家只能做指尖小幅实时微调,没办法修正手臂全局定位偏差,因此只能缓解这类问题,无法从根本解决。

另外,如果要真推广开这份工作,还有一个难题是工业落地可用。

T-Rex 用的硬件平台,有两只 Sharpa Wave 灵巧手,加两条机械臂,加摄像头、操作系统和算力,全套大约 15 万到 20 万美元(约 108 万到 144 万人民币)。这个价格还是有门槛的。

好的方面是,T- Rex 100小时的触觉同步数据集,全部是人类遥操作采集的。 每小时的采集成本(操作员工资 + 设备损耗 + 质量筛选)不便宜,但论文开源了部分数据集,后续如果团队要做自己的任务,可以参考。

T- Rex 这份工作,和现在的产业热点结合很深。

触觉传感器正在成为灵巧手的标配,各个触觉厂商也都在出货。国内外触觉传感器、灵巧手厂商都在加速出货,整个触觉具身赛道肉眼可见地在升温。

但 T-Rex 这篇论文相当于给行业提了个醒:买了触觉传感器,不等于机器人就会用触觉,还需要匹配对应的模型架构、训练范式和推理机制,才能真正让触觉发挥作用,而不是变成干扰模型的噪音。

这个具身的新方向,刚刚开了个头。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三连胜全是假象!死里逃生的这一刻,阿根廷的世界杯才算真正开始

三连胜全是假象!死里逃生的这一刻,阿根廷的世界杯才算真正开始

桑启红原
2026-07-05 07:26:02
触碰中方红线!乌克兰大肆输出无人机技术,玩火必将付出代价

触碰中方红线!乌克兰大肆输出无人机技术,玩火必将付出代价

果妈聊娱乐
2026-07-04 21:57:01
曝郭宇欣给合作男演员挨个打分!短剧女王徐艺真喊话告诫郭宇欣

曝郭宇欣给合作男演员挨个打分!短剧女王徐艺真喊话告诫郭宇欣

露珠聊影视
2026-07-05 16:21:13
这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

这很科学:89%的人幻想过同时和多人发生性行为,算精神出轨吗?

宇宙时空
2026-05-26 18:20:10
诺兰《奥德赛》预告差评创生涯纪录!美式口音太出戏

诺兰《奥德赛》预告差评创生涯纪录!美式口音太出戏

可乐谈情感
2026-07-04 18:12:59
宁可抹掉所有国旗,也不肯承认台湾是中国的一部分?布拉格戏真多

宁可抹掉所有国旗,也不肯承认台湾是中国的一部分?布拉格戏真多

戗词夺理
2026-07-04 21:34:58
教育大变革来了!国务院统一调整十二年基础教育,利好千家万户

教育大变革来了!国务院统一调整十二年基础教育,利好千家万户

辉哥说动漫
2026-07-05 20:38:45
夫妻俩备孕一年没怀上来看诊,检查一切正常,医生一问吃的药,瞬间惊呆,男子:避孕药不是吃了必定能怀孕的药吗?

夫妻俩备孕一年没怀上来看诊,检查一切正常,医生一问吃的药,瞬间惊呆,男子:避孕药不是吃了必定能怀孕的药吗?

大爱三湘
2026-07-05 19:21:32
当代年轻人的择业观:进不了体制内,宁愿送外卖,也不到私企打工

当代年轻人的择业观:进不了体制内,宁愿送外卖,也不到私企打工

舒山有鹿
2026-07-03 10:45:36
六年前,LV也告过日本商家侵权!被日网民群嘲“快去碰瓷唐玄宗”

六年前,LV也告过日本商家侵权!被日网民群嘲“快去碰瓷唐玄宗”

这里是东京
2026-07-05 21:47:46
英特尔重启第13代和第14代酷睿处理器生产线以满足中国市场需要

英特尔重启第13代和第14代酷睿处理器生产线以满足中国市场需要

cnBeta.COM
2026-07-03 07:43:04
老哈梅国葬,当100多国面,伊朗对中方说的三句话,直击美以七寸

老哈梅国葬,当100多国面,伊朗对中方说的三句话,直击美以七寸

涵豆说娱
2026-07-05 11:59:57
演员黄政民戒酒后状态回春,网友:“完全是美少年”

演员黄政民戒酒后状态回春,网友:“完全是美少年”

韩小娱
2026-07-03 11:08:21
扎克伯格认输了,但真正该慌的是英伟达

扎克伯格认输了,但真正该慌的是英伟达

呼呼历史论
2026-07-05 15:13:59
华为周末扔了个王炸,芯片这盘棋,可能真要变天了

华为周末扔了个王炸,芯片这盘棋,可能真要变天了

前沿科技学习分享圈
2026-07-05 15:49:26
一家三口新疆自驾游母子遇山洪失联后续,目击者发声,本地人提醒

一家三口新疆自驾游母子遇山洪失联后续,目击者发声,本地人提醒

叹为观止易
2026-07-05 11:39:01
德媒:拜仁愿妥协与凯恩续约至2029年,此前只愿续约至2028

德媒:拜仁愿妥协与凯恩续约至2029年,此前只愿续约至2028

懂球帝
2026-07-05 11:48:07
生死战,中国男篮和中国台北男篮历史交手24次,23胜1负占据绝对优势

生死战,中国男篮和中国台北男篮历史交手24次,23胜1负占据绝对优势

懂球帝
2026-07-05 21:14:28
她是首位被枪决的女明星,曾红遍全国,临刑前大喊:这不公平!

她是首位被枪决的女明星,曾红遍全国,临刑前大喊:这不公平!

人生录
2026-07-01 17:04:10
保姆生下孩子,坚称孩子是60岁父亲的,亲子鉴定后,父亲当场气死

保姆生下孩子,坚称孩子是60岁父亲的,亲子鉴定后,父亲当场气死

不易一字
2025-03-19 17:49:40
2026-07-06 02:07:00
四木相对论 incentive-icons
四木相对论
唠唠科技,看看世界
157文章数 3关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

时尚
游戏
艺术
房产
旅游

3年赚46亿,杨幂喊出一个安徽富豪

《漫威争锋》美国队长性感皮肤遭修改 粉丝们生气了

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

旅游要闻

乾坤湾:天下黄河第一湾,三秦黄河文旅新标杆

无障碍浏览 进入关怀版