网易首页 > 网易号 > 正文 申请入驻

手残党跪了,Pi 0.6机器人15分钟学会拧螺丝,能进厂边干边学了

0
分享至



编辑|张倩

都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。

刚刚,具身智能领域扛把子 Physical Intelligence 公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。





过去一年,我们看到,机器人已经能干不少粗略的活儿了,比如叠衣服、端盘子。但是,它们非常不擅长高精度的工作。比如「拿起螺丝刀」很容易,但「把螺丝刀严丝合缝地对准一颗极小的螺丝」却极难。而在真实的工厂环境中,这种对于精准、灵巧和速度的追求恰恰是最不能妥协的,也是体力劳动中最难的部分。



以前,如果想让机器人学会这种精细活,工程师得把机器人庞大的「主脑」(也就是处理所有信息的大模型)重新训练一遍,这不仅计算量巨大,而且慢得让人抓狂。

Physical Intelligence 想出了一个非常聪明的偷懒办法:不重新训练整个主脑,而是加一个专门负责精细动作的「外挂」——RL token。

靠着这个方法,机器人的进化速度极其惊人:每项任务中最精细的步骤速度提高到原来的 3 倍,这比人类远程操纵机器人干活儿还要快。

「从经验中不断进步」将是未来真实世界机器人大模型必备的核心能力。Physical Intelligence 表示,RLT 让他们的模型离「直接在岗位上边干边学」又近了一步。

怎么做到的?

Physical Intelligence 之前已经证明,通过一种名为 Recap 的方法,VLA 模型能够借助强化学习从经验中学习。不过,Recap 主要是为了解决长周期任务的大规模强化学习问题;而在实际应用中,我们往往更希望机器人能够利用几小时甚至几分钟的数据,快速攻克某项技能里特别困难的个别环节。

打个比方,如果一个机器人需要极其精准地用螺丝刀进行组装,我们完全可以只去微调「把螺丝刀对准螺丝」这一个具体动作。这可比把整个 VLA 大模型从头到尾微调一遍要快得多。这种精准针对性的自适应训练,甚至可以直接在机器人正式部署上岗时边干边学。

理想情况下,这种能力的进化应该直接在机器人的「大脑」里进行,并且能从每一次尝试中榨取最多的学习经验。但要在短短几小时内把整个庞大复杂的 VLA 模型端到端地训练一遍,不管是从算力还是从实操角度来看,都面临着巨大的挑战。

Physical Intelligence 的核心灵感是: 与其死磕大模型,不如让 VLA 变通一下,使其能配合一个极其小巧、可以实时更新的模型来进行强化学习微调。他们训练 VLA(Pi 0.6)输出一个「RL token」,它就像是 VLA 内部复杂思考过程的一份「极简摘要」。然后,他们把这个 RL token 当作输入,喂给那个能够进行实时强化学习训练的小模型。

这个 RL token 会被交给 Actor(负责输出动作)和 Critic(负责评估打分)网络使用。这两个网络采用了一种非常节省数据的 off-policy 强化学习方法进行训练。正因为 Actor 和 Critic 处理的是这种高度压缩的摘要信息,它们可以被设计成非常轻量级的神经网络,直接在机器人本体上进行训练,每秒能更新几百次。这种极高的响应速度,让强化学习能够在机器人每一次试错之后,立刻去调整和改进它的行为。



RLT 技术首先会对 VLA 进行改造:加入一个由编码器和解码器组成的 Transformer 结构。这个结构被训练去通过一个「信息瓶颈」来预测大模型的内部特征(embeddings),从而压缩出一个极简的表达方式,这就是他们所说的 RL token。这个 token 浓缩了当前的观察画面中,强化学习的 Actor 和 Critic 所需要的所有关键信息。这样一来,即便是极小的 Actor 和 Critic 网络,也能站在大模型丰富的内部理解之上,学会如何改进动作。



拿到了 RL token 后,研究者只需让机器人在现实中积攒几小时甚至几分钟的数据,就能通过在线强化学习来训练小型的 Actor 和 Critic 网络。为了让这个过程效率拉满,他们做了一些精心的设计:在线强化学习的 Actor 网络必须和 VLA 在相同的动作空间里工作,与 VLA 的先验行为保持一致,并且必须能从有限的真实世界数据里高效学习。

具体做法如下:

1. 预测「动作块」: 强化学习策略预测的是一连串的「动作块(action chunks)」,这与 VLA 习惯的动作结构保持一致,而不是去控制那些极其底层的单个细微操作。这让在线策略能够直接调整那些在任务中真正具有时间跨度的重要连贯动作。

2. 学会「修改」而非「推翻」:强化学习策略不是从零开始瞎摸索的。Actor 网络会先接收 VLA 预测出的动作作为输入,所以它学到的是如何「编辑修改」VLA 的动作,而不是全盘替换。研究者会把策略更新的方向限制在这个参考动作附近,这样当 VLA 原本的动作已经算靠谱时,机器人的探索就不会乱来;只有当 Critic 网络明确发现了更好的替代方案时,才会偏离原计划。

3. 防止「抄作业」:为了防止小模型在训练初期学会「偷懒」只知道照抄 VLA 的动作,他们还引入了「参考动作 dropout」机制,逼着 Actor 网络保持自己独立生成动作的能力。

4. 融入人类干预:最后,可以选择性地让人类直接介入强化学习的更新过程。当机器人卡壳或犯错时,人类的纠正动作会被直接折叠并反馈到训练中。

正是这些选择,让在线强化学习变成了一个可复用的「通用配方」。它不需要针对具体任务做专门的工程设计,就能直接挂载到预训练好的 VLA 模型上,去应对各种不同的任务。

攻克精细操作的「最后关键一毫米」

研究者在四项需要在关键时刻具备极高精度的挑战性任务上对 RLT 进行了测试:用电动螺丝刀将微小的 M3 螺丝拧入机械臂、系紧扎带、插入网线以及插入电源线。

在这些任务中,通用的基础模型通常能很好地完成大部分「粗略」动作,但任务最终的成功与否和速度快慢,往往取决于一个需要大量物理接触的关键阶段。在这个阶段,位置、角度哪怕差之毫厘,或者时机稍微不对,都会导致彻底失败。





拿拧螺丝来说,机器人必须在位置和旋转角度上都达到亚毫米级的精准度,才能让螺丝刀尖完美嵌入螺丝槽。要知道,螺丝刀尖距离机器人的「手」(抓取点)足足有 10 厘米远,哪怕手腕只偏了一丁点儿,误差到了刀尖上也会被无限放大。而且,从机器人自带的手腕摄像头视角看过去,这些细微的接触过程甚至都很难看清楚。



在这四个任务中,基础的 VLA 大模型在初期的表现都很棒(比如稳稳地拿起螺丝刀或扎带),但在最需要精度的阶段就会掉链子。RLT 技术就是专门为解决这个痛点设计的:研究者不再让它从头到尾重新学一遍整个任务,而是利用在线强化学习专门去攻克这些「硬骨头」环节。 实际测试表明,机器人仅仅利用 15 分钟的真实世界数据,就能优化每个动作里最难的部分

他们将 RLT 应用于这四项任务的关键阶段,评估了它在两种场景下的效果:一是短暂的关键插入动作(插线和插网线),二是时间跨度更长、变化更多的完整任务。

结果显示,在所有四项任务中,与基础模型相比,RLT 在速度和成功率上都迎来了突飞猛进。下面的图表展示了训练前后的性能对比,指标是「吞吐量」(即每 10 分钟内成功完成任务的次数)。



下面的进度曲线图展示了 RLT 在「插网线」任务上的吞吐量提升过程。整个训练总共花了 2 个小时,但真正包含机器人动作的数据只有 15 分钟,剩下的时间主要花在了机器复位重置和其他计算开销上。



令人惊叹的是,RLT 不仅仅比基础模型强,它在「插网线」任务上的执行速度,甚至超越了人类远程操作的速度!正如柱状图所示,由最终强化学习策略完成的测试中,有一半的速度比数据集中任何一次人类的示范操作都要快。



看来,机器人进厂打工的进度,比预想中要快。

参考链接:https://www.pi.website/research/rlt

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾参与抗议活动!伊朗摔跤冠军被绞刑处决,几天前刚满19岁

曾参与抗议活动!伊朗摔跤冠军被绞刑处决,几天前刚满19岁

全景体育V
2026-03-20 07:49:57
绝望!伊朗地下基地被炸塌,大批官兵活活闷死,最后时刻只剩哀歌

绝望!伊朗地下基地被炸塌,大批官兵活活闷死,最后时刻只剩哀歌

老马拉车莫少装
2026-03-20 21:06:13
 黄仁勋:年薪50万的工程师没用掉25万美元的token,我会极度恐慌

黄仁勋:年薪50万的工程师没用掉25万美元的token,我会极度恐慌

顶级大佬思维
2026-03-20 11:40:46
这跟不穿有啥区别?黄多多穿三点式比基尼,却被200斤闺蜜抢风头

这跟不穿有啥区别?黄多多穿三点式比基尼,却被200斤闺蜜抢风头

涵豆说娱
2026-03-20 10:34:12
闭门谈了一个半小时,连午饭都顾不上吃,特朗普与高市究竟聊了啥?

闭门谈了一个半小时,连午饭都顾不上吃,特朗普与高市究竟聊了啥?

上观新闻
2026-03-20 20:26:07
战火中的普通伊朗人:“最怕战争结束,他们还在”

战火中的普通伊朗人:“最怕战争结束,他们还在”

黔有虎
2026-03-20 14:36:30
含剧毒,无解药,这种东西不能吃,加热120也没用,已有人中招!

含剧毒,无解药,这种东西不能吃,加热120也没用,已有人中招!

离离言几许
2026-03-19 11:55:12
奥沙利文:我不认为目前有活着的人可以打破我的三大赛冠军数

奥沙利文:我不认为目前有活着的人可以打破我的三大赛冠军数

懂球帝
2026-03-20 16:23:36
雷克萨斯全新一代ES300h正式开启预售,30.88万元起

雷克萨斯全新一代ES300h正式开启预售,30.88万元起

凡兮说
2026-03-20 15:53:49
常州首富汪立平被留置,系千亿市值龙头恒立液压董事长

常州首富汪立平被留置,系千亿市值龙头恒立液压董事长

界面新闻
2026-03-20 19:58:40
别克至境 L7 焕新升级 系统级思维做舒适

别克至境 L7 焕新升级 系统级思维做舒适

MotorGogo
2026-03-20 22:15:40
千亿龙头公告实控人、董事长被留置,系常州首富

千亿龙头公告实控人、董事长被留置,系常州首富

第一财经资讯
2026-03-20 17:46:47
62岁傅艺伟罕见露面!儿子去世2年多,她一个人生活,状态超好

62岁傅艺伟罕见露面!儿子去世2年多,她一个人生活,状态超好

180视角
2026-03-20 13:29:39
邯郸三姐妹上坟被炸死后续!家属发声,怀疑有共犯,被死亡威胁

邯郸三姐妹上坟被炸死后续!家属发声,怀疑有共犯,被死亡威胁

180视角
2026-03-20 14:24:32
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
患高血压男子“抿了一口”啤酒后死亡,家属起诉同饮者等索赔上百万 法院判了

患高血压男子“抿了一口”啤酒后死亡,家属起诉同饮者等索赔上百万 法院判了

红星新闻
2026-03-20 17:16:52
民营企业家亿元资产转移之谜:受邀返乡投资,两次被刑拘,取保候审当天将亿元项目转给县政府

民营企业家亿元资产转移之谜:受邀返乡投资,两次被刑拘,取保候审当天将亿元项目转给县政府

大风新闻
2026-03-19 23:04:10
央媒点名批评!路虎车主被抓,受害者信息泄露,电话轰炸不敢出门

央媒点名批评!路虎车主被抓,受害者信息泄露,电话轰炸不敢出门

叶公子
2026-03-20 16:22:14
伊朗军方威胁要毁灭性打击美以“邪恶官员”

伊朗军方威胁要毁灭性打击美以“邪恶官员”

新华社
2026-03-20 22:06:05
少林寺住持释永信行贿的是谁?

少林寺住持释永信行贿的是谁?

不主流讲话
2026-03-20 18:43:11
2026-03-20 22:47:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12555文章数 142588关注度
往期回顾 全部

科技要闻

新SU7只涨4千!雷军:真怕交车慢挨骂

头条要闻

高市和特朗普会谈午饭都没吃 称就敏感话题进行"沟通"

头条要闻

高市和特朗普会谈午饭都没吃 称就敏感话题进行"沟通"

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

金融法草案向社会公开征求意见

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

房产
本地
教育
游戏
公开课

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

教育要闻

著名教育家顾明远:我主张十年义务教育,小学五年、初中三年、高中两年

韩媒反复验货《红沙》最终给8.3分 点评一针见血!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版