网易首页 > 网易号 > 正文 申请入驻

π0.7发布,VLA押出了机器人的GPT-3时刻

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

今天凌晨,Physical Intelligence发布了全新的VLA模型π0.7,狠狠敲了世界模型一记闷棍。

π0.7第一次在机器人领域证明了Compositional Generalization(组合泛化),且VLA。

在遇到新任务时,模型可以组合以前学过的原子技能,自己拼出解法。



就像乔丹会跳投、会后仰,遇到新防守时自己琢磨出后仰跳投。

没人专门教他这一招,他自己组出来了。

Demo里最炸的两个:

任务泛化:机器人没见过空气炸锅,也能根据指令,组合机械臂动作把红薯烤出来。

本体泛化:把从一个机械臂学来的抓取策略,直接部署在另一台机械臂上。

更离谱的是,Physical Intelligence的研究员自己也说不清π0.7到底会什么。

他们还在探索边界,玩起来很有趣,到目前为止效果相当令人惊喜。

切黄瓜、削皮、倒垃圾、烤红薯……都能干

用Physical Intelligence的研究员Ashwin Balakrishna说:

我过去总能根据训练数据猜出模型能做什么。这一次,我猜不到了。

π0.7:具有涌现能力的可控模型

π0.7最核心的洞见只有一句话,多样化的数据需要多样化的prompt。 但它带来的结果,远比这句话本身要深远得多。

用多样化的prompt,吃下多样化的数据

过去VLA训练只喂一句清理冰箱,模型得到的信号是单一的。π0.7把prompt展开成四层:



任务指令(清理厨房)+子任务指令(打开冰箱)+子目标图像(下一秒画面应该长什么样)+episode元数据(这条数据质量几分、有没有出错、速度多快)。

有了这些丰富的context,模型就能分得清训练数据里的好坏、快慢、对错。

然后它就能吃下以前吃不了的数据。失败的rollouts,低质量的演示,其他机器人的片段,人类的egocentric视频,全都变成有用的信号。

换句话说,多样数据本身不是问题,问题是模型不知道自己在学什么。

π0.7加的那层prompt,就是让模型知道“这段数据是什么质量、用什么策略做的”。

于是,具身领域第一次出现通才追平专才的涌现时刻。

通才追平专才

在转帖中,Physical Intelligence联合创始人Chelsea Finn说了一个很有意思的对比:

大语言模型的后训练,过去指的是针对下游任务做微调。一直以来,机器人也卡在这个阶段,想要最好的性能,就得针对具体任务微调。

π0.7改变了这一点:开箱即用,而且超过了fine-tuned的专家模型。



口说无凭,实验数据是这样的:

π0.7没做任何专项训练,就能在做咖啡、叠衣服、装箱三个复杂任务上,追平π0.6经过微调的的专家模型。



这里说的专家模型有两种,一种是π*0.6的RL specialist,用RECAP方法针对咖啡、装箱、叠衣服单独训过。

另一种是π0.6上的SFT specialist,针对每个任务单独微调过。

更离谱的是,在叠衣服装箱这两个最难的任务上,π0.7的比RL specialist单位时间完成的次数更多。

可以说,一个什么都没专门训过的通才,打过了专门为某个任务训出来的专才。而这也是PI一直坚定的方向之一。

组合泛化开始涌现

π0.7的涌现能力分成四块。

开箱即用的dexterity:做咖啡、叠衣服、剥蔬菜、削西葫芦、换垃圾袋。全部不做任务专项训练。

指令泛化:在4个没见过的厨房和2个没见过的卧室里,跟着3-6步开放指令干活。

甚至能听懂拿起那个最大盘子里的水果、拿起我用来喝汤的那个东西这种复杂空间和语义指代。

跨本体泛化:在叠T恤等任务中,训练数据里一条UR5e叠衣服的样本都没有。

π0.7不但做出来了,任务完成度85.6%,和10个平均375小时teleoperation经验的顶级人类操作员的90.9%基本打平。



而且π0.7自己琢磨出了和source robot完全不同的抓取策略——

人类操作员在源机器人上用倾斜夹爪贴住桌面抓,π0.7在UR5e上用的是垂直抓取,因为这更适合UR5e更长的手臂运动学。

组合任务泛化

用空气炸锅做红薯、烤贝果、按下按钮、用抹布擦耳机和尺子、拧旋钮和桌面风扇,训练数据里一条都没有。



这不是多做了几个任务的增量,是机器人第一次像LLM那样,从训练数据里涌现出新能力。

正如,Sergey Levine说的:

一旦模型越过那个阈值,从「只能做收集过数据的事」变成「开始重组出新事」,能力就会超线性地随数据增长。

数据过滤可能是个伪问题

论文里藏着一个非常反直觉的实验。



研究把叠衣服的数据按质量分四档:top30%、top50%、top80%、全部数据。

然后分别训两个版本的π0.7,一个加metadata(每条数据打上质量几分、有没有出错、多快完成的标签),一个不加。

结果很有意思。

不加metadata的版本,数据越多,性能越差——因为混入了低质量数据把模型带歪了。

加了metadata的版本,数据越多,性能越好——哪怕平均质量在下降。

这意味着整个具身领域过去几年都在做的“数据清洗”,可能是个伪问题。

只要模型知道每条数据的质量标签,它就能自己决定要学什么、不学什么。

垃圾数据不再是垃圾,是带着quality=1/5标签的有用信号。失败数据也不是要丢掉的东西,是告诉模型这么干会失败的反面教材。

过去所有人都在小心翼翼地挑演示、删失败、洗数据。π0.7说,别洗了,告诉模型哪些脏就行。

π0.7是怎么做到的?

π0.7是一个5B参数的模型,分三块。



  • VLM骨干:4B参数的Gemma3,负责理解视觉和语言。
  • Action expert:860M参数的transformer,用flow matching生成连续动作chunk,50Hz高频控制。
  • World model:从14B的BAGEL图像生成模型初始化,负责给π0.7画出未来几秒应该是什么样子。

在推理中,模型输入包括:4路摄像头(前视+两个腕部+可选后视)、每路6帧历史画面、机器人关节状态、再加上任务指令、子任务指令、元数据、以及world model实时画出的次目标图像。

输出是一段50步的action chunk,实际执行15到25步,然后再推下一段。

说到这里,可能有人会问,π0.7里塞了个world model,这算不算和世界模型派融合了?

半算,半不算。

世界模型派的核心是让模型学会模拟物理演化:给一个动作,预测世界变成什么样。policy基于这个预测做决策。

π0.7里的world model不干这事。它只负责一件事,把任务指令翻译成成功那一帧应该长啥样。不预测动作后果,不模拟物理,不参与决策链路。

它是个消歧器,不是个规划器。

用世界模型派的武器,干了一件不是世界模型派想象的事。



此外,π0.7还站在两篇前作的肩膀上,继承了π0.6的架构底子,以及MEM的多尺度记忆编码器(短期视频memory+长期语义memory)。

训练上用了Knowledge Insulation

VLM骨干用FAST token做next-token prediction训练,action expert的梯度不回传到VLM。这样VLM从互联网学来的语义知识被保护住,不被机器人动作数据污染。

但架构不是π0.7最重要的东西,论文中也说:

我们的贡献不是提出新的架构或模型设计,而是一套让VLA能使用更多样化数据源的方法论。

VLM可以直接控制机器人,不需要先学会想象世界

在π0.7之前,具身圈最火的还是英伟达去年用Cosmos带起来的世界模型风潮。

让机器人先学会想象未来,再去操作现在

这个路线看起来很符合直觉,人类不就是这么干的吗?闭上眼睛想一下要做什么,然后再动手。

从2025年到现在,这条路线收了最多的注意力和投入。

今天,风向又要变了——VLA回来了!



而说到VLA,压根没人比Physical Intelligence更懂。

2023年,PI联创Karol HausmanSergey LevineChelsea Finn三个人,在Google做RT-2的时候,就押注了一个判断。

VLM可以直接控制机器人,不需要先学会想象世界。

意思是,你不用让模型先学会预测下一帧画面、不用让它脑补物理规律、不用让它建立一个内部的世界模拟器。

你直接拿一个已经见过互联网的VLM,接一个动作头,端到端训,就够了。

从RT-2到π0.7,其实只有两代VLA架构。

第一代是RT-2,把机器人动作离散化成token,塞进VLM的next-token prediction里。

能动,但控制精度不高,而且自回归预测生成慢,跟不上50Hz的高频连续控制。



第二代是π0开的头,给VLM接一个专门的action expert,用flow matching直接生成连续动作chunk。



中间那些模型——π0.5的open-world generalization、π0.6的RL自我练习、MEM的多尺度记忆——

都没改这个基座。都是在VLM+action expert+flow matching这个结构上往上加能力。

π0.7也是。架构上它和π*0.6没有本质差别,它加的是prompt的多样性。

这就是为什么论文里说”我们的贡献不是架构”。

但,更有意思的是另一个人。

Lucy Shi,斯坦福博士生在读,师从Chelsea Finn,π0.7的核心作者之一。



她在推特上发了一条thread,讲了一个非常诚实的故事。



之前,她跟着朱玉可、Jim Fan在英伟达做世界模型。



她押的注和Karol他们相反——

世界模型会是关键的钥匙,会在任务泛化上显著超过标准VLA方法。

一开始,结果确实支持这个假设。她拿到了惊艳的组合泛化,机器人能遵循没见过的指令,做训练数据里没有的任务,从其他机器人和人类视频迁移。

但有个奇怪的事情发生了。

他们拿来对比的VLA基线,一直在变强。

随着数据越收越多,VLA越来越强,直到有一天,VLA基线也开始展示出组合泛化的信号。

而且,VLA的方法简单得多。

面对这一问题,Lucy感到无可奈何:

当你的基线吃掉了你的研究假设,你能怎么办?你写一篇论文,去搞清楚基线为什么这么强。

那篇论文,就是π0.7。

[1]https://www.pi.website/blog/pi07

[2]https://x.com/physical_int/status/2044841263254638862

[3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
他是香港最后一位全才,女儿自杀,自己患癌,人生苦难而传奇

他是香港最后一位全才,女儿自杀,自己患癌,人生苦难而传奇

笑饮孤鸿非
2026-04-17 18:05:55
毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

毕业生破1270万!2026下半年开始,大部分家庭将直面“4大难题”

复转这些年
2026-04-05 18:00:42
要同居了?太阳报:汉密尔顿和卡戴珊被拍到一起购买家居用品

要同居了?太阳报:汉密尔顿和卡戴珊被拍到一起购买家居用品

懂球帝
2026-04-17 14:04:19
悬疑剧《方圆八百米》首播,观众评价一针见血,剧情高级许凯惊喜

悬疑剧《方圆八百米》首播,观众评价一针见血,剧情高级许凯惊喜

娱君坠星河
2026-04-18 08:16:13
张雪峰身后的第一个春天,百万年轻人挤爆这个直播间

张雪峰身后的第一个春天,百万年轻人挤爆这个直播间

字母榜
2026-04-16 16:39:54
被逼着“绑上沙袋”,张雪这台摩托,到底动了谁的奶酪?

被逼着“绑上沙袋”,张雪这台摩托,到底动了谁的奶酪?

阿嵀体育评论
2026-04-18 07:33:28
好消息,一个接一个传来!

好消息,一个接一个传来!

梳子姐
2026-04-18 08:39:04
“预期25万起”变21.98万!零跑D19这一刀,让谁睡不着觉了?

“预期25万起”变21.98万!零跑D19这一刀,让谁睡不着觉了?

趣味萌宠的日常
2026-04-17 18:33:25
金·卡戴珊与汉密尔顿洛杉矶出街 松弛感穿搭尽显好身材

金·卡戴珊与汉密尔顿洛杉矶出街 松弛感穿搭尽显好身材

述家娱记
2026-04-16 16:49:48
24岁博主“徐平安”因黑色素瘤去世:妹妹白血病、妈妈胃癌相继离世,曾多次复盘确诊前被忽略的身体信号

24岁博主“徐平安”因黑色素瘤去世:妹妹白血病、妈妈胃癌相继离世,曾多次复盘确诊前被忽略的身体信号

极目新闻
2026-04-17 13:25:30
吴彦祖女儿高调亮相,太漂亮了吧,恐怕是娱乐圈颜值最高的星二代了!

吴彦祖女儿高调亮相,太漂亮了吧,恐怕是娱乐圈颜值最高的星二代了!

手工制作阿歼
2026-04-17 09:52:59
刘浩存北影节雨中封神,抹胸长裙优雅灵动,温柔细节才是杀手锏

刘浩存北影节雨中封神,抹胸长裙优雅灵动,温柔细节才是杀手锏

草莓信箱
2026-04-18 08:54:50
第一太平戴维斯唐华:预计上海楼市拐点会在未来两个月出现

第一太平戴维斯唐华:预计上海楼市拐点会在未来两个月出现

国际金融报
2026-04-17 20:37:14
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
不靠票房不靠流量!张颂文稳坐北影节C位,凭的是实力

不靠票房不靠流量!张颂文稳坐北影节C位,凭的是实力

一禾的世界
2026-04-17 18:03:55
粟裕包围胡琏主力,毛主席急电:快撤,这是陷阱!粟裕大赞高明

粟裕包围胡琏主力,毛主席急电:快撤,这是陷阱!粟裕大赞高明

史之铭
2026-04-18 03:28:33
特朗普要带儿子访华,美企高管喊话全美:绝不能答应中国一件事!

特朗普要带儿子访华,美企高管喊话全美:绝不能答应中国一件事!

影孖看世界
2026-04-17 01:17:08
苹果官宣:iPhone 17 Pro 首发新功能正式推出!

苹果官宣:iPhone 17 Pro 首发新功能正式推出!

XCiOS俱乐部
2026-04-17 14:44:11
美记晒本赛季各大奖项评选:一阵4位国际球员!MVP和DPOY无悬念

美记晒本赛季各大奖项评选:一阵4位国际球员!MVP和DPOY无悬念

你的篮球频道
2026-04-17 10:10:57
丘成桐深圳演讲:我每次跟中央大领导谈话的时候,他们从来没有问过我这个问题

丘成桐深圳演讲:我每次跟中央大领导谈话的时候,他们从来没有问过我这个问题

深圳梦
2026-04-17 22:16:54
2026-04-18 09:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12488文章数 176454关注度
往期回顾 全部

科技要闻

7家头部平台被罚没35.97亿元

头条要闻

“张雪机车”夺超级杆位赛第二名

头条要闻

“张雪机车”夺超级杆位赛第二名

体育要闻

中超-泰山1-1海港 杨希处子球克雷桑任意球扳平

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

奇瑞威麟R08 PRO正式上市 售价14.48万元起

态度原创

健康
游戏
房产
教育
公开课

干细胞抗衰4大误区,90%的人都中招

魔兽世界:时光服突然变脸,先斩后奏上线时光徽章,意欲何为?

房产要闻

重磅利好!2500个学位,海口滨江片区,要建九年一贯制学校!

教育要闻

五育融合,到底“融”在哪里?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版