网易首页 > 网易号 > 正文 申请入驻

π0.7发布,VLA押出了机器人的GPT-3时刻

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

今天凌晨,Physical Intelligence发布了全新的VLA模型π0.7,狠狠敲了世界模型一记闷棍。

π0.7第一次在机器人领域证明了Compositional Generalization(组合泛化),且VLA。

在遇到新任务时,模型可以组合以前学过的原子技能,自己拼出解法。



就像乔丹会跳投、会后仰,遇到新防守时自己琢磨出后仰跳投。

没人专门教他这一招,他自己组出来了。

Demo里最炸的两个:

任务泛化:机器人没见过空气炸锅,也能根据指令,组合机械臂动作把红薯烤出来。

本体泛化:把从一个机械臂学来的抓取策略,直接部署在另一台机械臂上。

更离谱的是,Physical Intelligence的研究员自己也说不清π0.7到底会什么。

他们还在探索边界,玩起来很有趣,到目前为止效果相当令人惊喜。

切黄瓜、削皮、倒垃圾、烤红薯……都能干

用Physical Intelligence的研究员Ashwin Balakrishna说:

我过去总能根据训练数据猜出模型能做什么。这一次,我猜不到了。

π0.7:具有涌现能力的可控模型

π0.7最核心的洞见只有一句话,多样化的数据需要多样化的prompt。 但它带来的结果,远比这句话本身要深远得多。

用多样化的prompt,吃下多样化的数据

过去VLA训练只喂一句清理冰箱,模型得到的信号是单一的。π0.7把prompt展开成四层:



任务指令(清理厨房)+子任务指令(打开冰箱)+子目标图像(下一秒画面应该长什么样)+episode元数据(这条数据质量几分、有没有出错、速度多快)。

有了这些丰富的context,模型就能分得清训练数据里的好坏、快慢、对错。

然后它就能吃下以前吃不了的数据。失败的rollouts,低质量的演示,其他机器人的片段,人类的egocentric视频,全都变成有用的信号。

换句话说,多样数据本身不是问题,问题是模型不知道自己在学什么。

π0.7加的那层prompt,就是让模型知道“这段数据是什么质量、用什么策略做的”。

于是,具身领域第一次出现通才追平专才的涌现时刻。

通才追平专才

在转帖中,Physical Intelligence联合创始人Chelsea Finn说了一个很有意思的对比:

大语言模型的后训练,过去指的是针对下游任务做微调。一直以来,机器人也卡在这个阶段,想要最好的性能,就得针对具体任务微调。

π0.7改变了这一点:开箱即用,而且超过了fine-tuned的专家模型。



口说无凭,实验数据是这样的:

π0.7没做任何专项训练,就能在做咖啡、叠衣服、装箱三个复杂任务上,追平π0.6经过微调的的专家模型。



这里说的专家模型有两种,一种是π*0.6的RL specialist,用RECAP方法针对咖啡、装箱、叠衣服单独训过。

另一种是π0.6上的SFT specialist,针对每个任务单独微调过。

更离谱的是,在叠衣服装箱这两个最难的任务上,π0.7的比RL specialist单位时间完成的次数更多。

可以说,一个什么都没专门训过的通才,打过了专门为某个任务训出来的专才。而这也是PI一直坚定的方向之一。

组合泛化开始涌现

π0.7的涌现能力分成四块。

开箱即用的dexterity:做咖啡、叠衣服、剥蔬菜、削西葫芦、换垃圾袋。全部不做任务专项训练。

指令泛化:在4个没见过的厨房和2个没见过的卧室里,跟着3-6步开放指令干活。

甚至能听懂拿起那个最大盘子里的水果、拿起我用来喝汤的那个东西这种复杂空间和语义指代。

跨本体泛化:在叠T恤等任务中,训练数据里一条UR5e叠衣服的样本都没有。

π0.7不但做出来了,任务完成度85.6%,和10个平均375小时teleoperation经验的顶级人类操作员的90.9%基本打平。



而且π0.7自己琢磨出了和source robot完全不同的抓取策略——

人类操作员在源机器人上用倾斜夹爪贴住桌面抓,π0.7在UR5e上用的是垂直抓取,因为这更适合UR5e更长的手臂运动学。

组合任务泛化

用空气炸锅做红薯、烤贝果、按下按钮、用抹布擦耳机和尺子、拧旋钮和桌面风扇,训练数据里一条都没有。



这不是多做了几个任务的增量,是机器人第一次像LLM那样,从训练数据里涌现出新能力。

正如,Sergey Levine说的:

一旦模型越过那个阈值,从「只能做收集过数据的事」变成「开始重组出新事」,能力就会超线性地随数据增长。

数据过滤可能是个伪问题

论文里藏着一个非常反直觉的实验。



研究把叠衣服的数据按质量分四档:top30%、top50%、top80%、全部数据。

然后分别训两个版本的π0.7,一个加metadata(每条数据打上质量几分、有没有出错、多快完成的标签),一个不加。

结果很有意思。

不加metadata的版本,数据越多,性能越差——因为混入了低质量数据把模型带歪了。

加了metadata的版本,数据越多,性能越好——哪怕平均质量在下降。

这意味着整个具身领域过去几年都在做的“数据清洗”,可能是个伪问题。

只要模型知道每条数据的质量标签,它就能自己决定要学什么、不学什么。

垃圾数据不再是垃圾,是带着quality=1/5标签的有用信号。失败数据也不是要丢掉的东西,是告诉模型这么干会失败的反面教材。

过去所有人都在小心翼翼地挑演示、删失败、洗数据。π0.7说,别洗了,告诉模型哪些脏就行。

π0.7是怎么做到的?

π0.7是一个5B参数的模型,分三块。



  • VLM骨干:4B参数的Gemma3,负责理解视觉和语言。
  • Action expert:860M参数的transformer,用flow matching生成连续动作chunk,50Hz高频控制。
  • World model:从14B的BAGEL图像生成模型初始化,负责给π0.7画出未来几秒应该是什么样子。

在推理中,模型输入包括:4路摄像头(前视+两个腕部+可选后视)、每路6帧历史画面、机器人关节状态、再加上任务指令、子任务指令、元数据、以及world model实时画出的次目标图像。

输出是一段50步的action chunk,实际执行15到25步,然后再推下一段。

说到这里,可能有人会问,π0.7里塞了个world model,这算不算和世界模型派融合了?

半算,半不算。

世界模型派的核心是让模型学会模拟物理演化:给一个动作,预测世界变成什么样。policy基于这个预测做决策。

π0.7里的world model不干这事。它只负责一件事,把任务指令翻译成成功那一帧应该长啥样。不预测动作后果,不模拟物理,不参与决策链路。

它是个消歧器,不是个规划器。

用世界模型派的武器,干了一件不是世界模型派想象的事。



此外,π0.7还站在两篇前作的肩膀上,继承了π0.6的架构底子,以及MEM的多尺度记忆编码器(短期视频memory+长期语义memory)。

训练上用了Knowledge Insulation

VLM骨干用FAST token做next-token prediction训练,action expert的梯度不回传到VLM。这样VLM从互联网学来的语义知识被保护住,不被机器人动作数据污染。

但架构不是π0.7最重要的东西,论文中也说:

我们的贡献不是提出新的架构或模型设计,而是一套让VLA能使用更多样化数据源的方法论。

VLM可以直接控制机器人,不需要先学会想象世界

在π0.7之前,具身圈最火的还是英伟达去年用Cosmos带起来的世界模型风潮。

让机器人先学会想象未来,再去操作现在

这个路线看起来很符合直觉,人类不就是这么干的吗?闭上眼睛想一下要做什么,然后再动手。

从2025年到现在,这条路线收了最多的注意力和投入。

今天,风向又要变了——VLA回来了!



而说到VLA,压根没人比Physical Intelligence更懂。

2023年,PI联创Karol HausmanSergey LevineChelsea Finn三个人,在Google做RT-2的时候,就押注了一个判断。

VLM可以直接控制机器人,不需要先学会想象世界。

意思是,你不用让模型先学会预测下一帧画面、不用让它脑补物理规律、不用让它建立一个内部的世界模拟器。

你直接拿一个已经见过互联网的VLM,接一个动作头,端到端训,就够了。

从RT-2到π0.7,其实只有两代VLA架构。

第一代是RT-2,把机器人动作离散化成token,塞进VLM的next-token prediction里。

能动,但控制精度不高,而且自回归预测生成慢,跟不上50Hz的高频连续控制。



第二代是π0开的头,给VLM接一个专门的action expert,用flow matching直接生成连续动作chunk。



中间那些模型——π0.5的open-world generalization、π0.6的RL自我练习、MEM的多尺度记忆——

都没改这个基座。都是在VLM+action expert+flow matching这个结构上往上加能力。

π0.7也是。架构上它和π*0.6没有本质差别,它加的是prompt的多样性。

这就是为什么论文里说”我们的贡献不是架构”。

但,更有意思的是另一个人。

Lucy Shi,斯坦福博士生在读,师从Chelsea Finn,π0.7的核心作者之一。



她在推特上发了一条thread,讲了一个非常诚实的故事。



之前,她跟着朱玉可、Jim Fan在英伟达做世界模型。



她押的注和Karol他们相反——

世界模型会是关键的钥匙,会在任务泛化上显著超过标准VLA方法。

一开始,结果确实支持这个假设。她拿到了惊艳的组合泛化,机器人能遵循没见过的指令,做训练数据里没有的任务,从其他机器人和人类视频迁移。

但有个奇怪的事情发生了。

他们拿来对比的VLA基线,一直在变强。

随着数据越收越多,VLA越来越强,直到有一天,VLA基线也开始展示出组合泛化的信号。

而且,VLA的方法简单得多。

面对这一问题,Lucy感到无可奈何:

当你的基线吃掉了你的研究假设,你能怎么办?你写一篇论文,去搞清楚基线为什么这么强。

那篇论文,就是π0.7。

[1]https://www.pi.website/blog/pi07

[2]https://x.com/physical_int/status/2044841263254638862

[3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
聂卫平和邓小平打桥牌,却故意放水,邓小平说:你打牌可不是九段

聂卫平和邓小平打桥牌,却故意放水,邓小平说:你打牌可不是九段

雍亲王府
2026-06-02 14:25:08
阿迪达斯“在城里办事”文案已删除,回应“进城办事”T恤被网友催上架:目前还没有售卖,后续可关注门店

阿迪达斯“在城里办事”文案已删除,回应“进城办事”T恤被网友催上架:目前还没有售卖,后续可关注门店

19楼
2026-06-02 15:37:57
以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

以军发动“规模最大”进攻,伊朗重申“所有战线”停火,黎以冲突“逼停”美伊和谈

环球网资讯
2026-06-02 07:03:18
伊劳拉首签来了!利物浦砸 8700 万抢新马内 完美接班萨拉赫

伊劳拉首签来了!利物浦砸 8700 万抢新马内 完美接班萨拉赫

澜归序
2026-06-02 07:10:23
欧冠2连冠+身价1.1亿欧!21岁世界级中场横空出世,辅助C罗圆梦

欧冠2连冠+身价1.1亿欧!21岁世界级中场横空出世,辅助C罗圆梦

万花筒体育球球
2026-06-01 17:37:35
为什么往死里扫黄?网友分享太真实了,一次说透

为什么往死里扫黄?网友分享太真实了,一次说透

另子维爱读史
2026-05-27 20:16:03
饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

饥荒饿死1/3人口、2.5万精英被处决:5月31日哈萨克在纪念什么

卷史
2026-06-01 11:19:40
伊朗媒体新发布最高领袖穆杰塔巴·哈梅内伊照片

伊朗媒体新发布最高领袖穆杰塔巴·哈梅内伊照片

环球网资讯
2026-06-02 11:52:10
李晨郑恺,正式开除跑男

李晨郑恺,正式开除跑男

黎兜兜
2026-06-02 14:21:24
重磅!库里与中国品牌李宁签下10年合同:合作规格远超以往

重磅!库里与中国品牌李宁签下10年合同:合作规格远超以往

罗说NBA
2026-06-02 06:14:12
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
正式官宣!SGA领衔,12名NBA球员入选,“梦之队”最强对手诞生

正式官宣!SGA领衔,12名NBA球员入选,“梦之队”最强对手诞生

兵哥篮球故事
2026-06-02 15:26:52
《007:初露锋芒》邦女郎幕后演员揭晓

《007:初露锋芒》邦女郎幕后演员揭晓

山月不知2
2026-06-02 06:33:27
土耳其站队了!正式向世界宣布:以色列若继续打加沙,会让他好看

土耳其站队了!正式向世界宣布:以色列若继续打加沙,会让他好看

傲傲讲历史
2026-05-31 09:18:17
“割四赔五”风波升级:多家派出所介入,网红出面也无力扭转局面

“割四赔五”风波升级:多家派出所介入,网红出面也无力扭转局面

北纬的咖啡豆
2026-06-01 19:33:09
代价拉满!记者曝四方大交易,火箭7换2,如愿得到杰伦·布朗

代价拉满!记者曝四方大交易,火箭7换2,如愿得到杰伦·布朗

体育见习官
2026-06-02 14:00:31
“鸟叔”被移送检方

“鸟叔”被移送检方

澎湃新闻
2026-06-02 14:59:04
洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

洋葱立大功!医生发现:洋葱或对3种慢性病有好处!可以常吃

芹姐说生活
2026-05-25 14:19:45
湖人惊天方案!里夫斯+5首轮换鹈鹕3将+老鹰悍将

湖人惊天方案!里夫斯+5首轮换鹈鹕3将+老鹰悍将

甜份超标的我
2026-06-02 00:40:49
深圳“卷尺哥”:1000多次“找茬”之后

深圳“卷尺哥”:1000多次“找茬”之后

新京报
2026-06-02 08:01:43
2026-06-02 16:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12726文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

郑丽文正在访美称愿意与特朗普会面 外交部表态

头条要闻

郑丽文正在访美称愿意与特朗普会面 外交部表态

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
艺术
房产
家居
公开课

教育要闻

2026年6月山东教育考试月历来了

艺术要闻

周杰伦花 1.36 亿拍下这幅画

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

家居要闻

流线型轮廓 包容多元身形

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版