网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

π0.7发布，VLA押出了机器人的GPT-3时刻

2026-04-17 14:56:08　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号 QbitAI

今天凌晨，Physical Intelligence发布了全新的VLA模型π0.7，狠狠敲了世界模型一记闷棍。

π0.7第一次在机器人领域证明了Compositional Generalization（组合泛化），且VLA。

在遇到新任务时，模型可以组合以前学过的原子技能，自己拼出解法。

就像乔丹会跳投、会后仰，遇到新防守时自己琢磨出后仰跳投。

没人专门教他这一招，他自己组出来了。

Demo里最炸的两个：

任务泛化：机器人没见过空气炸锅，也能根据指令，组合机械臂动作把红薯烤出来。

本体泛化：把从一个机械臂学来的抓取策略，直接部署在另一台机械臂上。

更离谱的是，Physical Intelligence的研究员自己也说不清π0.7到底会什么。

他们还在探索边界，玩起来很有趣，到目前为止效果相当令人惊喜。

切黄瓜、削皮、倒垃圾、烤红薯……都能干

用Physical Intelligence的研究员Ashwin Balakrishna说：

我过去总能根据训练数据猜出模型能做什么。这一次,我猜不到了。

π0.7：具有涌现能力的可控模型

π0.7最核心的洞见只有一句话，多样化的数据需要多样化的prompt。但它带来的结果，远比这句话本身要深远得多。

用多样化的prompt，吃下多样化的数据

过去VLA训练只喂一句清理冰箱，模型得到的信号是单一的。π0.7把prompt展开成四层：

任务指令（清理厨房）+子任务指令（打开冰箱）+子目标图像（下一秒画面应该长什么样）+episode元数据（这条数据质量几分、有没有出错、速度多快）。

有了这些丰富的context，模型就能分得清训练数据里的好坏、快慢、对错。

然后它就能吃下以前吃不了的数据。失败的rollouts，低质量的演示，其他机器人的片段，人类的egocentric视频，全都变成有用的信号。

换句话说，多样数据本身不是问题，问题是模型不知道自己在学什么。

π0.7加的那层prompt，就是让模型知道“这段数据是什么质量、用什么策略做的”。

于是，具身领域第一次出现通才追平专才的涌现时刻。

通才追平专才

在转帖中，Physical Intelligence联合创始人Chelsea Finn说了一个很有意思的对比：

大语言模型的后训练，过去指的是针对下游任务做微调。一直以来，机器人也卡在这个阶段，想要最好的性能，就得针对具体任务微调。

π0.7改变了这一点：开箱即用，而且超过了fine-tuned的专家模型。

口说无凭，实验数据是这样的：

π0.7没做任何专项训练，就能在做咖啡、叠衣服、装箱三个复杂任务上，追平π0.6经过微调的的专家模型。

这里说的专家模型有两种，一种是π*0.6的RL specialist，用RECAP方法针对咖啡、装箱、叠衣服单独训过。

另一种是π0.6上的SFT specialist，针对每个任务单独微调过。

更离谱的是，在叠衣服装箱这两个最难的任务上，π0.7的比RL specialist单位时间完成的次数更多。

可以说，一个什么都没专门训过的通才，打过了专门为某个任务训出来的专才。而这也是PI一直坚定的方向之一。

组合泛化开始涌现

π0.7的涌现能力分成四块。

开箱即用的dexterity：做咖啡、叠衣服、剥蔬菜、削西葫芦、换垃圾袋。全部不做任务专项训练。

指令泛化：在4个没见过的厨房和2个没见过的卧室里，跟着3-6步开放指令干活。

甚至能听懂拿起那个最大盘子里的水果、拿起我用来喝汤的那个东西这种复杂空间和语义指代。

跨本体泛化：在叠T恤等任务中，训练数据里一条UR5e叠衣服的样本都没有。

π0.7不但做出来了，任务完成度85.6%，和10个平均375小时teleoperation经验的顶级人类操作员的90.9%基本打平。

而且π0.7自己琢磨出了和source robot完全不同的抓取策略——

人类操作员在源机器人上用倾斜夹爪贴住桌面抓，π0.7在UR5e上用的是垂直抓取，因为这更适合UR5e更长的手臂运动学。

组合任务泛化

用空气炸锅做红薯、烤贝果、按下按钮、用抹布擦耳机和尺子、拧旋钮和桌面风扇，训练数据里一条都没有。

这不是多做了几个任务的增量，是机器人第一次像LLM那样，从训练数据里涌现出新能力。

正如，Sergey Levine说的：

一旦模型越过那个阈值，从「只能做收集过数据的事」变成「开始重组出新事」，能力就会超线性地随数据增长。

数据过滤可能是个伪问题

论文里藏着一个非常反直觉的实验。

研究把叠衣服的数据按质量分四档：top30%、top50%、top80%、全部数据。

然后分别训两个版本的π0.7，一个加metadata（每条数据打上质量几分、有没有出错、多快完成的标签），一个不加。

结果很有意思。

不加metadata的版本，数据越多，性能越差——因为混入了低质量数据把模型带歪了。

加了metadata的版本，数据越多，性能越好——哪怕平均质量在下降。

这意味着整个具身领域过去几年都在做的“数据清洗”，可能是个伪问题。

只要模型知道每条数据的质量标签，它就能自己决定要学什么、不学什么。

垃圾数据不再是垃圾，是带着quality=1/5标签的有用信号。失败数据也不是要丢掉的东西，是告诉模型这么干会失败的反面教材。

过去所有人都在小心翼翼地挑演示、删失败、洗数据。π0.7说，别洗了，告诉模型哪些脏就行。

π0.7是怎么做到的？

π0.7是一个5B参数的模型，分三块。

VLM骨干：4B参数的Gemma3，负责理解视觉和语言。
Action expert：860M参数的transformer，用flow matching生成连续动作chunk，50Hz高频控制。
World model：从14B的BAGEL图像生成模型初始化，负责给π0.7画出未来几秒应该是什么样子。

在推理中，模型输入包括：4路摄像头（前视+两个腕部+可选后视）、每路6帧历史画面、机器人关节状态、再加上任务指令、子任务指令、元数据、以及world model实时画出的次目标图像。

输出是一段50步的action chunk，实际执行15到25步，然后再推下一段。

说到这里，可能有人会问，π0.7里塞了个world model，这算不算和世界模型派融合了？

半算，半不算。

世界模型派的核心是让模型学会模拟物理演化：给一个动作，预测世界变成什么样。policy基于这个预测做决策。

π0.7里的world model不干这事。它只负责一件事，把任务指令翻译成成功那一帧应该长啥样。不预测动作后果，不模拟物理，不参与决策链路。

它是个消歧器，不是个规划器。

用世界模型派的武器，干了一件不是世界模型派想象的事。

此外，π0.7还站在两篇前作的肩膀上，继承了π0.6的架构底子，以及MEM的多尺度记忆编码器（短期视频memory+长期语义memory）。

训练上用了Knowledge Insulation

VLM骨干用FAST token做next-token prediction训练，action expert的梯度不回传到VLM。这样VLM从互联网学来的语义知识被保护住，不被机器人动作数据污染。

但架构不是π0.7最重要的东西，论文中也说：

我们的贡献不是提出新的架构或模型设计，而是一套让VLA能使用更多样化数据源的方法论。

VLM可以直接控制机器人，不需要先学会想象世界

在π0.7之前，具身圈最火的还是英伟达去年用Cosmos带起来的世界模型风潮。

让机器人先学会想象未来，再去操作现在

这个路线看起来很符合直觉，人类不就是这么干的吗？闭上眼睛想一下要做什么，然后再动手。

从2025年到现在，这条路线收了最多的注意力和投入。

今天，风向又要变了——VLA回来了！

而说到VLA，压根没人比Physical Intelligence更懂。

2023年，PI联创Karol HausmanSergey LevineChelsea Finn三个人，在Google做RT-2的时候，就押注了一个判断。

VLM可以直接控制机器人，不需要先学会想象世界。

意思是，你不用让模型先学会预测下一帧画面、不用让它脑补物理规律、不用让它建立一个内部的世界模拟器。

你直接拿一个已经见过互联网的VLM，接一个动作头，端到端训，就够了。

从RT-2到π0.7，其实只有两代VLA架构。

第一代是RT-2，把机器人动作离散化成token，塞进VLM的next-token prediction里。

能动，但控制精度不高，而且自回归预测生成慢，跟不上50Hz的高频连续控制。

第二代是π0开的头，给VLM接一个专门的action expert，用flow matching直接生成连续动作chunk。

中间那些模型——π0.5的open-world generalization、π0.6的RL自我练习、MEM的多尺度记忆——

都没改这个基座。都是在VLM+action expert+flow matching这个结构上往上加能力。

π0.7也是。架构上它和π*0.6没有本质差别，它加的是prompt的多样性。

这就是为什么论文里说”我们的贡献不是架构”。

但，更有意思的是另一个人。

Lucy Shi，斯坦福博士生在读，师从Chelsea Finn，π0.7的核心作者之一。

她在推特上发了一条thread，讲了一个非常诚实的故事。

之前，她跟着朱玉可、Jim Fan在英伟达做世界模型。

她押的注和Karol他们相反——

世界模型会是关键的钥匙，会在任务泛化上显著超过标准VLA方法。

一开始，结果确实支持这个假设。她拿到了惊艳的组合泛化，机器人能遵循没见过的指令，做训练数据里没有的任务，从其他机器人和人类视频迁移。

但有个奇怪的事情发生了。

他们拿来对比的VLA基线，一直在变强。

随着数据越收越多，VLA越来越强，直到有一天，VLA基线也开始展示出组合泛化的信号。

而且，VLA的方法简单得多。

面对这一问题，Lucy感到无可奈何：

当你的基线吃掉了你的研究假设，你能怎么办？你写一篇论文，去搞清楚基线为什么这么强。

那篇论文，就是π0.7。

[1]https://www.pi.website/blog/pi07

[2]https://x.com/physical_int/status/2044841263254638862

[3]https://techcrunch.com/2026/04/16/physical-intelligence-a-hot-robotics-startup-says-its-new-robot-brain-can-figure-out-tasks-it-was-never-taught/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

索尼研发乒乓球机器人打败日本顶尖选手

每日经济新闻 2026-04-23 17:49:24
1578 跟贴 1578
机器人打包运输的正确方式

装甲铲史官 2026-02-22 10:41:15
19 跟贴 19

不同灵巧手，终于可以共用「一套大脑」了

机器之心Pro 2026-03-06 14:40:41
0 跟贴 0

最不像机器人的机器人，正在危险边缘改变世界

DeepTech深科技 2026-05-21 16:52:53
0 跟贴 0
亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0

大模型解剖图火了，30多个开源模型架构差异一目了然，还可接入AI

DeepTech深科技 2026-03-16 17:33:15
31 跟贴 31

OpenAI官宣：进军机器人赛道

财联社 2026-06-02 06:08:10
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0

朗极智能面向构建智能机器人系统发力2

36氪 2026-05-18 12:47:03
0 跟贴 0
VL-LN Bench：模拟「边走边问找具体目标」的真实导航场景

机器之心Pro 2026-02-02 17:10:55
0 跟贴 0
520，人类如何回应AI的告白

虎嗅APP 2026-05-20 20:04:19
0 跟贴 0
朱旻琦：具身智能用一天进化一天、聪明一天机器人普及核心痛点是需要二次开发和适配

财联社 2026-04-17 16:59:02
0 跟贴 0
人形机器人半马跑姿大赏，有的比人快多了！有的“状况百出”

每日经济新闻 2026-04-20 00:25:36
0 跟贴 0
新颖鳍足机器人，水陆两栖行动自如，适应各种地形

装甲铲史官 2025-12-25 10:58:04
0 跟贴 0
机器人半马成绩，超越人类纪录

财联社 2026-04-20 00:27:12
0 跟贴 0
万帧照片级仿真2

机器之心Pro 2026-05-07 17:57:19
0 跟贴 0
人形机器人新搭档来了！英伟达联手宇树科技推出新一代人形机器人

每日经济新闻 2026-06-02 06:06:00
0 跟贴 0
DataMaster：当AI开始成为自己的数据工程师

机器之心Pro 2026-06-02 14:51:10
0 跟贴 0
图灵奖得主Sutton新作：AI的下一步，是走向「生成认知」

机器之心Pro 2026-06-02 14:38:41
0 跟贴 0
黄仁勋、Marvell CEO同台对谈：未来AI拼的不是算力是连接，“能用铜就用铜，必须用光才用光”！

华尔街见闻官方 2026-06-02 15:37:33
0 跟贴 0
滴普科技赵杰辉：企业 AI 技术生态，正在被重构

钛媒体APP 2026-06-02 16:08:11
0 跟贴 0
GUI Agent记与学双修，长程任务有了专属记忆增强型自进化框架

机器之心Pro 2026-06-02 10:28:14
0 跟贴 0
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
MIT研究生用NotebookLM两天学完一学期课程

量子位 2026-03-22 10:50:49
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
博士生如何用龙虾做知识管理？欢迎围观！

量子位 2026-03-26 23:23:30
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
如何点亮小龙虾的牛马技能包?

量子位 2026-03-18 12:51:26
0 跟贴 0
陶哲轩：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟贴 0
王晓野：Working Agent将是下一个爆发点

量子位 2026-05-21 08:05:51
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
安心养虾！从OpenClaw 看云上AI安全落地路径

量子位 2026-04-18 19:55:39
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
百度沈抖自曝：老忘吃药，用AI做了个小程序

量子位 2026-03-27 11:25:23
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
这打戏真过瘾，这个武指动作设计的真棒

与乐説电影 2026-06-01 13:18:00
15 跟贴 15
机器人的“蓝海”，也许真的就在蓝海里！

科学火箭叔 2026-06-01 20:45:23
0 跟贴 0

聂卫平和邓小平打桥牌，却故意放水，邓小平说：你打牌可不是九段

聂卫平和邓小平打桥牌，却故意放水，邓小平说：你打牌可不是九段

雍亲王府

2026-06-02 14:25:08

阿迪达斯“在城里办事”文案已删除，回应“进城办事”T恤被网友催上架：目前还没有售卖，后续可关注门店

阿迪达斯“在城里办事”文案已删除，回应“进城办事”T恤被网友催上架：目前还没有售卖，后续可关注门店

19楼

2026-06-02 15:37:57

以军发动“规模最大”进攻，伊朗重申“所有战线”停火，黎以冲突“逼停”美伊和谈

以军发动“规模最大”进攻，伊朗重申“所有战线”停火，黎以冲突“逼停”美伊和谈

环球网资讯

2026-06-02 07:03:18

伊劳拉首签来了！利物浦砸 8700 万抢新马内完美接班萨拉赫

伊劳拉首签来了！利物浦砸 8700 万抢新马内完美接班萨拉赫

澜归序

2026-06-02 07:10:23

欧冠2连冠+身价1.1亿欧！21岁世界级中场横空出世，辅助C罗圆梦

欧冠2连冠+身价1.1亿欧！21岁世界级中场横空出世，辅助C罗圆梦

万花筒体育球球

2026-06-01 17:37:35

为什么往死里扫黄？网友分享太真实了，一次说透

为什么往死里扫黄？网友分享太真实了，一次说透

另子维爱读史

2026-05-27 20:16:03

饥荒饿死1/3人口、2.5万精英被处决：5月31日哈萨克在纪念什么

饥荒饿死1/3人口、2.5万精英被处决：5月31日哈萨克在纪念什么

卷史

2026-06-01 11:19:40

伊朗媒体新发布最高领袖穆杰塔巴·哈梅内伊照片

伊朗媒体新发布最高领袖穆杰塔巴·哈梅内伊照片

环球网资讯

2026-06-02 11:52:10

李晨郑恺，正式开除跑男

黎兜兜

2026-06-02 14:21:24

重磅！库里与中国品牌李宁签下10年合同：合作规格远超以往

重磅！库里与中国品牌李宁签下10年合同：合作规格远超以往

罗说NBA

2026-06-02 06:14:12

老婆出轨后，我去找对方老婆，谁料他老婆：给你套房，但有个条件

老婆出轨后，我去找对方老婆，谁料他老婆：给你套房，但有个条件

千秋文化

2026-05-29 19:56:40

正式官宣！SGA领衔，12名NBA球员入选，“梦之队”最强对手诞生

正式官宣！SGA领衔，12名NBA球员入选，“梦之队”最强对手诞生

兵哥篮球故事

2026-06-02 15:26:52

《007：初露锋芒》邦女郎幕后演员揭晓

《007：初露锋芒》邦女郎幕后演员揭晓

山月不知2

2026-06-02 06:33:27

土耳其站队了！正式向世界宣布：以色列若继续打加沙，会让他好看

土耳其站队了！正式向世界宣布：以色列若继续打加沙，会让他好看

傲傲讲历史

2026-05-31 09:18:17

“割四赔五”风波升级：多家派出所介入，网红出面也无力扭转局面

“割四赔五”风波升级：多家派出所介入，网红出面也无力扭转局面

北纬的咖啡豆

2026-06-01 19:33:09

代价拉满！记者曝四方大交易，火箭7换2，如愿得到杰伦·布朗

代价拉满！记者曝四方大交易，火箭7换2，如愿得到杰伦·布朗

体育见习官

2026-06-02 14:00:31

“鸟叔”被移送检方

澎湃新闻

2026-06-02 14:59:04

洋葱立大功！医生发现：洋葱或对3种慢性病有好处！可以常吃

洋葱立大功！医生发现：洋葱或对3种慢性病有好处！可以常吃

芹姐说生活

2026-05-25 14:19:45

湖人惊天方案！里夫斯+5首轮换鹈鹕3将+老鹰悍将

湖人惊天方案！里夫斯+5首轮换鹈鹕3将+老鹰悍将

甜份超标的我

2026-06-02 00:40:49

深圳“卷尺哥”：1000多次“找茬”之后

深圳“卷尺哥”：1000多次“找茬”之后

新京报

2026-06-02 08:01:43

追踪人工智能动态

12726文章数 176476关注度

往期回顾全部

科技要闻

烧掉千亿后，美团、阿里、京东谁先止血？

头条要闻

郑丽文正在访美称愿意与特朗普会面外交部表态

头条要闻

郑丽文正在访美称愿意与特朗普会面外交部表态

体育要闻

1米74的业余联赛替补，在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光深情热吻甜蜜

财经要闻

锂电“资源墙”高筑全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光又一款性能SUV要来了？

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

艺术

房产

家居

公开课

教育要闻

2026年6月山东教育考试月历来了

艺术要闻

周杰伦花 1.36 亿拍下这幅画

房产要闻

5200巨量投资曝光！未来五年，海南格局大变！

家居要闻

流线型轮廓包容多元身形

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版