网易首页 > 网易号 > 正文 申请入驻

AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品

0
分享至

新智元报道

来源:学术头条

【新智元导读】具身智能最大的挑战在于泛化能力,即在陌生环境中正确完成任务。最近,Physical Intelligence推出全新的π0.5 VLA模型,通过异构任务协同训练实现了泛化,各种家务都能拿捏。

近年来,机器人取得了显著进展,能表演杂技、跳舞、听从指令,甚至完成叠衣服、擦桌子等复杂任务。但机器人面临的最大挑战并非灵活性,而是泛化能力——在新环境中正确完成任务的能力。

想象一个你家中的清洁机器人:每个家庭布局不同,物品摆放各异,机器人必须在多个层面上实现泛化。低层面上,它需学会如何抓起未曾见过的勺子或盘子;高层面上,它要理解任务语义,如衣服应放进洗衣篮、用何种工具擦拭溢出物。实现这种能力既依赖强大的操作技能,也需要常识理解,而现实中可用于训练的数据又极其有限,这进一步增加了困难。

即使近年来的机器人在灵巧性方面有所突破,往往也是基于特定场景和相似数据训练出来的。

因此,如果我们希望机器人成为我们日常生活的一部分,在我们的家中、杂货店、办公室、医院和其他“杂乱”的环境中工作,机器人就必须具备更加强大的泛化能力。

今天,美国具身智能公司 Physical Intelligence 推出了一个基于 π0 的视觉-语言-动作(VLA)模型 π0.5,其利用异构任务的协同训练来实现广泛的泛化,可以在全新的家中执行各种任务。

实验表明,这种知识迁移对于有效的泛化至关重要,而且他们首次证明,端到端学习型机器人系统可以在全新的家庭中执行长程灵巧操作技能,例如清洁厨房或卧室。

π0.5是如何工作的?

π0.5 背后的主要原理是异构数据的共同训练:通过在各种不同的数据源上训练 VLA 模型,不仅可以教它如何物理地执行不同的技能,还可以教它如何理解每项技能的语义背景,推断任务的高级结构,甚至从其他机器人转移物理行为。

协同训练的概念很简单:由于 VLA 源自通用的视觉语言模型(VLM),因此它们可以在包含动作、图像、文本和其他多模态标注(例如边界框)的任意组合的示例上进行训练。这包括通用的多模态任务,如图像字幕、视觉问答或物体检测;面向机器人的任务,如带有动作的机器人演示;以及“高级”机器人示例,这些示例由带有适当语义行为标记的观察结果组成。演示还包含“口头指令”,即一个人通过自然语言一步步指导机器人完成一项复杂任务。该模型既可以对下一步要执行的语义步骤进行高级推理(类似于思路链推理),也可以进行低级预测,以向机器人的关节输出运动指令。

图|π0.5 的协同训练任务示意图,其中包括来自多种不同机器人类型的各种机器人数据源,以及包括高级子任务指令、指示和网络数据在内的多模态数据。

虽然协同训练的基本原理并非新事物,但训练一个能够广泛泛化的 VLA 需要合理地组合协同训练任务。VLA 需要由多种协同训练任务组成的“课程”,以便在所有必要的抽象层次上实现泛化。在实验中,他们训练了 π0.5 模型的不同版本,这些版本排除了完整训练混合的不同部分,只留下使用在实验中使用的相同机器人收集的移动操作数据(约 400 小时)。

图|评估完整的 π0.5 训练混合与排除各种数据源的消减相比。网络数据(WD)在泛化到分布外对象方面的差异最大,而来自其他机器人(ME 和 CE)的数据在所有评估条件下都很重要。

他们评估了两种实验条件:全面清洁任务;以及分布外泛化(OOD)评估,要求机器人将提示中指示的特定物体移入抽屉。对于这两种评估,都测量了成功率和语言理解率。在所有情况下,来自其他机器人(ME 和 CE)的数据对策略性能产生了巨大影响。在 OOD 案例中,他们还发现与包含网络数据(WD)的策略性能存在差异,这提高了机器人正确识别数据中未包含的新物体类别的能力。

为了更好地量化 π0.5 能够实现的泛化程度,他们进行了一项扩展研究,其中改变了训练数据中不同环境的数量。他们还在比较中加入了基线模型,该模型使用所有其他数据源的数据外,还直接使用来自测试环境的数据进行训练。该模型(用水平绿线表示)可以直观地了解,如果消除了泛化到新环境的挑战,VLA 在该场景中的表现如何。

图|评估在与训练混合中的其他数据集共同训练时,性能如何随训练环境的数量而变化。当使用所有可用的训练环境时(图中最右边一点),π0.5(黄色)与直接在测试环境(绿色)中训练的基线模型性能相似。

这些结果不仅表明,π0.5 的泛化性能会随着训练集中不同环境数量的增加而稳步提升,而且仅仅经过大约 100 个训练环境,它的性能就接近了直接在测试环境中训练的基线模型。

训练和推理

π0.5 构建于 π0 VLA 基础之上,经过联合训练,能同时输出动作和文本标签,因此可在高层和低层控制机器人。在运行时,它先生成一个文本形式的“高级”动作,再细化为一组连续的低级关节动作(每组称为一个 50 步的“动作块”)来执行该动作。

这一流程延续了他们此前的 Hi Robot 系统思路,不同之处在于 π0.5 将高级决策与低级控制统一由同一模型完成,类似于“思维链”模式。

模型本身包含离散自回归 token 解码和通过流匹配进行的连续解码,例如 π0。离散解码路径用于推断高级动作,而连续流匹配路径用于推断低级运动命令。

图|π0.5 使用的高层/低层推理程序。该模型首先生成一个用语言表达的高级动作,基本上是“告诉自己”应该采取什么步骤来完成任务,然后利用其流程匹配动作专家来选择运动指令。

如果换个房子试试呢?

他们通过让 π0.5 控制机械手,在训练数据中从未见过的新房屋中完成清洁任务,以评估其泛化能力。对 VLA 来说,这是极具挑战的测试。尽管 VLA 曾展现出出色的泛化能力,如理解语义指令、与人互动、组合技能等,但这些能力多在与训练环境相似的场景中实现。

此前,他们的 π0-FAST 虽能通过 DROID 系统推广到新环境,但仅限于如移动物体等简单任务。而此次实验中,π0.5 被放入全新家庭,需完成收拾碗碟、整理床铺、清洁地板等复杂任务。这些任务不仅耗时,还要求机器人执行如用海绵擦拭等复杂动作,理解任务语义,并将其拆解为多个环节,每步都需与正确的物体互动。

最后,π0.5 模型可以接受不同粒度的语言命令,从“把盘子放进水槽”这样的高级提示,到指示模型拾取特定物体或朝特定方向移动的详细单个命令。他们在下方视频中展示了一些语言跟随的示例。

下一步:更泛化的物理智能

这项工作表明,VLA 能够实现出色的泛化能力,即便面对如清洁厨房或卧室这样复杂且多变的机器人任务,也能有效应对。π0.5 能够让机器人完成在训练数据中从未遇到过的新家庭环境的清洁任务。

尽管 π0.5 还不够完美,常在高级语义推理和动作执行指令方面出现错误,但研究人员希望,通过让机器人从多样的知识来源中学习,π0.5 能够帮助我们更接近实现广泛泛化、灵活应变的物理智能。

目前,这些机器人可以通过语言反馈进行改进;未来,它们还可能借助自主经验,在更少监督的情况下不断优化,或在不熟悉的情境中主动请求帮助和建议。尽管如此,在知识迁移、模型构建技术,以及数据来源的多样性等方面,仍有大量进步空间。

参考资料:

https://mp.weixin.qq.com/s/T3sufjvlfjW5oFtWhCf9-g

本文转自学术头条,若二次转载请联系原作者

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方接到日媒消息,日本已找上巴基斯坦,要跟中国主张打擂台

中方接到日媒消息,日本已找上巴基斯坦,要跟中国主张打擂台

健身狂人
2026-06-13 03:32:16
游泳者称长江重庆江津段现鳄鱼 相关部门回应进展:附近水域捕获一条鳄鱼,初步判定是暹罗鳄

游泳者称长江重庆江津段现鳄鱼 相关部门回应进展:附近水域捕获一条鳄鱼,初步判定是暹罗鳄

红星新闻
2026-06-13 13:39:11
“泥水父亲”还原考场接女儿经过,回应质疑:我只做好我自己

“泥水父亲”还原考场接女儿经过,回应质疑:我只做好我自己

极目新闻
2026-06-12 22:51:06
上海31岁男幼师溺水身亡,母亲发声:儿子不会主动去水边,事发前一日与园长谈话至午夜;当地教育局已介入

上海31岁男幼师溺水身亡,母亲发声:儿子不会主动去水边,事发前一日与园长谈话至午夜;当地教育局已介入

封面新闻
2026-06-13 00:54:35
成本10亿,票房20万,《四渡》面临巨额亏损,年度最惨电影要诞生

成本10亿,票房20万,《四渡》面临巨额亏损,年度最惨电影要诞生

影视高原说
2026-06-12 16:41:33
“男子发现学位证无效举报自己”,山东医药大学:展某某违反校规校纪,学校决定不授予学士学位,时任教务处负责人私自违规将学位证书借出

“男子发现学位证无效举报自己”,山东医药大学:展某某违反校规校纪,学校决定不授予学士学位,时任教务处负责人私自违规将学位证书借出

都市快报橙柿互动
2026-06-12 21:35:33
“失联女友被送进一‘素质教育基地’,男子寻找时拍下教官殴打学员”?重庆南川通报:对涉事教官予田某以行政处罚

“失联女友被送进一‘素质教育基地’,男子寻找时拍下教官殴打学员”?重庆南川通报:对涉事教官予田某以行政处罚

环球网资讯
2026-06-13 13:01:19
恐怖!伊朗队在球场内训练,场外发现一具腐烂的尸体,生前被殴打

恐怖!伊朗队在球场内训练,场外发现一具腐烂的尸体,生前被殴打

风过乡
2026-06-13 07:16:09
全体起立!贾静雯高调官宣,50亿资产到手,豪门弃妇标签已摘下!

全体起立!贾静雯高调官宣,50亿资产到手,豪门弃妇标签已摘下!

一盅情怀
2026-06-13 06:59:53
嫌弃婴儿车挡道,男子活活摔死2岁女婴,不服死刑当庭叫嚣无罪

嫌弃婴儿车挡道,男子活活摔死2岁女婴,不服死刑当庭叫嚣无罪

易玄
2026-06-12 03:16:39
业内专家:限制中国投资者参与SpaceX上市毫无依据,更无道理!

业内专家:限制中国投资者参与SpaceX上市毫无依据,更无道理!

中国日报网
2026-06-13 10:17:03
恶臭!上海一别墅区传出高频尖叫,居民不堪其扰…

恶臭!上海一别墅区传出高频尖叫,居民不堪其扰…

看看新闻Knews
2026-06-12 22:37:03
“命运让我轰轰烈烈波荡起伏”,入学前查出肺癌晚期,湖南女孩毕业典礼发言感动全网

“命运让我轰轰烈烈波荡起伏”,入学前查出肺癌晚期,湖南女孩毕业典礼发言感动全网

潇湘晨报
2026-06-13 07:56:15
美国队是最强东道主?纽约出生、伦敦长大、英训美用,巴洛贡折射足球质变之道

美国队是最强东道主?纽约出生、伦敦长大、英训美用,巴洛贡折射足球质变之道

上观新闻
2026-06-13 11:13:43
央视曝光“套路养生馆”:在洗肠液中掺入酱油,让人误以为排出体内毒素

央视曝光“套路养生馆”:在洗肠液中掺入酱油,让人误以为排出体内毒素

齐鲁壹点
2026-06-12 14:39:36
中方宣布对菲制裁令,不到24小时,菲防长对华发声,态度很强硬

中方宣布对菲制裁令,不到24小时,菲防长对华发声,态度很强硬

李健政观察
2026-06-12 15:05:01
巨大争议!前国脚解说世界杯脱口而出 “咱们韩国队”,球迷炸了

巨大争议!前国脚解说世界杯脱口而出 “咱们韩国队”,球迷炸了

酷侃体坛
2026-06-13 12:30:16
美伊同时宣布"胜利",和平协议首次完成文本敲定,谈判终于出现实质进展

美伊同时宣布"胜利",和平协议首次完成文本敲定,谈判终于出现实质进展

上观新闻
2026-06-13 13:23:04
世界杯首次出现VAR介入后让“黄牌易主”:巴拉圭队球员假摔“陷害”对手险得手

世界杯首次出现VAR介入后让“黄牌易主”:巴拉圭队球员假摔“陷害”对手险得手

红星新闻
2026-06-13 11:23:06
贪官末日来了!中央反腐新规已落地,无论在职退休一律终身追责

贪官末日来了!中央反腐新规已落地,无论在职退休一律终身追责

细说职场
2026-06-13 12:04:14
2026-06-13 15:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15457文章数 66923关注度
往期回顾 全部

科技要闻

SpaceX上市首日破2万亿美元,马斯克再封神

头条要闻

专家:中国制裁外国防长及其亲属极为少见 是杀鸡儆猴

头条要闻

专家:中国制裁外国防长及其亲属极为少见 是杀鸡儆猴

体育要闻

东道主三战不败!美墨开门红加拿大零的突破

娱乐要闻

12年情怀碎一地!跑男接连翻车

财经要闻

梁文锋向左,杨植麟向右

汽车要闻

2026重庆车展 长城炮Hi4-T正式上市售14.98万起

态度原创

数码
教育
时尚
本地
军事航空

数码要闻

英特尔酷睿Ultra 7 251HX处理器现身PassMark

教育要闻

已知ABCDEF✖️F=999999,求ABCDEF各等于多少?

让女明星排队道歉,是内娱的耻辱

本地新闻

AK刘彰邂逅河北南大港湿地

军事要闻

伊外长披露伊美谅解备忘录草案部分内容

无障碍浏览 进入关怀版