网易首页 > 网易号 > 正文 申请入驻

远超 GPT-4o!Physical Intelligence 推出 Hi Robot,通过“自言自语”学会人类思维

0
分享至

机器人面对 真实环境中的复杂任务 时,如何做到不只是执行单个简单指令,而是也能 自主推理完成目标所需的多个步骤 ,进而像人类一样出色地完成任务呢?

对此,美国具身智能初创公司 Physical Intelligence 的答案是—— 让机器人学会以系统 2 思维进行思考。

美国著名心理学家 Daniel Kahneman 将人类解决问题的两种思维模式描述为“系统 1”(“System 1”)和“系统 2”(“System 2”)。系统 1 是直觉、本能且自动的;系统 2 则是深思熟虑和有意识的。 打个比方,当人类做一道新菜肴时,他们会查看食谱,准备食材,在做菜的过程中仔细思考每一个步骤。这时所用的思维模式就是系统 2 思维。但是,当某人第一百次做同一件事时,熟练到几乎不用思考,只需机械化地完成,所用的就是系统 1 思维模式。

昨日,Physical Intelligence 推出了“分层交互式机器人”(Hi Robot)系统,其能够将视觉-语言-行动(VLA)模型,如 π0 ,纳入一个分层推理过程。 π0 作为本能反应的“系统 1”可以执行熟练的任务,而一个高层次语义视觉-语言模型(VLM)则充当“系统 2”,通过“自言自语”来推理复杂任务和语言交互。这个系统 2 的高层次策略促使机器人能够将复杂任务拆解成中间步骤。

先来看一下官方给出的视频:

据介绍,这一高层次策略本身是一个 VLM,其使用与 π0 完全相同的 VLM 主干网,在训练后 可以处理复杂的提示、观察场景并将任务拆解成易于执行的小步骤, 将这些步骤(如“拿起一片全麦面包”)交给 π0 的 VLA 模型来执行,同时 结合实时的上下文反馈。

例如,如果它正在清理桌子,用户说“那不是垃圾”,模型会理解这是什么意思,将物体(“那”)与图像中机器人正在操作的物体关联起来,并正确理解隐含的指令(即,“那”不应该被放入垃圾桶,因此应该放到其他地方),从而再次将正确的中间步骤交给 π0 模型来执行。

图|高级策略处理来自底座和腕装摄像头的开放式指令和图像,生成低级语言指令。低级策略使用这些指令、图像和机器人状态来生成动作和可选的语言响应。

相关研究论文以“Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models”为题,已发表在预印本网站 arXiv 上。

论文链接:https://www.arxiv.org/abs/2502.19417

分层推理有何优势?

如果高层次的 Hi Robot 策略和低层次的 π0 模型都是基于相同的 VLM,那么为什么这种分层推理过程实际上具有优势呢?

就像语言模型在解决复杂问题时,如果被允许生成额外的文本来“思考”一样, Hi Robot 如果能够先将复杂的提示和反馈拆解成简单的步骤,然后再交给 π0 模型来执行,它就能更好地处理这些复杂的提示和反馈。 还有一个更为技术性的原因: Physical Intelligence 团队用来初始化 VLM 的网络规模预训练,可以训练模型生成文本答案,来回答那些涉及图像和文本上下文的提示和问题。 这就意味着,这类模型在开箱即用的状态下,已经非常擅长回答类似“在这张图片中,机器人接下来应该抓取哪个物体来清理桌子?”的问题。

因此,Hi Robot 能够更好地继承 VLM 在大规模网络预训练中积累的知识。这与你思考的方式非常相似:当你做那道新菜肴时,你可能是在思考从食谱、朋友告诉你的东西,或者从烹饪节目里学到的东西——这些都是你从其他来源获得的知识,而非亲身体验。

机器人学会“自言自语”

Physical Intelligence 团队表示,通过检查 Hi Robot 在面对复杂提示时的内部“思维”,他们可以了解到其系统是如何通过用户提示完成复杂任务的。

在这种情况下,π0 接受的训练就是简单地清理桌子,将所有垃圾丢进垃圾桶,把所有餐具放入垃圾箱。如果让 π0 自己去做,它会直接执行这个任务——你有过“自动驾驶”的经历,自己不知不觉地完成了一项熟练的任务,甚至忘记了自己原本想做什么。但在 Hi Robot 的控制下,π0 可以按照这种更复杂的提示进行调整,按照用户的命令,Hi Robot 会推理出应该提供给 π0 的修改版指令。 由于这些指令是以自然语言生成的,因此可以检查它们,并观察机器人是如何“自言自语”地执行任务的。

解读用户的上下文反馈是一个类似的问题,正如 Hi Robot 可以解析复杂的提示语一样,甚至 它在执行任务的过程中也能实时地纳入反馈。

用合成数据训练高层次策略

训练机器人跟随复杂、开放式的提示,不仅仅需要带有原子指令的演示数据。仅凭这些数据不太可能提供足够丰富的多步骤交互示例。为了弥补这一差距,Physical Intelligence 团队提出了合成标注数据集的方案—— 将机器人的观察结果和人类标注的技能与假设的提示和人类插话配对。 这种方法模拟了现实的交互,帮助模型学习如何解读和响应复杂的指令。

Physical Intelligence 团队对 Hi Robot 在实际任务中的表现进行了评估(如清理桌子、做三明治和购物),并与先前的方法进行了比较。结果表明,Hi Robot 在性能上优于 GPT-4o 和平面 VLA 策略。如下面的定量评估所示, Hi Robot 在指令跟随准确率上比 GPT-4o 高出 40%,表明它在对用户提示和实时观察的对齐方面有更强的能力。 此外,Hi Robot 在处理多阶段指令、适应实时修正和遵守约束条件方面优于平面 VLA 策略。



像人类一样推理

智能且灵活的机器人系统不仅需要执行灵巧的任务,还需要理解环境并推理复杂的多阶段问题。 从表面上看,Hi Robot 侧重于通过提示和反馈与用户互动,但这个系统的最终目标是赋予机器人类似于你在解决像做新食谱这样困难的问题时听到的“内心声音”。与人互动为我们提供了这一能力重要性的最生动例证,但它的意义远不止于此。

能够思考复杂问题并运用从大规模网络预训练中学到的知识的机器人将更加灵活,展现出显著更好的常识推理能力,且从长远来看,在开放世界环境中为我们提供更加自然的帮助。 它们将能够理解当有人在白板上写“请勿擦除”时的含义,知道如果一个人正在睡觉就不应该打扰,意识到脆弱物品应该小心处理。这些都是我们每天基于不仅是亲身体验,还有从他人处学到的东西所做的推理。

LLM 和 VLM 为我们提供了从互联网上学习这类知识的强大工具,但要将这些知识与机器人等物理系统无缝连接起来,却面临着巨大的技术挑战。Physical Intelligence 团队希望,Hi Robot 可以是朝这个方向迈出的重要的一步。

参考链接:https://www.pi.website/research/hirobot

整理:陈小宇

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

河南街头用头撞车事件,警方回应后续来了!评论区彻底炸锅

奇思妙想草叶君
2026-03-25 13:12:39
马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

马筱梅眼含泪水回应!买房真因不是自私,汪小菲第一次和张兰同队

潮鹿逐梦
2026-03-24 13:13:55
近期“热播剧”排个名:逐玉倒数,冬去春来第三,第一杀疯了!

近期“热播剧”排个名:逐玉倒数,冬去春来第三,第一杀疯了!

无处遁形
2026-03-26 07:18:10
公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

小怪吃美食
2026-03-24 17:29:52
京东外卖亏了466亿,但刘强东笑了

京东外卖亏了466亿,但刘强东笑了

新浪财经
2026-03-25 10:04:53
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

谛听骨语本尊
2026-03-25 16:26:02
谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

温读史
2026-03-26 10:41:06
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
72年毛主席会见叶剑英,提及邓小平回京,叶剑英:我只有一个要求

72年毛主席会见叶剑英,提及邓小平回京,叶剑英:我只有一个要求

大运河时空
2026-03-24 17:45:03
上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上海一男子每天3包烟,持续几十年!医生:全身没一根血管是好的

上观新闻
2026-03-24 13:32:07
全新塞纳实车曝光!2.4T混动+超250马力

全新塞纳实车曝光!2.4T混动+超250马力

沙雕小琳琳
2026-03-26 01:58:11
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
大气!火箭不敌森林狼,杜兰特主动揽责:罚球不中+6失误是主因

大气!火箭不敌森林狼,杜兰特主动揽责:罚球不中+6失误是主因

熊哥爱篮球
2026-03-26 19:58:46
人心不足蛇吞象!刘晓庆供外甥留学,买房买车,却被外甥造谣去世

人心不足蛇吞象!刘晓庆供外甥留学,买房买车,却被外甥造谣去世

悦君兮君不知
2026-03-26 19:16:21
詹姆斯愿降薪2000万!为留里夫斯+争冠布局41岁老詹主动让出顶薪

詹姆斯愿降薪2000万!为留里夫斯+争冠布局41岁老詹主动让出顶薪

阿晞体育
2026-03-25 13:01:56
我发现老天爷很公平:单位里那些不争不抢的老实人,真的吃亏是福

我发现老天爷很公平:单位里那些不争不抢的老实人,真的吃亏是福

风起见你
2026-02-23 19:09:41
他已任武汉市政府党组成员,安徽桐城人

他已任武汉市政府党组成员,安徽桐城人

文都桐网
2026-03-26 15:45:13
外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

中国网
2026-03-26 17:29:03
古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

古代用长枪最厉害的四大名将,赵子龙上榜,第一名恐怕无人能敌

铭记历史呀
2026-03-26 11:22:56
高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

安安说
2026-03-25 11:00:02
2026-03-26 20:15:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
亲子
家居
教育
公开课

艺术要闻

哪一座桥不是风景?

亲子要闻

这就是引导型老师的厉害吗?

家居要闻

傍海而居 静观蝴蝶海

教育要闻

2026人工智能时代下的教育课堂变革

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版