网易首页 > 网易号 > 正文 申请入驻

ICLR 2024 | 交互式AI新挑战!交互式物理推理

0
分享至

你是否还记得童年的三维弹球游戏?如果你想获得高分,就需要对球的轨迹快速做出预测,并在恰当的时机操纵弹杆,将球打到最有可能获得高分的区域。考虑到物理场景的复杂性和瞬息万变的球的运动,玩家需要能够根据物理状态做出实时的判断。专业玩家在这方面表现出了惊人的能力,创造了连续玩3个小时之久的记录。事实上,这种交互式的物理推理能力不仅存在于人类的能力范畴,乌鸦使用钩子从洞中勾出虫子、猩猩利用棍子扒取高处的食物等,都是交互式物理推理的体现。

让我们跟随这篇研究一起走进交互式物理推理的世界!



论文名称: I-PHYRE: Interactive Physical Reasoning 论文链接: https://arxiv.org/abs/2312.03009 网站链接: https://lishiqianhugh.github.io/IPHYRE/ 代码链接: https://github.com/lishiqianhugh/IPHYRE
一、前言

上述这些动物行为学现象也催生了一批AI中的研究,如通过推理重要物理量来让智能体学会判断堆叠物块的稳定性,让AI学会选择使用合适的工具和动作砸核桃[1]、通过决定工具类型和放置位置来完成一些虚拟物理游戏[2,3]。然而,这些研究都停留在单步的、基于静态场景的干预,如图1H所示,而未考虑在更长的动作序列上实施多步的、基于动态场景的实时干预,这种干预更加符合真实场景下的交互模式。

AI真正融入物理世界的标志,是能够对物理环境进行主动干预,而非仅仅是被动的观察。受到三维弹球游戏的启发,我们设计了一个新的交互式物理推理挑战I-PHYRE,其包含以下三个关键原则:

(1)直觉物理推理:一种粗略快速但有效的物理预测,而非对物理动态的精确模拟。

(2)多步干预:需要实施不止一步干预,干预的顺序很重要,每步干预都会对未来的动态运动和决策产生影响。

(3)实时干预:时机对于成功完成交互至关重要。

I-PHYRE由四类游戏组成,用于评估智能体学习和泛化交互式物理推理基本原则的能力。研究探索了三种规划策略,并考察了几种监督学习模型、强化学习智能体以及大模型在I-PHYRE上的零样本泛化能力。结果显示,现有学习算法与人类在交互物理推理能力上仍有显著差距,关于干预时间的精准把握是进一步提升之能力交互式物理推理能力的关键所在,强调了在这一领域需要进一步研究的必要性。

二、 I-PHYRE游戏挑战

I-PHYRE是一个物块消除任务。在一个重力场中,玩家需要在合适的时间消除特定的灰色物块来使得所有红球落入底线下方,I-PHYRE鼓励使用更快更少的步骤来达到任务目的,完成任务将获得1000分,每消除一个物块减去10分,每经过1s时间减去1分。I-PHYRE包含四类任务,包括用于训练的基本任务和三个额外的泛化测试任务(噪声任务、组合任务、多球任务),每类任务有10个游戏。这样的设计旨在评估智能体除了数据拟合外,是否能够真正理解交互式物推理中的三个关键原则,我们鼓励智能体跟少量典型场景做充分交互后习得可泛化的推理能力。具体来说,三个泛化分支旨在测试智能体的以下能力:

(i)在冗余噪声物体中辨识关键物理元素,以达到基本的直觉性物理推理

(ii)通过组合性为长序列推理制定策略,以适应多步干预的原则

(iii)遵守更为严格的干预时机,以进一步验证实时干预的特点。



I-PHYRE游戏挑战

在开始游戏之前,玩家可以根据静止的初始场景提前规划何时消除哪一个物块;当游戏进行时,玩家需要实时决定是否需要消除其中一个物块。在某些游戏场景中,物块消除的顺序和时间至关重要,错误的消除顺序和时间将会导致完全不一样的运动轨迹。

三、 三种规划方式

受人类启发,我们设计了以下三种规划方式来建模交互式物理推理,并在流行的强化学习框架中实现。

提前规划:智能体提前观察初始场景并做出该在什么时候消除哪个物块的全局策略,一旦策略确定,在游戏开始之后按照已经确定的策略执行动作。

在线规划:智能体可以不断地与环境交互,在每一个时间步都能决定下一步该消除哪个物块。

混合规划:智能体结合提前规划与在线规划,在观察到初始场景后提前做出该在什么时候消除哪个物块的全局策略,然后在后续每消除一个物块后都调整这个全局策略。

四、 现有AI算法的表现 4.1 RL模板内零样本泛化

模板内场景是指在原始场景中加上扰动形成的新场景。我们额外设计了10个从未见过的模板内游戏场景,这10个场景是在训练的基本场景中做物块的旋转和位置扰动形成的。得分显示,智能体不进行额外微调,能够以相似的表现泛化到这10个场景,说明智能体能够在相似的游戏模板内进行泛化,从而,我们将研究重点放到模板外的零样本泛化。


RL智能体在I-PHYRE模板内场景零样本泛化结果

4.2 RL模板外零样本泛化

模板外场景是指改变原始游戏场景中的物体组成和排布方式形成的全新场景,包括噪声场景、组合场景和多球场景。模板外场景中的策略会跟原始场景中的策略有较大不同,但背后的物理规律仍然适用。我们考察了多个目前主流的RL智能体使用三种规划方式在模板外场景中的零样本泛化能力。结果显示,虽然RL智能体能够在基本任务中学会如何完成任务,并且能够一定程度上泛化到噪声场景,但是在组合场景和多球场景仍存在明显不足。与人类结果相比,RL智能体的表现存在显著差距。


RL智能体在I-PHYRE模板外场景上的表现。上方虚线为人类结果。

我们进一步分析了目前RL智能体在I-PHYRE的各类任务上失败的原因,我们将失败原因分为错误的动作顺序和错误的动作时间两类。结果显示,在基本任务中,智能体均是因为动作时间错误导致了任务失败,在噪声任务和多球任务中,大部分是因为动作时间错误导致了失败,而在组合任务中,智能体大部分的失败来源是错误的动作顺序,这说明组合类任务更注重对于高层消除策略的规划能力,而其他任务对智能体时机的把握提出了较高要求。


R L智能体在I-PHYRE任务上失败的原 因分析

4.3 监督学习零样本泛化

除此之外,我们尝试让AI算法做任务成功与否的判断任务,我们基于单个物体、全局物体和图像的表达方式训练了三个监督学习模型,结果显示,基于物体的编码方式可以获得更高的判断准确率,这是因为这样的表征可以使得模型捕捉到精细的物体关系。基于图像的模型使用Vision Transformer来提取特征,但并没有获得显著成效。总的来讲,三种模型较难对于做出任务成功与否的判断,说明其缺失相应的物理推理能力。


监督学习模型对任务成功失败的判断准确率

4.4 GPT-4零样本推理

我们还测试了GPT-4在I-PHYRE任务上的零样本推理表现,由于GPT-4无法对时间进行精确的建模,所以只成功完成了个别对干预时机要求不高的几个游戏,而在大部分的游戏中均以失败告终。然而,大模型却能一定程度上给出大致的策略,如先消除哪个块,对球造成什么影响等,这也说明了目前大模型擅长的是高层的任务规划,而对于操作层面的低层执行还尚有欠缺。



GPT-4在I-PHYRE上的得分 五、总结

I-PHYRE的设计初衷是为了加快交互式AI智能体的发展,提升其在物理环境中的推理、规划和干预能力。目前的RL算法只做到了从状态到动作的映射,而并没有真正理解背后的物理规律,关于目前算法在I-PHYRE上的不足,我们提出要加强智能体对于物理的建模,包括物理模拟建模,物理启发式建模、物理常识建模。AI算法只有真正理解物理,才能够做出准确的预测以及及时有效的动作干预。我们相信,在虚拟游戏中研究交互式物理推理智能体,是智能体走向真实物理世界的开端。

六、 研究背后的故事

我们采访了论文第一作者人工智能研究院博士生李世乾同学,让我们跟随他走进顶会论文背后的故事。

Q:可以简单介绍一下这个项目的选题来源吗?

A:首先是我认为AI最终是希望构建一个具有类人能力的智能体。但是目前的AI智能体缺乏直觉物理的能力,这会限制它在某些日常生活场景或特殊的场景中完成一些任务。然后我看了很多心理学领域中关于直觉物理的文章,发现人类有很强的直觉物理能力,就算你没学过初高中物理也能适应这个物理环境。心理学对人类直觉物理能力的来源有两种假设,一种是天性,就是说人生下来就有一个非常强的物理引擎,能够模拟物理世界;还有一种就是经验,就是说你见多了你就会了。所以说我研究这个就是因为:第一人很强;第二我们想构建一个像人一样的AI,但是AI现在很弱,所以我们就得把这个问题提出来让AI社区去研究。

Q:那当时这个研究是你独自完成还是有个团队?

A:我们这个论文一共有四个作者,两个通讯作者分别是导师朱毅鑫老师和通院的导师张驰。这个工作主要是我和另一个同学完成,两个老师负责辅导。

Q:那你作为项目中的主要工作者承担了哪些工作呢?

A:把握整个的流程吧,包括最开始问题的定义,设计物理环境,写代码去搭一个这样的环境;就是设计一些方法,思考怎么建模这个问题,以及需要手动实现这些方法去测试;第三就是写论文投稿rebuttal等。

Q:你在这项研究的过程当中遇到最大的困难和挑战是什么?你是怎么面对或克服这些困难和挑战的?

A:我想想。其实这个论文是我从去年年初就开始做了,然后一直做到现在,中间经历了很多次修改。我之前从来没有做过这种dataset的任务,所以我就不太清楚如果想提出一个这样的dataset需要怎么样一个流程?当然在经历这次项目后我知道了,首先要说清楚问题,第二就是要测试一些已有的算法,但你的测试必须要足够详尽,并且不能仅仅测试一些算法,还要分析现在算法的一些缺陷,并提出一些改进的方案。我之前可能会忽略掉后面的这些东西,比如说我测试完算法就结束了,并没有做一些深入的分析。所以最大的困难可能就是我不知道该怎么去做这样的一个工作。然后中间也是经历了很多摸索,包括向两位导师去请教,然后跟各种同学讨论,不断完善这个工作。其实这个工作的第一版做得很粗糙,后面才逐渐完善。

Q:就是对于你来讲这个相当于一个全新的领域和工作模式,所以你一直在去尝试一些新的东西。那除了不熟悉之外,过程中有没有一些比较具体的困难?

A:当时去跑一些算法的时候,会遇到需要自己从头写的那些代码,写得很不顺利,遇到了各种各样性能上的问题。我当时困惑了很久,后来解决的方案就是向这个算法专业领域的人请教了一下,然后他们提供了一些比较好的现有的平台,我在这个平台上去实现这些算法就会快很多,性能也会好很多。

Q:在这个研究的过程当中,你的心路历程是怎样的?比如说你的想法或者心态有没有发生一些转变?

A:有,这个论文其实是被拒稿了两次,到第三次才接受。虽然我一开始就想到这个问题,还蛮有意义的,但是因为我不熟悉、不知道该怎么去实施它,在完成第一个初稿的时候很多东西都不完善,所以也受到了这个审稿人的一些质疑和批评,觉得这个工作不够完整。后来到第二版的时候,虽然我已经改了很多了,但还是会有人提出一些不同的意见,当然我也承认他们提的意见非常好,也都是我之前没有想到的问题,所以我就继续去修改它,补充了很多分析,也优化了很多算法方面的东西以及论文写作,所以到第三次的时候才能够被录用。

Q:那在做这项研究的过程当中你有没有什么印象深刻的事情或者是有趣的事情?

A:哦,我就是因为这个项目戴上的眼镜。我以前不戴眼镜,现在就是有一些散光,有轻微的近视,但是平时也可以不戴。这个可以说吗?

Q:可以,提醒广大科研人重视身体健康。

A:对对,我记得去年2月份过年的时候,我那个年也没过好,就是因为第一个投稿的时间就是过年那几天。我那几天虽然回家了,但是也一直在屋里,在电脑面前坐着一直在赶稿。因为家里没有学校办公环境好,只有一个劣质的显示屏,然后我就得使劲盯着它看,看得眼睛特别累,但是我又不得不看,因为我要赶稿。自从那以后好像眼睛就出现了一点儿问题,当时我还得了结膜炎,细菌感染,自从那以后就近视了,然后我就戴上眼镜了。

Q:现在确实大家的眼睛都不太好,我们其实也是每天看着电脑屏幕。而且有时候比如在教室里,上面有个灯,电脑屏幕一直反光,其实对眼睛也很不好。

A:对,光线很重要。我在家那个光线就不太好,因为卧室的灯光是适合睡觉的那种昏黄的灯光,大家还是要注意身体健康。我身边还有很多人是久坐腰酸背疼、腰间盘突出、背上长结节等等。

Q:经过了这些身体上的和知识上的困难,你最终很好地完成了这项工作。你认为这项研究的意义和价值是什么?他可能会产生怎样的影响?对后续的研究会有怎样的启发?

A:虽然这个研究做了一个比较简单的环境,但它提出了一些比较难且比较重要的挑战,所以我觉得它的意义就在于第一次把这个交互式物理推理的问题以一种比较标准和规范的形式提出来;而且能够提供一个比较好的接口,让之后的研究者能非常方便地用起来。这会极大地促进交互式AI或者是能够理解物理的具身AI的研究。虽然这是一个简单的虚拟环境,但是如果这个AI能够在里边去表现的很好,就可以把相同的能力泛化到一些真实的场景中,构造一些能够跟物理环境进行很好的交互的模式,并且它也是能够去受到人类的一些直觉物理的启发去做的。这样是比较高效的。

References

[1] Yixin Zhu, Yibiao Zhao, and Song Chun Zhu. Understanding tools: Task-oriented object modeling, learning and recognition. CVPR 2015.

[2] Bakhtin, Anton, et al. Phyre: A new benchmark for physical reasoning. NeurIPS 2019.

[3] Allen, Kelsey R., Kevin A. Smith, and Joshua B. Tenenbaum. Rapid trial-and-error learning with simulation supports flexible tool use and physical reasoning. PNAS 2020.

[4] Shiqian Li, Kewen Wu, Chi Zhang, Yixin Zhu. I-PHYRE: Interactive Physical Reasoning. ICLR 2024.

Illustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东队抵达沈阳!胡明轩有人送花 二飞无精打采 威姆斯忙签名

广东队抵达沈阳!胡明轩有人送花 二飞无精打采 威姆斯忙签名

胖子喷球
2024-04-29 18:45:26
按摩时,足浴技师问你“之前来过么?”可能在暗示你,别不当回事

按摩时,足浴技师问你“之前来过么?”可能在暗示你,别不当回事

毒舌混知所
2024-03-30 07:50:03
丈夫升为县长后有了新欢,抛弃我三年后,我的哥哥调来任市委书记

丈夫升为县长后有了新欢,抛弃我三年后,我的哥哥调来任市委书记

乔生桂
2024-04-15 09:21:03
低头认怂!梅西怒怼:你没拿金球 和我21年美洲杯无关 莱万服软

低头认怂!梅西怒怼:你没拿金球 和我21年美洲杯无关 莱万服软

成规体育
2024-04-29 15:40:02
马斯克访华效果不错,当天特斯拉禁令就被解除,但也付出不菲代价

马斯克访华效果不错,当天特斯拉禁令就被解除,但也付出不菲代价

阿珂谈汽车
2024-04-29 17:40:58
曼城有望再夺双冠王?瓜帅希望出售五名球员?

曼城有望再夺双冠王?瓜帅希望出售五名球员?

刺头体育
2024-04-29 22:19:57
岳母问女婿为什么带安全套,女婿:你女儿,都没有这样对我

岳母问女婿为什么带安全套,女婿:你女儿,都没有这样对我

贵州安美吖
2024-04-25 18:33:31
中方高层接受邀请,将连访欧洲三国,普京访华也确定,礼物已选好

中方高层接受邀请,将连访欧洲三国,普京访华也确定,礼物已选好

美食阿鳕
2024-04-30 01:06:28
啪啪打脸!俄罗斯征兵官员说漏嘴了:以目前兵力,我们无法应付

啪啪打脸!俄罗斯征兵官员说漏嘴了:以目前兵力,我们无法应付

娱宙观
2024-04-27 09:30:22
数千西方士兵被消灭,美国依然不敢参战

数千西方士兵被消灭,美国依然不敢参战

说娱指南
2024-03-05 11:50:04
多少婚姻,毁在“各过各的”

多少婚姻,毁在“各过各的”

十点读书
2024-04-23 19:56:47
一天十几次!56岁大爷毫不在意,老伴儿奔溃:有时候真受不了他!

一天十几次!56岁大爷毫不在意,老伴儿奔溃:有时候真受不了他!

39健康网
2024-04-28 19:50:03
旗帜鲜明地反对以色列! 反以是反战而非反犹! 别再傻傻分不清

旗帜鲜明地反对以色列! 反以是反战而非反犹! 别再傻傻分不清

周凯说科技
2023-12-03 07:20:32
毫无征兆!就在刚刚传来消息,福建舰航母在拖船簇拥下出港,这就准备海试了?

毫无征兆!就在刚刚传来消息,福建舰航母在拖船簇拥下出港,这就准备海试了?

笔墨V
2024-04-29 17:27:36
都还没用力,女朋友就喊疼!

都还没用力,女朋友就喊疼!

谷小姐说气血
2024-04-26 15:35:03
巴黎地铁偶遇李一桐,穿大衣的李一桐气质好绝,羡慕偶遇的路人!

巴黎地铁偶遇李一桐,穿大衣的李一桐气质好绝,羡慕偶遇的路人!

娱乐圈酸柠檬
2024-04-29 19:38:08
闪耀西班牙!中国足球小将张林峒!无解任意球破门!赛后C位

闪耀西班牙!中国足球小将张林峒!无解任意球破门!赛后C位

直播吧
2024-04-29 14:50:10
中国最美“臀后”宋昱欣,肉感曲线身材,与卡戴珊对比,谁更胜?

中国最美“臀后”宋昱欣,肉感曲线身材,与卡戴珊对比,谁更胜?

天保影视V3
2024-04-21 11:45:00
陕西高二女生操场生子,调查后发现,孩子父亲身份令人傻眼

陕西高二女生操场生子,调查后发现,孩子父亲身份令人傻眼

青丝人生
2023-11-30 18:09:24
大佬杨晓明被抓后,这3种人坐不住了……

大佬杨晓明被抓后,这3种人坐不住了……

听风听你
2024-04-29 16:16:02
2024-04-30 05:26:44
将门创投
将门创投
加速及投资技术驱动型初创企业
1761文章数 582关注度
往期回顾 全部

科技要闻

马斯克收获大礼,李彦宏梅开二度?

头条要闻

周鸿祎近10天里热搜不断 背后是360市值蒸发4000多亿

头条要闻

周鸿祎近10天里热搜不断 背后是360市值蒸发4000多亿

体育要闻

足球童话!执教16年,从业余联赛到德甲

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

建信人寿巨亏40亿 部分产品退保率93%

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

房产
时尚
本地
手机
教育

房产要闻

拆迁致富成过去式?广州旧改探索新出路

学会这一招,0成本get上镜脸

本地新闻

食味印象 | 潍坊:碳水脑袋的人间乐园

手机要闻

传三星因成本原因放弃在下一代旗舰机中采用更大的电池和更快的充电速度

教育要闻

安徽数学常考最值题,认真做都能做对,试试看

无障碍浏览 进入关怀版