网易首页 > 网易号 > 正文 申请入驻

从文字模型到世界模型!Meta新研究让AI Agent理解物理世界

0
分享至


新智元报道

编辑:Mindy

【新智元导读】Meta新发布的开放词汇体验问答(OpenEQA)基准,旨在衡量AI Agent对物理空间的理解能力,但目前AI Agent的水平还是无法与人类媲美。

LLM已经可以理解文本和图片了,也能够根据它们的历史知识回答各种问题,但它们或许对周围世界当前发生的事情一无所知。

现在LLMs也开始逐步学习理解3D物理空间,通过增强LLMs的「看到」世界的能力,人们可以开发新的应用,在更多场景去获取LLMs的帮助。

AI Agent,比如机器人或是智能眼镜,它们可以通过感知和理解环境来回答一些开放性问题,比如「我把钥匙放哪里了?」


这样的AI Agent需要利用视觉等感知模式来理解其周围环境,并能够用清晰的日常语言有效地与人交流。

这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。

这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。

Meta的新研究OpenEQA(Embodied Question Answering)框架,即开放词汇体验问答框架,为我们探索这个领域提供了新的可能。

EQA是什么?

EQA(Embodied Question Answering)是一种工具,用于检查AI Agent是否真正理解周围世界发生的事情。

毕竟,当我们想要确定一个人对概念的理解程度时,我们会问他们问题,并根据他们的答案形成评估。我们也可以对实体AI Agent做同样的事情。

比如下图的一些问题实例:


[物体识别]

问:椅子上的红色物体是什么?

答:一个背包

[属性识别]

问:在所有的椅子中,这把椅子的独特颜色是什么?

答:绿色

[空间理解]

问:这个房间可以容纳10个人吗?

答:可以

[物体状态识别]

问:塑料水瓶是开着的吗?

答:不是

[功能推理]

问:我可以用铅笔在什么东西上写?

答:纸

[世界知识]

问:最近有学生在这里吗?

答:有

[物体定位]

问:我的未喝完的星巴克饮料在哪里?

答:在靠前的白板旁边的桌子上

除此之外,EQA也更加有直接的应用。

比如,当你准备出门却找不到工卡时,就就可以问智能眼镜它在哪里。 而 AI Agent则 会通过 利用其情节记忆回答说徽章在餐桌上。


或者如果你在回家的路上饿了,就可以问家庭机器人是否还剩下水果。 根据其对环境的主动探索,它可能会回答说水果篮里有成熟的香蕉。


这些行为看上去很简单,毕竟LLMs在许多人认为具有挑战性的任务中表现出色,比如通过SAT或律师考试。

但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。

这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。

OpenEQA:面向AI Agent的全新基准

开放词汇体验问答(OpenEQA)框架是一个新的基准测试,通过向AI Agent提出开放词汇问题来衡量其对环境的理解。

该基准包含超过1600个非模板化的问题和答案对,这些问题和答案来自人类注释者,代表了真实世界的使用情况,并提供了180多个物理环境的视频和扫描指针。

OpenEQA包含两个任务:

(1)情节记忆EQA,在这个任务中,一个实体的AI Agent根据其对过去经历的回忆回答问题。

(2)主动EQA,在这个任务中,AI Agent必须在环境中采取行动来收集必要的信息并回答问题。

OpenEQA还配备了LLM-Match,这是一种用于评分开放词汇答案的自动评估指标。

下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。


现阶段VLM的表现

一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。

研究员使用OpenEQA来评估了几种最先进的VLM,发现即使是性能最好的模型(如GPT-4V达到48.5%),与人类的表现(85.9%)之间也存在着显著差距。


值得注意的是,对于需要空间理解的问题,即使是最好的VLM也几乎是「盲目」的,即它们的表现几乎不比仅文本模型更好。

例如,对于「我坐在客厅的沙发上看电视。我的身后是哪个房间?」这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。

这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。

这也说明,AI Agent在目前这个阶段,还达不到能完全理解物理世界的能力。

但气馁还为时过早,OpenEQA仅仅是第一个开放词汇的EQA基准。

通过OpenEQA将具有挑战性的开放词汇问题与以自然语言回答的能力结合起来,可以激发更多的研究,帮助AI理解并交流关于它所看到的世界的信息,也有助于研究人员跟踪多模态学习和场景理解的未来进展。

也不是没有可能,突然哪天AI Agent又给我们带来一个大惊喜呢?

参考资料:

https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
坪山一学校创意大赛获奖作品涉嫌抄袭?部门:已专项调查

坪山一学校创意大赛获奖作品涉嫌抄袭?部门:已专项调查

南方都市报
2024-04-30 21:24:32
退市名单持续增加,*ST同达、ST世贸“上榜”,小心这些股票已提前锁定

退市名单持续增加,*ST同达、ST世贸“上榜”,小心这些股票已提前锁定

界面新闻
2024-05-01 08:01:06
私人影院暗藏服务,大尺度被曝光,老板:亲嘴、摸胸都是学生妹

私人影院暗藏服务,大尺度被曝光,老板:亲嘴、摸胸都是学生妹

看晓天下事
2024-04-11 15:31:33
痛心!梅州高速塌方致19死,原因曝光,知情人发声,果然有情况!

痛心!梅州高速塌方致19死,原因曝光,知情人发声,果然有情况!

奇思妙想草叶君
2024-05-01 15:45:56
又发生追尾洒水车的严重交通事故,不是华为,车辆品牌不再是焦点

又发生追尾洒水车的严重交通事故,不是华为,车辆品牌不再是焦点

户外小阿隋
2024-05-01 14:10:45
乔治-卡尔反击JR:别担心老掘金了 要不有空一起去看看心理医生

乔治-卡尔反击JR:别担心老掘金了 要不有空一起去看看心理医生

直播吧
2024-05-01 01:28:21
下午三点离职5点通知整个部门涨薪,网友:你不走是不可能涨薪的

下午三点离职5点通知整个部门涨薪,网友:你不走是不可能涨薪的

时尚的弄潮
2024-05-01 15:03:54
破船结局已定,马科斯撕毁“君子协定”,中国没有理由继续隐忍

破船结局已定,马科斯撕毁“君子协定”,中国没有理由继续隐忍

娱乐白兔
2024-05-01 15:45:15
2比1险胜3号种子!23岁女网大满贯冠军归来,未来取代郑钦文?

2比1险胜3号种子!23岁女网大满贯冠军归来,未来取代郑钦文?

体坛知识分子
2024-05-01 06:20:03
秦岚,睡吧睡吧

秦岚,睡吧睡吧

阿芒娱乐说
2024-04-27 17:04:23
江苏一女子穿半透明装乘地铁,市民吐槽不雅观:就跟没穿一样

江苏一女子穿半透明装乘地铁,市民吐槽不雅观:就跟没穿一样

石辰搞笑日常
2024-04-30 23:34:57
一女子在直播间大言不惭说要找高富帅,网友的评论笑死人了

一女子在直播间大言不惭说要找高富帅,网友的评论笑死人了

户外阿崭
2024-05-01 15:54:45
老战友聚会,穿六五式军装的,绝对都是在网上买的

老战友聚会,穿六五式军装的,绝对都是在网上买的

军途
2024-04-30 17:41:56
安徽一女大学生拜访老师,因随口说出7个字,生命葬送在19岁

安徽一女大学生拜访老师,因随口说出7个字,生命葬送在19岁

佳琪Feeling
2024-04-29 20:57:05
换帅!4所在京高校迎来新校长

换帅!4所在京高校迎来新校长

现代教育报
2024-05-01 10:58:53
大结局要来了?两岸军舰迎面对峙,台军曝解放军暗号,反投降开始

大结局要来了?两岸军舰迎面对峙,台军曝解放军暗号,反投降开始

听风听你
2024-04-30 11:35:46
香港第一风水师陈朗,因助人改命受天谴,李嘉诚花费千万为他续命

香港第一风水师陈朗,因助人改命受天谴,李嘉诚花费千万为他续命

郁郁乎文
2024-04-28 16:03:28
再见克莱,再见乔治!4方交易方案出炉,火箭、勇士实现完美升级

再见克莱,再见乔治!4方交易方案出炉,火箭、勇士实现完美升级

毒舌NBA
2024-05-01 10:01:49
护士装,来一针吗~

护士装,来一针吗~

室内设计师阿喇
2024-05-01 09:37:19
这次,中国来真的了!

这次,中国来真的了!

星辰故事屋
2024-04-26 19:32:30
2024-05-01 16:52:49
新智元
新智元
AI产业主平台领航智能+时代
10980文章数 65461关注度
往期回顾 全部

科技要闻

余承东卸任华为终端CEO 新任命为董事长

头条要闻

梅大高速塌方伤者亲属:1家5口遇事故 3人失联1人进ICU

头条要闻

梅大高速塌方伤者亲属:1家5口遇事故 3人失联1人进ICU

体育要闻

"意甲最佳"金玟哉 踢回了中超水平...

娱乐要闻

黄子韬被曝求婚徐艺洋 大量亲密照曝光

财经要闻

俞敏洪,踏足A股!

汽车要闻

预售2.89-3.49万 奔腾小马正式开启预售

态度原创

时尚
亲子
教育
旅游
公开课

中年女人就要这么打扮自己!初夏准备好这4件单品,更显年轻

亲子要闻

老公晚上睡不着,于是把宝宝抱走

教育要闻

这样沟通,孩子才愿意听你的

旅游要闻

假期最受欢迎的小众目的地 会玩的人已经去了

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版