网易首页 > 网易号 > 正文 申请入驻

CVPR 2024 | 从第一人称视角理解世界,多模态模型离我们还有多远?

0
分享至

目前很多评测工作探究视觉语言大模型在不同维度上的能力,但都忽视了真实世界中非常重要的一点:未来作为智能体或机器人的大脑,多模态模型应当具备从第一人称视角理解世界的能力。针对以上问题,清华大学提出了第一人称视角的视觉问答基准数据集——EgoThink,相关论文被人工智能顶级国际会议CVPR 2024录用。EgoThink数据集定义了在真实世界中从第一人称思考时所需的六种核心能力,并评估了十八个主流的视觉语言大模型的表现。评测结果显示,目前阶段的视觉语言大模型从第一人称视角进行思考的能力仍有显著欠缺,即使是GPT-4V模型在所有任务上的平均分也仅为65.5(满分100)。

论文标题: Can Vision-Language Models Think from a First-Person Perspective? 论文链接: https://arxiv.org/abs/2311.15596 项目主页: https://adacheng.github.io/EgoThink/ 代码链接: https://github.com/AdaCheng/EgoThink 数据集链接: https://huggingface.co/datasets/EgoThink/EgoThink

一、研究背景

近年来随着视觉语言大模型的不断发展,评测视觉语言大模型的优势与不足逐渐成为了非常重要的研究问题。目前已有的评测数据都是以物体为中心或者第三人称视角,对于模型在第一人称视角下的能力评测则有显著欠缺。第一人称视角是人与智能体观察和理解世界的方式,在与真实世界交互的过程中,人类会根据周边环境从很多维度进行思考,如图1所示。因此,该工作更关心视觉语言大模型作为智能体或机器人大脑的潜力,即包括从第一视角理解周围场景并进行思考的能力。

图1:EgoThink评测能力类别。

二、数据集构建

该论文提出了一个针对视觉语言大模型在第一人称视角下思考能力的较为完整的视觉问答评测数据集——EgoThink。该数据集共包含700条问答问题,总结了6个核心能力作为评测的维度,并进一步细分为12个维度,如图2所示。

EgoThink来源于Ego4D第一人称视频数据集的采样图片,为保证数据多样性,每条视频最多只采样出两张图片。数据集图片同样经过了严格的筛选,只留下了拥有较好质量和能明显体现第一人称视角思考的图片。该数据集采用人工标注,每种维度都包含至少50条详细标注的问答问题,并且数据来源于多个第一视角的不同现实场景。为确保数据标注质量,每组图片及标注数据都经过多轮人工检查,以保证图片清晰度和标注准确性。

图2:EgoThink任务类别与具体维度以及数据实例。

三、模型评测

评测方式

该论文选取GPT-4作为自动评估模型,用来评估模型输出与人工标注答案的相似度,并根据相似度进行打分,判断模型输出是否准确可靠。论文实验结果显示GPT-4模型与人工评估结果的Pearson相关系数为0.68,证实了GPT-4评估的可靠性。

评测结果

该论文选用了视觉语言大模型领域十八个有代表性的模型进行评测,较为全面地评测了视觉语言大模型领域第一人称视角下的思考能力。评测结果如下图所示:

表1:评测实验结果。

综上所述,尽管目前视觉语言大模型如今在多个评测榜单上达到较好的表现,但其在第一人称视角下的思考能力仍有很大的进步空间。实验结果表明,视觉语言大模型在第一人称视角的任务上表现较差,大多数任务的平均评测分数都仅在60分左右;只在预测和计划两个领域表现较好。此外,在所有模型中,GPT-4V目前仍然是在绝大多数场景下表现更好的模型,但仍离实际应用有较大的距离。

四、总结

该工作为考察多模态模型作为智能体或机器人大脑的潜力,提出了以第一人称为视角的视觉问答基准数据集——EgoThink。该数据集把模型的第一人称视角下的思考能力从六个维度进行拆解,并对每个能力维度进行了详尽的评测。评测结果显示,当前阶段的视觉语言大模型,包括GPT-4V,从第一人称视角进行思考的整体能力上还远未达到人类水平。

因此,随着基础模型的能力不断地提升,如何让多模态模型能像人类作为本体一样,从第三人称视角的观察到从第一人称视角去主动感知、理解、思考,从静态图片到动态环境探索,从简单评测基准到复杂真实任务,是迈向下一阶段通用人工智能的重要研究问题。

Illustration From IconScout By Delesign Graphics

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
怎么判断一个单位已经烂透了?网友:我公司全中,属实扎心

怎么判断一个单位已经烂透了?网友:我公司全中,属实扎心

另子维爱读史
2026-01-01 23:40:47
国家出手,网红王政源罚1500万,四五百人交钱进群血本无归

国家出手,网红王政源罚1500万,四五百人交钱进群血本无归

一盅情怀
2026-03-24 11:20:05
英超big6多久没拿冠军?曼联667天 阿森纳2060天 热刺快降级了

英超big6多久没拿冠军?曼联667天 阿森纳2060天 热刺快降级了

智道足球
2026-03-24 10:36:08
9场8负,无缘8强!可怕的不是郑钦文0-2出局 而是打不过萨巴伦卡

9场8负,无缘8强!可怕的不是郑钦文0-2出局 而是打不过萨巴伦卡

侃球熊弟
2026-03-24 06:54:31
涉嫌严重违纪违法,张国秀被查!

涉嫌严重违纪违法,张国秀被查!

中国基金报
2026-03-24 13:24:18
惨烈!纽约突发空难:加航客机降落撞上消防车,正副机长当场身亡,视频和录音曝光

惨烈!纽约突发空难:加航客机降落撞上消防车,正副机长当场身亡,视频和录音曝光

华人生活网
2026-03-24 03:22:25
邓世昌至死不知:掺沙子的炮弹没问题,真正要命的是另一批

邓世昌至死不知:掺沙子的炮弹没问题,真正要命的是另一批

情感大师级
2026-03-16 13:20:09
时隔5场再出战,杨瀚森打满最后9分钟,2中2得到4分3篮板

时隔5场再出战,杨瀚森打满最后9分钟,2中2得到4分3篮板

懂球帝
2026-03-24 12:42:58
杀疯了!俄称单日击落668架无人机,乌克兰公司进军美国被称妖股

杀疯了!俄称单日击落668架无人机,乌克兰公司进军美国被称妖股

史政先锋
2026-03-23 21:13:06
紫牛热点|女子在周大生门店买到“周大金”戒指,门店需要“假一赔三”吗?

紫牛热点|女子在周大生门店买到“周大金”戒指,门店需要“假一赔三”吗?

扬子晚报
2026-03-23 22:54:23
比亚迪A股一度涨超8%,总市值重回万亿,国内成品油将迎来再度上涨,新能源汽车将迎利好

比亚迪A股一度涨超8%,总市值重回万亿,国内成品油将迎来再度上涨,新能源汽车将迎利好

每日经济新闻
2026-03-23 17:09:48
以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

老马拉车莫少装
2026-03-01 21:19:35
山姆亲兄弟,火成了盒马“劲敌”

山姆亲兄弟,火成了盒马“劲敌”

DT商业观察
2026-03-24 11:57:03
10个让身体越来越好的秘诀,坚持做,肯定有效!

10个让身体越来越好的秘诀,坚持做,肯定有效!

运动健身号
2026-03-12 08:00:11
川普又怂了

川普又怂了

南海的波涛
2026-03-24 13:25:00
湖北30亩油菜被毁后续:农户接受赔偿,村支书回应惹争议

湖北30亩油菜被毁后续:农户接受赔偿,村支书回应惹争议

一盅情怀
2026-03-24 09:13:39
杜淳把4个亿砸进《逐玉》,2.6亿没给明星,全烧在你看不见的地方

杜淳把4个亿砸进《逐玉》,2.6亿没给明星,全烧在你看不见的地方

西楼知趣杂谈
2026-03-21 21:33:29
巨变正在发生:地球已进入有史以来最严重的能量失衡状态

巨变正在发生:地球已进入有史以来最严重的能量失衡状态

星空天文
2026-03-24 07:55:11
私生子传闻真相大白后,央视发文重锤,被逮捕的释永信这次没救了

私生子传闻真相大白后,央视发文重锤,被逮捕的释永信这次没救了

二大爷观世界
2026-03-24 13:12:26
如何看待伊朗的停战六条件?

如何看待伊朗的停战六条件?

寰宇大观察
2026-03-23 17:42:39
2026-03-24 13:59:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2321文章数 596关注度
往期回顾 全部

科技要闻

苹果WWDC26全球开发者大会官宣6月9日开幕

头条要闻

媒体:特朗普有些"着急"了 结束战争的意图非常强烈

头条要闻

媒体:特朗普有些"着急"了 结束战争的意图非常强烈

体育要闻

客场大胜+火箭输球,马刺提前锁定本赛季西南赛区冠军

娱乐要闻

林峰张馨月全家浙江游 岳母帮忙带女儿

财经要闻

很多人,都被黄金吓怕了!

汽车要闻

我行我素的豪华 全新一代雷克萨斯更犀利了

态度原创

亲子
本地
健康
公开课
军事航空

亲子要闻

孩子睡觉经常醒,重点关注这3个问题

本地新闻

春日吃花第一站——云南

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列媒体:美国计划于4月9日结束对伊朗战争

无障碍浏览 进入关怀版