网易首页 > 网易号 > 正文 申请入驻

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

0
分享至

大家或许都有过这样的体验:

看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的探索欲望。那么,如果 AI 能自动看懂这些旅行视频,帮你解析出 “去了哪些地方”“顺序是怎样的”,甚至还能一键生成属于你的旅行计划,会不会很有趣?这不仅仅是阿宅的想象,更是多模态大模型在真实世界应用中的一个重要场景。

正是在这样的启发下,来自日本早稻田大学,CyberAgent 和奈良先端科学技术大学院大学的团队提出了一个全新的多模态大模型评估基准 VIR-Bench ,旨在评测 AI 是否真的能理解旅行视频中的地理位置与时间顺序,从而支撑更复杂、更实用的应用。用一句话来概括,这项研究就是在追问:“我从哪里来?我要到哪里去?”

  • 论文地址:https://www.arxiv.org/abs/2509.19002
  • GitHub:https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么?任务设计与数据集构建

任务目标:行程还原(Itinerary Reconstruction)

在 VIR-Bench 中,给定一个旅行 vlog(在日本拍摄),模型要输出访问顺序图(visiting order graph),也就是 “我去了哪些地点、按什么顺序、地点之间有哪些包含关系” 的结构化表示。

更具体地,这个访问顺序图是一个有向图,其中:

  • 节点表示被访问的地点,按层次分为 Prefecture,City,和 POI(Point of Interest)三层级。
  • 包含边(Inclusion edge) 表示层次上的 “大地理单元包含小地理单元” 关系(例如某 POI 在某个 City 里,某个 City 在某个 Prefecture 里)。
  • 转移边(Transition edge) 表示时间顺序上的移动:从一个节点移动到下一个节点(同层级)表示旅行顺序。

这意味着模型不仅要识别出 “我去过的地点”,还要判断这些地点之间的时间顺序,地理空间关系,进而构建出整个旅行路径的结构。此外,由于旅行视频往往是自拍视角 / 行进视角 / 风光视角等交错出现,模型需要在多样视角、非连续画面中“拼图式” 理解,这进一步提升了任务难度。

为便于模型训练与评测,作者将这一复杂任务拆解为两个子任务:

1. 节点预测:给定视频,模型列出所有被访问的 Prefecture、City、POI。

2. 边缘预测:给定视频 + 节点集合(节点标签顺序被打乱),模型要判断哪些节点之间存在包含边,哪些节点之间存在转移边。即预测边的集合。

通过这种分解方式,我们可以分别评估模型的地理识别能力与时序推理能力,以及它们在实际组合时的协同性。

数据集构建:200 个旅行视频 + 访问顺序图

为了支撑上述任务,作者构建了一个规模适中的专用数据集:

  • 视频数量:200 个旅行 vlog(都在日本拍摄) 。
  • 地点覆盖:共标注出 3,689 个 POI,分布在日本 43 个都道府县(几乎覆盖全日本) 。
  • 标注方式:每个视频由人工注释者识别每个 POI 的起止时间、Google Maps 链接,并通过双人校验后自动构建最终的访问顺序图。

作者在论文中还附上了详细注释指南、数据分布统计等信息(可见 Appendix 部分)。

实验结果与洞察:当前模型面临的挑战

在实验中,作者发现开源模型整体上仍然落后于商用模型,尤其是在 POI 节点识别 和 转移边预测 这两个子任务上差距尤为明显。进一步的分析显示,转移边预测几乎是所有模型的 “最难关”:不少模型要么直接误解了任务要求,要么忽视了层级结构的约束(只有同层级节点之间可以有转移边),结果往往接近随机水平。

另一方面,模型规模的扩展对性能提升具有显著作用,尤其体现在边缘预测上;而是否具备地理相关的预训练,则成为 POI 节点预测精度差异的关键因素。值得注意的是,思维链推理(Chain-of-Thought) 的效果在不同子任务中差别很大:在节点预测中提升有限,但在边缘预测中却能带来显著的改善。如果再进一步结合音频信息(例如 Gemini-2.5-Pro 的多模态输入),效果提升尤为突出。

Ablation 实验也为我们揭示了模型性能提升的几个关键方向:增加输入帧数可以让模型捕捉更完整的旅行线索,更长的推理过程能帮助模型逐步还原旅行顺序,而音频的利用则能提供额外的语义提示。三者结合,共同推动了模型在复杂时空理解任务上的进步。

然而,即便有这些改进,整体性能仍远未达到可用水平。即使是当前得分最高的 Gemini-2.5-Pro,在预测结果中依然存在大量错误,这进一步凸显了多模态大模型在长程地理与时间理解上的巨大挑战。

表1: 节点预测的评估结果

表2: 边缘预测的评估结果

总而言之,VIR-Bench 不仅是一个新的评测基准,更是为未来诸多应用打开了一扇窗口。通过在旅行视频中重建行程顺序,它逼迫模型同时理解 “地理位置 + 时间顺序”,这与机器人如何理解世界、规划路径,以及自动驾驶系统如何在动态环境中进行决策高度契合。

这一研究让我们看清:当前的大模型在长程推理和时空理解上仍有明显不足,但也指明了进化的方向 —— 更强的地理空间感知、更可靠的时间推理,以及多模态信息的深度融合。当这些能力逐渐成熟,AI 将不再只是 “看视频”,而是真正具备 “在世界中行动” 的潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
加拿大女星穿"牙齿裙"走红毯,540颗假牙引两极反应

加拿大女星穿"牙齿裙"走红毯,540颗假牙引两极反应

热搜摘要官
2026-05-16 01:05:51
10道“国宝菜”排名:淮扬菜国宴菜单,吃过一半算你厉害!

10道“国宝菜”排名:淮扬菜国宴菜单,吃过一半算你厉害!

阿龙美食记
2026-05-15 14:23:55
每体:阿韦洛亚回击姆巴佩,称缺席四天前比赛就不该首发

每体:阿韦洛亚回击姆巴佩,称缺席四天前比赛就不该首发

懂球帝
2026-05-15 06:21:42
世乒赛落幕才几天,日本主帅锐评梁靖崑,只字不提球技却一针见血

世乒赛落幕才几天,日本主帅锐评梁靖崑,只字不提球技却一针见血

观史搜寻着
2026-05-15 14:28:14
苹果深夜降价!iPhone17到手只要4499元

苹果深夜降价!iPhone17到手只要4499元

大象新闻
2026-05-15 09:46:09
恭喜!蓉城提前3轮锁定中超半程冠军 第5次逆转+连场复仇两大苦主

恭喜!蓉城提前3轮锁定中超半程冠军 第5次逆转+连场复仇两大苦主

我爱英超
2026-05-15 21:48:20
明阳电路:800G光模块目前具备样品和小批量能力 已交付客户研发和样品订单

明阳电路:800G光模块目前具备样品和小批量能力 已交付客户研发和样品订单

财联社
2026-05-15 18:44:45
生活是快乐的:不是等来的,是自己创造的

生活是快乐的:不是等来的,是自己创造的

疾跑的小蜗牛
2026-05-15 19:59:37
都关注懂王去了,日本在无人在意的角落,好像“有点亖了”!

都关注懂王去了,日本在无人在意的角落,好像“有点亖了”!

凉了时光人
2026-05-15 19:13:05
为了全新L9,李想用了洪荒之力拿捏人心

为了全新L9,李想用了洪荒之力拿捏人心

ZAKER新闻
2026-05-15 23:04:53
38.98万,夸张啊...

38.98万,夸张啊...

放毒
2026-05-15 19:14:23
3-1逆转东道主,中国男足挺进亚洲杯四强,万项 赵松源 何思凡破门

3-1逆转东道主,中国男足挺进亚洲杯四强,万项 赵松源 何思凡破门

侧身凌空斩
2026-05-16 02:58:35
影坛大咖去世,66岁钟楚红泪洒灵堂,周星驰周润发送花,众星现身

影坛大咖去世,66岁钟楚红泪洒灵堂,周星驰周润发送花,众星现身

开开森森
2026-05-15 08:51:25
伊朗没料到:打了一仗,没灭掉以色列,反在家门口造出一个更狠的

伊朗没料到:打了一仗,没灭掉以色列,反在家门口造出一个更狠的

似水流年忘我
2026-05-16 05:36:09
16日至20日预计将有大到暴雨,湖北全力防范守牢水安全底线

16日至20日预计将有大到暴雨,湖北全力防范守牢水安全底线

极目新闻
2026-05-16 00:20:19
16对16,这场国宴谁坐了C位

16对16,这场国宴谁坐了C位

梳子姐
2026-05-15 20:47:03
Altman被轮番追问:你完全可信吗?

Altman被轮番追问:你完全可信吗?

Ping值焦虑
2026-05-15 04:38:31
江苏一女子不顾父亲反对,嫁40岁绝症男子,谁料,17天后男子离世

江苏一女子不顾父亲反对,嫁40岁绝症男子,谁料,17天后男子离世

生活魔术专家
2026-05-15 18:19:02
热议U17晋级四强:沙特是中国足球的新福地;报了U20的仇!

热议U17晋级四强:沙特是中国足球的新福地;报了U20的仇!

懂球帝
2026-05-16 03:14:15
撞见妻子进酒店,我把照片发给那个男人的老婆,妻子鼻青脸肿回家

撞见妻子进酒店,我把照片发给那个男人的老婆,妻子鼻青脸肿回家

千秋文化
2026-05-03 20:27:24
2026-05-16 06:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13006文章数 142650关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

房产
数码
手机
本地
公开课

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

数码要闻

联想发布ThinkPad T14 Gen 7 支持LPCAMM2可更换内存

手机要闻

苹果40W干翻安卓100W!CNET充电实测出炉,这排名你敢信?

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版