网易首页 > 网易号 > 正文 申请入驻

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

0
分享至



大家或许都有过这样的体验:

看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的探索欲望。那么,如果 AI 能自动看懂这些旅行视频,帮你解析出 “去了哪些地方”“顺序是怎样的”,甚至还能一键生成属于你的旅行计划,会不会很有趣?这不仅仅是阿宅的想象,更是多模态大模型在真实世界应用中的一个重要场景。



正是在这样的启发下,来自日本早稻田大学,CyberAgent 和奈良先端科学技术大学院大学的团队提出了一个全新的多模态大模型评估基准 VIR-Bench ,旨在评测 AI 是否真的能理解旅行视频中的地理位置与时间顺序,从而支撑更复杂、更实用的应用。用一句话来概括,这项研究就是在追问:“我从哪里来?我要到哪里去?”



  • 论文地址:https://www.arxiv.org/abs/2509.19002
  • GitHub:https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么?任务设计与数据集构建

任务目标:行程还原(Itinerary Reconstruction)

在 VIR-Bench 中,给定一个旅行 vlog(在日本拍摄),模型要输出访问顺序图(visiting order graph),也就是 “我去了哪些地点、按什么顺序、地点之间有哪些包含关系” 的结构化表示。

更具体地,这个访问顺序图是一个有向图,其中:

  • 节点表示被访问的地点,按层次分为 Prefecture,City,和 POI(Point of Interest)三层级。
  • 包含边(Inclusion edge) 表示层次上的 “大地理单元包含小地理单元” 关系(例如某 POI 在某个 City 里,某个 City 在某个 Prefecture 里)。
  • 转移边(Transition edge) 表示时间顺序上的移动:从一个节点移动到下一个节点(同层级)表示旅行顺序。



这意味着模型不仅要识别出 “我去过的地点”,还要判断这些地点之间的时间顺序,地理空间关系,进而构建出整个旅行路径的结构。此外,由于旅行视频往往是自拍视角 / 行进视角 / 风光视角等交错出现,模型需要在多样视角、非连续画面中“拼图式” 理解,这进一步提升了任务难度。

为便于模型训练与评测,作者将这一复杂任务拆解为两个子任务:

1. 节点预测:给定视频,模型列出所有被访问的 Prefecture、City、POI。

2. 边缘预测:给定视频 + 节点集合(节点标签顺序被打乱),模型要判断哪些节点之间存在包含边,哪些节点之间存在转移边。即预测边的集合。

通过这种分解方式,我们可以分别评估模型的地理识别能力与时序推理能力,以及它们在实际组合时的协同性。

数据集构建:200 个旅行视频 + 访问顺序图

为了支撑上述任务,作者构建了一个规模适中的专用数据集:

  • 视频数量:200 个旅行 vlog(都在日本拍摄) 。
  • 地点覆盖:共标注出 3,689 个 POI,分布在日本 43 个都道府县(几乎覆盖全日本) 。
  • 标注方式:每个视频由人工注释者识别每个 POI 的起止时间、Google Maps 链接,并通过双人校验后自动构建最终的访问顺序图。

作者在论文中还附上了详细注释指南、数据分布统计等信息(可见 Appendix 部分)。

实验结果与洞察:当前模型面临的挑战



在实验中,作者发现开源模型整体上仍然落后于商用模型,尤其是在 POI 节点识别 和 转移边预测 这两个子任务上差距尤为明显。进一步的分析显示,转移边预测几乎是所有模型的 “最难关”:不少模型要么直接误解了任务要求,要么忽视了层级结构的约束(只有同层级节点之间可以有转移边),结果往往接近随机水平。

另一方面,模型规模的扩展对性能提升具有显著作用,尤其体现在边缘预测上;而是否具备地理相关的预训练,则成为 POI 节点预测精度差异的关键因素。值得注意的是,思维链推理(Chain-of-Thought) 的效果在不同子任务中差别很大:在节点预测中提升有限,但在边缘预测中却能带来显著的改善。如果再进一步结合音频信息(例如 Gemini-2.5-Pro 的多模态输入),效果提升尤为突出。

Ablation 实验也为我们揭示了模型性能提升的几个关键方向:增加输入帧数可以让模型捕捉更完整的旅行线索,更长的推理过程能帮助模型逐步还原旅行顺序,而音频的利用则能提供额外的语义提示。三者结合,共同推动了模型在复杂时空理解任务上的进步。

然而,即便有这些改进,整体性能仍远未达到可用水平。即使是当前得分最高的 Gemini-2.5-Pro,在预测结果中依然存在大量错误,这进一步凸显了多模态大模型在长程地理与时间理解上的巨大挑战。



表1: 节点预测的评估结果



表2: 边缘预测的评估结果

总而言之,VIR-Bench 不仅是一个新的评测基准,更是为未来诸多应用打开了一扇窗口。通过在旅行视频中重建行程顺序,它逼迫模型同时理解 “地理位置 + 时间顺序”,这与机器人如何理解世界、规划路径,以及自动驾驶系统如何在动态环境中进行决策高度契合。

这一研究让我们看清:当前的大模型在长程推理和时空理解上仍有明显不足,但也指明了进化的方向 —— 更强的地理空间感知、更可靠的时间推理,以及多模态信息的深度融合。当这些能力逐渐成熟,AI 将不再只是 “看视频”,而是真正具备 “在世界中行动” 的潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台三批人马先后抵沪,蒋万安单独行动缺席晚宴,大陆仍高规格接待

台三批人马先后抵沪,蒋万安单独行动缺席晚宴,大陆仍高规格接待

南宗历史
2025-12-28 05:37:06
“请的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

“请的阿姨一口剩菜都不吃?”高薪保姆的分寸感,刺痛多少雇主?

另子维爱读史
2025-12-26 16:05:01
拉夫罗夫警告日本:做任何草率决定前都应“慎重考虑”,反对任何形式的台独分裂行径

拉夫罗夫警告日本:做任何草率决定前都应“慎重考虑”,反对任何形式的台独分裂行径

极目新闻
2025-12-28 12:45:49
大清这艘“破船”为啥能撑到1895年?就靠这两场灭国之战吓住欧洲

大清这艘“破船”为啥能撑到1895年?就靠这两场灭国之战吓住欧洲

历史按察使司
2025-12-23 08:43:28
8个动作坚持半年,肝胆不堵、脸蛋又白又亮!

8个动作坚持半年,肝胆不堵、脸蛋又白又亮!

瑜伽解剖学
2025-12-17 08:27:13
上海一位短线高手,用最简单的方法操作,股市资产竟达到了八位数

上海一位短线高手,用最简单的方法操作,股市资产竟达到了八位数

一方聊市
2025-12-16 13:31:22
畸形儿风波反转!医院回应透露2个关键信息 阚清子的沉默早有预兆

畸形儿风波反转!医院回应透露2个关键信息 阚清子的沉默早有预兆

观察鉴娱
2025-12-28 10:26:06
男子爱奇艺会员被家人充值到2043年!“会员25年,我都50多岁了,有必要吗?”

男子爱奇艺会员被家人充值到2043年!“会员25年,我都50多岁了,有必要吗?”

都市快报橙柿互动
2025-12-27 22:50:29
零跑汽车发布首款MPV D99,公司明年挑战100万销量目标

零跑汽车发布首款MPV D99,公司明年挑战100万销量目标

界面新闻
2025-12-28 20:42:24
医学生真得很硬核,竟然有人因业务不精扎醒植物人!

医学生真得很硬核,竟然有人因业务不精扎醒植物人!

另子维爱读史
2025-12-26 23:32:52
孩子以球童身份出场,若塔遗孀感谢利物浦:感谢大家的爱

孩子以球童身份出场,若塔遗孀感谢利物浦:感谢大家的爱

懂球帝
2025-12-28 20:59:23
1960年春节,周总理请溥仪吃饭,酒桌上溥仪讲了个慈禧的“笑话”,总理听完,当场陷入了沉思

1960年春节,周总理请溥仪吃饭,酒桌上溥仪讲了个慈禧的“笑话”,总理听完,当场陷入了沉思

历史回忆室
2025-12-24 10:29:12
欧盟双标现场:芬兰教授灵魂拷问冯德莱恩,全场哑口无言!

欧盟双标现场:芬兰教授灵魂拷问冯德莱恩,全场哑口无言!

达文西看世界
2025-12-28 17:48:26
全国人大常委会批准任命张升民为中国人民解放军选举委员会副主任

全国人大常委会批准任命张升民为中国人民解放军选举委员会副主任

澎湃新闻
2025-12-27 18:40:05
贾跃亭把高山拆了再运到美国组装,“忽悠”了1万名美国消费者

贾跃亭把高山拆了再运到美国组装,“忽悠”了1万名美国消费者

刘哥谈体育
2025-12-28 04:43:46
斯洛特赌赢了?废弃萨拉赫后利物浦7场不败+4连胜!4大新援全激活

斯洛特赌赢了?废弃萨拉赫后利物浦7场不败+4连胜!4大新援全激活

我爱英超
2025-12-28 02:29:19
特大省级建工集团崩了!

特大省级建工集团崩了!

黯泉
2025-12-27 17:24:51
49岁赵薇广东饭局近照疯传!瘦脱相显凶相,当年小燕子彻底凉透了

49岁赵薇广东饭局近照疯传!瘦脱相显凶相,当年小燕子彻底凉透了

阿纂看事
2025-12-12 09:18:29
周末信息如何影响市场?明天是红色星期一?还是黑色星期?

周末信息如何影响市场?明天是红色星期一?还是黑色星期?

春江财富
2025-12-28 09:26:11
蒙古国大胆想法:拿400平方公里和中国换通道?想将稀土运往美国

蒙古国大胆想法:拿400平方公里和中国换通道?想将稀土运往美国

游者走天下
2025-12-26 16:20:18
2025-12-28 21:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12000文章数 142522关注度
往期回顾 全部

科技要闻

特斯拉将在华布局自动驾驶?记者求证→

头条要闻

新华社发文:积蓄统一大势

头条要闻

新华社发文:积蓄统一大势

体育要闻

83分钟绝杀!曼城2-1年度收官:英超6连胜狂飙

娱乐要闻

白敬亭现身冰雪大世界 拍视频还翻车了

财经要闻

英伟达的收购史

汽车要闻

理想的2026:L9不容有失,i9再战纯电?

态度原创

教育
本地
数码
旅游
公开课

教育要闻

雅思3个月提2分,因为我们做对了这几件事!

本地新闻

云游安徽|踏访池州,读懂山水间的万年史书

数码要闻

AM4老兵不死:锐龙7 5800X登上销量榜首!前十有4款是AM4

旅游要闻

大理的樱花之美一如杭州的桂花之香,满城皆是,随处可闻

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版