网易首页 > 网易号 > 正文 申请入驻

AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了

0
分享至

来源:市场资讯

(来源:机器之心)


大家或许都有过这样的体验:

看完一部喜欢的动漫,总会心血来潮地想去 “圣地巡礼”;刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的结合,总是能勾起人们的探索欲望。那么,如果 AI 能自动看懂这些旅行视频,帮你解析出 “去了哪些地方”“顺序是怎样的”,甚至还能一键生成属于你的旅行计划,会不会很有趣?这不仅仅是阿宅的想象,更是多模态大模型在真实世界应用中的一个重要场景。


正是在这样的启发下,来自日本早稻田大学,CyberAgent 和奈良先端科学技术大学院大学的团队提出了一个全新的多模态大模型评估基准 VIR-Bench ,旨在评测 AI 是否真的能理解旅行视频中的地理位置与时间顺序,从而支撑更复杂、更实用的应用。用一句话来概括,这项研究就是在追问:“我从哪里来?我要到哪里去?”


  • 论文地址:https://www.arxiv.org/abs/2509.19002

  • GitHub:https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么?任务设计与数据集构建

任务目标:行程还原(Itinerary Reconstruction)

在 VIR-Bench 中,给定一个旅行 vlog(在日本拍摄),模型要输出访问顺序图(visiting order graph),也就是 “我去了哪些地点、按什么顺序、地点之间有哪些包含关系” 的结构化表示。

更具体地,这个访问顺序图是一个有向图,其中:

  • 节点表示被访问的地点,按层次分为 Prefecture,City,和 POI(Point of Interest)三层级。

  • 包含边(Inclusion edge) 表示层次上的 “大地理单元包含小地理单元” 关系(例如某 POI 在某个 City 里,某个 City 在某个 Prefecture 里)。

  • 转移边(Transition edge) 表示时间顺序上的移动:从一个节点移动到下一个节点(同层级)表示旅行顺序。


这意味着模型不仅要识别出 “我去过的地点”,还要判断这些地点之间的时间顺序,地理空间关系,进而构建出整个旅行路径的结构。此外,由于旅行视频往往是自拍视角 / 行进视角 / 风光视角等交错出现,模型需要在多样视角、非连续画面中 “拼图式” 理解,这进一步提升了任务难度。

为便于模型训练与评测,作者将这一复杂任务拆解为两个子任务:

1. 节点预测:给定视频,模型列出所有被访问的 Prefecture、City、POI。

2. 边缘预测:给定视频 + 节点集合(节点标签顺序被打乱),模型要判断哪些节点之间存在包含边,哪些节点之间存在转移边。即预测边的集合。

通过这种分解方式,我们可以分别评估模型的地理识别能力与时序推理能力,以及它们在实际组合时的协同性。

数据集构建:200 个旅行视频 + 访问顺序图

为了支撑上述任务,作者构建了一个规模适中的专用数据集:

  • 视频数量:200 个旅行 vlog(都在日本拍摄) 。

  • 地点覆盖:共标注出 3,689 个 POI,分布在日本 43 个都道府县(几乎覆盖全日本) 。

  • 标注方式:每个视频由人工注释者识别每个 POI 的起止时间、Google Maps 链接,并通过双人校验后自动构建最终的访问顺序图。

作者在论文中还附上了详细注释指南、数据分布统计等信息(可见 Appendix 部分)。

实验结果与洞察:当前模型面临的挑战


在实验中,作者发现开源模型整体上仍然落后于商用模型,尤其是在 POI 节点识别 和 转移边预测 这两个子任务上差距尤为明显。进一步的分析显示,转移边预测几乎是所有模型的 “最难关”:不少模型要么直接误解了任务要求,要么忽视了层级结构的约束(只有同层级节点之间可以有转移边),结果往往接近随机水平。

另一方面,模型规模的扩展对性能提升具有显著作用,尤其体现在边缘预测上;而是否具备地理相关的预训练,则成为 POI 节点预测精度差异的关键因素。值得注意的是,思维链推理(Chain-of-Thought) 的效果在不同子任务中差别很大:在节点预测中提升有限,但在边缘预测中却能带来显著的改善。如果再进一步结合音频信息(例如 Gemini-2.5-Pro 的多模态输入),效果提升尤为突出。

Ablation 实验也为我们揭示了模型性能提升的几个关键方向:增加输入帧数可以让模型捕捉更完整的旅行线索,更长的推理过程能帮助模型逐步还原旅行顺序,而音频的利用则能提供额外的语义提示。三者结合,共同推动了模型在复杂时空理解任务上的进步。

然而,即便有这些改进,整体性能仍远未达到可用水平。即使是当前得分最高的 Gemini-2.5-Pro,在预测结果中依然存在大量错误,这进一步凸显了多模态大模型在长程地理与时间理解上的巨大挑战。


表1: 节点预测的评估结果


表2: 边缘预测的评估结果

总而言之,VIR-Bench 不仅是一个新的评测基准,更是为未来诸多应用打开了一扇窗口。通过在旅行视频中重建行程顺序,它逼迫模型同时理解 “地理位置 + 时间顺序”,这与机器人如何理解世界、规划路径,以及自动驾驶系统如何在动态环境中进行决策高度契合。

这一研究让我们看清:当前的大模型在长程推理和时空理解上仍有明显不足,但也指明了进化的方向 —— 更强的地理空间感知、更可靠的时间推理,以及多模态信息的深度融合。当这些能力逐渐成熟,AI 将不再只是 “看视频”,而是真正具备 “在世界中行动” 的潜力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

五台山景区大火持续达7小时:官方回应伤亡情况,一画面信息量大

博士观察
2026-02-22 16:44:15
女同事好看吗?

女同事好看吗?

太急张三疯
2026-02-17 20:02:24
海哈金喜也没想到,离婚仅一周的李亚鹏,竟因女儿迎来了口碑暴涨

海哈金喜也没想到,离婚仅一周的李亚鹏,竟因女儿迎来了口碑暴涨

萧佉影视解说
2026-02-25 09:11:38
刘强东投资50亿元!落子珠海!

刘强东投资50亿元!落子珠海!

珠海发布
2026-02-25 00:46:15
没有他,中国历史或被改写,他被判死刑时,毛主席大怒:立即放人

没有他,中国历史或被改写,他被判死刑时,毛主席大怒:立即放人

文史季季红
2026-02-16 14:05:03
看完《镖人》,对塑料古偶应激了!满屏假头套的痛,此刻尽数爆发

看完《镖人》,对塑料古偶应激了!满屏假头套的痛,此刻尽数爆发

八卦南风
2026-02-24 16:26:16
巴拿马对我们的反制与警告不予理会!巴拿马正式接管运河两港口!

巴拿马对我们的反制与警告不予理会!巴拿马正式接管运河两港口!

我心纵横天地间
2026-02-24 20:12:20
伊朗要死!

伊朗要死!

求实处
2026-02-22 17:53:28
继张本智和反华拜鬼,被官媒点名后,石川佳纯也走上了他的老路

继张本智和反华拜鬼,被官媒点名后,石川佳纯也走上了他的老路

姩姩有娱
2026-02-23 18:09:28
中国连发两条公告,令亚洲震动,特朗普和高市早苗全都沉默了

中国连发两条公告,令亚洲震动,特朗普和高市早苗全都沉默了

千里持剑
2026-02-24 13:37:21
外交部介绍德国总理默茨访华有关安排

外交部介绍德国总理默茨访华有关安排

新华社
2026-02-24 16:04:02
老人有哪些习惯让你无法忍受?网友:第二年闹的时候放给他看

老人有哪些习惯让你无法忍受?网友:第二年闹的时候放给他看

另子维爱读史
2026-02-23 20:40:20
中到大雨局部暴雨!广东天气即将“大变脸”

中到大雨局部暴雨!广东天气即将“大变脸”

深圳晚报
2026-02-25 08:12:15
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

百态中的情感起伏
2026-02-23 12:25:50
鲁尼:我真的觉得足球正在被美式化,离普通人越来越远了

鲁尼:我真的觉得足球正在被美式化,离普通人越来越远了

懂球帝
2026-02-24 21:44:14
三孩政策刺激无果后,中央下狠手了!新政策让3代人拍手叫好

三孩政策刺激无果后,中央下狠手了!新政策让3代人拍手叫好

吃青菜长高
2026-02-24 20:11:17
山姆超市偶遇金莎和孙丞潇,金莎本人不年轻,一看就比老公大很多

山姆超市偶遇金莎和孙丞潇,金莎本人不年轻,一看就比老公大很多

阿废冷眼观察所
2026-02-23 22:31:01
雷军回应新一代SU7赤霞红配色:一台值得期待的Dream Car

雷军回应新一代SU7赤霞红配色:一台值得期待的Dream Car

PChome电脑之家
2026-02-24 10:29:31
重庆31岁小伙被逼相亲,对方竟带娃!本想应付了事,一见面傻眼了

重庆31岁小伙被逼相亲,对方竟带娃!本想应付了事,一见面傻眼了

匹夫来搞笑
2026-02-24 13:22:54
外交部回应“特朗普3月31日访华”:中美双方就特朗普总统访华事宜保持沟通;其上次访华是在2017年

外交部回应“特朗普3月31日访华”:中美双方就特朗普总统访华事宜保持沟通;其上次访华是在2017年

大风新闻
2026-02-24 16:47:11
2026-02-25 09:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2250505文章数 5528关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

牛弹琴:美伊大战若还不打 全世界都会看特朗普的笑话

头条要闻

牛弹琴:美伊大战若还不打 全世界都会看特朗普的笑话

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

艺术
游戏
手机
旅游
公开课

艺术要闻

如果吴清源重生,他会如何与柯洁较量?

《彩虹六号》手游版正式运营开启 5V5攻防战术FPS

手机要闻

OPPO Find N6外观曝光:圆环哈苏四摄镜组、闪光灯移至左上角

旅游要闻

博兴:丈八佛新春庙会 解锁最浓年味儿

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版