网易首页 > 网易号 > 正文 申请入驻

视频理解+开放网络搜索=首个视频Deep Research评测基准

0
分享至


新智元报道

编辑:LRST

【新智元导读】现有的多模态模型往往被困在「视频」的孤岛里——它们只能回答视频内的问题。但在真实世界中,人类解决问题往往是「看视频找线索 -> 上网搜证 -> 综合推理」。为了填补这一空白,来自QuantaAlpha、兰州大学、香港科技大学(广州)、北京大学等机构的研究者联合推出了首个视频深度研究(Video Deep Research)评测基准VideoDR。

在传统的视频问答(VideoQA)中,答案通常就在视频里。

然而,真正的智能Video Agent应该具备Deep Research的能力。

试想这样一个场景:你看到视频中博物馆的一个展品,想知道「该博物馆推荐的展品中,距离这个展品最近的那个,其注册编号是多少?」

这不仅仅需要理解视频(识别展品、定位位置),还需要跳出视频,去博物馆官网查找地图、推荐列表和编号信息。


论文链接:https://arxiv.org/abs/2601.06943

代码链接:https://github.com/QuantaAlpha/VideoDR-Benchmark

VideoDR (Video Deep Research) 正是为此而生,它定义了一个全新的任务范式:

  1. 多帧视觉线索:从多个视频帧中准确识别连续的关键信息进行推理。

  2. 交互式网络搜索:在浏览器环境中进行交互,执行多跳深度搜索。

  3. 多跳推理验证:结合视频线索和网络证据,提供可验证的事实性答案。


为了保证评测的含金量,VideoDR并没有采用自动化生成,而是进行了严格的人工标注与质检。


双重依赖性测试:剔除了那些「只看视频就能答」或「只搜文字就能答」的样本,确保模型必须结合两者能力。

六大领域覆盖:涵盖日常生活、经济、科技、文化、历史、地理。


Workflow vs. Agentic

研究人员对比了两种主流范式:

  • Workflow(工作流模式): 将视频转化为结构化文本线索,再进行搜索推理。

  • Agentic(代理模式): 模型直接端到端处理视频和搜索,自主决定何时搜索、何时思考。

评测模型:

  • 闭源模型: GPT-5.2, GPT-4o, Gemini-3-pro-preview

  • 开源模型: Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 4.5


核心发现与洞察

谁是目前的最强王者?

Gemini-3-pro-preview和GPT-5.2处于第一梯队,准确率达到了69%-76%左右,显著领先于其他模型。


Agentic 模式一定更强吗?

答案是:不一定。

虽然 Agentic 模式更灵活,但在长视频或高难度任务中,模型容易出现目标漂移(Goal Drift)。

  • Workflow 的优势: 显式的中间文本充当了「外部记忆」,防止模型在漫长的搜索链路中忘记最初视频里的视觉细节。

  • Agentic 的短板: 一旦初始的视觉感知出现偏差,且无法回看视频,错误的搜索路径会被不断放大。


长视频是「照妖镜」

在长视频场景下,模型保持长期一致性(Long-horizon Consistency)的能力成为瓶颈。

强如Gemini-3在Agentic模式下能利用长上下文获得提升,而部分开源模型在长视频下性能反而大幅下降。



总结

VideoDR将视频理解的战场从封闭测试集延伸到了无限的开放网络。

评测结果深刻揭示了「端到端」并非万能药:在面对长链路搜索时,模型往往会陷入「记忆衰退」的困境。

未来的视频 Agent 只有在保持视觉线索的长程一致性上取得突破,才能真正胜任真实世界的复杂调研任务。

参考资料:

https://arxiv.org/abs/2601.06943


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
祁东女教师的瓜

祁东女教师的瓜

皮蛋儿电影
2026-03-23 15:30:40
林毅夫:中国到2035年每年有8%的经济增长潜力,并非过度乐观

林毅夫:中国到2035年每年有8%的经济增长潜力,并非过度乐观

新浪财经
2026-03-24 17:56:34
新一代梅赛德斯-迈巴赫S级轿车迎全球首秀

新一代梅赛德斯-迈巴赫S级轿车迎全球首秀

每日经济新闻
2026-03-24 21:37:14
兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

鲸探所长
2026-03-24 14:38:04
央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

央视怒批,目不识丁、洋相百出,难怪两会上冯远征建议演员多学习

傲傲讲历史
2026-03-05 16:08:43
土耳其考虑动用1350亿美元黄金储备来捍卫里拉汇率

土耳其考虑动用1350亿美元黄金储备来捍卫里拉汇率

财联社
2026-03-24 19:04:38
“24公里收150元”,女子机场打车被半路甩下,司机:下去,老子不拉你了!

“24公里收150元”,女子机场打车被半路甩下,司机:下去,老子不拉你了!

申消费
2026-03-24 10:59:12
风油精加白醋,作用太厉害了,解决每家每户的大烦恼,省钱又实用

风油精加白醋,作用太厉害了,解决每家每户的大烦恼,省钱又实用

妙招酷
2026-02-19 00:21:06
日媒通知全球:如果中日开战,中国人会抢着当先锋,引发高度关注

日媒通知全球:如果中日开战,中国人会抢着当先锋,引发高度关注

花寒弦絮
2026-03-23 00:31:50
特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

特朗普:台湾属于中国,武统是中方的自由,但一动手美国会不高兴

共工之锚
2026-03-22 00:48:09
苍井空穿校服出境,运动感十足,50岁光头老公还想生娃!

苍井空穿校服出境,运动感十足,50岁光头老公还想生娃!

感觉会火
2026-03-24 18:26:47
乌克兰为何停止北约训练新兵?俄军“割头”验证身份是真是假?

乌克兰为何停止北约训练新兵?俄军“割头”验证身份是真是假?

史政先锋
2026-03-24 20:02:57
终身追捕,台独赖清德末路难逃!美情报界交底,大陆或将兵不血刃

终身追捕,台独赖清德末路难逃!美情报界交底,大陆或将兵不血刃

坠入二次元的海洋
2026-03-24 20:11:36
巴基斯坦动真格!三军总司令下令对标中国:不学中国,没有出路了

巴基斯坦动真格!三军总司令下令对标中国:不学中国,没有出路了

说宇宙
2026-03-24 14:08:54
“一地鸡毛”的《河狸变身计划》

“一地鸡毛”的《河狸变身计划》

有爱评论区
2026-03-23 11:21:04
王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

王毅判断没错,短短三天中方见识了:比利时的虚伪、西班牙的真诚

三毛看世界
2026-03-24 23:11:05
悬念不大!西部季后赛潜在对阵,大概率是这4组,全都是恩怨对决

悬念不大!西部季后赛潜在对阵,大概率是这4组,全都是恩怨对决

老梁体育漫谈
2026-03-25 00:03:38
杨幂这胯这不对劲

杨幂这胯这不对劲

可乐谈情感
2026-03-24 17:01:08
炸穿阿瓦士!美以联手端掉伊朗革命卫队总部,现场夷成白地

炸穿阿瓦士!美以联手端掉伊朗革命卫队总部,现场夷成白地

老马拉车莫少装
2026-03-23 13:00:44
上海刚刚通报:一区市场监管局党组书记、局长被查

上海刚刚通报:一区市场监管局党组书记、局长被查

上观新闻
2026-03-24 20:54:27
2026-03-25 04:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14804文章数 66718关注度
往期回顾 全部

科技要闻

年仅41岁,教育名师张雪峰猝然离世

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

头条要闻

张雪峰去世 猝死前身体的3个求救信号别忽视

体育要闻

NBA最强左手射手,是个右撇子

娱乐要闻

张雪峰经抢救无效不幸去世 年仅41岁

财经要闻

特朗普再TACO 可以押注伊朗局势降级?

汽车要闻

尚界Z7双车预售22.98万起 问界M6预售26.98万起

态度原创

房产
亲子
艺术
公开课
军事航空

房产要闻

北上广深二手房集体回暖!三月小阳春行情全面兑现

亲子要闻

拍完这条,老母亲学会了好多西语单词

艺术要闻

300米!非洲最高全钢混住宅,中国建造又破纪录!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列媒体:美国计划于4月9日结束对伊朗战争

无障碍浏览 进入关怀版