网易首页 > 网易号 > 正文 申请入驻

视频理解+开放网络搜索=首个视频Deep Research评测基准

0
分享至


新智元报道

编辑:LRST

【新智元导读】现有的多模态模型往往被困在「视频」的孤岛里——它们只能回答视频内的问题。但在真实世界中,人类解决问题往往是「看视频找线索 -> 上网搜证 -> 综合推理」。为了填补这一空白,来自QuantaAlpha、兰州大学、香港科技大学(广州)、北京大学等机构的研究者联合推出了首个视频深度研究(Video Deep Research)评测基准VideoDR。

在传统的视频问答(VideoQA)中,答案通常就在视频里。

然而,真正的智能Video Agent应该具备Deep Research的能力。

试想这样一个场景:你看到视频中博物馆的一个展品,想知道「该博物馆推荐的展品中,距离这个展品最近的那个,其注册编号是多少?」

这不仅仅需要理解视频(识别展品、定位位置),还需要跳出视频,去博物馆官网查找地图、推荐列表和编号信息。


论文链接:https://arxiv.org/abs/2601.06943

代码链接:https://github.com/QuantaAlpha/VideoDR-Benchmark

VideoDR (Video Deep Research) 正是为此而生,它定义了一个全新的任务范式:

  1. 多帧视觉线索:从多个视频帧中准确识别连续的关键信息进行推理。

  2. 交互式网络搜索:在浏览器环境中进行交互,执行多跳深度搜索。

  3. 多跳推理验证:结合视频线索和网络证据,提供可验证的事实性答案。


为了保证评测的含金量,VideoDR并没有采用自动化生成,而是进行了严格的人工标注与质检。


双重依赖性测试:剔除了那些「只看视频就能答」或「只搜文字就能答」的样本,确保模型必须结合两者能力。

六大领域覆盖:涵盖日常生活、经济、科技、文化、历史、地理。


Workflow vs. Agentic

研究人员对比了两种主流范式:

  • Workflow(工作流模式): 将视频转化为结构化文本线索,再进行搜索推理。

  • Agentic(代理模式): 模型直接端到端处理视频和搜索,自主决定何时搜索、何时思考。

评测模型:

  • 闭源模型: GPT-5.2, GPT-4o, Gemini-3-pro-preview

  • 开源模型: Qwen3-Omni-30B-a3b, InternVL3.5-14B, MiniCPM-V 4.5


核心发现与洞察

谁是目前的最强王者?

Gemini-3-pro-preview和GPT-5.2处于第一梯队,准确率达到了69%-76%左右,显著领先于其他模型。


Agentic 模式一定更强吗?

答案是:不一定。

虽然 Agentic 模式更灵活,但在长视频或高难度任务中,模型容易出现目标漂移(Goal Drift)。

  • Workflow 的优势: 显式的中间文本充当了「外部记忆」,防止模型在漫长的搜索链路中忘记最初视频里的视觉细节。

  • Agentic 的短板: 一旦初始的视觉感知出现偏差,且无法回看视频,错误的搜索路径会被不断放大。


长视频是「照妖镜」

在长视频场景下,模型保持长期一致性(Long-horizon Consistency)的能力成为瓶颈。

强如Gemini-3在Agentic模式下能利用长上下文获得提升,而部分开源模型在长视频下性能反而大幅下降。



总结

VideoDR将视频理解的战场从封闭测试集延伸到了无限的开放网络。

评测结果深刻揭示了「端到端」并非万能药:在面对长链路搜索时,模型往往会陷入「记忆衰退」的困境。

未来的视频 Agent 只有在保持视觉线索的长程一致性上取得突破,才能真正胜任真实世界的复杂调研任务。

参考资料:

https://arxiv.org/abs/2601.06943


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河南男子贷款25万买车后失联,车行老板上门讨债,被眼前一幕惊呆

河南男子贷款25万买车后失联,车行老板上门讨债,被眼前一幕惊呆

生活魔术专家
2026-05-10 15:07:15
三星堆挖出3000年前“外星兵器”!

三星堆挖出3000年前“外星兵器”!

听心堂
2026-05-10 20:11:28
中国真正的“最高权力机构”竟然不是国务院?99%的人都搞错了!

中国真正的“最高权力机构”竟然不是国务院?99%的人都搞错了!

兴史兴谈
2026-03-19 20:14:58
5月12日,属虎人将遇一生难遇3“暗坎”,绝非迷信,谨慎才能翻身

5月12日,属虎人将遇一生难遇3“暗坎”,绝非迷信,谨慎才能翻身

时尚的弄潮
2026-05-10 01:45:23
杀哥娶嫂纳继母,39岁登基却成千古明君?他的狠藏着南朝最后活路

杀哥娶嫂纳继母,39岁登基却成千古明君?他的狠藏着南朝最后活路

文史达观
2026-05-07 15:26:39
离婚不离家?看到陈思诚和阮巨现状,才知道佟丽娅的做法有多高明

离婚不离家?看到陈思诚和阮巨现状,才知道佟丽娅的做法有多高明

她时尚丫
2026-05-10 16:55:06
196天逆转!巴萨困境反超皇马:从-5分到+11分 弗里克立功

196天逆转!巴萨困境反超皇马:从-5分到+11分 弗里克立功

叶青足球世界
2026-05-10 09:41:43
香港女星背负小三骂名21年,50岁至今仍单身未结婚

香港女星背负小三骂名21年,50岁至今仍单身未结婚

奇怪的鲨鱼们
2026-05-09 09:21:51
汤洛雯停更四个月,生日照不露腰腹,网友追问孩子在哪

汤洛雯停更四个月,生日照不露腰腹,网友追问孩子在哪

动物奇奇怪怪
2026-05-10 19:33:24
努诺:裁判自己都不知道什么算犯规、什么不算犯规

努诺:裁判自己都不知道什么算犯规、什么不算犯规

懂球帝
2026-05-11 02:16:23
伊朗一仗点醒了普京,俄罗斯或不再是世界大国,中国不是第2强?

伊朗一仗点醒了普京,俄罗斯或不再是世界大国,中国不是第2强?

叹为观止易
2026-05-10 15:14:13
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
震惊!沈阳外卖小哥全款提奥迪A6引争议,评论炸锅,观点争锋相对

震惊!沈阳外卖小哥全款提奥迪A6引争议,评论炸锅,观点争锋相对

火山詩话
2026-05-10 09:52:37
2026年苏州吴中区房价大幅下滑区域

2026年苏州吴中区房价大幅下滑区域

阿离家居
2026-05-09 16:42:53
CNN:中国队已确认参加2026年东盟杯,与印度等队分在第一级别

CNN:中国队已确认参加2026年东盟杯,与印度等队分在第一级别

懂球帝
2026-05-10 13:46:11
最初重用梁靖崑饱受舆论抨击,国乒用人不疑且战术谋略超球迷想象

最初重用梁靖崑饱受舆论抨击,国乒用人不疑且战术谋略超球迷想象

杨华评论
2026-05-11 03:09:50
李湘瘦成了水蛇腰,脸整整小了一圈,女儿反倒胖了一圈

李湘瘦成了水蛇腰,脸整整小了一圈,女儿反倒胖了一圈

乡野小珥
2026-05-10 13:06:04
克里米亚大桥传出10起爆炸!乌克兰完全清理库皮扬斯克俄军

克里米亚大桥传出10起爆炸!乌克兰完全清理库皮扬斯克俄军

项鹏飞
2026-05-09 20:56:35
钱再多有什么用?68岁刘莉莉东京豪宅养老,却为女儿一事夜夜难眠

钱再多有什么用?68岁刘莉莉东京豪宅养老,却为女儿一事夜夜难眠

南万说娱26
2026-05-10 11:46:09
星铉:汉坦病毒事件出现惊人反转,莫德纳公司再次未卜先知

星铉:汉坦病毒事件出现惊人反转,莫德纳公司再次未卜先知

星铉
2026-05-10 19:04:49
2026-05-11 04:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66858关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

健康
旅游
数码
亲子
公开课

干细胞能让人“返老还童”吗

旅游要闻

北京“二绿地区”郊野公园焕新升级

数码要闻

你昂贵的DDR5内存可能是假货:穿着三星的马甲 心里却是SK海力士

亲子要闻

从第一声呼唤开始,爱就有了名字

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版