网易首页 > 网易号 > 正文 申请入驻

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限

0
分享至

Video-XL-Pro团队投稿
量子位 | 公众号 QbitAI

3B模型超越Meta 7B模型,超长视频理解SOTA刷新了!

来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro,实现近一万帧视频的单卡处理,大海捞针准确率超98%。

现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。

对此,Video-XL-Pro创新采用“重构式token压缩”技术,并且使用较少的训练数据,在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B,以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,项目代码,模型,训练数据均已开源

模型结构

Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。

ReCoT包含两个关键组件:动态token合成器(DTS)和语义引导掩码(SGM)。

DTS通过轻量级的时空注意力块对token进行压缩,有效捕捉视频中的动态运动;而SGM则通过自适应掩码策略,减少冗余视觉token,从而优化重构学习过程。

这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。

此外,为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。

这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。

评测基准

Video-XL-Pro选用多个主流视频理解评测基准,对模型进行了全面的评测,对于长视频理解任务,评测了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench

其中MLVU,VideoMME,LongVideoBench集中在评测模型的长视频理解能力。

VNbench则是兼顾长视频与短视频,TempCompass则是评测模型在视频中的时间理解能力。

如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斩获了第一名,不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一众7B模型,包括Meta发布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了绝大部分同参数量模型,并达到与7B模型相当的水准。

最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。

得益于ReCot模块和查询选择器的设计,使得模型可以输入极长的上下文序列,在相同硬件条件下,模型可以以8192帧为输入,达到了近99%的准确率。

时间理解

为了更全面的评估模型性能,我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段,精准回答片段时间范围,现有开源模型在V-STaR中很难取得很好的成绩,即便是Qwen2.5-VL-7B,mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8BQwen2.5-VL-7B,并超越上一代冠军Video-LLaMA3,展现了卓越的长视频时间理解能力,并且在Charades-STA上也有着不俗的表现。

总结

该工作提出了Video-XL-Pro模型,利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。

Video-XL-Pro在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

目前,模型、代码、训练数据均已开源,以促进长视频理解社区的合作和发展。

论文链接:
https://arxiv.org/abs/2503.18478
代码链接:
https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型链接:
https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
训练数据链接:
https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
拒绝逆转!湖人137-130步行者,谁是本场比赛的功臣,数据不说谎

拒绝逆转!湖人137-130步行者,谁是本场比赛的功臣,数据不说谎

北纬的咖啡豆
2026-03-26 17:40:31
美伊冲突,已经出现了3个赢家,10个输家,都是谁?

美伊冲突,已经出现了3个赢家,10个输家,都是谁?

七号说三国
2026-03-25 21:11:29
王保辉涉嫌严重违纪违法被查

王保辉涉嫌严重违纪违法被查

大象新闻
2026-03-26 17:45:02
“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

今日养生之道
2026-03-23 11:46:39
马上停止这5类运动,很可能加速血栓形成,等血管“堵死”就迟了

马上停止这5类运动,很可能加速血栓形成,等血管“堵死”就迟了

39健康网
2026-03-26 16:00:53
美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

美国标普500股指期货、纳斯达克100股指期货均下跌0.4%

每日经济新闻
2026-03-26 16:14:04
40分钟挨了4轮导弹,以色列遭盟友背叛?中方:支持巴勒斯坦建国

40分钟挨了4轮导弹,以色列遭盟友背叛?中方:支持巴勒斯坦建国

今墨缘
2026-03-26 14:05:55
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
真准!伊朗局势正按照艾跃进当年的预判进行

真准!伊朗局势正按照艾跃进当年的预判进行

贱议你读史
2026-03-11 01:43:36
无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

生物世界
2026-03-25 16:05:30
张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

张水华为赚钱拼了!7天2赛冲连冠:奖金3万+出场费10万+一辆车

念洲
2026-03-26 13:14:49
金价、银价再度开跌:现货黄金向下跌破4450美元,现货白银短线跳水跌超1%,报70.51美元

金价、银价再度开跌:现货黄金向下跌破4450美元,现货白银短线跳水跌超1%,报70.51美元

鲁中晨报
2026-03-26 17:41:02
中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

中年男人最大的悲哀是什么?网友:说到底就是自己能力差呗

带你感受人间冷暖
2026-03-23 00:02:19
闹大了!美军东太平洋再开火!打爆44艘运输船,150人被打死!

闹大了!美军东太平洋再开火!打爆44艘运输船,150人被打死!

爱吃醋的猫咪
2026-03-25 20:19:15
美伊没谈拢!华尔街最新警告:美股18年前崩盘一幕即将重现,这类股有望幸免

美伊没谈拢!华尔街最新警告:美股18年前崩盘一幕即将重现,这类股有望幸免

新浪财经
2026-03-26 15:52:28
罗德里想去皇马的背后,是他与曼城的合同博弈

罗德里想去皇马的背后,是他与曼城的合同博弈

米奇兔
2026-03-26 15:01:18
51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

51岁男子突发心梗猝死!不想得心梗,牢记晚饭4不吃,睡前4不要!

健康之光
2026-03-20 17:05:06
普京出手不到24小时,朝俄关系突然生变,俄军千架无人机出动了

普京出手不到24小时,朝俄关系突然生变,俄军千架无人机出动了

晨光苏醒a
2026-03-26 14:39:05
重磅!新加坡国立大学原副校长,全职加盟清华大学

重磅!新加坡国立大学原副校长,全职加盟清华大学

TOP大学来了
2026-03-26 17:43:56
微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

快科技
2026-03-25 15:13:32
2026-03-26 19:11:00
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
亲子
健康
手机
房产

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

亲子要闻

上海美华妇儿医院"康复中心"完成全面升级并正式焕新启幕

转头就晕的耳石症,能开车上班吗?

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

无障碍浏览 进入关怀版