3B模型逆袭7B巨头！Video-XL-Pro刷新超长视频理解SOTA|xl|评测|视频生成模型

3B模型逆袭7B巨头！Video-XL-Pro刷新超长视频理解SOTA

分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在，欢迎加入共同成长。，A800/H20等算力6.25元/卡时，支持在线微调训练，及线部署和。

现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈：一方面，难以大规模训练超长视频；另一方面，在处理长视频时，仍然面临性能差和效率低的双重挑战。

Video-XL-Pro创新采用了“重构式token压缩”技术，并且使用较少的训练数据，在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B，以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等，刷新了超长视频理解SOTA！

这个项目来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队，实现近一万帧视频的单卡处理，大海捞针准确率超98%。Video-XL-Pro已上线始智AI-wisemodel开源社区，欢迎大家前去体验。

模型地址

https://www.wisemodel.cn/models/lxrrrr/Video-XL-Pro

01.

模型结构

Video-XL-Pro的核心在于其提出的重构性token压缩技术（ReCoT），该技术通过自监督学习生成全面且紧凑的视频token，显著提升了视频理解的效率和质量。

ReCoT包含两个关键组件：动态token合成器（DTS）和语义引导掩码（SGM）。DTS通过轻量级的时空注意力块对token进行压缩，有效捕捉视频中的动态运动；而SGM则通过自适应掩码策略，减少冗余视觉token，从而优化重构学习过程。

这些创新设计使得模型在仅需3B参数的情况下，性能超越了许多7B参数的模型。

此外，为了增强模型对超长视频理解能力，模型还引入了查询选择器，使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率，研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据，显著降低了计算成本，同时保障模型的性能。

02.

评测基准

Video-XL-Pro选用多个主流视频理解评测基准，对模型进行了全面的评测，对于长视频理解任务，评测了LongVideoBench、MLVU、Video-MME，TempCompass和VNbench。

其中MLVU，VideoMME，LongVideoBench集中在评测模型的长视频理解能力。VNbench则是兼顾长视频与短视频，TempCompass则是评测模型在视频中的时间理解能力。

如表1所示，Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev、Test，以及TempCompass上，VIdeo-XL-Pro均斩获了第一名，不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等，也超越了一众7B模型，包括Meta发布的7B模型Apollo-7B等。

在VideoMME，LongVideoBench，Video-XL-Pro也超越了绝大部分同参数量模型，并达到与7B模型相当的水准。

最后在VNbench上，VIdeo-XL-Pro也取得有竞争力的结果，说明模型在增强长视频理解能力的同时，也能兼顾短视频能力。

值得注意的是，VIdeo-XL-Pro只使用了相对较少的SFT数据（1M），低于Apollo的3.2M，远低于Qwen2.5-VL，InternVL2.5等知名开源模型，进一步说明了方法的有效性。

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。得益于ReCot模块和查询选择器的设计，使得模型可以输入极长的上下文序列，在相同硬件条件下，模型可以以8192帧为输入，达到了近99%的准确率。

03.

时间理解

为了更全面的评估模型性能，我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段，精准回答片段时间范围，现有开源模型在V-STaR中很难取得很好的成绩，即便是Qwen2.5-VL-7B，mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分，在IoU>0.7时仍能达到15.58的准确率，远上超越一众知名开源模型，包括InternVL2.5-8B和Qwen2.5-VL-7B，并超越上一代冠军Video-LLaMA3，展现了卓越的长视频时间理解能力，并且在Charades-STA上也有着不俗的表现。

04.

总结

该工作提出了Video-XL-Pro模型，利用自监督学习压缩视觉标记，使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。

Video-XL-Pro在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值，成为得力的长视频理解助手。

编辑：成蕴年

----- END -----

wisemodel相关：

系统升级：

大赛报名：

系列模型：

关于wisemodel更多

欢迎持续关注和支持

开源社区建设需要长期坚持和投入，更需要广大用户的积极参与、贡献和维护，欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果，包括模型、数据集和代码等发布到 wisemodel.cn 社区，共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信，申请加入wisemodel社群，持续关注wisemodel.cn开源社区动态。

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来，逐渐成为影响力日益扩大的中立开放的AI开源社区，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在AI infra、后端开发，熟悉K8S、模型训练和推理等技术，以及熟悉开发者生态运营的成员，欢迎感兴趣的朋友加盟，可以通过添加wisemodel微信，或者将简历投递到邮箱：liudaoquan@wisemodel.cn

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果，鼓励高校实验室、大企业研究团队、个人等，在wisemodel平台上分享各类优质内容，可以是AI领域最新论文解读、最新开源成果介绍，也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn，也可以扫码添加wisemodel微信。

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立，旨在打造和建设中立开放的AI开源创新社区，将打造成“HuggingFace”之外最活跃的AI开源社区，汇聚主要AI开源模型、数据集和代码等，欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者，以及政府部门、学会协会、联盟、基金会等，还有投资机构、科技媒体等，共同参与建设AI开源创新生态。

向上滑动查看

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.