网易首页 > 网易号 > 正文 申请入驻

3B模型逆袭7B巨头!Video-XL-Pro刷新超长视频理解SOTA

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。,A800/H20等算力6.25元/卡时,支持在线微调训练,及线部署和。

现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。

Video-XL-Pro创新采用了“重构式token压缩”技术,并且使用较少的训练数据,在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B,以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,刷新了超长视频理解SOTA!

这个项目来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队,实现近一万帧视频的单卡处理,大海捞针准确率超98%。Video-XL-Pro已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址

https://www.wisemodel.cn/models/lxrrrr/Video-XL-Pro

01.

模型结构

Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。

ReCoT包含两个关键组件:动态token合成器(DTS)和语义引导掩码(SGM)。DTS通过轻量级的时空注意力块对token进行压缩,有效捕捉视频中的动态运动;而SGM则通过自适应掩码策略,减少冗余视觉token,从而优化重构学习过程。

这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。

此外,为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。

02.

评测基准

Video-XL-Pro选用多个主流视频理解评测基准,对模型进行了全面的评测,对于长视频理解任务,评测了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench。

其中MLVU,VideoMME,LongVideoBench集中在评测模型的长视频理解能力。VNbench则是兼顾长视频与短视频,TempCompass则是评测模型在视频中的时间理解能力。

如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斩获了第一名,不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一众7B模型,包括Meta发布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了绝大部分同参数量模型,并达到与7B模型相当的水准。

最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。得益于ReCot模块和查询选择器的设计,使得模型可以输入极长的上下文序列,在相同硬件条件下,模型可以以8192帧为输入,达到了近99%的准确率。

03.

时间理解

为了更全面的评估模型性能,我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段,精准回答片段时间范围,现有开源模型在V-STaR中很难取得很好的成绩,即便是Qwen2.5-VL-7B,mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8B和Qwen2.5-VL-7B,并超越上一代冠军Video-LLaMA3,展现了卓越的长视频时间理解能力,并且在Charades-STA上也有着不俗的表现。

04.

总结

该工作提出了Video-XL-Pro模型,利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。

Video-XL-Pro在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

编辑:成蕴年

----- END -----

wisemodel相关:

系统升级:

大赛报名:

系列模型:

8

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万字长文!黄仁勋:DeepSeek深度耦合华为,对美国来说将是灾难

万字长文!黄仁勋:DeepSeek深度耦合华为,对美国来说将是灾难

财通社
2026-04-19 17:42:25
这跟不穿有啥区别?Rose真空上阵、穿镂空透视,却被中国女星抢镜

这跟不穿有啥区别?Rose真空上阵、穿镂空透视,却被中国女星抢镜

天天热点见闻
2026-04-18 08:09:59
正大光明官宣!中国舰艇编队过航横当水道

正大光明官宣!中国舰艇编队过航横当水道

武器纵论
2026-04-19 21:56:32
局势生变,全球接到消息,美军全部撤离,所有军事基地被叙国接管

局势生变,全球接到消息,美军全部撤离,所有军事基地被叙国接管

闻识
2026-04-19 21:08:29
新高铁要来了!2.5小时直达深圳!

新高铁要来了!2.5小时直达深圳!

深圳本地宝
2026-04-19 22:08:41
间谍就在我们身边!4月16日,央视报道了一个让人后背发凉的新闻

间谍就在我们身边!4月16日,央视报道了一个让人后背发凉的新闻

丁丁鲤史纪
2026-04-19 19:43:57
明天谷雨,牢记:1不晒、2要躲、3不坐、4要吃,寓意五谷丰登!

明天谷雨,牢记:1不晒、2要躲、3不坐、4要吃,寓意五谷丰登!

阿龙美食记
2026-04-19 11:50:47
日本乒坛内讧:松岛辉空当众炮轰张本智和:你不守时,我特别讨厌你!

日本乒坛内讧:松岛辉空当众炮轰张本智和:你不守时,我特别讨厌你!

最爱乒乓球
2026-04-20 00:07:44
50亿保温杯出口爆单:你以为老外爱养生,其实是中国工厂赢了

50亿保温杯出口爆单:你以为老外爱养生,其实是中国工厂赢了

随遇而安之心
2026-04-20 03:17:52
24小时内反转!伊朗刚"开门"就开火,特朗普的胜利秀只演了半天

24小时内反转!伊朗刚"开门"就开火,特朗普的胜利秀只演了半天

近史博览
2026-04-20 03:16:08
美国对台军售捅马蜂窝!中国反手大举卖武器,反美国家抢疯了!

美国对台军售捅马蜂窝!中国反手大举卖武器,反美国家抢疯了!

荆楚寰宇文枢
2026-04-19 23:38:57
湖南一小车在高速公路跑100码,突然接到陌生人电话直接吓哭:你车轮没了!

湖南一小车在高速公路跑100码,突然接到陌生人电话直接吓哭:你车轮没了!

潇湘晨报
2026-04-18 17:05:22
加内特:文班亚马应该和美国黑女约会,需要去成人夜总会逛逛

加内特:文班亚马应该和美国黑女约会,需要去成人夜总会逛逛

懂球帝
2026-04-19 11:17:26
新代言人火爆全球,以色列慌了

新代言人火爆全球,以色列慌了

侠客栈
2026-04-18 13:14:53
四艘中资超级油轮顺利通过美军封锁区引发强烈冲击

四艘中资超级油轮顺利通过美军封锁区引发强烈冲击

阿尔法34号
2026-04-19 07:04:28
真香!神操作背后!老鹰为何愿意交易肯纳德?

真香!神操作背后!老鹰为何愿意交易肯纳德?

篮球实录
2026-04-19 23:11:48
倒闭潮来袭!这5个行业千万别碰,谁干谁赔钱!

倒闭潮来袭!这5个行业千万别碰,谁干谁赔钱!

时尚的弄潮
2026-04-19 07:13:10
涉案金额2.6亿元!我国摧毁特大假酒网络

涉案金额2.6亿元!我国摧毁特大假酒网络

每日经济新闻
2026-04-19 15:31:45
世纪和解!巴克利自曝与乔丹已冰释前嫌:两人相约一起打高尔夫球

世纪和解!巴克利自曝与乔丹已冰释前嫌:两人相约一起打高尔夫球

罗说NBA
2026-04-19 10:58:12
普京时代进入倒计时,中国必须警惕俄罗斯政策突变

普京时代进入倒计时,中国必须警惕俄罗斯政策突变

阿七说史
2026-04-18 15:47:09
2026-04-20 05:00:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
471文章数 16关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

手机
亲子
本地
房产
公开课

手机要闻

8.8英寸小钢炮!REDMI K Pad 2核心配置揭晓

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版