网易首页 > 网易号 > 正文 申请入驻

3B模型逆袭7B巨头!Video-XL-Pro刷新超长视频理解SOTA

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。,A800/H20等算力6.25元/卡时,支持在线微调训练,及线部署和。


现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。

Video-XL-Pro创新采用了“重构式token压缩”技术,并且使用较少的训练数据,在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B,以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,刷新了超长视频理解SOTA!

这个项目来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队,实现近一万帧视频的单卡处理,大海捞针准确率超98%。Video-XL-Pro已上线始智AI-wisemodel开源社区,欢迎大家前去体验。


模型地址

https://www.wisemodel.cn/models/lxrrrr/Video-XL-Pro

01.

模型结构


Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。

ReCoT包含两个关键组件:动态token合成器(DTS)和语义引导掩码(SGM)。DTS通过轻量级的时空注意力块对token进行压缩,有效捕捉视频中的动态运动;而SGM则通过自适应掩码策略,减少冗余视觉token,从而优化重构学习过程。

这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。

此外,为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。

02.

评测基准

Video-XL-Pro选用多个主流视频理解评测基准,对模型进行了全面的评测,对于长视频理解任务,评测了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench。

其中MLVU,VideoMME,LongVideoBench集中在评测模型的长视频理解能力。VNbench则是兼顾长视频与短视频,TempCompass则是评测模型在视频中的时间理解能力。


如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斩获了第一名,不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一众7B模型,包括Meta发布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了绝大部分同参数量模型,并达到与7B模型相当的水准。

最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。


Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。得益于ReCot模块和查询选择器的设计,使得模型可以输入极长的上下文序列,在相同硬件条件下,模型可以以8192帧为输入,达到了近99%的准确率。

03.

时间理解

为了更全面的评估模型性能,我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段,精准回答片段时间范围,现有开源模型在V-STaR中很难取得很好的成绩,即便是Qwen2.5-VL-7B,mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8B和Qwen2.5-VL-7B,并超越上一代冠军Video-LLaMA3,展现了卓越的长视频时间理解能力,并且在Charades-STA上也有着不俗的表现。

04.

总结

该工作提出了Video-XL-Pro模型,利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。

Video-XL-Pro在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

编辑:成蕴年

----- END -----


wisemodel相关:

系统升级:

大赛报名:

系列模型:

8

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚发布!台风登陆!超强台风“桦加沙”随后杀到,最高16级!多地停课、停运,景区关闭!

刚刚发布!台风登陆!超强台风“桦加沙”随后杀到,最高16级!多地停课、停运,景区关闭!

粤西生活圈
2025-09-19 18:47:22
特朗普访华有新进展,欲推两大重要议程,港媒:协商已到最后阶段

特朗普访华有新进展,欲推两大重要议程,港媒:协商已到最后阶段

现代小青青慕慕
2025-09-19 09:59:11
给《731》演员演技排个名,姜武仅排第4,第1名难以超越

给《731》演员演技排个名,姜武仅排第4,第1名难以超越

崽下愚乐圈
2025-09-19 14:02:51
雪崩式狂甩!Tommy、拉夫劳伦、Nike奥莱大牌低至冰点!

雪崩式狂甩!Tommy、拉夫劳伦、Nike奥莱大牌低至冰点!

华人生活网
2025-09-20 04:28:31
首轮战罢,欧冠夺冠赔率巨变!4队并列领跑 曼城仅第6 拜仁遭看衰

首轮战罢,欧冠夺冠赔率巨变!4队并列领跑 曼城仅第6 拜仁遭看衰

我爱英超
2025-09-19 06:13:08
余华:到了一定年纪,就会发现,婚姻能不能走到最后,靠的不是爱,不是孩子,更不是金钱,而是这3点

余华:到了一定年纪,就会发现,婚姻能不能走到最后,靠的不是爱,不是孩子,更不是金钱,而是这3点

LULU生活家
2025-09-19 18:40:26
你身边出轨的人多吗?网友:成年人的世界真的好乱!

你身边出轨的人多吗?网友:成年人的世界真的好乱!

带你感受人间冷暖
2025-09-12 00:15:09
赵睿离开新疆队!阿不都沙拉木终于说出心里话,说得很实在

赵睿离开新疆队!阿不都沙拉木终于说出心里话,说得很实在

球哥评球
2025-09-19 12:37:18
九三阅兵一周后,我们躲过了一场世界大战

九三阅兵一周后,我们躲过了一场世界大战

罗列思维
2025-09-10 18:44:59
远华集团总裁赖昌星,在狱中对董文华的描述,听后让人咋舌

远华集团总裁赖昌星,在狱中对董文华的描述,听后让人咋舌

兰姐说故事
2025-02-17 22:00:03
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
当着100余国的面,董军定调统一大业,我军中将:中国核政策没变

当着100余国的面,董军定调统一大业,我军中将:中国核政策没变

Ck的蜜糖
2025-09-19 12:02:55
2-0,德甲第12完胜德甲第4,24岁拜仁旧将失点,德米罗维奇传射

2-0,德甲第12完胜德甲第4,24岁拜仁旧将失点,德米罗维奇传射

侧身凌空斩
2025-09-20 04:25:15
胃癌不痛不痒?医生提醒:饭后如果存在这些表现,建议尽早做胃镜

胃癌不痛不痒?医生提醒:饭后如果存在这些表现,建议尽早做胃镜

白宸侃片
2025-09-20 01:50:02
1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

1小时爆卖230亿!李书福杭州湾库里南,一夜间血洗BBA

大佬灼见
2025-09-17 13:26:12
河南网红小黑妮结婚遇到糟心事,真实样貌大曝光,是巴人模样

河南网红小黑妮结婚遇到糟心事,真实样貌大曝光,是巴人模样

九方鱼论
2025-09-19 09:34:34
罗翔:当你厌恶一个人,表达厌恶最好的方式不是和他争吵,而是..

罗翔:当你厌恶一个人,表达厌恶最好的方式不是和他争吵,而是..

诗词中国
2025-09-17 15:01:30
91大神秦先生回顾:御用女主正脸照片泄露,多位女子形象崩塌

91大神秦先生回顾:御用女主正脸照片泄露,多位女子形象崩塌

就一点
2025-08-26 00:24:30
0-2!1-1!申花危险,恐被蓉城双杀,中超冠军难了,谨防双线崩盘

0-2!1-1!申花危险,恐被蓉城双杀,中超冠军难了,谨防双线崩盘

侃球熊弟
2025-09-19 23:29:56
组织多名未成年失足女飞多地卖淫,让女友管起居发避孕套,男子获刑10年11个月

组织多名未成年失足女飞多地卖淫,让女友管起居发避孕套,男子获刑10年11个月

红星新闻
2025-09-19 14:55:59
2025-09-20 05:44:49
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
374文章数 12关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

头条要闻

山东入室被抢男婴到15岁没见过汽车 养家从不让他出门

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

教育
健康
亲子
数码
军事航空

教育要闻

分层教学就是搞歧视?家长和老师激烈争论

内分泌科专家破解身高八大谣言

亲子要闻

每年一次性发放!育儿补贴新规出台

数码要闻

750万小米空调升级10年免费包修:为用户节省15亿元

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版