网易首页 > 网易号 > 正文 申请入驻

3B模型逆袭7B巨头!Video-XL-Pro刷新超长视频理解SOTA

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。,A800/H20等算力6.25元/卡时,支持在线微调训练,及线部署和。

现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。

Video-XL-Pro创新采用了“重构式token压缩”技术,并且使用较少的训练数据,在多个基准评测上超越了之前Meta发布的7B模型Apollo-7B,以及同尺寸的知名开源模型Qwen2.5-VL-3B、InternVL2.5-4B等,刷新了超长视频理解SOTA!

这个项目来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队,实现近一万帧视频的单卡处理,大海捞针准确率超98%。Video-XL-Pro已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址

https://www.wisemodel.cn/models/lxrrrr/Video-XL-Pro

01.

模型结构

Video-XL-Pro的核心在于其提出的重构性token压缩技术(ReCoT),该技术通过自监督学习生成全面且紧凑的视频token,显著提升了视频理解的效率和质量。

ReCoT包含两个关键组件:动态token合成器(DTS)和语义引导掩码(SGM)。DTS通过轻量级的时空注意力块对token进行压缩,有效捕捉视频中的动态运动;而SGM则通过自适应掩码策略,减少冗余视觉token,从而优化重构学习过程。

这些创新设计使得模型在仅需3B参数的情况下,性能超越了许多7B参数的模型。

此外,为了增强模型对超长视频理解能力,模型还引入了查询选择器,使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。

为了进一步提升训练效率,研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据,显著降低了计算成本,同时保障模型的性能。

02.

评测基准

Video-XL-Pro选用多个主流视频理解评测基准,对模型进行了全面的评测,对于长视频理解任务,评测了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench。

其中MLVU,VideoMME,LongVideoBench集中在评测模型的长视频理解能力。VNbench则是兼顾长视频与短视频,TempCompass则是评测模型在视频中的时间理解能力。

如表1所示,Video-XL-Pro在多个主流的长视频评测基准上展现了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斩获了第一名,不光超越同参数量的知名开源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一众7B模型,包括Meta发布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了绝大部分同参数量模型,并达到与7B模型相当的水准。

最后在VNbench上,VIdeo-XL-Pro也取得有竞争力的结果,说明模型在增强长视频理解能力的同时,也能兼顾短视频能力。

值得注意的是,VIdeo-XL-Pro只使用了相对较少的SFT数据(1M),低于Apollo的3.2M,远低于Qwen2.5-VL,InternVL2.5等知名开源模型,进一步说明了方法的有效性。

Video-XL-Pro还进行了视频「大海捞针」测试来评估其处理超长上下文的能力。得益于ReCot模块和查询选择器的设计,使得模型可以输入极长的上下文序列,在相同硬件条件下,模型可以以8192帧为输入,达到了近99%的准确率。

03.

时间理解

为了更全面的评估模型性能,我们还选用了经典时间评测基准Charades-STA和最新的长视频时间评测基准V-STaR。

V-STaR注重在极长视频中找出与问题相关的片段,精准回答片段时间范围,现有开源模型在V-STaR中很难取得很好的成绩,即便是Qwen2.5-VL-7B,mIoU得分也仅为11.48。

Video-XL-Pro-3B在最新的V-STaR长视频时间基准测试斩获25.07的mIoU得分,在IoU>0.7时仍能达到15.58的准确率,远上超越一众知名开源模型,包括InternVL2.5-8B和Qwen2.5-VL-7B,并超越上一代冠军Video-LLaMA3,展现了卓越的长视频时间理解能力,并且在Charades-STA上也有着不俗的表现。

04.

总结

该工作提出了Video-XL-Pro模型,利用自监督学习压缩视觉标记,使用相对少量数据下训练的3B模型就能获得超越大多数7B模型的性能。

Video-XL-Pro在多个主流长视频理解基准评测上表现优异。

模型有望在多个长视频理解的应用场景中展现出广泛的应用价值,成为得力的长视频理解助手。

编辑:成蕴年

----- END -----

wisemodel相关:

系统升级:

大赛报名:

系列模型:

8

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亚洲第一美女泳装照流出,这身材这颜值也太完美了吧!

亚洲第一美女泳装照流出,这身材这颜值也太完美了吧!

东方不败然多多
2026-07-05 15:46:57
最惨外逃女贪官顾震芳:嫁当地残疾男子,给他生孩子还要打工养家

最惨外逃女贪官顾震芳:嫁当地残疾男子,给他生孩子还要打工养家

云舟史策
2026-06-29 19:27:31
浙江商人用23年时间,从身无分文的穷小子,成了佛得角总理、市长的座上宾!“我在赞助的足球俱乐部,就是沃齐尼亚曾经服役的那一家”

浙江商人用23年时间,从身无分文的穷小子,成了佛得角总理、市长的座上宾!“我在赞助的足球俱乐部,就是沃齐尼亚曾经服役的那一家”

都市快报橙柿互动
2026-07-04 22:02:53
WTT美国大满贯战报:单打4强出炉!蒯曼大惊喜;韩日两队25人出局

WTT美国大满贯战报:单打4强出炉!蒯曼大惊喜;韩日两队25人出局

莼侃体育
2026-07-05 15:16:55
我发现,60后和70后还能顺利退休,80后、90后和00后很难熬到退休

我发现,60后和70后还能顺利退休,80后、90后和00后很难熬到退休

舒山有鹿
2026-07-05 10:43:52
白富美女神“雅典娜”被闺蜜骗到菲律宾失联:网传被虐图和生活照对比太惨烈

白富美女神“雅典娜”被闺蜜骗到菲律宾失联:网传被虐图和生活照对比太惨烈

浪花妈妈
2026-07-04 20:48:42
世预赛!中国男篮VS中国台北,3好消息1坏消息,庞峥麟有机会

世预赛!中国男篮VS中国台北,3好消息1坏消息,庞峥麟有机会

林子说事
2026-07-05 15:35:53
来大陆旅游很危险?台学者:我小孩到成都后,全程乐不思蜀

来大陆旅游很危险?台学者:我小孩到成都后,全程乐不思蜀

海峡导报社
2026-07-05 08:55:06
毒性是氰化钾的11倍,3克就能致人死亡!却被农民当宝大量种植?

毒性是氰化钾的11倍,3克就能致人死亡!却被农民当宝大量种植?

铭记历史呀
2026-07-05 03:00:20
西藏文旅厅、财政厅承诺兑现:一次性奖励网红“李要得”50万元!“李要得”回应:代表网友把钱捐了!

西藏文旅厅、财政厅承诺兑现:一次性奖励网红“李要得”50万元!“李要得”回应:代表网友把钱捐了!

极目新闻
2026-07-05 15:02:40
知名连锁餐饮,爆雷?

知名连锁餐饮,爆雷?

中国新闻周刊
2026-07-04 13:34:25
洛里兑现承诺!重回多伦多为NBA生涯画上完美句号

洛里兑现承诺!重回多伦多为NBA生涯画上完美句号

体坛周报
2026-07-05 19:21:15
日本早稻田大学女生赴印度住院1个月,把油灌进眼睛和肠道,只为体验排毒!日网友:不脏吗?

日本早稻田大学女生赴印度住院1个月,把油灌进眼睛和肠道,只为体验排毒!日网友:不脏吗?

东京新青年
2026-07-05 18:09:48
多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

浙江之声
2026-07-04 08:13:16
上限乔丹下限科比!榜眼彼得森炸裂首秀,28分征服夏季联赛!

上限乔丹下限科比!榜眼彼得森炸裂首秀,28分征服夏季联赛!

田先生篮球
2026-07-05 07:58:06
全国血库拉响警报!10个省份血量暴跌,而98%的人还在说与我无关

全国血库拉响警报!10个省份血量暴跌,而98%的人还在说与我无关

菁菁子衿
2026-07-05 10:24:22
卡里乌斯与家人外出度假,妻子大秀身材

卡里乌斯与家人外出度假,妻子大秀身材

懂球帝
2026-07-05 14:08:08
耗资33亿!宫殿修了,国王不住了

耗资33亿!宫殿修了,国王不住了

中国新闻周刊
2026-07-05 07:31:05
9.37吨战略物资偷运日本,这不是走私,是叛国!

9.37吨战略物资偷运日本,这不是走私,是叛国!

华山穹剑
2026-07-04 20:30:02
男篮惨败后迎来1大利好?中国队或死里逃生晋级:郭士强因祸得福

男篮惨败后迎来1大利好?中国队或死里逃生晋级:郭士强因祸得福

篮球快餐车
2026-07-05 07:53:34
2026-07-05 19:51:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
490文章数 16关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

俄乌战场近期突然激烈 专家:战场逻辑和重点发生改变

头条要闻

俄乌战场近期突然激烈 专家:战场逻辑和重点发生改变

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
亲子
时尚
艺术
健康

本地新闻

国内足球之旅?这座小城给你高分答案

亲子要闻

三岁被喂到70斤,有些家长为了搞流量,真敢把亲生骨肉当猪养

为什么女明星体重涨了,身材反而更辣了?

艺术要闻

16位当代艺术家 20幅作品欣赏

听说少吃点能抗衰老?专家讲解!

无障碍浏览 进入关怀版