网易首页 > 网易号 > 正文 申请入驻

万帧视频单卡跑通! Video-XL-2碾压级效率定义长视频新标准

0
分享至

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。A800/H20等算力6.25元/卡时,支持在线微调训练,及线部署和。

长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

智源研究院联合上海交通大学等机构发布开源模型Video-XL-2,显著提升长视频理解能力,其核心亮点在于三个维度全面优化了开源多模态大模型对长视频内容的理解能力:

效果更佳Video-XL-2在长视频理解任务中表现出色,在MLVU、Video-MME、LVBench等主流评测基准上达到了同参数规模开源模型的领先水平。

长度更长新模型显著扩展了可处理视频的时长,支持在单张显卡上高效处理长达万帧的视频输入。

速度更快Video-XL-2大幅提升了处理效率,编码2048帧视频仅需12秒,显著加速长视频理解流程。

未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。目前,Video-XL-2的模型权重已上线始智AI-wisemodel开源社区,欢迎体验。

模型地址

https://wisemodel.cn/models/lxrrrr/Video-XL-2

01.

技术简介

在模型架构设计上,Video-XL-2主要由三个核心组件构成:视觉编码器(Visual Encoder)、动态Token合成模块(Dynamic Token Synthesis, DTS)以及大语言模型(LLM)

Video-XL-2的模型架构示意图

具体而言,Video-XL-2采用SigLIP-SO400M作为视觉编码器,对输入视频进行逐帧处理,将每一帧编码为高维视觉特征。

随后,DTS模块对这些视觉特征进行融合压缩,并建模其时序关系,以提取更具语义的动态信息。

处理后的视觉表征通过平均池化与多层感知机(MLP)进一步映射到文本嵌入空间,实现模态对齐。最终,对齐后的视觉信息输入至Qwen2.5-Instruct,以实现对视觉内容的理解与推理,并完成相应的下游任务。

在训练策略上,Video-XL-2采用了四阶段渐进式训练的设计,逐步构建其强大的长视频理解能力。

前两个阶段主要利用图像/视频-文本对,完成DTS模块的初始化与跨模态对齐

第三阶段则引入更大规模,更高质量的图像与视频描述数据,初步奠定模型对视觉内容的理解能力

第四阶段,在大规模、高质量且多样化的图像与视频指令数据上进行微调,使Video-XL-2的视觉理解能力得到进一步提升与强化,从而能够更准确地理解和响应复杂的视觉指令。

Chunk-based Prefilling

Bi-granularity KV Decoding

此外,Video-XL-2还系统性设计了效率优化策略

首先,Video-XL-2引入了分段式的预装填策略(Chunk-based Prefilling,如图3所示):将超长视频划分为若干连续的片段(chunk),在每个chunk内部使用稠密注意力机制进行编码,而不同chunk之间则通过时间戳传递上下文信息。

该设计显著降低了预装填阶段的计算成本与显存开销。其次,Video-XL-2还设计了基于双粒度KV的解码机制(Bi-granularity KV Decoding,如图4所示):在推理过程中,模型会根据任务需求,选择性地对关键片段加载完整的KVs(dense KVs),而对其他次要片段仅加载降采样后的稀疏的KVs(sparse KVs)。

这一机制有效缩短了推理窗口长度,从而大幅提升解码效率。得益于上述策略的协同优化,Video-XL-2实现了在单张显卡上对万帧级视频的高效推理,显著增强了其在实际应用场景中的实用性。

02.

实验效果

在模型具体表现方面,Video-XL-2在MLVU、VideoMME 和 LVBench等主流长视频评测基准上全面超越现有所有轻量级开源模型,达成当前最先进性能(SOTA),相较第一代 Video-XL 实现了显著提升

尤其值得关注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等参数规模高达720亿的大模型。

此外,在时序定位(Temporal Grounding)任务中,Video-XL-2也表现出色,在Charades-STA数据集上取得了领先的结果,进一步验证了其在多模态视频理解场景中的广泛适用性与实际价值。

Video-XL-2的全面对比结果

除了效果上的提升,Video-XL-2在视频长度方面也展现出显著优势。如下图所示,在单张24GB消费级显卡(如 RTX 3090 / 4090)上,Video-XL-2可处理长达千帧的视频;而在单张 80GB 高性能显卡(如 A100 / H100)上,模型更支持万帧级视频输入,远超现有主流开源模型。

Video-XL-2输入长度的对比展示

相较于VideoChat-Flash 和初代 Video-XL,Video-XL-2显著拓展了视频理解的长度并有效降低了资源需求,为处理复杂的视频任务提供了有力的支撑。

最后,Video-XL-2在速度上也展现出卓越性能

Video-XL-2仅需12秒即可完成2048帧视频的预填充。更重要的是,其预填充时间与输入帧数之间呈现出近似线性增长,体现了其出色的可扩展性。

Video-XL-2 Prefilling速度和输入帧数的关系图

相比之下,Video-XL与VideoChat-Flash 在输入长视频条件下的工作效率明显落后于Video-XL-2。

03.

应用潜力

得益于出色的视频理解能力与对超长视频的高效处理性能,Video-XL-2在多种实际应用场景中展现出很高的应用潜力。例如,它可广泛应用于影视内容分析、剧情理解、监控视频中的异常行为检测与安全预警等任务,为现实世界中的复杂视频理解需求提供高效、精准的技术支撑。

以下是一些具体的例子,将展示Video-XL-2在实际应用中的潜力:

Example 1:电影情节问答

Question: A bald man wearing a green coat is speaking on the phone. What color is the phone?
Answer: The phone’s color is red

Example 2:监控异常检测

Question: Is there any unexpected event happening in this surveillance footage?
Answer: There is physical altercation between the customers and the store employees

Example 3: 影视作品内容总结

Example4:游戏直播内容总结

----- END -----

wisemodel相关:

系统升级:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万万没想到!韩国破获最大走私案,团伙偷偷运的却是中国农产品?

万万没想到!韩国破获最大走私案,团伙偷偷运的却是中国农产品?

策略述
2026-01-25 14:16:10
霍震霆没想到,临近年关,儿媳郭晶晶竟遭到这么大的“教训”

霍震霆没想到,临近年关,儿媳郭晶晶竟遭到这么大的“教训”

启迪你的思维
2026-01-27 03:28:51
请做好失业准备,2026世界即将变天!

请做好失业准备,2026世界即将变天!

水木然
2026-01-26 22:10:34
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
果然被我猜中了!美国总统突然宣布!

果然被我猜中了!美国总统突然宣布!

达文西看世界
2026-01-26 20:21:32
王祖蓝为女儿举家搬回香港,想给孩子安定生活,曾住内地四处搬家

王祖蓝为女儿举家搬回香港,想给孩子安定生活,曾住内地四处搬家

小郑说史
2026-01-26 12:40:25
1983年,李大钊的儿子去祭拜父亲,欣喜发现了埋在地下的一块碑

1983年,李大钊的儿子去祭拜父亲,欣喜发现了埋在地下的一块碑

兴趣知识
2026-01-15 15:38:48
牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

文字里拾光
2026-01-26 19:36:46
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
工信部出手!中国电信、中国移动、中国铁塔或迎重大利好

工信部出手!中国电信、中国移动、中国铁塔或迎重大利好

通信头条
2026-01-26 22:00:48
2026年央视春晚二次联排,一起看看有哪些明星

2026年央视春晚二次联排,一起看看有哪些明星

林雁飞
2026-01-26 20:29:25
小鼠研究表明,挖鼻孔与阿尔茨海默病之间存在令人惊讶的联系

小鼠研究表明,挖鼻孔与阿尔茨海默病之间存在令人惊讶的联系

心中的麦田
2026-01-21 20:18:15
美欧关系一去不返?吞并格陵兰岛只差临门一脚,特朗普却突然变卦

美欧关系一去不返?吞并格陵兰岛只差临门一脚,特朗普却突然变卦

爱看剧的阿峰
2026-01-27 03:37:22
回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

回顾许家印被抓捕现场,奋力反抗,怒吼不已,被抓捕人员抬出去

干史人
2026-01-08 22:47:00
钻石女星代孕翻车?魏大勋分手了?王玉雯跟片方翻脸?何健麒被前女友举报?姨太问答

钻石女星代孕翻车?魏大勋分手了?王玉雯跟片方翻脸?何健麒被前女友举报?姨太问答

毒舌扒姨太
2026-01-26 22:30:17
张本智和跟松岛辉空矛盾再升级,张本美和也让早田希娜刻骨铭心

张本智和跟松岛辉空矛盾再升级,张本美和也让早田希娜刻骨铭心

陈锌特色美食
2026-01-26 18:19:22
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

”经济学家吴晓求教授说:“老百姓都没收入了,还在刺激消费!这种做法是错误的!

张晓磊
2025-11-07 11:34:05
1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

1958年,李达和毛泽东吵架,李达怒言:你脑子发热,高烧到39度了

元哥说历史
2026-01-23 09:30:03
俄国跌倒,中国吃饱?若俄罗斯二次解体,中国能得到哪些利益?

俄国跌倒,中国吃饱?若俄罗斯二次解体,中国能得到哪些利益?

Ck的蜜糖
2026-01-27 05:05:51
2026-01-27 06:11:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
446文章数 14关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

游戏
旅游
教育
房产
艺术

猎魂世界:先遣服1.5版本新内容汇总!这第7魂环真是够那个了!

旅游要闻

腊八遇雾凇!哈尔滨何家沟入江口藏着冬日最极致的自然浪漫

教育要闻

年轻老师温柔但不好惹,怎么才能做到?

房产要闻

突发!三亚官宣,调整安居房政策!

艺术要闻

王雪涛写凌波仙子,脱尽凡俗

无障碍浏览 进入关怀版