网易首页 > 网易号 > 正文 申请入驻

达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩

0
分享至

达摩院 投稿
量子位 | 公众号 QbitAI

7B大小的视频理解模型中的新SOTA,来了!

它就是由达摩院出品的Video LLaMA 3,以图像为中心构建的新一代多模态视频-语言模型。

在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中,VideoLLaMA 3均取得优异成绩,超越多数基线模型。

不仅如此,适用于端侧的2B大小的Video LLaMA 3,在图像理解上的表现也是较为出色。

在涵盖文档 / 图表 / 场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试,如在InfoVQA中超越之前最好成绩,在MathVista数学推理任务上优势明显。

VideoLLaMA 3以图片为中心的设计理念贯穿于整个模型架构和训练过程。

通过高质量的图片文本数据为视频理解打下坚实基础,仅使用3M视频文本数据,实现全面超越同参数量开源模型的视频理解能力。

在线可玩

目前,VideoLLaMA 3已经在HuggingFace上提供了图像、视频理解的demo。

例如我们给一张《蒙娜丽莎的微笑》,并向VideoLLaMA 3提问:

Discuss the historical impact and the significance of this painting in the art world.
讨论这幅画在艺术界的历史影响和意义。

VideoLLaMA 3的回答是这样的:

《蒙娜丽莎》不仅是世界上最著名的画作之一,也是艺术史上的重要作品。它创作于文艺复兴时期,体现了该时期对人文主义的关注和古典学习的复兴。列奥纳多·达·芬奇的创新技术,如在色彩和色调之间进行柔和过渡的模糊手法,为这幅画的神秘品质做出了贡献。几个世纪以来,《蒙娜丽莎》一直是一个迷人的主题,激发了无数的解释和分析。它已成为西方文化的标志,象征着艺术成就的顶峰,象征着视觉艺术对跨越时间和文化的观众的持久魅力。

再来看下视频理解的demo,我们的问题是:

What is unusual in the video?
视频中有什么不寻常之处?

对此,VideoLLaMA 3表示:

这段视频的不同寻常之处在于,它展示了熊这种典型的野生动物,正在进行一种类似人类的活动,比如在桌子上吃寿司。

VideoLLaMA 3回答可谓是非常简约且精准了。

并且这个demo在HuggingFace上的操作也是极其简单,只需上传图片或视频,再提出你的问题即可。

怎么做到的?

VideoLLaMA 3的关键,在于它是一种以图像为中心的训练范式。

这种范式主要包含四个关键内容:

  1. 视觉编码器适配:让视觉编码器能处理动态分辨率图像,用不同场景图像提升其性能,使其能捕捉精细视觉细节。
  2. 视觉语言对齐:用丰富图像文本数据为多模态理解打基础,利用多种数据增强空间推理能力,同时保留模型语言能力。
  3. 多任务微调:用图像文本问答数据和视频字幕数据微调模型,提升其遵循自然语言指令和多模态理解能力,为视频理解做准备。
  4. 视频微调:增强模型视频理解和问答能力,训练数据包含多种视频及图像、文本数据。

从框架设计来看,主要包含两大内容。

首先是任意分辨率视觉标记化(AVT)

这种方法突破了传统固定分辨率限制,采用2D - RoPE替换绝对位置嵌入,让视觉编码器能处理不同分辨率图像和视频,保留更多细节。

其次是差分帧剪枝器(DiffFP)

针对视频数据冗余问题,通过比较相邻帧像素空间的1-范数距离,修剪冗余视频标记,提高视频处理效率,减少计算需求。

除了框架之外,高质量数据也对VideoLLaMA 3的性能起到了关键作用。

首先是高质量图像重新标注数据集VL3Syn7M的构建

为给 VideoLLaMA 3 提供高质量训练数据,团队构建了包含700万图像-字幕对的VL3Syn7M数据集。

  • Aspect Ratio Filtering(长宽比过滤):图像长宽比可能影响模型特征提取。像一些长宽比极端的图像,过宽或过长,会使模型在处理时产生偏差。通过过滤,确保数据集中图像长宽比处于典型范围,为后续准确的特征提取奠定基础。
  • Aesthetic Score Filtering(美学评分过滤):利用美学评分模型评估图像视觉质量,舍弃低评分图像。这一步能去除视觉效果差、构图不佳的图像,减少噪声干扰,保证模型学习到的图像内容和描述质量更高,进而提升模型生成优质描述的能力。
  • Text-Image Similarity Calculation with Coarse Captioning(带粗略字幕的文本-图像相似度计算):先用 BLIP2 模型为图像生成初始字幕,再借助CLIP模型计算文本 - 图像相似度,剔除相似度低的图像。这一操作确保剩余图像内容与描述紧密相关,使模型学习到的图文对更具可解释性和代表性。
  • Visual Feature Clustering(视觉特征聚类):运用CLIP视觉模型提取图像视觉特征,通过k-最近邻(KNN)算法聚类,从每个聚类中心选取固定数量图像。这样既保证数据集多样性,又维持语义类别的平衡分布,让模型接触到各类视觉内容,增强其泛化能力。
  • Image Re - caption(图像重新标注):对过滤和聚类后的图像重新标注。简短字幕由InternVL2-8B生成,详细字幕则由InternVL2-26B完成。不同阶段训练使用不同类型字幕,满足模型多样化学习需求。

其次是各训练阶段的数据混合

在VideoLLaMA 3的不同训练阶段,数据混合策略为模型提供了丰富多样的学习场景。此外,团队使用统一的数据组织形式以统一各个阶段的训练。

  • Vision Encoder Adaptation(视觉编码器适配):此阶段旨在增强模型对多样场景的理解和特征提取能力,训练数据融合场景图像、文档识别图像和少量场景文本图像。

场景图像来源广泛,像VL3-Syn7M-short等,其中Object365和SA-1B数据集的引入增加了数据多样性;场景文本图像来自BLIP3-OCR,其文本内容和简短重新标注都作为字幕;文档图像选取自pdfa-eng-wds和idl-wds,文档文本内容按阅读顺序作为图像字幕。

Vision-Language Alignment(视觉语言对齐):该阶段使用高质量数据微调模型,涵盖场景图像、场景文本图像、文档、图表、细粒度数据以及大量高质量纯文本数据。

场景图像整合多个数据集并重新标注;场景文本图像包含多种中英文数据集,并对LAION数据集中图像筛选形成 Laion-OCR数据集,其字幕包含文本内容和文本位置的边界框注释。

文档图像除常见数据集外,还加入手写和复杂文档数据集;图表数据虽量少,但来自Chart-to-Text 数据集;细粒度数据包含区域字幕数据和带框字幕数据,增强模型对图像细节的理解。

Multi-task Fine-tuning(多任务微调):用指令跟随数据进行指令微调,数据混合覆盖多种任务。

图像数据分为一般、文档、图表 / 图形、OCR、定位和多图像六类,每类针对特定视觉理解方面。同时包含大量纯文本数据,提升模型处理涉及视觉和文本输入的指令跟随任务的能力。

视频数据则结合常用高质量视频字幕数据集、少量问答数据,以及VideoLLaMA2的内部数据和内部时间定位数据,增强模型视频理解能力。

Video - centric Fine - tuning(视频微调):此阶段聚焦提升模型视频理解能力,收集多个开源数据集中带注释的视频数据,还通过合成特定方面的密集字幕和问答对扩展数据规模。

此外,引入流媒体视频理解和时间定位特征,同时使用一定量的纯图像和纯文本数据,缓解模型灾难性遗忘问题。

论文和demo地址放在下面了,感兴趣的小伙伴可以去体验喽~

论文地址:
https://arxiv.org/abs/2501.13106

GitHub项目地址:
https://github.com/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file

图像理解demo:
https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image

视频理解demo:
https://huggingface.co/spaces/lixin4ever/VideoLLaMA3

HuggingFace地址:
https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡尔森:坏了!原来小丑不是特朗普,而是我自己

卡尔森:坏了!原来小丑不是特朗普,而是我自己

朝廷心腹
2026-03-26 09:07:14
余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

余承东正式宣布问界M6订单超6万台后,一个奇怪的现象就出现了

春雨说科技
2026-03-26 14:46:46
审问3小时,日本军官底细被扒出,中方一锤定音,高市早苗看着办

审问3小时,日本军官底细被扒出,中方一锤定音,高市早苗看着办

谛听骨语本尊
2026-03-26 13:43:30
别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

别想再回国!中国体坛 4 大叛徒,夺冠后否认是国人,如今遭报应

动物奇奇怪怪
2026-03-25 14:18:48
水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

时评人李文君
2026-03-25 19:32:21
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

英国上将揭露:1997年香港回归真相,谁敢抗衡中国解放军?

老范谈史
2026-03-18 23:51:08
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

坠入二次元的海洋
2026-03-26 11:44:05
周恩来晚年含泪揭秘,当年若非毛主席深夜提灯来,历史或将改写

周恩来晚年含泪揭秘,当年若非毛主席深夜提灯来,历史或将改写

鹤羽说个事
2026-03-18 21:47:42
出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

出狱后的雷政富沧桑感袭面而来,前后对比引人唏嘘

霹雳炮
2026-03-14 22:49:47
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
伊朗终于开窍,目标对准海水淡化厂,以色列抵挡不住,百余人伤亡

伊朗终于开窍,目标对准海水淡化厂,以色列抵挡不住,百余人伤亡

你得漂亮
2026-03-24 22:59:34
“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

“戏混子”又来霍霍年代剧?老气横秋、演技拉胯,难怪观众不买账

翰飞观事
2026-03-24 17:00:30
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

毛主席看完工资方案沉默良久,对周总理说:这不是把我架炉子上烤吗

文史明鉴
2026-03-26 15:22:47
巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

巴斯夫(广东)一体化基地全面投产,黄坤明等中外嘉宾共同启动

广东发布
2026-03-26 10:57:43
丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

丧心病狂!河南14岁少年被虐死案:死时穿纸尿裤,胃里空无一物

春日在捕月
2026-03-25 01:00:23
湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

湖人7分险胜!差点翻车原因揭晓,4人表现太拉胯,数据一目了然

余飩搞笑段子
2026-03-26 11:33:35
2026-03-26 16:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
游戏
教育
本地
时尚

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被查

DOTA2 7.41版本大更新!再见了命石,选择困难症有福了

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

皮衣+裙,高级到炸

无障碍浏览 进入关怀版