网易首页 > 网易号 > 正文 申请入驻

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近年来,随着多模态大模型的崛起,视频理解技术取得了显著进展。但是目前主流的全开源视频理解多模态模型普遍具有 7B 以上的参数量,这些模型往往采用复杂的架构设计,并依赖于大规模训练数据集。受限于高昂的计算资源成本,模型训练与定制化开发对于资源有限的科研人员而言仍存在显著的门槛。

近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。同时,由于 TinyLLaVA-Video 衍生自 Tinyllava_Factory 代码库,因此项目仍然具有组件化与可扩展性等优点,使用者可以根据自身需求进行定制与拓展研究。

  • 论文地址:https://arxiv.org/abs/2501.15513
  • Github 项目:https://github.com/ZhangXJ199/TinyLLaVA-Video

全开源项目,支持定制与拓展

区别于众多仅开源模型权重的项目,TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面开源的理念。该项目不仅公开了完整的模型权重、训练代码和训练数据集,也延续了原有的模块化设计架构,研究人员可根据具体实验需求,灵活替换语言模型、视觉编码器等核心组件,并可自定义训练策略。这种开放性设计不仅降低了小规模研究团队进入视频理解研究领域的门槛,还为未来的轻量级视频理解模型的训练范式与架构创新探索提供了实验平台。

在模型架构方面,TinyLLaVA-Video 沿用 LLaVA 类多模态模型常见的 Vision Tower+Connector+LLM 框架,并同样保持预训练对齐与监督微调的两阶段训练策略。项目中采用的所有预训练模型组件均遵循开源协议,包括如 Qwen2.5-3B 等语言模型和 SigLIP 等视觉编码器此类核心模块,确保了实验的可复现性,为研究者提供了可靠的基准参考。同时,研究人员可以方便地替换模型组件,更改训练策略,定制符合自身需求的视频理解模型。

在训练数据方面,TinyLLaVA-Video 基于开源的 LLaVA-Video-178K 和 Valley 数据集进行实验。同时,为进一步精简数据集,提高训练数据的质量并控制计算资源成本,项目对训练数据进行了多步筛选与过滤,最终得到 397k 的预训练数据与 491k 的监督微调数据。这使得研究者即便仅具备有限的计算资源,也能在合理的训练时间内复现实验结果并开展进一步研究。经过处理的数据标注信息(annotation)也已经完整公开于 HuggingFace 平台,这也为后续研究提供了高质量的数据基础。

小尺寸简易框架,依然保持高性能

以往的视频理解方法受限于语言模型的输入长度限制,往往面临两难选择:要么通过设计复杂的模型架构来处理长序列信息,要么牺牲视频信息的完整性而限制采样帧数。因此,如何处理长时序视觉序列,并平衡计算资源与性能之间的矛盾,成为轻量级视频理解模型亟待解决的问题。

为在保持模型结构轻量化的同时解决长序列信息处理的问题,TinyLLaVA-Video 对于经过 Vision Tower 处理后的整体视频序列,使用简单的视频级 Resampler 作为 Connector 来对齐视觉和语言,从而能极大地减少输入至语言模型的 Visual Token 的数量。这种处理方式可以使得模型支持灵活的视频采样策略,研究者可以根据视频类型与使用需求进行 fps 采样或均匀帧采样,设置不同的视频采样帧数。

虽然简化模型架构并控制训练数据的规模,但是 TinyLLaVA-Video 的表现依然非常可观。实验结果表明,整体参数不超过 4B 的模型在包含 MLVU、Video-MME 在内的多个视频理解基准测试集上的表现优于同等训练数据量级下的 7B + 模型,充分验证了该框架的有效性。

此外,该研究也进行了大量实验,系统性地探索了不同配置下的模型性能,包括选择不同的语言模型、视觉编码器以及采样不同的帧数等设置的影响(实验设置与结果详见技术报告)。这些实验结果揭示了在不同参数设定下,模型在视频理解任务中的表现,为研究者提供了优化模型结构的实证数据。这些探索不仅提升了 TinyLLaVA-Video 的适用性,也为后续研究提供了重要的参考依据。

TinyLLaVA-Video 的研究表明,小尺寸视频理解模型在计算成本有限的环境下仍具有广阔的发展空间。未来,计算资源有限的研究者们可以基于该工作,进一步优化模型结构和训练策略,以推动小尺寸视频理解模型的持续发展,为资源受限环境下的多模态研究提供更多可能性。

TinyLLaVA 系列项目始终致力于在有限计算资源下研究小尺寸模型的训练与设计空间,坚持完全开源原则,完整公开模型参数、源代码及训练数据。同时,项目采用模块化设计理念,确保项目的可拓展性,方便资源有限的研究者们通过实践来理解与探索多模态大模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
名帅有能!巴西队2比1绝杀逆转日本队晋级,胜利属于意大利教练安切洛蒂

名帅有能!巴西队2比1绝杀逆转日本队晋级,胜利属于意大利教练安切洛蒂

上观新闻
2026-06-30 03:28:50
清纯小女神:只是喜欢简单

清纯小女神:只是喜欢简单

疾跑的小蜗牛
2026-06-29 20:31:06
田中碧哭成泪人!日媒:多人伤病已踢出风采 海外球迷赞誉一片

田中碧哭成泪人!日媒:多人伤病已踢出风采 海外球迷赞誉一片

颜小白的篮球梦
2026-06-30 09:20:58
7月2日至8日 王毅将访问欧洲四国

7月2日至8日 王毅将访问欧洲四国

看看新闻Knews
2026-06-30 17:06:14
宝马X5混动版“新赛季球衣”首曝!第五代官图来了

宝马X5混动版“新赛季球衣”首曝!第五代官图来了

赛场速报局
2026-07-01 00:03:54
萧敬腾为老婆庆生,布置花海超浪漫,林有慧感动之余吐槽乱花钱

萧敬腾为老婆庆生,布置花海超浪漫,林有慧感动之余吐槽乱花钱

扒虾侃娱
2026-06-28 23:22:01
摩洛哥点球大战淘汰荷兰队!把“借鸡生蛋”做到极致,他们的胜利让人心服

摩洛哥点球大战淘汰荷兰队!把“借鸡生蛋”做到极致,他们的胜利让人心服

红星新闻
2026-06-30 12:43:17
一天吃透【玻璃基板】产业链 3 大关键赛道,附龙头

一天吃透【玻璃基板】产业链 3 大关键赛道,附龙头

飞跑的鹿
2026-06-28 20:06:49
莫言:如果你混到没人找你吃饭,没人喊你聚会,连电话也没几个,那庆祝了,你不是人缘变差,而是真正觉醒了

莫言:如果你混到没人找你吃饭,没人喊你聚会,连电话也没几个,那庆祝了,你不是人缘变差,而是真正觉醒了

品读时刻
2026-05-27 09:00:58
什么是气象站——关于自动气象站

什么是气象站——关于自动气象站

测控技术有限公司
2025-07-03 17:16:08
金靖36岁老公活动近照曝光,素颜干净有才华,两人性格完美互补

金靖36岁老公活动近照曝光,素颜干净有才华,两人性格完美互补

观鱼听雨
2026-06-30 23:49:44
医生买俩烧饼充饥被举报走人,一月后举报人跪求救命,他傻眼了

医生买俩烧饼充饥被举报走人,一月后举报人跪求救命,他傻眼了

晓艾故事汇
2026-06-27 15:44:01
人生最大的愚蠢 ,就是把千辛万苦赚来的钱借给别人

人生最大的愚蠢 ,就是把千辛万苦赚来的钱借给别人

风起见你
2026-06-22 08:01:38
贝加尔湖畔摄影师:我的人生, 因大13岁的上海妻子而改变

贝加尔湖畔摄影师:我的人生, 因大13岁的上海妻子而改变

新民周刊
2026-06-30 09:09:23
我接受不了我女儿这样!女大学生晒和男友同居日常,家长心态崩了

我接受不了我女儿这样!女大学生晒和男友同居日常,家长心态崩了

世界圈
2026-06-25 12:34:13
中国该不该参加将在日本举行的亚运会?

中国该不该参加将在日本举行的亚运会?

福建睿平
2026-06-30 07:30:29
一句话毁掉政治口碑!郑丽文彻底翻车,蓝营密集切割止损

一句话毁掉政治口碑!郑丽文彻底翻车,蓝营密集切割止损

经点星娱
2026-06-29 15:23:48
喂饱哈兰德太难!挪威紧急订购本土大批海鲜,计划打到决赛

喂饱哈兰德太难!挪威紧急订购本土大批海鲜,计划打到决赛

泥说体育
2026-06-30 00:18:10
400万欠款拖垮!重庆男子哭诉40岁失业零存款,一家4口将流离失所

400万欠款拖垮!重庆男子哭诉40岁失业零存款,一家4口将流离失所

火山詩话
2026-06-30 11:02:17
传奇回归!板爷执教上海 面对升降级机遇 能否闯入CBA?

传奇回归!板爷执教上海 面对升降级机遇 能否闯入CBA?

你看球呢
2026-06-30 11:10:38
2026-07-01 00:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13401文章数 142685关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

教育
房产
健康
公开课
军事航空

教育要闻

责任在谁?家长投诉:老师强制打印作业,教育局明确回复

房产要闻

TOP10单盘狂卖210亿!海南楼市,上半年热销榜单出炉

狂吃“糯叽叽”小心肠梗阻!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列防长:穆杰塔巴已被列入死亡名单

无障碍浏览 进入关怀版