网易首页 > 网易号 > 正文 申请入驻

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近年来,随着多模态大模型的崛起,视频理解技术取得了显著进展。但是目前主流的全开源视频理解多模态模型普遍具有 7B 以上的参数量,这些模型往往采用复杂的架构设计,并依赖于大规模训练数据集。受限于高昂的计算资源成本,模型训练与定制化开发对于资源有限的科研人员而言仍存在显著的门槛。

近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。同时,由于 TinyLLaVA-Video 衍生自 Tinyllava_Factory 代码库,因此项目仍然具有组件化与可扩展性等优点,使用者可以根据自身需求进行定制与拓展研究。

  • 论文地址:https://arxiv.org/abs/2501.15513
  • Github 项目:https://github.com/ZhangXJ199/TinyLLaVA-Video

全开源项目,支持定制与拓展

区别于众多仅开源模型权重的项目,TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面开源的理念。该项目不仅公开了完整的模型权重、训练代码和训练数据集,也延续了原有的模块化设计架构,研究人员可根据具体实验需求,灵活替换语言模型、视觉编码器等核心组件,并可自定义训练策略。这种开放性设计不仅降低了小规模研究团队进入视频理解研究领域的门槛,还为未来的轻量级视频理解模型的训练范式与架构创新探索提供了实验平台。

在模型架构方面,TinyLLaVA-Video 沿用 LLaVA 类多模态模型常见的 Vision Tower+Connector+LLM 框架,并同样保持预训练对齐与监督微调的两阶段训练策略。项目中采用的所有预训练模型组件均遵循开源协议,包括如 Qwen2.5-3B 等语言模型和 SigLIP 等视觉编码器此类核心模块,确保了实验的可复现性,为研究者提供了可靠的基准参考。同时,研究人员可以方便地替换模型组件,更改训练策略,定制符合自身需求的视频理解模型。

在训练数据方面,TinyLLaVA-Video 基于开源的 LLaVA-Video-178K 和 Valley 数据集进行实验。同时,为进一步精简数据集,提高训练数据的质量并控制计算资源成本,项目对训练数据进行了多步筛选与过滤,最终得到 397k 的预训练数据与 491k 的监督微调数据。这使得研究者即便仅具备有限的计算资源,也能在合理的训练时间内复现实验结果并开展进一步研究。经过处理的数据标注信息(annotation)也已经完整公开于 HuggingFace 平台,这也为后续研究提供了高质量的数据基础。

小尺寸简易框架,依然保持高性能

以往的视频理解方法受限于语言模型的输入长度限制,往往面临两难选择:要么通过设计复杂的模型架构来处理长序列信息,要么牺牲视频信息的完整性而限制采样帧数。因此,如何处理长时序视觉序列,并平衡计算资源与性能之间的矛盾,成为轻量级视频理解模型亟待解决的问题。

为在保持模型结构轻量化的同时解决长序列信息处理的问题,TinyLLaVA-Video 对于经过 Vision Tower 处理后的整体视频序列,使用简单的视频级 Resampler 作为 Connector 来对齐视觉和语言,从而能极大地减少输入至语言模型的 Visual Token 的数量。这种处理方式可以使得模型支持灵活的视频采样策略,研究者可以根据视频类型与使用需求进行 fps 采样或均匀帧采样,设置不同的视频采样帧数。

虽然简化模型架构并控制训练数据的规模,但是 TinyLLaVA-Video 的表现依然非常可观。实验结果表明,整体参数不超过 4B 的模型在包含 MLVU、Video-MME 在内的多个视频理解基准测试集上的表现优于同等训练数据量级下的 7B + 模型,充分验证了该框架的有效性。

此外,该研究也进行了大量实验,系统性地探索了不同配置下的模型性能,包括选择不同的语言模型、视觉编码器以及采样不同的帧数等设置的影响(实验设置与结果详见技术报告)。这些实验结果揭示了在不同参数设定下,模型在视频理解任务中的表现,为研究者提供了优化模型结构的实证数据。这些探索不仅提升了 TinyLLaVA-Video 的适用性,也为后续研究提供了重要的参考依据。

TinyLLaVA-Video 的研究表明,小尺寸视频理解模型在计算成本有限的环境下仍具有广阔的发展空间。未来,计算资源有限的研究者们可以基于该工作,进一步优化模型结构和训练策略,以推动小尺寸视频理解模型的持续发展,为资源受限环境下的多模态研究提供更多可能性。

TinyLLaVA 系列项目始终致力于在有限计算资源下研究小尺寸模型的训练与设计空间,坚持完全开源原则,完整公开模型参数、源代码及训练数据。同时,项目采用模块化设计理念,确保项目的可拓展性,方便资源有限的研究者们通过实践来理解与探索多模态大模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗外长称拉里贾尼遇害不会动摇伊朗政治架构,如果有一天外交部长殉职,最终也会有人接替

伊朗外长称拉里贾尼遇害不会动摇伊朗政治架构,如果有一天外交部长殉职,最终也会有人接替

大象新闻
2026-03-18 17:52:01
刘亦菲近照曝光,胸部下垂有年龄感了,一看就是快40岁的中年女性

刘亦菲近照曝光,胸部下垂有年龄感了,一看就是快40岁的中年女性

小娱乐悠悠
2026-03-18 08:45:18
波斯湾惊雷:伊朗以弱锁喉全球能源,拖垮美国霸权指日可待!

波斯湾惊雷:伊朗以弱锁喉全球能源,拖垮美国霸权指日可待!

汉唐智库
2026-03-17 08:15:28
伊朗高层一杀一个准,不是美以太狠,是他们自己烂透了!

伊朗高层一杀一个准,不是美以太狠,是他们自己烂透了!

老马拉车莫少装
2026-03-18 09:07:46
长沙一对男女当街淫乱:4分钟视频流出,身份被扒,处理结果公布

长沙一对男女当街淫乱:4分钟视频流出,身份被扒,处理结果公布

博士观察
2026-03-17 12:34:17
郭昊文内讧门后28+8+8:末节15分率同曦逆转浙江 程帅澎21分

郭昊文内讧门后28+8+8:末节15分率同曦逆转浙江 程帅澎21分

醉卧浮生
2026-03-18 21:51:55
刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

刚从日本回来,说点不中听的:日本的真实面目,可能让你很意外

世界圈
2026-03-18 08:32:07
过分!女子把脚趾塞侄子嘴里,被嫂子曝光后,连发十几条语音辱骂

过分!女子把脚趾塞侄子嘴里,被嫂子曝光后,连发十几条语音辱骂

离离言几许
2026-03-17 15:06:26
太黑了!315晚会后,最先塌房的不是奶茶,也不是辣条,而是鸡蛋

太黑了!315晚会后,最先塌房的不是奶茶,也不是辣条,而是鸡蛋

离离言几许
2026-03-18 11:25:59
普通美国人的无知到底有多夸张?

普通美国人的无知到底有多夸张?

步论天下事
2026-03-18 10:28:18
迪拜完了,新加坡还能撑多久?

迪拜完了,新加坡还能撑多久?

云石
2026-03-18 14:03:31
2025上海老字号名录定了!小杨生煎、清美等首次入选,被移出的老半斋回来了,丰裕、虹口糕团等也在

2025上海老字号名录定了!小杨生煎、清美等首次入选,被移出的老半斋回来了,丰裕、虹口糕团等也在

纵相新闻
2026-03-18 23:28:05
日本“男女混浴”要求一丝不挂,如何保障女性隐私?看完涨知识了

日本“男女混浴”要求一丝不挂,如何保障女性隐私?看完涨知识了

千秋文化
2026-03-17 22:22:11
快讯!泰国传来消息!

快讯!泰国传来消息!

达文西看世界
2026-03-18 09:18:53
伊朗总统证实情报部长遇害! 伊朗:“彻底打击”地区所有美军基地和以军集结点 !

伊朗总统证实情报部长遇害! 伊朗:“彻底打击”地区所有美军基地和以军集结点 !

每日经济新闻
2026-03-19 00:48:25
51岁港星广东县城卖10元云吞,凌晨5点起床,擦桌子收碗筷超勤快

51岁港星广东县城卖10元云吞,凌晨5点起床,擦桌子收碗筷超勤快

韩小娱
2026-03-17 11:28:35
受伤的伊朗正全力回击美以,同阵营的海湾国家态度开始变的微妙

受伤的伊朗正全力回击美以,同阵营的海湾国家态度开始变的微妙

阿芒娱乐说
2026-03-19 00:01:53
震惊!湖南一医科大学门口,外卖堆积如山,网友:用生命捍卫自尊

震惊!湖南一医科大学门口,外卖堆积如山,网友:用生命捍卫自尊

火山詩话
2026-03-17 13:29:01
抓紧加油!92号汽油下周上涨幅度预计突破1.6元/升

抓紧加油!92号汽油下周上涨幅度预计突破1.6元/升

上观新闻
2026-03-18 12:16:08
地狱之门将闭!土库曼斯坦巨坑燃烧半世纪,科学家探秘发现了啥?

地狱之门将闭!土库曼斯坦巨坑燃烧半世纪,科学家探秘发现了啥?

向航说
2026-03-18 00:20:03
2026-03-19 01:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12536文章数 142589关注度
往期回顾 全部

科技要闻

实测QClaw:腾讯突袭,给微信装上AI大脑

头条要闻

补壹刀:严峻现实浮出水面 以色列面临前所未有的压力

头条要闻

补壹刀:严峻现实浮出水面 以色列面临前所未有的压力

体育要闻

守住底线的中国女足,下一步该怎么走?

娱乐要闻

姚晨侯雯元绯闻升级 双方否认称是谣言

财经要闻

楼市最大的"赌徒",正在批量抄底老破小

汽车要闻

价格10万级 四驱中级电混轿车银河星耀7来了

态度原创

健康
艺术
数码
房产
公开课

转头就晕的耳石症,能开车上班吗?

艺术要闻

百年前欧洲美女老照片,惊艳到你了吗?快来看看!

数码要闻

飞利浦推出Moving Sound系列:还原80年代时尚,音箱耳机全都有

房产要闻

大规模召回离职员工?碧桂园最新回应!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版