网易首页 > 网易号 > 正文 申请入驻

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近年来,随着多模态大模型的崛起,视频理解技术取得了显著进展。但是目前主流的全开源视频理解多模态模型普遍具有 7B 以上的参数量,这些模型往往采用复杂的架构设计,并依赖于大规模训练数据集。受限于高昂的计算资源成本,模型训练与定制化开发对于资源有限的科研人员而言仍存在显著的门槛。

近日,北京航空航天大学的研究团队基于 TinyLLaVA_Factory 的原项目,推出小尺寸简易视频理解框架 TinyLLaVA-Video,其模型,代码以及训练数据全部开源。在计算资源需求显著降低的前提下,训练出的整体参数量不超过 4B 的模型在多个视频理解 benchmark 上优于现有的 7B + 模型。同时,由于 TinyLLaVA-Video 衍生自 Tinyllava_Factory 代码库,因此项目仍然具有组件化与可扩展性等优点,使用者可以根据自身需求进行定制与拓展研究。

  • 论文地址:https://arxiv.org/abs/2501.15513
  • Github 项目:https://github.com/ZhangXJ199/TinyLLaVA-Video

全开源项目,支持定制与拓展

区别于众多仅开源模型权重的项目,TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面开源的理念。该项目不仅公开了完整的模型权重、训练代码和训练数据集,也延续了原有的模块化设计架构,研究人员可根据具体实验需求,灵活替换语言模型、视觉编码器等核心组件,并可自定义训练策略。这种开放性设计不仅降低了小规模研究团队进入视频理解研究领域的门槛,还为未来的轻量级视频理解模型的训练范式与架构创新探索提供了实验平台。

在模型架构方面,TinyLLaVA-Video 沿用 LLaVA 类多模态模型常见的 Vision Tower+Connector+LLM 框架,并同样保持预训练对齐与监督微调的两阶段训练策略。项目中采用的所有预训练模型组件均遵循开源协议,包括如 Qwen2.5-3B 等语言模型和 SigLIP 等视觉编码器此类核心模块,确保了实验的可复现性,为研究者提供了可靠的基准参考。同时,研究人员可以方便地替换模型组件,更改训练策略,定制符合自身需求的视频理解模型。

在训练数据方面,TinyLLaVA-Video 基于开源的 LLaVA-Video-178K 和 Valley 数据集进行实验。同时,为进一步精简数据集,提高训练数据的质量并控制计算资源成本,项目对训练数据进行了多步筛选与过滤,最终得到 397k 的预训练数据与 491k 的监督微调数据。这使得研究者即便仅具备有限的计算资源,也能在合理的训练时间内复现实验结果并开展进一步研究。经过处理的数据标注信息(annotation)也已经完整公开于 HuggingFace 平台,这也为后续研究提供了高质量的数据基础。

小尺寸简易框架,依然保持高性能

以往的视频理解方法受限于语言模型的输入长度限制,往往面临两难选择:要么通过设计复杂的模型架构来处理长序列信息,要么牺牲视频信息的完整性而限制采样帧数。因此,如何处理长时序视觉序列,并平衡计算资源与性能之间的矛盾,成为轻量级视频理解模型亟待解决的问题。

为在保持模型结构轻量化的同时解决长序列信息处理的问题,TinyLLaVA-Video 对于经过 Vision Tower 处理后的整体视频序列,使用简单的视频级 Resampler 作为 Connector 来对齐视觉和语言,从而能极大地减少输入至语言模型的 Visual Token 的数量。这种处理方式可以使得模型支持灵活的视频采样策略,研究者可以根据视频类型与使用需求进行 fps 采样或均匀帧采样,设置不同的视频采样帧数。

虽然简化模型架构并控制训练数据的规模,但是 TinyLLaVA-Video 的表现依然非常可观。实验结果表明,整体参数不超过 4B 的模型在包含 MLVU、Video-MME 在内的多个视频理解基准测试集上的表现优于同等训练数据量级下的 7B + 模型,充分验证了该框架的有效性。

此外,该研究也进行了大量实验,系统性地探索了不同配置下的模型性能,包括选择不同的语言模型、视觉编码器以及采样不同的帧数等设置的影响(实验设置与结果详见技术报告)。这些实验结果揭示了在不同参数设定下,模型在视频理解任务中的表现,为研究者提供了优化模型结构的实证数据。这些探索不仅提升了 TinyLLaVA-Video 的适用性,也为后续研究提供了重要的参考依据。

TinyLLaVA-Video 的研究表明,小尺寸视频理解模型在计算成本有限的环境下仍具有广阔的发展空间。未来,计算资源有限的研究者们可以基于该工作,进一步优化模型结构和训练策略,以推动小尺寸视频理解模型的持续发展,为资源受限环境下的多模态研究提供更多可能性。

TinyLLaVA 系列项目始终致力于在有限计算资源下研究小尺寸模型的训练与设计空间,坚持完全开源原则,完整公开模型参数、源代码及训练数据。同时,项目采用模块化设计理念,确保项目的可拓展性,方便资源有限的研究者们通过实践来理解与探索多模态大模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大唐名将李靖,陈塘关李靖,托塔天王李靖,到底是不是同一个人?

大唐名将李靖,陈塘关李靖,托塔天王李靖,到底是不是同一个人?

铭记历史呀
2026-03-26 11:16:18
最大的访问团,国王携家族三百多名成员访问中国,在中国生活至今

最大的访问团,国王携家族三百多名成员访问中国,在中国生活至今

丞丞故事汇
2026-03-26 11:34:08
越南5年免签新政策4.1开始实施

越南5年免签新政策4.1开始实施

创作者_cLg1
2026-03-26 09:42:32
美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

美军中央司令部:美军“亚伯拉罕·林肯”号航空母舰“在区域海域航行期间,继续针对伊朗境内的军事目标开展作战行动”

潇湘晨报
2026-03-26 10:55:27
一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

李健政观察
2026-03-26 18:16:56
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

荣亭小吏
2026-03-26 11:23:02
重磅官宣!伦敦世乒赛国乒再添1人直通,8人名单正式出炉

重磅官宣!伦敦世乒赛国乒再添1人直通,8人名单正式出炉

宝哥精彩赛事
2026-03-26 18:04:15
五代最弱小的政权,全国仅3万兵甲,靠着打家劫舍度过40年和平

五代最弱小的政权,全国仅3万兵甲,靠着打家劫舍度过40年和平

疯狂的小历史
2026-03-26 13:06:45
46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

46岁童蕾近况曝光,带女儿回农村住平房,亲自种菜日子十分勤俭

科学发掘
2026-03-26 17:46:48
延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

延寿9年,心脏病风险降60%!悉尼大学最新:饮食、睡眠、运动最佳组合出炉,小改变也大有益

医诺维
2026-03-24 17:02:18
女人偷吃后晚上跟丈夫同房是什么体验?这位46岁出轨女人说出答案

女人偷吃后晚上跟丈夫同房是什么体验?这位46岁出轨女人说出答案

混音情感
2026-03-26 14:25:07
没护照没签证,这只叫LV的猫天天跨国走私老鼠,两国海关都拿它没辙!

没护照没签证,这只叫LV的猫天天跨国走私老鼠,两国海关都拿它没辙!

英国那些事儿
2026-03-24 23:16:58
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
余承东:问界M6 24小时订单突破60000台 展车已到店

余承东:问界M6 24小时订单突破60000台 展车已到店

CNMO科技
2026-03-24 17:14:29
伊朗微松口:特朗普女婿库什纳无法信任,但跟副总统万斯或许能谈

伊朗微松口:特朗普女婿库什纳无法信任,但跟副总统万斯或许能谈

阿龙聊军事
2026-03-26 20:41:08
又内讧,泰山队内部又出问题,惨败原因找到了,内部矛盾曝光

又内讧,泰山队内部又出问题,惨败原因找到了,内部矛盾曝光

体坛风之子
2026-03-26 04:30:03
张雪峰说得对!深圳社保就是淘汰本末倒置的!直接封神!

张雪峰说得对!深圳社保就是淘汰本末倒置的!直接封神!

烟浔渺渺
2026-03-26 17:07:45
赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

赖昌星前妻近状曝光:拒绝政府安置,独居3000平老宅,只做一件事

芳芳历史烩
2026-03-23 03:53:23
笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

笑掉大牙!伊朗高层当众互撕,吹破天的强硬,连军饷都发不出来

老马拉车莫少装
2026-03-25 19:39:00
伊朗首都德黑兰遭空袭,多地传出爆炸声!伊朗武装部队向以色列发射新一轮导弹

伊朗首都德黑兰遭空袭,多地传出爆炸声!伊朗武装部队向以色列发射新一轮导弹

大象新闻
2026-03-26 20:45:02
2026-03-26 21:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
房产
本地
健康

艺术要闻

哪一座桥不是风景?

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版