网易首页 > 网易号 > 正文 申请入驻

模块化重构LLaVA,替换只需添加1-2个文件,TinyLLaVA Factory来了

0
分享至

  • AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。

近日,清华和北航联合推出了 TinyLLaVA Factory, 一款支持定制、训练、评估多模态大模型的代码库,代码和模型全部开源。该代码库以软件工程的工厂模式作为设计理念,模块化地重构了 LLaVA 代码库,注重代码的可读性、功能的扩展性、和实验效果的可复现性。方便研究者和实践家们更容易地探索多模态大模型的训练和设计空间。



Github 项目:https://github.com/TinyLLaVA/TinyLLaVA_Factory

论文地址:https://arxiv.org/abs/2405.11788

Hugging Face 模型地址:https://huggingface.co/tinyllava/TinyLLaVA-Phi-2-SigLIP-3.1B or https://huggingface.co/bczhou/TinyLLaVA-3.1B-SigLIP

机器之心 SOTA 模型地址:https://sota.jiqizhixin.com/project/tinyllava

LLaVA 作为多模态社区的优质开源项目,备受研究者和开发者的青睐;新入坑多模态大模型的初学者们也习惯以 LLaVA 项目作为起点,学习和训练多模态大模型。但是 LLaVA 项目的代码较为晦涩难懂,一旦不慎更改错误,就可能会影响训练效果,对于新手来说,往往不敢轻易修改其中的细节,给理解和探索多模态大模型的本质细节造成了一定的困难。

近日,清华和北航联合推出 TinyLLaVA Factory,将本来的 LLaVA 代码进行模块化重构,专注于简洁的代码实现、新功能的可扩展性、以及训练结果的可复现性,让你以最小的代码量,定制并训练属于自己的多模态大模型,同时减少代码错误率!相同的模型配置、训练数据和训练策略条件下,使用 TinyLLaVA Factory 可训练出比用 LLaVA 代码性能略胜一筹的模型。为了让用户更容易地读懂代码和使用模型,TinyLLaVA Factory 项目还配备了代码文档和 Demo 网站。其总体架构图如下。



数据预处理部分,TinyLLaVA Factory 摒弃了 LLaVA 代码中烧脑的图片处理和 Prompt 处理过程,提供了标准的、可扩展的图片和文本预处理过程,清晰明了。其中,图片预处理可自定义 Processor,也可使用一些官方视觉编码器的 Processor,如 CLIP ViT 和 SigCLIP ViT 自带的 Image Processor。对于文本预处理,定义了基类 Template,提供了基本的、共用的函数,如添加 System Message (Prompt)、Tokenize、和生成标签 Ground Truth 的函数,用户可通过继承基类就可轻松扩展至不同 LLM 的 Chat Template。





模型部分,TinyLLaVA Factory 很自然地将多模态大模型模块化成 3 个组件 —— 大语言模型组件、视觉编码器组件、中间的连接器组件。每个组件由一个工厂对象控制,负责新模型的注册和替换,使用户能够更容易地替换其中任何一个组件,而不会牵连到其他部分。



TinyLLaVA Factory 为每个组件提供了当前主流的模型,如下表所示。



训练器仍然仿照 LLaVA,采取 Hugging Face 自带的 Trainer,集成了 Gradient Accumulation,Wandb 做日志记录等特性,同样支持 DeepSpeed ZeRO2/ZeRO3 并行训练。对于评估部分,TinyLLaVA Factory 提供了 SQA/GQA/TextVQA/VQAv2/POPE/MME/MM-Vet/MMMU 8 个 Benchmark 的评估。

接下来,划重点!TinyLLaVA Factory Github 项目还手把手教你定制自己的多模态大模型。只需简单地添加 1-2 个文件,就可以轻松替换 LLM 组件、视觉编码器组件、连接器组件。

拿替换 LLM 模型举例。据使用过 LLaVA 代码库的同学反应,LLaVA 代码想替换非 Llama 系列的语言模型容易出错。而 TinyLLaVA Factory 可以方便地替换语言模型,只需添加 2 个 py 文件,一个是 Chat Template 文件,一个是模型文件。替换视觉编码器时,也只需添加 1 个 py 文件,继承视觉编码器的基类即可。



TinyLLaVA Factory 还支持对训练策略进行定制,对使用者来说只需在配置文件中进行修改,就能在 pretraining 和 finetuning 阶段对 3 个模块组件(LLM / 视觉编码器 / 连接器)实现冻住 / 全量微调 / 部分微调 /lora 微调的任意组合。堪称小白易上手式的教程!



早在今年 2 月,TinyLLaVA 项目就敏锐地捕捉到了 3B 以下 LLM 在多模态大模型中的潜力,利用市面主流的小规模 LLM,训练了一系列多模态大模型,参数量在 0.89B-3.1B。实验结果表明经过高质量的数据选择和更加细致的训练策略,利用小规模 LLM 同样可以实现和大模型相近甚至更加优越的任务表现。(细节详见技术报告 https://arxiv.org/abs/2402.14289)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
很严重了,我劝大家极限存钱吧,从现在开始!

很严重了,我劝大家极限存钱吧,从现在开始!

大忘路
2024-06-12 07:32:37
中国一旦进入战争,这些数字告诉你,只有一个结论:缴械投降

中国一旦进入战争,这些数字告诉你,只有一个结论:缴械投降

蓝婉莹
2024-05-12 02:22:39
美女模特,蜂腰大长腿,凹凸有致,请你吃晚饭你去不去

美女模特,蜂腰大长腿,凹凸有致,请你吃晚饭你去不去

傲娇的马甲线
2024-06-13 17:30:03
A股:股市或将迎来大级别的下跌

A股:股市或将迎来大级别的下跌

生活中的栗子
2024-06-17 15:25:41
被喷到自闭:扬言《黑神话》辱女的女记者已隐藏推特

被喷到自闭:扬言《黑神话》辱女的女记者已隐藏推特

游民星空
2024-06-17 16:05:12
没戏了!塔图姆总决赛G5前采访:库里科比也不是每次夺冠都拿FMVP

没戏了!塔图姆总决赛G5前采访:库里科比也不是每次夺冠都拿FMVP

体坛无名
2024-06-17 17:15:01
没想到大家都在偷偷降级消费了!网友操作太6了一个比一个夸猛!

没想到大家都在偷偷降级消费了!网友操作太6了一个比一个夸猛!

奇特短尾矮袋鼠
2024-06-14 11:07:20
全军覆没!荷兰做出新决定,外媒:“弯道超车”还是失败了

全军覆没!荷兰做出新决定,外媒:“弯道超车”还是失败了

疯狂小菠萝
2024-06-17 16:44:24
阿里巴巴全球数学竞赛的历届冠军是谁

阿里巴巴全球数学竞赛的历届冠军是谁

猫小狸同学
2024-06-17 08:21:36
8500万欧太水?曼联中锋坑惨丹麦!踢丢必进球后被换下,仅获6分

8500万欧太水?曼联中锋坑惨丹麦!踢丢必进球后被换下,仅获6分

我爱英超
2024-06-17 02:14:20
电动车新国标再度修订,车主们该何去何从?

电动车新国标再度修订,车主们该何去何从?

趣说世界哈
2024-06-17 07:34:26
胡歌父亲节罕晒父子合影,童年胡歌好胖,爸爸年轻时和胡歌长一样

胡歌父亲节罕晒父子合影,童年胡歌好胖,爸爸年轻时和胡歌长一样

娱絮
2024-06-17 11:59:58
你见过的狠人有多绝?网友:认识一妹子,容嬷嬷见了都得使劲摇头

你见过的狠人有多绝?网友:认识一妹子,容嬷嬷见了都得使劲摇头

开玩笑的水母
2024-06-11 18:37:22
腾讯有没有被肢解的可能?网友:飞信当年是QQ的最大威胁,决定收费后把自己搞死

腾讯有没有被肢解的可能?网友:飞信当年是QQ的最大威胁,决定收费后把自己搞死

老郭在学习
2024-06-16 23:58:26
第一次性生活有多痛?进不去怎么办

第一次性生活有多痛?进不去怎么办

喜马拉雅主播暮霭
2024-06-12 09:53:49
摩擦严重升级!中方调查欧盟进口猪肉,德媒揭露中国的心思

摩擦严重升级!中方调查欧盟进口猪肉,德媒揭露中国的心思

道德经
2024-06-18 00:38:18
港媒:美军核潜艇并不是“撞山”,而是被解放军发现后“伏击”!

港媒:美军核潜艇并不是“撞山”,而是被解放军发现后“伏击”!

黑天鹅洞察
2024-06-14 11:51:11
回应韦世豪?伊万宣布国足点球手 队长最佳人选不是王大雷

回应韦世豪?伊万宣布国足点球手 队长最佳人选不是王大雷

球事百科吖
2024-06-17 11:22:42
孙杨彻底无缘巴黎奥运会?媒曝不利消息,泳迷:泳协不用为难了

孙杨彻底无缘巴黎奥运会?媒曝不利消息,泳迷:泳协不用为难了

尘语者
2024-06-17 21:28:07
特朗普揭开美国新能源世纪骗局,一个充电站成本是中国的3万倍!

特朗普揭开美国新能源世纪骗局,一个充电站成本是中国的3万倍!

好笑娱乐君每一天
2024-06-17 16:09:00
2024-06-18 01:20:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9085文章数 141944关注度
往期回顾 全部

科技要闻

为什么你的iPhone,肯定用不上"苹果AI"?

头条要闻

瑞典智库称中国核弹头数量增加总数达500枚 中方回应

头条要闻

瑞典智库称中国核弹头数量增加总数达500枚 中方回应

体育要闻

飞翔的斗牛士 如今也迎来最后一舞

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

人均养老金上调3% 怎么年轻人吵翻了?

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

房产
时尚
亲子
数码
公开课

房产要闻

强!全国第三!海口房价正在止跌!

永不过时的高级感,这个风格已经美了20年了

亲子要闻

弟弟用力掐姐姐的脸,姐姐一声不吭看了一眼妈妈,站起来一顿操作

数码要闻

小米米家智能多功能养生壶 P1 发布:陶瓷不粘涂层,众筹 179 元

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版