网易首页 > 网易号 > 正文 申请入驻

媲美GPT-4V,仅用1.2M数据、8个A100,LLaVA-1.5刷新11个基准SOTA

0
分享至

机器之心报道

编辑:蛋酱、小舟

多模态大模型落地的风,最终还是刮了起来。

十几天前,OpenAI 为 ChatGPT 添加了图像识别功能,允许用户使用上传一张或多张图像配合进行对话。从 OpenAI 自己公开的简短文档,我们得知, ChatGPT 识图功能的背后是一个名为 GPT-4V 的新款大模型。

实际上,这一能力在半年前 GPT-4 发布之时就已存在,但一直未对普通用户公开。在 AI 领域,多模态大模型 早已成为公认的趋势,也被认为是通用 AI 助手的关键模块。

鉴于 OpenAI 对「闭源」的坚持,很多研究者也率先一步推出了自己的多模态大模型研究成果。比如两大代表作「LLaVA」和「MiniGPT-4」,都在自然指令跟踪和视觉推理能力方面展示了令人印象深刻的结果。

今年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。

如今,这一成果迎来重磅升级:LLaVA-1.5 已正式发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。

论文地址:
https://browse.arxiv.org/pdf/2310.03744.pdf

Demo 地址:https://llava.hliu.cc/

仅使用 120 万公开数据,LLaVA-1.5 在单个 8-A100 节点上用不到 1 天的时间就完成了训练。

在论文中,研究者介绍了两项简单的改进:一个 MLP 跨模态连接器,以及合并 VQA 等学术任务相关数据。与 LLaVA 一起使用时,这两项改进带来了更好的多模态理解能力。

相比于 InstructBLIP 或 Qwen-VL 在数亿甚至数十亿的图像文本配对数据上训练专门设计的视觉重采样器,LLaVA 使用了最简单的架构设计,只需要在 600K 个图像 - 文本对上训练一个简单的全连接投影层。

和 GPT-4V 比,能不能打?

在读论文之前,我们先来看看 LLaVA-1.5 的识别能力如何,能不能与 GPT-4V 相较量。

命题一:将杂货转换为 JSON

指令:需要识别所有水果(仅水果),然后为每种水果创建一个具有名称属性和营养属性的对象,营养属性包括估计热量、碳水化合物、脂肪和蛋白质属性。

LLaVA-1.5 的回答结果:

GPT-4V 的回答结果:

命题二:从简化的草图识别电影名称

指令:这个图讲的是哪部电影?注:我改了角色的名字,让识别变得更难。

LLaVA-1.5 的回答结果:

GPT-4V 的回答结果:

论文细节

LLaVA 在视觉推理方面表现出值得称赞的能力,在现实生活中的视觉指令任务的各种基准上超越了多个最新模型,而仅在通常需要简短答案的学术基准上有所欠缺。研究团队认为后者归因于 LLaVA 没有像其他方法那样在大规模数据上进行预训练。

具体来说,该研究首先在下表 1 中选择的三个数据集上分析了扩展数据、模型和输入图像分辨率的影响;然后在表 2 中的 12 个不同基准上进行比较实验。实验结果表明,LLaVA 架构对于视觉指令调整而言功能强大且数据高效,并且使用比所有其他方法少得多的计算和训练数据实现了最佳性能。

响应格式 prompt

该研究发现:InstructBLIP 等方法无法在短格式和长格式 VQA 之间取得平衡主要有两点原因:

首先,给 LLM 的 prompt 在响应格式上不明确。例如,「Q:{问题} A:{答案} 」这样的 prompt 并不能清楚地阐明所需的输出格式。即使对于自然的视觉对话,也可能使 LLM 过度适合给出简短的答案。

其次,没有对 LLM 进行微调。例如,InstructBLIP 需要 Qformer 的视觉输出 token 来控制 LLM 的输出长度(长格式 / 短格式),但由于其容量有限,Qformer 可能缺乏正确执行此操作的能力。

为了解决这个问题,该研究提出使用一个明确指定输出格式的「响应格式 prompt」,例如当需要模型给出简短回答时,在 VQA 问题的末尾加一句:「使用单个词语或短语回答问题」。

该研究通过实验表明:当 LLM 使用此类 prompt 进行微调时,LLaVA 能够根据用户的指令适当调整输出格式,并且不需要使用 ChatGPT 对 VQA 数据进行额外处理。

此外,该研究还发现,与原始模型相比,通过双层 MLP 提高视觉 - 语言连接器的表征能力可以提高 LLaVA 的多模态能力。并且,该研究还面向学术任务扩展了数据,包括额外的面向学术任务的 VQA 数据集,用于 VQA、OCR 和区域级感知,以增强模型的多模态能力。

https://twitter.com/rowancheung/status/1710736745904721955

https://twitter.com/imhaotian/status/1710192818159763842

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一觉醒来,中国网球2胜3负!1姐创纪录,1哥翻车,头号种子1轮游

一觉醒来,中国网球2胜3负!1姐创纪录,1哥翻车,头号种子1轮游

刘姚尧的文字城堡
2024-06-19 06:30:22
只待官宣?WOJ:休斯顿火箭队会用探花签选中肯塔基天才谢泼德

只待官宣?WOJ:休斯顿火箭队会用探花签选中肯塔基天才谢泼德

小诸葛拜仁主席霍内斯
2024-06-20 00:07:37
罕见曝光:国防部长身边杀气腾腾的少壮军官们,威武壮哉!

罕见曝光:国防部长身边杀气腾腾的少壮军官们,威武壮哉!

华人星光
2024-06-19 16:50:38
40岁文章近照曝光!满头白发模样大变老成60岁,精神状态引担忧

40岁文章近照曝光!满头白发模样大变老成60岁,精神状态引担忧

八卦王者
2024-06-19 10:10:57
女排复仇战!0-3输日本扣11.75分+无缘四强,考验张常宁核心能力

女排复仇战!0-3输日本扣11.75分+无缘四强,考验张常宁核心能力

排球黄金眼
2024-06-20 02:10:03
邪不胜正!美国智库说大陆研究诺曼底登陆的战术,台湾等待被解放

邪不胜正!美国智库说大陆研究诺曼底登陆的战术,台湾等待被解放

陆弃
2024-06-18 10:08:33
澳大利亚:月壤属于全人类,不属于中国,中国人必须把月壤交出来

澳大利亚:月壤属于全人类,不属于中国,中国人必须把月壤交出来

功标青史
2024-06-19 17:43:55
你见过最不卫生的女生是什么样的?看完网友回复我也是颠覆三观!

你见过最不卫生的女生是什么样的?看完网友回复我也是颠覆三观!

滑稽斑马呀
2024-06-18 18:40:55
女人的生理需求,收藏起来看看,看完涨知识了。

女人的生理需求,收藏起来看看,看完涨知识了。

好笑娱乐君每一天
2024-06-18 21:13:39
大s模仿者中s现身麻六记新店开业,和麻六记高管合照,要见张兰

大s模仿者中s现身麻六记新店开业,和麻六记高管合照,要见张兰

鑫鑫说说
2024-06-19 15:08:25
上海已婚少妇“脚踏四只船”,出轨全过程曝光,传疯了!

上海已婚少妇“脚踏四只船”,出轨全过程曝光,传疯了!

拾点先生
2024-06-17 20:14:40
正式离队,国足离队3人曝光,郑智看懂了,两人摊牌发声!

正式离队,国足离队3人曝光,郑智看懂了,两人摊牌发声!

林子说事
2024-06-19 22:06:36
王思聪独自现身街头疑似分手,21岁女网红高调告白,卑微求复合!

王思聪独自现身街头疑似分手,21岁女网红高调告白,卑微求复合!

古希腊掌管月桂的神
2024-06-17 20:51:21
使馆车堵路后续:余琦简历光鲜,遛狗男身份曝光,两人关系不一般

使馆车堵路后续:余琦简历光鲜,遛狗男身份曝光,两人关系不一般

据说说娱乐
2024-06-19 19:38:04
2024年三大星座运势大好,事业旺盛喜事不断

2024年三大星座运势大好,事业旺盛喜事不断

观星星座
2024-06-19 08:33:11
陈晓一直不拿娱乐圈那一套当回事的,当年爆火也照样选择了结婚

陈晓一直不拿娱乐圈那一套当回事的,当年爆火也照样选择了结婚

青瓜娱评
2024-06-19 14:58:56
女子开使馆车叫嚣有豁免权后续:处理来了 工作恐难保 道歉遭群嘲

女子开使馆车叫嚣有豁免权后续:处理来了 工作恐难保 道歉遭群嘲

鋭娱之乐
2024-06-19 15:15:22
冷藏车司机并非好心拉人,8名遇难员工每小时工资仅为9元

冷藏车司机并非好心拉人,8名遇难员工每小时工资仅为9元

映射生活的身影
2024-06-19 14:43:56
国足学着点!葡萄牙扳平,C罗立马拿球回跑,球迷:黄健翔说得对

国足学着点!葡萄牙扳平,C罗立马拿球回跑,球迷:黄健翔说得对

侧身凌空斩
2024-06-19 10:44:13
2024年养老金调整通知公布,纠正两个错误看法,一起看看

2024年养老金调整通知公布,纠正两个错误看法,一起看看

小强财艺
2024-06-18 18:42:41
2024-06-20 05:14:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
9096文章数 141946关注度
往期回顾 全部

科技要闻

618观察:谁为高强度的低价竞争买单?

头条要闻

俄罗斯总统普京抵达越南进行国事访问

头条要闻

俄罗斯总统普京抵达越南进行国事访问

体育要闻

欧洲杯最大的混子,非他莫属

娱乐要闻

黄一鸣“杀疯了” 直播间卖大葱养孩子

财经要闻

深化科创板改革 证监会发布八条措施

汽车要闻

双肾格栅变化大/内饰焕新 新一代宝马X3官图发布

态度原创

时尚
亲子
本地
手机
教育

几个小物件,打造宅家时的「inner peace」

亲子要闻

宝宝看到对面小朋友们在打篮球也跟着模仿动作有模有样。

本地新闻

中式沙拉宇宙的天花板,它必须有姓名

手机要闻

苹果iOS 18允许第三方App录制空间视频,仅支持iPhone 15 Pro系列

教育要闻

你好高校 | 对话北京航空航天大学

无障碍浏览 进入关怀版