网易首页 > 网易号 > 正文 申请入驻

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

0
分享至

机器之心报道

机器之心编辑部

去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。

现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测试中超越了 Gemini Pro。

  • demo 地址:https://llava.hliu.cc/
  • 项目地址:https://github.com/haotian-liu/LLaVA

与 LLaVA-1.5 相比,LLaVA-1.6 有如下几个改进:

  • 将输入图像分辨率提升 4 倍,支持三种宽高比,最高可达 672x672、336x1344、1344x336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。
  • 通过改进的视觉指令调整数据混合,LLaVA-1.6 获得了更好的视觉推理和 OCR 能力。
  • 更好的视觉对话,更多场景,覆盖不同应用。LLaVA-1.6 掌握了更多世界知识,具备更好的逻辑推理能力。
  • 使用 SGLang 进行高效部署和推理。

图源:https://twitter.com/imhaotian/status/1752621754273472927

LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率,它复用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调优样本。最大的 34B 模型使用 32 个 A100 在大约 1 天内完成了训练。LLaVA-1.6 使用 130 万个数据样本,计算 / 训练数据成本约为其他方法的 100-1000 分之一。

与 CogVLM 或 Yi-VL 等开源 LMM 相比,LLaVA-1.6 实现了 SOTA 性能。与商用产品相比,LLaVA-1.6 在选定的基准测试中可以媲美 Gemini Pro,并且优于 Qwen-VL-Plus。

值得一提的是,LLaVA-1.6 展现出强大的零样本(zero-shot)中文能力,它在多模态基准 MMBench-CN 上取得了 SOTA 性能。

方法改进

动态高分辨率

研究团队以高分辨率设计 LLaVA-1.6 模型,旨在保持其数据效率。当提供高分辨率图像和保留细节的表征时,模型感知图像中复杂细节的能力会显著提高。它减少了面对低分辨率图像时的模型幻觉,即猜测想象的视觉内容。

数据混合

高质量的用户指令数据。该研究对高质量视觉指令遵循数据的定义取决于两个主要标准:首先,任务指令的多样性,确保充分代表现实场景中可能遇到的广泛用户意图,特别是在模型部署阶段。其次,响应的优先级至关重要,旨在征求有利的用户反馈。

因此,该研究考虑了两个数据源:

现有的 GPT-V 数据 (LAION-GPT-V 和 ShareGPT-4V);

为了进一步促进更多场景下更好的视觉对话,研究团队收集了一个涵盖不同应用的小型 15K 视觉指令调优数据集,仔细过滤了可能存在隐私问题或可能有害的样本,并使用 GPT-4V 生成响应。

多模态文档 / 图表数据。(1) 从训练数据中删除 TextCap,因为研究团队意识到 TextCap 使用与 TextVQA 相同的训练图像集。这使得研究团队能够在评估 TextVQA 时更好地了解模型的零样本 OCR 能力。为了保持并进一步提高模型的 OCR 能力,该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。(2) 借助 Qwen-VL-7B-Chat,该研究进一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解图和图表。

研究团队还表示除了 Vicuna-1.5(7B 和 13B),还考虑采用更多 LLM 方案,包括 Mistral-7B 和 Nous-Hermes-2-Yi-34B,以使 LLaVA 能够支持更广泛的用户和更多的场景。

参考链接:https://llava-vl.github.io/blog/2024-01-30-llava-1-6/返回

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于正又力捧一位小花,造型致敬“小龙女”,怪不得非让对方瘦下来

于正又力捧一位小花,造型致敬“小龙女”,怪不得非让对方瘦下来

楚楚号
2026-05-24 05:38:00
卫星从太空偷拍了SpaceX最大火箭,画面有点酷

卫星从太空偷拍了SpaceX最大火箭,画面有点酷

理性之光啊
2026-05-23 02:33:19
为宠粉而来 2026款宝马X5依旧是SUV里的标准答案

为宠粉而来 2026款宝马X5依旧是SUV里的标准答案

麻辣车事
2026-05-22 15:35:23
北京胡同男厕成阿信女粉打卡点,居民:这不就叫脑残粉吗?

北京胡同男厕成阿信女粉打卡点,居民:这不就叫脑残粉吗?

映射生活的身影
2026-05-24 11:10:11
热刺本赛季英超通过定位球打入19球,距队史纪录仅差1球

热刺本赛季英超通过定位球打入19球,距队史纪录仅差1球

懂球帝
2026-05-25 00:01:03
曝宁德时代要投DeepSeek

曝宁德时代要投DeepSeek

智东西
2026-05-24 18:00:23
发射倒计时!神舟二十三号阵容大换血,3位老航天员落选

发射倒计时!神舟二十三号阵容大换血,3位老航天员落选

晓徙娱乐
2026-05-22 18:57:57
矿难后家属能拿多少?2026赔偿账一目了然,流程和总额都给你算清

矿难后家属能拿多少?2026赔偿账一目了然,流程和总额都给你算清

阿芒娱乐说
2026-05-24 20:58:17
45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

45岁才明白:微信上基本不发朋友圈的,十有八九是这两种人

心理观察局
2026-05-08 09:43:07
被赵云一枪秒杀的3个一流猛将,1人战平许褚,1人轻松打败公孙瓒

被赵云一枪秒杀的3个一流猛将,1人战平许褚,1人轻松打败公孙瓒

凡人侃史
2026-05-24 23:48:26
上海男篮拒绝输球!力争总决赛开门红,张镇麟对位布朗,央视直播

上海男篮拒绝输球!力争总决赛开门红,张镇麟对位布朗,央视直播

体坛瞎白话
2026-05-24 19:28:24
马刺传闻:内部人士透露德阿隆·福克斯的交易难题迫在眉睫

马刺传闻:内部人士透露德阿隆·福克斯的交易难题迫在眉睫

好火子
2026-05-24 23:41:26
《家业》李祯跪开墨坊!八爷宁当逃兵,才懂他心里藏着十三年的刺

《家业》李祯跪开墨坊!八爷宁当逃兵,才懂他心里藏着十三年的刺

枫尘余往逝
2026-05-23 23:52:26
5-0 3-3 3-2!铁人脱胎换骨 司机还能撑多久?泰山神经 海牛3连败

5-0 3-3 3-2!铁人脱胎换骨 司机还能撑多久?泰山神经 海牛3连败

刀锋体育
2026-05-25 00:14:39
发现一个现象:中产返贫三件套,已经升级为六件套了!

发现一个现象:中产返贫三件套,已经升级为六件套了!

番外行
2026-05-18 10:25:35
第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

室内设计师有料儿
2026-05-09 10:26:26
龚丽丽下药害人,苟存忠遗言救命,胡三元求复合被拒

龚丽丽下药害人,苟存忠遗言救命,胡三元求复合被拒

悦君兮君不知
2026-05-24 18:54:03
留神峪矿难获救矿工讲述:自救器四五年没换过,遇大检查就会停工,井口距工作面约5公里,轨道车只能到2600米处

留神峪矿难获救矿工讲述:自救器四五年没换过,遇大检查就会停工,井口距工作面约5公里,轨道车只能到2600米处

大风新闻
2026-05-24 13:23:12
绿联超薄磁吸充电宝首降:iPhone能充两次半

绿联超薄磁吸充电宝首降:iPhone能充两次半

硬核玩家2哈
2026-05-23 03:05:30
里斯蒂奇:我在中国7年了,从来不会聊裁判,这次也不会

里斯蒂奇:我在中国7年了,从来不会聊裁判,这次也不会

懂球帝
2026-05-24 20:53:30
2026-05-25 00:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13069文章数 142652关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

手机
游戏
旅游
艺术
公开课

手机要闻

为什么建议大家赶紧换新机?五点原因,望周知!

《霍格沃茨之遗》续作或将公布?知名爆料人暗示

旅游要闻

漫步黄山脚下 邂逅茶香与绿野风光(组图)

艺术要闻

砸十几亿,烂十几年!福建福清富创世纪城,还有救吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版