网易首页 > 网易号 > 正文 申请入驻

8卡3090可训练,Mini-Monkey解决切分策略增大分辨率导致的语义丢失

0
分享至

目前,大型语言模型备受关注。然而,多模态LLMs在处理高分辨率图像时常用的切分策略容易割裂目标区域,影响对细节的识别,尤其在文档理解任务中表现明显。

Mini-Monkey通过引入多尺度自适应裁剪策略(MSAC)解决了这一问题,克服了“锯齿效应”,在2B参数模型中实现了SOTA性能,并在OCRBench测试中超越了8B参数的最先进模型。MSAC还通过SCM技术减少了计算量,有效提升了模型的输入分辨率和处理效率。

论文题目: Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models 论文地址: https://arxiv.org/pdf/2408.02034 项目地址: https://github.com/Yuliang-Liu/Monkey

一、研究动机

随着自然语言处理(NLP)领域的飞速发展,大型语言模型(LLMs)已成为研究的热点。然而,现有的多模态大型语言模型在处理高分辨率图像时通常使用一个切分策略,这个切分策略会不可避免会对目标、联通区域带来割裂,导致MLLM对于微小或形状不规则的目标的辨识能力。

这个现象在文档理解任务中,表现极为明显,这限制了它们对细节场景的理解能力。如下图(b)所示,切分策略导致图片中问题的语义丢失了,把豚鼠的鼻子看成了一直猴子。Mini-Monkey正是为了解决这一问题而生。Mini-Monkey不仅在2B参数规模的MLLM中取得了SOTA性能,更在OCRBench基准测试中以802分的成绩,超越了8B参数的现有最先进模型InternVL2-8B。

图1. (a)输入图像。(b)切分策略导致的“锯齿效应”。(c)有重叠的进行切分。(d)本文提出的方法。

二、方法

1.Mini-Monkey提出了两个重要创新:多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM)

2.MSAC策略允许Mini-Monkey在不同尺度上捕捉图像特征,有效避免了因裁剪导致的信息丢失。

3.SCM的应用不仅减轻了计算负担,更通过智能压缩,确保了模型在处理大量视觉数据时的高效性。

图2 总体方法框图2.1 多尺度自适应裁剪策略(MSAC)

  • MSAC通过预设的一组网格,根据网格的宽高比和分辨率执行分层操作。

  • 每个分层层选择不同的宽高比,确保文本不会在不同图像中被分割。

  • 详细层(Detailed layer,)负责提供详细的信息,限制子图像的最大和最小尺寸,以确保图像中的对象尽可能清晰。

  • 适应层(Adaptive layer)与详细层协同工作,确保裁剪线在详细层和适应层之间不重叠,以提供不同尺度的非分割对象特征。

  • 全局层(Global layer)负责提供全局的图片信息。

  • 不同层之间协同工作相互促进,提高了图片信息的利用效率

2.2 尺度压缩机制(SCM)
  • SCM主要对详细层的视觉Tokens进行压缩,因为这些标记通常具有较低的信息密度。而适应层和全局层的Tokens则提供给LLM完整的空间信息,使得在降低计算量的同时,能提供较多的信息量给LLM,进而实现了比较高的性能。

  • SCM利用大型语言模型(LLM)中的注意力层来确定哪些视觉标记是重要的。通过这种方式,它能够识别出信息密度较高的标记,并将它们保留,同时过滤掉那些相对不那么重要的标记。

  • SCM是一个无需训练的模块,这意味着它不会引入额外的训练成本。它直接利用已经训练好的LLM的注意力层来工作。

  • 与FastV对比:SCM:通过注意力机制压缩具有低信息密度的标记,保留自适应层和全局层的视觉标记,为LLM提供了完整的空间信息。FastV:压缩策略可能包括随机选择或基于其他启发式的方法来减少标记数量。在论文的消融研究中,SCM在50%压缩和90%压缩的条件下,分别比FastV的性能高出21.5%和4.4%,这表明SCM在压缩效率和保持模型性能方面更为有效。

三、试验结果

Mini-Monkey在11个通用多模态理解基准测试中超越了其他2B参数模型,并在多个与文本相关的基准测试中取得了优异的成绩。

表1. 多模态理解基准上的结果

表2. 文本相关的基准3.1 消融实验

表3. 多尺度自适应裁剪策略的消融实验。第一行是动态切分,第二行是固定分辨率切分,第三行是有重叠的切分,第四行是多尺度策略。

表4. 将MSAC应用到不同的多模态大模型上都能获得一致的提升。

可以看到Mini-Monkey同时在通用多模态理解和文档理解任务上都有一致的提升。并且提出的MSAC在不同的结构上都能有明显的提升。

3.2 定性结果

论文还提供了一些定性结果,如图(d)的例子,展示了Mini-Monkey如何克服“锯齿效应”,准确地识别和理解图像中的文字信息。图(b)说明了有重叠的切分的并不能很好的解决“锯齿效应”。图(c)说明了“锯齿效应”在较小的模型更明显。

图4定性结果。(a)输入图像和Ground Truth。(b)采用重叠切分策略的结果。OSC表示重叠切分策略。(c) internv2 - 2b和internv2 - 26b的结果。(d) Mini-Monkey的结果。
四、结语

Mini-Monkey提出了一种克服“锯齿效应”的方法多尺度自适应裁剪策略(MSAC),并且在不同架构的多模态大模型下都验证了它的有效性。并且针对MSAC引入的计算量,作者还进一步设计了一种不用训练的SCM进一步压缩视觉Tokens减少计算量,配合着MSAC使用。以后再也不用担心切片引起的“锯齿效应”,MSAC让大家以后可以放心的使用切片来提升多模态大模型的输入分辨率!

参考文献

[1] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.

[2] Bai J, Bai S, Yang S, et al. Qwen-vl: A frontier large vision-language model with versatile abilities[J]. arXiv preprint arXiv:2308.12966, 2023.

[3] Dubey A, Jauhri A, Pandey A, et al. The Llama 3 Herd of Models[J]. arXiv preprint arXiv:2407.21783, 2024.

llustration From IconScout By Imamfathoni0

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
豆包与通义千问同日下线智能体,释放了什么信号?

豆包与通义千问同日下线智能体,释放了什么信号?

A活着
2026-07-04 16:53:07
男篮输日本主因,阵中少了三个关键人,有他们在不会惨败19分

男篮输日本主因,阵中少了三个关键人,有他们在不会惨败19分

兵哥篮球故事
2026-07-04 12:17:05
世界杯|墨西哥英格兰之战提前六小时以避暴雨?国际足联一厢情愿的计划已流产

世界杯|墨西哥英格兰之战提前六小时以避暴雨?国际足联一厢情愿的计划已流产

上观新闻
2026-07-05 03:50:31
黄多多“腕线过档”惹争议:20岁的身体自由,为何总被审判?

黄多多“腕线过档”惹争议:20岁的身体自由,为何总被审判?

未曾青梅
2026-07-02 23:41:14
王艺迪4-0朱芊曦,诞生2个不可思议,还有4个不争的事实

王艺迪4-0朱芊曦,诞生2个不可思议,还有4个不争的事实

南海浪花
2026-07-05 06:08:20
“幼儿园就这样了,长大还了得?”女孩美丽成熟风范,让家长蒙了

“幼儿园就这样了,长大还了得?”女孩美丽成熟风范,让家长蒙了

世界圈
2026-07-04 09:40:47
情况有变,中俄后院出现“叛徒”,拿稀土助阵美国,我们不得不防

情况有变,中俄后院出现“叛徒”,拿稀土助阵美国,我们不得不防

誮惜颜a
2026-07-05 04:48:15
俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

俄媒女主持人曾言:若中国愿出兵300万,俄军很快就能打败乌克兰

南宗历史
2026-03-17 16:53:10
聚焦这一工作,多个省份陆续召开全省大会

聚焦这一工作,多个省份陆续召开全省大会

政知新媒体
2026-07-02 23:19:40
长大后才明白有些玩笑背后满怀恶意!网友:怪不得当初听了很难过

长大后才明白有些玩笑背后满怀恶意!网友:怪不得当初听了很难过

一口娱乐
2026-07-03 13:09:30
官方:CCTV5+转播U17国少vs澳大利亚U17

官方:CCTV5+转播U17国少vs澳大利亚U17

懂球帝
2026-07-04 12:17:32
新加坡曝3.9亿AI芯片特大走私案:查封$5600万豪宅、一中国人涉案

新加坡曝3.9亿AI芯片特大走私案:查封$5600万豪宅、一中国人涉案

新加坡万事通
2026-07-03 19:37:27
国葬上,欠着伊朗人血债的塔利班,摇身一变成了德黑兰的座上宾

国葬上,欠着伊朗人血债的塔利班,摇身一变成了德黑兰的座上宾

凡知
2026-07-04 15:30:58
请国足以后不要说虽败犹荣!

请国足以后不要说虽败犹荣!

砚底沉香
2026-07-04 16:18:50
在派出所能听到多少八卦?网友:一个比一个狗血

在派出所能听到多少八卦?网友:一个比一个狗血

另子维爱读史
2026-06-27 22:18:43
看完英博3-2绝杀三镇!不得不承认5个事实,三镇10轮不胜陷入保级

看完英博3-2绝杀三镇!不得不承认5个事实,三镇10轮不胜陷入保级

林子说事
2026-07-05 02:59:02
制造业月薪9000无人问津,2.4亿人挤爆外卖圈

制造业月薪9000无人问津,2.4亿人挤爆外卖圈

霹雳炮
2026-07-03 23:15:44
调查|一尊疑似失窃铜佛,究竟如何转手到观复博物馆的?

调查|一尊疑似失窃铜佛,究竟如何转手到观复博物馆的?

澎湃新闻
2026-07-04 17:00:28
京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

京圈大佬集体全哑火,3 部大片累计亏超 5 亿,观众凭啥买单?

知法而形
2026-07-01 23:22:31
4日上午大满贯:男单8强诞生,张本智和0-3被横扫,男单格局大变

4日上午大满贯:男单8强诞生,张本智和0-3被横扫,男单格局大变

阿讯说天下
2026-07-04 11:44:29
2026-07-05 07:40:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2423文章数 596关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

亲子
健康
数码
公开课
军事航空

亲子要闻

欢迎周洲阿姨来我家!

听说少吃点能抗衰老?专家讲解!

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版