网易首页 > 网易号 > 正文 申请入驻

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

0
分享至

新智元报道

编辑:alan

【新智元导读】近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本、多图理解,多项能力大提升。

多模态大语言模型(MLLM)如今已是大势所趋。

过去的一年中,闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

而开源MLLM也同样在蓬勃发展,LLaVA系列,InternVL2,Cambrian-1和Qwen2-VL的强劲表现,让作为老大哥的GPT-4o时常躺枪。

开源与闭源之间差距缩小,兼具单图、多图、视频理解能力的MLLM也成为大家研究的重点。

说到潮流,怎么能没有苹果的一席之地?

近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型——MM1.5。

论文地址:https://arxiv.org/pdf/2409.20566

MM1.5以前代MM1模型为基础,采用数据为中心的方法进行训练,显著增强了文本密集型图像理解、视觉指代和定位、以及多图像推理的能力。

MM1.5系列的参数量从1B到30B,涵盖密集和专家混合(MoE)模型,即使较小的尺寸也有优异的表现。

具体来说,MM1.5提升了OCR(光学字符识别)能力,支持任意图像长宽比和高达4M像素的分辨率,并且擅长理解富含文本的图像。

在强大而细粒度的图像理解能力加持下,MM1.5能够超越文本提示来解释视觉内容,例如点和边界框。

研究人员还通过对额外的高质量多图像数据进行监督微调(SFT),进一步提高了模型的上下文学习和开箱即用的多图像推理能力。

本文作者重点关注两种小规模的MLLM,包括1B和3B的密集模型与MoE模型,其中小尺寸的密集模型可以轻松部署在移动设备上。

「小模型」也符合苹果一贯的作风,在自家的各种设备上,能够更好地与用户场景(如隐私和安全性)融为一体。

之前微软和苹果的很多实践也证明了,利用高质量数据和先进的训练策略,小个子的模型在各种下游任务中同样表现强劲,足以超越大尺寸的模型。

当然了,光是小还不够,通用性更为重要。

MM1.5系列模型在30B参数的范围之内,都能很好地符合缩放定律,模型越大,性能越强。

另一方面,研究人员以MM1.5为基础,微调出服务于视频理解的MM1.5-Video,以及为移动UI(比如iPhone屏幕)理解定制的MM1.5-UI。

模型构建

MM1.5保留了与MM1相同的模型架构,并将改进的努力集中在以下几个关键方面:

持续的预训练

作者在SFT阶段之前引入了一个额外的高分辨率连续预训练阶段,这对于提高富含文本的图像理解性能至关重要。

作者探索了用于持续预训练的富含文本的OCR数据,重点关注图像中文本的详细转录,还尝试了高质量的合成图像字幕。

SFT

混合中的每一类SFT数据如何影响最终模型的性能?特别是支持每种功能的数据对其他功能有何影响,作者对此进行了广泛的消融实验。

动态高分辨率

对于高分辨率图像编码,作者遵循流行的任意分辨率方法,将图像动态划分为子图像,并进行彻底的消融以细化设计中的关键细节。

为了保留前代模型的零样本和少样本学习能力,并更有效地将它们转移到SFT阶段,在开发MM1.5时,研究人员通过探索纯文本数据的影响,并优化不同预训练数据类型的比例,来进一步扩展MM1的预训练。

这种方法提高了知识密集型基准测试的性能,并增强了模型整体的多模态理解能力。

如上图所示,模型训练包含三个阶段:

(i) 使用低分辨率图像 (378×378) 进行大规模预训练; (ii) 使用高分辨率(高达4M像素)OCR数据和合成字幕进行持续预训练; (iii) 监督微调(SFT)。

在每个阶段,都需要确定最佳数据组合并评估每种数据类型的影响。

消融实验设置

在消融研究中遵循以下默认设置:

静态图像分割通过4个子图像分割(加上一个概览图像)来实现,并且每个子图像通过位置嵌入插值调整为672×672分辨率。为了加快实验迭代速度,在消融过程中没有使用动态图像分割。

对于多图像数据的编码,仅当当前训练样本包含少于三幅图像时才启用图像分割,以避免序列长度过长。

如下图所示,模型可以以引用坐标和边界框的形式,解释对输入图像中的点和区域的引用。

MM1.5采用与前代相同的CLIP图像编码器和LLM主干网络,并以C-Abstractor作为视觉语言连接器。

对于连续预训练和SFT,作者将批量大小设置为256。使用AdaFactor优化器,峰值学习率为1e-5,余弦衰减为0。对于连续预训练,最多训练30k步。在SFT期间,所有模型都针对一个epoch进行优化。

模型使用MM1的预训练检查点进行初始化。这个阶段对45M高分辨率OCR数据(包括PDFA、IDL、Renderedtext和DocStruct-4M)进行持续的预训练,每个训练批次从这四个数据集中均匀采样数据。

与SFT阶段类似,作者使用静态图像分割,将每个图像分为五个子图像,每个子图像的大小调整为672×672分辨率。作者发现这种高分辨率设置对于持续预训练至关重要。

最后,将数据集分组有助于数据平衡和简化分析。在较高层面上,作者根据每个示例中呈现的图像数量将数据集分为单图像、多图像和纯文本类别,详细的分类情况如下图所示:

研究人员根据主要衡量的功能将基准分为几类,并提出类别平均分数(每个子类别的所有基准数字的平均分数),以代表该功能的平均性能。

SFT消融

然后是对于SFT数据混合的全面消融。作者首先评估一般数据类别,然后逐步评估单独添加其他子类别的影响。

在训练过程中,作者混合来自不同子类别的数据,通过从混合物中随机采样数据来构建每个训练批次,并使用类别平均得分来比较使用每种功能的模型,结果如下图所示。

作者观察到,添加富含文本的数据可以显著提高文本密集型和知识基准的性能,数学数据也遵循类似的趋势。

以一般数据类别为参考,对目标类别数据进行上采样/下采样,使得在每个训练批次中,一般数据类别和目标类别的数据比例为1:α。

为了衡量α的平均影响,作者提出MMBase分数用于模型比较。如下图所示,作者针对不同的数据类别改变α。对于科学、数学和代码类别,作者发现α的最佳比率分别为0.1、0.5和0.2。

下一项需要探究的是单图像、多图像和纯文本数据的混合比例。

枚举三个比率之间的所有组合将产生大量的计算成本。因此,作者分别对纯文本数据和多图像数据进行消融,以评估模型对比例的敏感程度。

对于纯文本数据,作者测试了0到0.2的范围,下图结果表明,不同的w值对模型的基础影响较小。

通过图7(右)还可以观察到,增加多图像数据的采样率会导致基本功能的性能下降(MMBase分数减少),而多图像平均分数会增加。所以作者选择w= 0.1为单图像数据分配更高的权重,以提高潜在的性能。

基于上述研究,作者提出了三种混合:基础混合、单图像混合、全混合。

下图前三列表明,包含参考数据和多图像数据会稍微降低密集文本、知识和一般基准的平均性能。

最后一栏表明,作者优化的组合实现了最佳的整体性能,平衡了基准测试中的所有功能。

最后,放几张跑分对比,包括Text-rich、In Context Learning和Multi-image:

参考资料:

https://arxiv.org/pdf/2409.20566

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
焰约:一场与烈火的提前和解

焰约:一场与烈火的提前和解

疾跑的小蜗牛
2026-02-12 22:21:11
“感动中国”徐本禹:2003年放弃读研去支教,如今已是副厅级干部

“感动中国”徐本禹:2003年放弃读研去支教,如今已是副厅级干部

大运河时空
2026-02-12 13:40:03
乌克兰名将纪念俄乌战争遇难者被逐出冬奥会,奥委会主席当场落泪

乌克兰名将纪念俄乌战争遇难者被逐出冬奥会,奥委会主席当场落泪

土澳的故事
2026-02-12 23:54:02
现在第二个委内瑞拉已经出现了,这个国家就是古巴。

现在第二个委内瑞拉已经出现了,这个国家就是古巴。

百态人间
2026-02-12 15:26:55
谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,真敢说

谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,真敢说

银河史记
2026-02-12 13:12:02
大胜!克林根23+18+7,赛后小杨留在场内,和爵士球员击掌致意

大胜!克林根23+18+7,赛后小杨留在场内,和爵士球员击掌致意

担酒
2026-02-13 12:36:19
缅甸掸邦南北交通要道设卡!运中国商品的货车一律禁止通行,勒令折返

缅甸掸邦南北交通要道设卡!运中国商品的货车一律禁止通行,勒令折返

缅甸中文网
2026-02-12 13:49:57
挪威王储真痴情,不在意王妃跟爱泼斯坦有交集,为继子收拾烂摊子

挪威王储真痴情,不在意王妃跟爱泼斯坦有交集,为继子收拾烂摊子

小书生吃瓜
2026-02-10 16:57:24
萧敬腾与老婆共同登上时尚杂志封面——有一种浪漫和甜蜜叫我们

萧敬腾与老婆共同登上时尚杂志封面——有一种浪漫和甜蜜叫我们

绚丽的画卷
2026-02-13 12:55:51
8750万片酬一分不让,限薪令也不妥协,剧组直接解散血本无归

8750万片酬一分不让,限薪令也不妥协,剧组直接解散血本无归

老吴教育课堂
2026-02-13 05:54:14
香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

读懂世界历史
2026-02-12 21:48:53
加州重大提案:60岁以上自住房主或免房产税,最快11月公投

加州重大提案:60岁以上自住房主或免房产税,最快11月公投

华人生活网
2026-02-11 23:34:16
国产伟哥之后再出王炸?白云山新药登上国际顶刊,想再造爆款神话

国产伟哥之后再出王炸?白云山新药登上国际顶刊,想再造爆款神话

白宸侃片
2026-02-13 06:00:05
李亚鹏找到医院新址,直播眼里泛泪,房东心态崩了,只求过个好年

李亚鹏找到医院新址,直播眼里泛泪,房东心态崩了,只求过个好年

子芫伴你成长
2026-01-25 08:10:03
“马年养马”成热潮!网红小矮马成新晋萌宠,有卖家称“一天能卖出二三十匹”

“马年养马”成热潮!网红小矮马成新晋萌宠,有卖家称“一天能卖出二三十匹”

环球网资讯
2026-02-13 07:53:43
别的孩子寒假在玩,义乌小孩已经“上岗”。打包、装货、贴快递单,动作行云流水,既是帮家里分担,也是最接地气的创业启蒙

别的孩子寒假在玩,义乌小孩已经“上岗”。打包、装货、贴快递单,动作行云流水,既是帮家里分担,也是最接地气的创业启蒙

观威海
2026-02-13 10:10:03
“暗战”引爆!张继科直播失态,200万俱乐部竟毁于“自己人”

“暗战”引爆!张继科直播失态,200万俱乐部竟毁于“自己人”

卿子书
2026-02-12 16:45:11
2026马年,贴春联最佳时辰和禁忌,这可不能开玩笑,尊重老传统!

2026马年,贴春联最佳时辰和禁忌,这可不能开玩笑,尊重老传统!

Lily美食谈
2026-02-10 23:33:43
继续努力!杨瀚森NBA生涯得分达72分,超河升镇排名亚洲第11

继续努力!杨瀚森NBA生涯得分达72分,超河升镇排名亚洲第11

懂球帝
2026-02-12 16:45:11
没想到!在背后为赵薇抗下一切的,不是黄晓明也不是马云,竟是他

没想到!在背后为赵薇抗下一切的,不是黄晓明也不是马云,竟是他

青橘罐头
2026-02-06 09:11:01
2026-02-13 14:08:50
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14528文章数 66623关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

头条要闻

男子和女子相亲第五天在泳池亲密 事后让他大跌眼镜

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

教育
家居
游戏
房产
军事航空

教育要闻

两个阴影三角形的面积分别是3和9,求长方形面积

家居要闻

中古雅韵 乐韵伴日常

战神2D新作评价超高!97%玩家打出5星满分好评

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版