本文为 1290字 ,建议阅读 2分钟
苹果公司发布论文提出 MM1 :多模态大语言模型预训练的方法、分析和启示, 在这项工作中,苹果讨论了构建高性能多模态大语言模型(MLLM)的问题。特别研究了各种架构组件和数据选择的重要性
研究团队对MM1模型架构的各个组成部分进行了细致的消融实验,包括图像编码器、视觉-语言连接器以及预训练数据的选择。实验结果显示,图像分辨率、图像编码器的预训练目标以及视觉-语言连接器的设计对模型性能有着显著的影响。特别是,通过混合使用图像标题、交错的图像-文本数据和纯文本数据进行大规模预训练,MM1模型在多项基准测试中实现了最先进的少量样本学习结果
在预训练阶段,MM1模型采用了不同比例的图像标题、交错图像-文本和纯文本数据的混合。这种混合方法在提高模型的零样本(zero-shot)和少样本(few-shot)性能方面起到了关键作用。实验数据表明,增加图像标题数据的比例可以显著提升零样本性能,而对于少样本性能来说,交错图像-文本数据的比例至关重要。此外,纯文本数据的使用也对模型的少样本和文本性能有所提升
MM1模型的另一个显著特点是对高分辨率图像的支持。通过在微调阶段采用位置嵌入插值和子图像分解技术,MM1能够处理高达1344×1344像素的图像,这在多模态模型中尚属首次。这一能力使得MM1在处理复杂视觉任务时更加精准,为图像理解任务提供了新的可能
在监督式微调(Supervised Fine-Tuning, SFT)阶段,MM1模型在多个已建立的多模态基准测试中表现出色。这些测试包括了视觉问答(VQA)、图像标题生成等任务,MM1模型在这些任务中不仅超越了同等规模的现有模型,甚至在某些任务上与更大的模型相比也毫不逊色
MM1模型的构建过程中,研究团队还探索了混合专家(Mixture-of-Experts, MoE)模型的潜力。通过在模型中引入MoE结构,MM1能够在保持推理速度的同时,提升模型的容量。实验结果表明,MoE模型在几乎所有基准测试中都优于对应的密集模型,显示出MoE在进一步扩展模型规模方面的巨大潜力
研究团队通过公开详细的预训练策略、数据选择和模型架构,为社区提供了构建强大模型的参考。随着模型架构和数据策略的不断演进,MM1所体现的设计原则和方法论,将为构建更强大的AI模型提供指导,推动人工智能领域向更深层次的理解和发展迈进
结语
通过扩展所提出的方案,苹果构建了 MM1,这是一个最多 30B 个参数的多模态模型系列,由密集模型和专家混合 (MoE) 变体组成,它们在预训练指标中是 SOTA,并且在训练后实现有竞争力的性能对一系列已建立的多式联运基准进行监督微调。得益于大规模的预训练,MM1 具有增强的上下文学习和多图像推理等吸引人的特性,可以实现少量的思维链提示
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
苹果发力大模型
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.