Google DeepMind PaliGemma 2：视觉理解模型实现重大升级|谷歌|翻译|奥运会|知名企业|paligemma

分享至

这项由Google DeepMind团队在2024年12月发布的研究论文（论文编号：arXiv:2412.03555v1），展现了人工智能视觉理解领域的又一次重要进展。研究团队基于成功的PaliGemma模型，推出了全新的PaliGemma 2模型家族，这就像是给一个已经很聪明的助手配备了更强大的大脑和更敏锐的眼睛。

想象一下，如果你有一个助手，它不仅能看懂图片，还能回答关于图片的各种问题，甚至能帮你识别文档中的文字、理解表格结构，甚至读懂音乐乐谱。这就是PaliGemma 2想要实现的目标。这个模型家族就像是一套完整的视觉理解工具箱，里面有大中小三个版本的"助手"，分别是3B、10B和28B参数的模型，就好比有三个不同能力等级的专家在为你服务。

研究团队在原有PaliGemma模型的基础上，用更先进的Gemma 2语言模型替换了原来的语言理解核心，这就像是给汽车换了一个更强劲的发动机。同时，他们还让模型能够处理三种不同精细度的图片：224像素、448像素和896像素，就像给眼镜配了三种不同倍率的镜片，能够适应不同的观察需求。

这项研究的突破性在于，它不仅提升了模型在传统视觉问答任务上的表现，更重要的是拓展了应用场景的边界。PaliGemma 2现在能够处理文字检测识别、表格结构分析、分子结构识别、音乐乐谱识别，甚至能够生成详细的图片描述和医学影像报告。这就像是培养了一个博学多才的全科专家，既能看病理片，又能读化学分子式，还能识别五线谱。

更令人兴奋的是，研究团队将这些模型以开放权重的形式发布，这意味着全世界的开发者和研究者都可以免费使用和改进这些模型。这就像是把一套昂贵的专业工具免费分享给了整个社区，让更多人能够在此基础上创造出更多有用的应用。

通过大量的实验和对比，研究团队发现了一个有趣的规律：对于需要看清细节的任务（比如读文档），提高图片分辨率比使用更大的模型更有效；而对于需要推理和理解的任务（比如回答复杂问题），使用更大的模型往往效果更好。这就像是在不同的工作场景下，有时候需要更好的眼镜，有时候需要更聪明的大脑。

一、模型架构：像组装精密仪器一样构建智能系统

PaliGemma 2的工作原理就像是将一台高精度相机与一个博学的语言专家完美结合。想象你有一个朋友，他不仅有着异常敏锐的视觉观察力，还拥有丰富的知识储备和出色的表达能力。当你向他展示一张图片时，他首先会仔细观察图片的每个细节，然后运用自己的知识库来理解和解释所看到的内容，最后用清晰准确的语言告诉你他的理解。

整个系统的核心架构包含两个主要部分：视觉编码器和语言模型。视觉编码器就像是一双超级眼睛，负责将图片转换成计算机能够理解的数字形式。研究团队使用了SigLIP-So400m作为视觉编码器，这个组件已经在PaliGemma中证明了自己的能力。它能够处理不同尺寸的图片，从224像素的小图到896像素的高清图，就像是配备了可调节焦距的专业镜头。

语言模型部分则是整个系统的"大脑"，负责理解和生成文字。这次升级的关键就在于用全新的Gemma 2系列模型替换了原来的语言核心。Gemma 2就像是经过更好教育、掌握更多知识的新一代专家。研究团队提供了三个不同规模的版本：2B、9B和27B参数，分别对应3B、10B和28B的完整模型。这就好比有三个不同经验水平的专家：新手、熟手和大师级专家，他们在处理复杂问题时的能力各不相同。

当一张图片输入到系统中时，整个处理过程就像接力赛一样展开。首先，视觉编码器会将图片分解成许多小块，每个小块都被转换成一串数字，这个过程就像是把一幅画分成许多小拼图块，然后为每个拼图块写下详细的描述。接下来，这些数字化的图片信息会通过一个线性投影层，就像是翻译员一样，将视觉信息翻译成语言模型能够理解的格式。

最后，经过翻译的图片信息会与用户的文字问题合并在一起，一同输入到Gemma 2语言模型中。语言模型会综合考虑图片内容和问题要求，然后逐字逐句地生成回答。这个过程就像是一个博学的教授在看过你展示的材料后，认真思考并组织语言来回答你的问题。

特别值得注意的是，PaliGemma 2支持三种不同的图片分辨率处理。224像素版本适合处理一般的图片理解任务，就像是用普通眼镜看书；448像素版本在需要更多细节的任务中表现更好，就像是戴上了老花镜；而896像素版本则专门用于需要极高精度的任务，比如识别文档中的小字或复杂图表，就像是使用了放大镜进行精密观察。

整个模型的训练过程分为三个阶段，就像是培养一个专家需要经历学习基础知识、专业训练和实践应用三个阶段。第一阶段是基础预训练，让模型学会基本的视觉和语言理解能力。第二阶段是高分辨率适应，让模型学会处理更精细的图片。第三阶段是任务特化训练，针对具体应用场景进行精调。

这种多阶段的训练方式确保了模型既有扎实的基础能力，又能在特定任务上发挥出色的表现。就像是先让学生掌握基本的读写能力，然后学习专业知识，最后在实际工作中积累经验，逐步成长为真正的专家。

二、训练策略：像培养全能专家一样训练模型

PaliGemma 2的训练过程就像是培养一个全能型专家的完整教育方案。整个训练分为三个递进的阶段，每个阶段都有明确的目标和专门设计的学习内容，确保模型能够逐步掌握从基础到高级的各种视觉理解技能。

第一阶段可以比作是"通识教育"阶段。在这个阶段，研究团队将预训练好的SigLIP视觉编码器和Gemma 2语言模型组合在一起，就像是让一个有着敏锐观察力的学生与一个博学的导师结成学习搭档。训练数据包含了10亿个精心挑选的多模态样本，涵盖了图片描述、视觉问答、文字识别、目标检测和实例分割等各种基础任务。这就像是给学生提供了一个包含各种类型题目的超大习题集，让他们在反复练习中掌握基本技能。

在这个阶段，所有的图片都被调整为224像素的标准尺寸，就像是统一使用标准教材进行学习。更重要的是，整个模型的所有参数都参与训练，没有任何部分被冻结，这意味着视觉理解和语言理解两个部分能够相互配合，共同学习如何更好地处理视觉语言任务。这种联合训练的方式就像是让学生的眼、脑、手同时协调发展，而不是各自为政。

第二阶段是"专业化提升"阶段，专门针对需要高精度视觉处理的任务进行强化训练。这个阶段又分为两个子阶段：首先用5000万个样本在448像素分辨率下训练，然后用1000万个样本在896像素分辨率下训练。这就像是先让学生适应中等难度的精密作业，再逐步挑战最高难度的超精密任务。

在高分辨率训练阶段，研究团队特别调整了任务配比，增加了OCR（光学字符识别）等需要精确视觉处理的任务权重，同时延长了输出序列的长度。这种做法就像是在专业课阶段，根据不同专业的需求调整课程设置，让学生在自己的专业领域得到更深入的训练。

第三阶段是"实战应用"阶段，这是整个训练过程的关键环节。在这个阶段，研究团队会根据具体的应用场景，从前面训练好的通用模型出发，进行针对性的微调。这就像是让已经完成基础教育的学生进入不同的工作岗位，在实际工作中学习和掌握具体的职业技能。

值得特别提到的是，研究团队在训练过程中应用了一种叫做"logits软截断"的技术。这个技术就像是给模型的思考过程加了一个"理性约束器"，防止模型在处理复杂问题时产生过于极端或不稳定的判断。不过，在第三阶段的任务特化训练中，研究团队发现取消这个约束能够获得更好的效果，这说明在具体应用中，有时候需要给模型更多的"思考自由度"。

整个训练过程使用了Google Cloud的TPUv5e集群，就像是在超级计算中心里进行大规模的"集体学习"。不同规模的模型需要不同的计算资源：3B模型的训练相对较快，大约需要3天时间；而更大的模型则需要更多的计算资源和时间。研究团队还发现，提高图片分辨率所需要的额外计算成本，竟然与增加语言模型规模的成本相当，这为后续的模型优化提供了重要的参考依据。

在学习率的设置上，研究团队发现了一个有趣的规律：更大的模型需要更低的学习率才能达到最佳效果。这就像是经验丰富的专家在学习新知识时需要更谨慎、更细致的方法，而初学者则可以采用更激进的学习策略。具体来说，PaliGemma 2 3B使用的学习率是原始学习率的一半，而10B和28B模型则使用四分之一的学习率。

三、全面性能提升：新一代模型的能力展现

PaliGemma 2在各种视觉理解任务上的表现提升，就像是一个学生经过系统训练后在各门考试中都取得了显著进步。研究团队在30多个不同的学术基准测试上评估了新模型的能力，这些测试涵盖了从基础的图片描述到复杂的视觉推理等各个方面。

首先让我们看看模型规模和图片分辨率对性能的影响。研究团队发现了一个很有意思的现象：不同类型的任务从不同的改进中获益最大。对于那些需要识别图片中细小文字或复杂图表的任务，提高图片分辨率的效果往往比使用更大的模型更明显。这就像是在看书时，如果字印得很小，戴上更强的老花镜比找一个更聪明的人帮忙读效果更好。

相反，对于那些需要复杂推理或涉及多语言理解的任务，使用更大的语言模型往往能带来更显著的提升。这些任务包括需要外部知识的视觉问答、多语言图片理解，以及需要逻辑推理的复合问题。这就像是解决复杂数学题时，一个更有经验的老师比一个更好的计算器更有用。

在与原版PaliGemma的对比中，PaliGemma 2在相同模型规模和分辨率下普遍取得了更好的表现。在224像素分辨率下，平均性能提升了0.65个百分点；在448像素分辨率下，提升幅度达到了0.85个百分点。虽然这些数字看起来不大，但在人工智能领域，这样的提升是相当显著的，就像是奥运会上百米赛跑成绩提升0.1秒一样珍贵。

特别值得关注的是，研究团队发现了模型规模对最佳学习率的影响。通过大量的实验，他们发现较大的模型在进行任务特化训练时，需要使用更低的学习率才能达到最佳效果。这个发现就像是发现了一个驾驶规律：越是高性能的跑车，在弯道上就越需要更谨慎的操控，而不能像开普通汽车那样大大咧咧。

从错误减少的角度来看，PaliGemma 2的提升更加显著。对于一些已经达到较高准确率的基准测试，即使相对提升看起来不大，但实际的错误减少率却非常可观。比如在ScienceQA任务上，虽然相对提升只有2.2个百分点，但错误减少率达到了53.8%，这意味着模型在科学问题理解方面有了质的飞跃。

在处理不同类型视觉内容时，PaliGemma 2也展现出了很好的适应性。无论是自然场景图片、文档图像、图表数据还是屏幕截图，模型都能够准确理解内容并给出合适的回答。这种多样化的处理能力就像是培养了一个既能欣赏艺术品、又能阅读技术文档、还能分析商业报表的全才。

值得一提的是，虽然从3B到10B的性能提升比较明显，但从10B到28B的提升相对较小，有时甚至没有改善。这个现象提醒我们，在实际应用中需要在模型性能和计算成本之间找到平衡点。对于大多数应用场景来说，10B版本可能是性价比最高的选择，除非对性能有极致要求且不考虑计算成本。

四、文字检测与识别：让机器拥有读书识字的能力

PaliGemma 2在文字检测和识别方面的能力提升，就像是给机器配备了一副超级眼镜，不仅能看到图片中的文字在哪里，还能准确读出这些文字的内容。这项能力对于处理现实世界中的各种文档、标牌、海报等包含文字信息的图像具有重要意义。

传统的文字识别系统通常需要专门的架构设计，就像是为特定任务定制的专用工具。但PaliGemma 2作为一个通用的视觉语言模型，仅仅通过调整训练数据和参数，就能在文字检测识别任务上达到甚至超越专业系统的表现。这就像是一个多才多艺的学生，不需要专门的文字识别训练，仅凭通用的视觉理解能力就能准确读出图片中的文字。

研究团队选择了业界最具挑战性的两个数据集来测试模型能力：ICDAR'15 Incidental和Total-Text。这两个数据集包含了各种复杂场景下的文字图像，比如弯曲的文字、模糊的拍照、复杂背景下的标牌等。这就像是让学生在各种困难条件下进行阅读测试：有时是在昏暗灯光下读书，有时是读弯曲变形的文字，有时是在嘈杂背景中识别重要信息。

在文字检测识别的评估中，系统需要同时完成两项任务：首先要准确找出文字在图片中的位置（检测），然后要正确识别出这些文字的具体内容（识别）。评估标准非常严格：只有当识别出的文字内容完全正确，且定位边框与真实位置的重叠度超过50%时，才算作一次成功的识别。这就像是考试时不仅要写对答案，还要写在正确的位置上。

测试结果令人印象深刻。PaliGemma 2 3B在896像素分辨率下的表现超越了当前最先进的专业文字识别系统HTS。在ICDAR'15数据集上，PaliGemma 2达到了75.9%的F1分数，而专业系统HTS只有74.5%；在Total-Text数据集上，PaliGemma 2获得了74.2%的分数，与HTS的72.4%相比有明显提升。

这个结果特别令人兴奋，因为PaliGemma 2并不是专门为文字识别任务设计的。它就像是一个通才学生在参加专业考试时击败了专业选手，证明了通用智能方法的巨大潜力。更重要的是，PaliGemma 2的这种能力来自于它在预训练阶段学习的大量OCR相关任务，这些经验积累让它在面对新的文字识别挑战时能够游刃有余。

研究团队还发现，图像分辨率对文字识别任务的影响非常显著。当他们尝试使用较低分辨率的图像时，模型的识别能力大幅下降，这说明文字识别确实需要足够的图像细节支持。相比之下，增加模型规模（从3B增加到更大版本）对文字识别任务的帮助并不明显，这进一步验证了前面提到的规律：对于需要视觉细节的任务，提高图像清晰度比增加模型复杂度更有效。

这项成果的实际应用价值巨大。在日常生活中，我们经常需要从照片中提取文字信息，比如拍照翻译、文档数字化、路牌识别等。PaliGemma 2的文字识别能力意味着，一个通用的视觉理解系统就能处理这些原本需要专门软件才能完成的任务，大大简化了技术栈和应用部署的复杂度。

五、表格结构识别：让机器理解复杂数据的组织方式

表格结构识别是一项极具挑战性的任务，就像是让机器学会理解人类如何用行和列来组织复杂信息。想象你面前放着一份复杂的财务报表或科学数据表，你不仅要能识别出其中的数字和文字，还要理解这些信息是如何通过表格的结构来表达含义的。这正是PaliGemma 2在表格结构识别任务上要解决的核心问题。

在这个任务中，模型需要完成三项复杂的工作：首先识别表格中每个单元格的文字内容，然后确定每个单元格在图像中的精确位置，最后理解整个表格的结构并用HTML格式表示出来。这就像是既要当翻译员读出表格内容，又要当测量员标记位置，还要当建筑师绘制结构图。

研究团队选择了两个代表性的数据集来测试模型能力：PubTabNet和FinTabNet。PubTabNet包含了51.6万张来自PubMed Central开放获取数据库的学术论文表格图像，主要是科学研究中的各种数据表；FinTabNet则包含了11.3万张来自标准普尔500强公司年报的财务表格，代表了商业世界中复杂的财务数据组织方式。这两个数据集就像是让学生同时掌握科学研究和商业分析两个领域的表格理解能力。

为了确保训练数据的质量，研究团队进行了仔细的数据清理工作。他们移除了那些明显有问题的样本，比如边界框超出图像范围的错误标注，还应用了专门的改进方法来修正FinTabNet数据集中的一些标注问题。这种细致的数据预处理工作就像是在教学前先确保教材没有错误，为后续的学习效果打下良好基础。

在图像预处理方面，研究团队采用了巧妙的策略：将表格图像裁剪后填充为正方形，然后调整到目标分辨率。这种做法既保持了表格的原始比例关系，又确保了输入格式的一致性。表格中每个单元格的位置信息使用特殊的位置标记来编码，这些标记就像是给表格画上了精确的坐标系，让模型能够准确理解每个信息单元的空间关系。

评估表格结构识别效果使用了两套专业的指标体系：TEDS（树编辑距离相似度）和GriTS（网格表格相似度）。这些指标不仅考虑单元格文字内容的准确性，还评估表格结构的正确性和位置标注的精确度。就像是从多个角度对学生的表格理解能力进行全面考核。

测试结果显示，PaliGemma 2在大多数评估指标上都创造了新的最佳纪录。在FinTabNet数据集上，模型在结构化TEDS指标上达到了99.2%，在完整TEDS指标上达到了98.9%，在GriTS相关指标上也分别达到了99.4%和99.2%。在PubTabNet数据集上，虽然在某些指标上略低于之前的最佳结果，但整体表现仍然非常出色，TEDS指标达到了97.3%。

这些成绩的取得更加难能可贵的是，PaliGemma 2同样不是专门为表格识别任务设计的专用模型。它通过通用的视觉语言理解能力，就能在这个高度专业化的任务上达到最先进的性能水平。这就像是一个全科医生在专科考试中击败了专科医生，展现了通用智能方法的强大潜力。

研究团队还尝试了进一步增大模型规模，但发现这并没有带来额外的性能提升，同时使用更低的图像分辨率则会导致轻微的性能下降。这个发现再次验证了任务特性对优化策略选择的重要影响：对于表格结构识别这类需要精确视觉处理的任务，图像质量是关键因素，而模型规模的收益相对有限。

六、分子结构识别：让机器读懂化学世界的密码

分子结构识别可能是PaliGemma 2展现能力的最令人惊叹的领域之一。想象一下，你需要教会一个从未学过化学的人，仅仅通过观看分子结构图就能准确说出这个分子的化学式。这个任务的复杂程度就像是让人通过观看建筑设计图就能准确描述出建筑的详细规格一样困难。

在化学领域，SMILES（Simplified Molecular-Input Line-Entry System）是一种用文本字符串表示分子结构的标准方法，就像是分子世界的"身份证号码"。每个分子，无论多么复杂，都可以用一个独特的SMILES字符串来精确表示。PaliGemma 2的任务就是看着分子结构图像，然后写出对应的SMILES字符串，这需要对化学键的类型、原子的连接方式、分子的三维结构等信息有准确的理解。

为了训练模型掌握这种能力，研究团队使用了来自PubChem数据库的100万个分子样本。PubChem是世界上最大的化学信息数据库之一，包含了数千万种化合物的详细信息。训练过程就像是让学生反复练习看图识分子，从简单的小分子开始，逐步学习识别越来越复杂的化合物结构。

在数据准备阶段，研究团队使用了Indigo化学工具包来渲染分子图像，并且特意加入了多样化的绘图风格和随机扰动。这种做法就像是让学生适应不同老师的板书风格和不同质量的教材插图，确保模型在面对各种实际情况下的分子图像时都能保持良好的识别能力。

评估标准采用了最严格的完全匹配标准，只有当生成的SMILES字符串与标准答案完全一致时才算正确。这就像是化学考试中不允许任何细微错误，因为哪怕是一个化学键的位置标错，都可能代表完全不同的化合物。这种严格的标准使得任务极具挑战性，同时也确保了结果的可靠性。

测试使用了与MolScribe（当前最先进的分子结构识别系统）相同的评估数据集，该数据集包含了5700个由ChemDraw软件渲染的合成分子图像。结果显示，PaliGemma 2 10B在448像素分辨率下达到了94.8%的完全匹配准确率，超越了专业系统MolScribe的93.8%。

这个结果特别令人兴奋，因为MolScribe是专门为分子结构识别任务开发的系统，而PaliGemma 2是一个通用的视觉语言模型。这就像是一个博学的通才在专业化学考试中击败了化学专业的学生，展现了通用人工智能方法在特定专业领域的应用潜力。

研究团队发现，448像素的分辨率对于分子结构识别任务来说已经足够，进一步提高到896像素并没有带来额外的性能提升。这个发现说明分子结构图的复杂度相对适中，不需要极高的图像分辨率就能捕捉到足够的细节信息。

这项能力的应用前景非常广阔。在药物研发领域，研究人员经常需要从文献中的分子结构图提取化合物信息；在化学教育中，这样的系统可以帮助学生练习分子结构识别；在专利分析中，可以自动提取和分析大量化学专利中的分子结构信息。PaliGemma 2的成功表明，通用的视觉理解技术正在逐步具备处理高度专业化任务的能力。

七、音乐乐谱识别：让机器学会读谱

光学音乐识别（Optical Music Recognition）是一个极其精细和复杂的任务，就像是教会机器理解音乐家几百年来用于记录音乐的复杂符号系统。想象你面前摆着一页钢琴乐谱，上面密密麻麻地布满了各种符号：音符、休止符、升降号、连线、表情记号等等。对于音乐家来说，这些符号能够精确地传达音乐的节奏、音高、表情和结构信息。而PaliGemma 2的任务就是像一个初学音乐的学生一样，学会从这些视觉符号中"读出"音乐。

研究团队选择了**kern格式作为目标输出格式，这是数字音乐学领域的一种标准表示方法。**kern格式就像是音乐的"源代码"，用文本字符串精确记录每个音符的音高、时值、以及各种音乐表达标记。这种格式不仅能够表示基本的音符信息，还能编码复杂的音乐结构，如小节线、连音、装饰音等。

训练数据来自GrandStaff数据集，这个数据集包含了53700张钢琴谱图像及其对应的**kern编码。每张图像都是单行的钢琴谱，包含了大谱表（高音谱表和低音谱表的组合），这是钢琴音乐最常见的记谱方式。为了增强模型的鲁棒性，研究团队在训练时使用了原始图像和人工添加了各种视觉干扰的增强版图像，这就像是让学生适应不同印刷质量、不同光照条件下的乐谱。

评估过程使用了三个不同层次的错误率指标，这些指标就像是从不同精细度来检查学生的读谱准确性。字符错误率（CER）关注的是最基本的字符级别准确性，就像是检查学生有没有把音符认错；符号错误率（SER）评估的是音乐符号级别的准确性，关注的是完整的音乐元素识别；行错误率（LER）则评估整行乐谱的理解准确性，这是最严格的标准，要求整行音乐必须完全正确。

测试结果令人印象深刻。PaliGemma 2 3B在896像素分辨率下将当前最先进系统的错误率大幅降低了一半以上。具体来说，字符错误率从3.9%降低到1.6%，符号错误率从5.1%降低到2.3%，行错误率更是从13.1%降低到6.7%。这种程度的改进就像是把一个偶尔会读错音符的学生培养成了几乎不会犯错的优秀读谱者。

特别值得注意的是，错误率随着图像分辨率的提高而显著降低，这说明音乐符号的精确识别确实需要足够的视觉细节支持。音乐记谱中的很多信息都蕴含在细微的视觉差异中，比如音符的确切位置决定了音高，符头的形状决定了时值，各种小的装饰记号则携带着重要的表达信息。

研究团队还发现，将模型规模从3B增加到10B并没有带来进一步的性能提升，这再次验证了前面观察到的模式：对于主要依赖精确视觉处理的任务，图像质量比模型复杂度更重要。这个发现对于实际应用具有重要意义，因为它表明在音乐识别应用中，投资于更高质量的图像采集设备可能比使用更大的模型更有效。

这项技术的应用前景非常广阔。在音乐教育领域，它可以帮助自动化地将纸质乐谱转换为数字格式，便于存储、检索和分析。在音乐学研究中，研究者可以使用这样的系统来快速数字化和分析大量的历史音乐文献。对于音乐创作软件来说，这样的识别能力可以让用户通过拍照的方式快速输入乐谱，大大提高工作效率。

八、长篇精细描述：让机器成为观察入微的叙述者

生成长篇精细的图像描述是测试视觉理解模型综合能力的重要指标，就像是考察一个学生能否不仅看懂图片，还能像专业解说员一样详细生动地描述所看到的内容。这项任务要求模型不仅要准确识别图像中的各种对象，还要理解它们之间的空间关系、描述颜色质地等细节特征，甚至要具备一定的常识推理能力。

研究团队选择了DOCCI（Descriptions of Connected and Contrasting Images）数据集来训练和评估这项能力。DOCCI数据集包含了15000张图像，每张图像都配有人工标注的详细英语描述，这些描述平均长度达到7.1个句子，包含639个字符和136个单词。这些描述不仅涵盖了基本的对象识别，还包括了复杂的空间关系描述、对象计数、文字内容识别，以及需要背景知识的推理等高难度内容。

训练过程分为两个阶段，就像是先让学生掌握基本的描述技能，然后再通过实践不断完善。第一阶段使用DOCCI的训练集进行基础训练，研究团队尝试了多种超参数组合，并通过验证集的困惑度（perplexity）来选择最佳模型。困惑度就像是衡量模型"词汇量丰富度"的指标，困惑度越低表示模型在描述时用词越准确、表达越流畅。

评估过程采用了严格的人工评估方法，这是因为自动评估指标往往无法准确衡量描述的事实准确性。研究团队招募了专业评估人员，让他们逐句判断生成的描述是否与图像内容一致。评估人员需要从四个选项中选择：蕴含（描述内容完全正确）、中性（描述内容无法确定）、矛盾（描述内容明显错误）、无法评估。每个句子都由五个不同的评估人员独立评估，然后采用多数投票的方式确定最终结果。

这种人工评估方法就像是让多个老师同时批改同一份作文，确保评估结果的客观性和可靠性。评估人员之间的一致性达到了84%，这表明评估标准是相对明确和可靠的。研究团队特别关注"非蕴含句子"的比例，也就是那些事实上不准确或有争议的描述句子，这个指标直接反映了模型生成内容的可信度。

测试结果显示，PaliGemma 2的表现超越了许多知名的视觉语言模型。PaliGemma 2 3B（448像素版本）的非蕴含句子比例为28.4%，而PaliGemma 2 10B更是降低到了20.3%。作为对比，一些在10-100倍更大高质量数据集上训练的指令调优模型，如MiniGPT-4的非蕴含比例为52.3%，mPLUG-Owl2为48.4%。

这个结果特别有意义，因为那些对比模型都经过了大规模的指令调优训练，专门针对用户友好的对话场景进行了优化，理论上在生成流畅描述方面应该有优势。但PaliGemma 2凭借扎实的视觉理解基础和准确的事实描述能力，在生成可信度方面取得了更好的表现。

研究团队还观察到，随着模型规模和图像分辨率的提升，生成描述的事实准确性都有明显改善。这说明更强的视觉理解能力和更丰富的语言知识都对提高描述质量有积极作用。PaliGemma 2 10B不仅错误率更低，生成的描述也更加详细和丰富，平均句子数量和字符数量都有所增加。

这项能力在实际应用中有着广泛的价值。在内容创作领域，它可以帮助自动生成图像的详细描述，用于网站的可访问性改进或者搜索引擎优化。在教育领域，它可以为视觉学习材料自动生成详细的文字说明。在新闻媒体行业，它可以帮助记者快速生成图片的详细描述，提高工作效率。更重要的是，这样的系统可以为视觉障碍人士提供更好的图像内容获取体验，让他们能够通过详细的语音描述"看到"图像内容。

九、空间推理能力：让机器理解位置关系的奥秘

空间推理是人类视觉智能的一个重要组成部分，也是测试机器视觉理解能力的重要指标。想象你需要判断"桌子上的苹果在花瓶的左边"这样的陈述是否正确，这不仅需要识别出苹果、花瓶和桌子这些物体，还要准确理解它们之间的空间位置关系。对于人类来说这似乎毫不费力，但对于机器来说却是一个相当复杂的推理任务。

研究团队选择了视觉空间推理（VSR）基准测试来评估PaliGemma 2的空间理解能力。VSR测试的设计初衷是克服传统基准测试的局限性，特别是那些依赖机器生成标注、对复杂失败模式（如否定句理解）不够敏感的问题。VSR测试就像是专门设计的"空间智商测试"，要求模型对图像中物体的空间关系做出准确的判断。

VSR测试的题目形式是判断题，模型需要对关于图像中物体空间关系的陈述给出"正确"或"错误"的判断。为了适应PaliGemma 2的文本生成特性，研究团队将其改编为问答形式，要求模型回答"True"（正确）或"False"（错误）。这种改编就像是把选择题改成问答题，但本质的推理要求没有改变。

测试分为两个版本：零样本分割（zeroshot split）和随机分割（random split）。零样本分割更具挑战性，因为测试中的物体类别在训练时没有出现过，这要求模型具备良好的泛化能力。随机分割则允许训练和测试中出现相同的物体类别，主要测试模型在熟悉场景下的空间推理能力。

结果显示，PaliGemma 2的表现显著超越了之前的模型。在零样本分割上，PaliGemma 2 3B达到了74.8%的准确率，而之前最好的零样本模型InstructBLIP只有65.6%。更令人印象深刻的是，在随机分割上，PaliGemma 2 3B达到了81.6%的准确率，10B版本更是达到了86.8%，相比之下经过专门训练的LXMERT模型只有61.2%。

这个结果特别有意义，因为它表明PaliGemma 2不仅在视觉识别方面表现出色，在需要推理能力的任务上也有很强的表现。空间推理涉及到对视觉信息的抽象理解和逻辑判断，这是真正智能系统应该具备的能力。

研究团队观察到，模型规模对空间推理任务的影响非常显著。从3B到10B的性能提升幅度远大于在单纯视觉识别任务上的提升，这说明复杂推理任务确实受益于更强大的语言理解和推理能力。相比之下，提高图像分辨率到448像素并没有带来进一步的改善，这符合空间推理任务的特点：重要的是理解物体之间的相对位置关系，而不需要过于精细的视觉细节。

这种空间推理能力在实际应用中具有重要价值。在机器人导航和操作任务中，准确理解物体的空间关系是完成复杂任务的基础。在智能家居系统中，理解"把遥控器放在沙发左边的茶几上"这样的指令需要精确的空间推理能力。在地图和导航应用中，理解和描述位置关系也是核心功能之一。

VSR测试的成功还表明，PaliGemma 2具备了处理更复杂视觉推理任务的基础能力。这为未来在更高级的视觉问答、场景理解、甚至是视觉常识推理等任务上的应用奠定了良好基础。

十、医学影像分析：让机器学会读懂X光片

将PaliGemma 2应用于医学影像分析，特别是胸部X光片的报告生成，展现了通用视觉语言模型在专业医学领域的应用潜力。这个任务就像是训练一个人工智能"放射科医生"，不仅要能看懂X光片上的各种影像特征，还要能像经验丰富的医生一样撰写专业的诊断报告。

研究团队选择了MIMIC-CXR数据集进行实验，这是一个大规模的胸部X光影像数据集，包含了来自波士顿贝斯以色列女执事医疗中心的377000张X光图像，涵盖了228000个放射学检查研究。每张图像都配有专业放射科医生撰写的自由文本诊断报告，这些报告遵循标准的医学报告格式，包括检查指征（INDICATIONS）、影像所见（FINDINGS）和印象结论（IMPRESSIONS）三个部分。

医学报告的格式就像是医生思考过程的标准化表达：检查指征解释了为什么要进行这次X光检查，为放射科医生提供临床背景；影像所见详细描述了在X光片上观察到的各种征象；印象结论则是医生对影像所见的专业解读和诊断建议。PaliGemma 2的任务是在给定检查指征的情况下，自动生成影像所见和印象结论部分。

为了提高训练数据的质量，研究团队使用了Gemini 1.5 Pro大语言模型来清理报告文本，主要是删除那些提到"既往X光片"的内容，因为模型无法访问历史影像资料。这种数据清理工作就像是为学生准备教材时，去除那些需要额外背景知识才能理解的内容，确保学习过程的有效性。

训练策略模拟了实际的临床工作流程。在实际医疗场景中，放射科医生在阅读X光片时会参考临床医生提供的检查指征，这些背景信息帮助医生更准确地解读影像。因此，PaliGemma 2在训练时使用完整的报告作为学习材料，但在预测时只提供检查指征作为输入提示，然后生成相应的影像所见和印象结论。

评估使用了多个指标来全面衡量生成报告的质量。除了常见的文本生成指标如CIDEr、BLEU-4和ROUGE-L外，研究团队还特别使用了RadGraph F1分数，这是专门为医学报告评估设计的指标。RadGraph能够从报告中提取医学实体和它们之间的关系，然后计算生成报告与参考报告在医学概念层面的匹配度。这种评估方法更关注报告的医学准确性，而不仅仅是文字表达的相似性。

测试结果令人鼓舞。PaliGemma 2 3B在896像素分辨率下的RadGraph F1分数达到了28.8%，10B版本更是达到了29.5%，这个成绩超越了之前的最先进系统。作为对比，专门为医学影像报告生成设计的Flamingo-CXR模型的F1分数为20.5%，而最近的Med-Gemini-2D模型为24.4%。

这个结果特别令人兴奋，因为PaliGemma 2并不是专门为医学应用设计的模型，它通过通用的视觉语言理解能力就能在这个高度专业化的医学任务上取得最佳表现。这就像是一个通科医生在放射科专业考试中取得了优异成绩，展现了通用人工智能方法在专业领域的巨大潜力。

研究团队还观察到，提高图像分辨率和增加模型规模都对性能有积极影响，但效果相对温和。这说明医学影像分析既需要足够的视觉细节捕捉能力，也需要强大的医学知识理解和推理能力。在实际应用中，可能需要在性能要求和计算成本之间找到合适的平衡点。

这项技术的应用前景非常广阔。在医疗资源紧张的地区，这样的系统可以作为放射科医生的辅助工具，帮助进行初步筛查和报告草稿生成。在医学教育中，它可以帮助学生学习如何撰写标准的放射学报告。在大规模医学研究中，它可以自动化地处理大量的影像数据，提高研究效率。当然，在实际医疗应用中，这样的系统应该作为医生的辅助工具，而不是替代专业医生的诊断。

十一、设备部署优化：让强大的模型走进日常生活

在某些应用场景中，我们希望能在普通的个人电脑或移动设备上运行PaliGemma 2，而不依赖于强大的专用计算硬件。这就像是把原本需要在专业实验室才能使用的精密仪器，改造成可以在家庭或办公室使用的便携版本。为了实现这个目标，研究团队探索了CPU推理和量化技术，让模型在保持良好性能的同时大幅减少计算资源需求。

研究团队选择了gemma.cpp框架来实现CPU推理。这个框架就像是专门为在普通计算机上运行大型AI模型而设计的"轻量化引擎"，它是用C++编写的轻量级、便携式推理引擎，支持8位混合浮点量化等多种优化技术。相比于原始的32位浮点数表示，8位量化就像是用更简洁的方式来存储和计算数字，虽然精度略有损失，但大大减少了内存占用和计算量。

为了测试CPU推理的实际性能，研究团队在四种不同的处理器架构上进行了推理速度测试。测试使用了PaliGemma 2 3B（224像素版本）在COCOcap任务上微调后的模型，输入是一张示例图像和"描述这张图像"的提示文本。输入包含了256个图像标记加4个文字标记，总共260个标记，而输出是"一座有两座塔楼的大建筑在水边"，包含11个标记。

测试结果展现了不同硬件平台的性能差异。Apple M1 Max处理器在预填充阶段（处理输入）用时8.2秒，在生成阶段每秒能产生12个标记；Apple M3 Pro的预填充更快，只需4.4秒，生成速度达到每秒22个标记；AMD的服务器级处理器表现更好，Genoa架构在使用32个线程时预填充只需0.8秒，生成速度达到每秒41个标记。

这些数字可能看起来有些抽象，但换个角度理解就很清楚了：在最好的硬件配置下，系统能在不到1秒的时间内理解一张图像和问题，然后以接近人类阅读速度的速度生成回答。这样的性能已经足以支持很多实际应用场景，比如辅助阅读、内容描述、简单的视觉问答等。

更重要的是质量评估。研究团队比较了原始32位浮点数版本和量化后版本在五个不同任务上的性能表现。结果显示，量化几乎没有造成性能损失：在所有测试任务上，量化版本的相对性能都保持在99.9%到100.2%之间。这意味着用户可以享受到显著减少的存储和计算需求（从12.1GB减少到4.0GB），而几乎不用担心性能下降。

这种"几乎无损"的压缩效果就像是找到了一种神奇的打包方法，能把行李箱的体积缩小到原来的三分之一，重量也大幅减轻，但里面的东西一件不少，质量也没有任何损伤。这对于实际部署具有重要意义，因为它让普通用户能够在自己的设备上运行原本需要专业硬件才能支持的强大AI模型。

CPU推理和模型量化的成功为PaliGemma 2的普及应用奠定了基础。这意味着开发者可以将这样的视觉理解能力集成到移动应用、桌面软件、甚至是嵌入式设备中，而不需要依赖云服务或专用的AI加速硬件。对于隐私敏感的应用场景，本地推理还提供了额外的数据安全保障。

这项技术进步的意义就像是把原本只有大型医院才能提供的高端医疗设备小型化，让社区诊所也能提供类似的服务。它降低了使用门槛，扩大了应用范围，让更多的开发者和用户能够受益于先进的视觉理解技术。

说到底，PaliGemma 2代表了人工智能视觉理解领域的一次重要进展。这个模型家族就像是培养了一批既有敏锐观察力又有丰富知识储备的多面手专家，他们不仅能够处理传统的图像理解任务，还能够在文字识别、表格分析、分子结构识别、音乐乐谱识别等高度专业化的领域发挥作用。

更重要的是，研究团队通过开放权重的方式分享了这些模型，就像是把一套昂贵的专业工具免费提供给了整个社区。这种开放的做法不仅推动了学术研究的发展，也为实际应用的创新提供了强大的基础工具。

从技术角度来看，PaliGemma 2的成功验证了通用视觉语言模型的巨大潜力。与其为每个专业任务开发专门的系统，不如训练一个足够强大和灵活的通用模型，然后通过微调来适应不同的应用场景。这种方法不仅提高了开发效率，也降低了维护成本。

研究团队在模型规模、图像分辨率和任务性能之间发现的规律也为未来的模型优化提供了重要指导。对于需要精细视觉处理的任务，投资于更高的图像质量比增加模型复杂度更有效；而对于需要复杂推理的任务，更大的语言模型则能带来显著的性能提升。这种针对性的优化策略有助于在有限的计算资源下获得最佳的性能表现。

CPU推理和模型量化技术的成功则为AI技术的民主化做出了贡献。它让原本需要专业硬件才能运行的先进模型，能够在普通的个人设备上顺畅运行，大大降低了使用门槛。这种技术进步就像是让高端技术走出象牙塔，真正服务于普通用户的日常需求。

展望未来，PaliGemma 2的成功为视觉语言模型的发展指明了方向。随着训练数据的不断丰富、训练方法的持续优化，以及计算硬件的不断进步，我们有理由期待更加强大和实用的视觉理解系统的出现。这些系统不仅会在更多专业领域发挥作用，还会以更加便捷和经济的方式服务于我们的日常生活。

这项由Google DeepMind团队完成的研究，为整个人工智能社区贡献了宝贵的技术成果和实践经验。有兴趣深入了解技术细节的读者可以通过arXiv:2412.03555v1查询完整论文。这项工作不仅推动了学术研究的边界，也为实际应用开辟了新的可能性，是人工智能技术发展过程中值得关注的重要里程碑。

Q&A

Q1：PaliGemma 2相比原版PaliGemma有什么主要改进？

A：PaliGemma 2的主要改进包括：用更先进的Gemma 2语言模型替换了原来的语言核心，提供3B、10B、28B三个不同规模版本；支持224px、448px、896px三种图像分辨率；新增了文字检测识别、表格结构分析、分子结构识别、音乐乐谱识别等多项新能力；在30多个基准测试上都有性能提升，平均提升0.65-0.85个百分点。

Q2：PaliGemma 2在哪些专业领域表现突出？

A：PaliGemma 2在多个专业领域都达到了最先进水平：文字识别方面超越了专业系统HTS；表格结构识别在多项指标上创造新纪录；分子结构识别准确率达到94.8%，超越专业系统MolScribe；音乐乐谱识别将错误率降低一半以上；医学影像报告生成的RadGraph F1分数达到29.5%，超越所有对比模型。这些成果证明了通用模型在专业任务上的巨大潜力。

Q3：普通用户如何使用PaliGemma 2？

A：PaliGemma 2以开放权重形式发布，开发者可以免费使用。研究团队还提供了CPU推理版本，经过量化优化后，模型大小从12.1GB减少到4.0GB，可以在普通电脑上运行，性能几乎无损失。用户可以通过gemma.cpp框架在个人设备上部署，也可以集成到移动应用或桌面软件中，无需依赖云服务或专用硬件。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.