腾讯AI团队推出POINTS1.5：让机器"看懂"世界的全新视觉语言模型|翻译|编码器|知名企业|points

分享至

这项由腾讯公司WeChat AI模式识别中心开展的研究发表于2024年12月，研究团队成功开发出了名为POINTS1.5的视觉语言模型。有兴趣深入了解的读者可以通过arXiv:2412.08443v1查询完整论文。

当我们看到一张图片时，我们的大脑能够瞬间理解其中的内容，无论是识别物体、阅读文字还是理解复杂的图表。现在，人工智能也在努力获得这种"看懂"世界的能力。腾讯的研究团队就像是在培养一个聪明的学生，让它不仅能"看见"图片，还能"理解"图片内容并用人类的语言准确表达出来。

POINTS1.5就是这样一个突破性的视觉语言模型。可以把它想象成一个具有超强视觉能力的智能助手，它能够处理任何尺寸的图片而不需要将大图切割成小块，还能同时理解中文和英文，更重要的是，它在处理复杂的现实世界任务时表现出色。这项研究的意义在于，它让机器更接近人类的视觉理解能力，为未来的智能应用铺设了道路。

研究团队面临的挑战就像是教会一个从未见过世界的人如何理解眼前的一切。传统的视觉模型就像戴着眼镜看世界的人，只能看清固定尺寸的"窗口"，看到大图时就必须将其分割成小块来处理，这样容易丢失整体的空间关系信息。而且，现有的开源模型在处理中文内容时能力有限，这就像是一个只会说英语的人试图理解中文书籍一样困难。

一、给机器装上"万能眼镜"：动态高分辨率视觉处理

传统的视觉模型就像只能看固定尺寸照片的相机，遇到大尺寸图片时就必须将其切成小块来处理。这种方法的问题在于，当我们把一幅完整的画作切割成碎片时，很容易失去整体的构图美感和空间关系。

POINTS1.5采用了一种全新的视觉处理方式，就像给机器装上了一副"万能眼镜"。这副眼镜的神奇之处在于，它能够自动调节焦距，无论面对多大、多小的图片都能完整清晰地"看到"全貌，而不需要将图片分割处理。

具体来说，研究团队抛弃了原本POINTS1.0中使用的CLIP视觉编码器（这就像是一副只能看固定尺寸的老式眼镜），转而采用了NaViT风格的视觉编码器（就像是一副能够自适应调节的智能眼镜）。这种新的"眼镜"能够直接处理任意分辨率的图像，保持了图像的原始空间结构，避免了因分割而造成的信息损失。

这种改进带来的好处是显而易见的。当机器需要理解一张复杂的图表或阅读一份包含大量文字的文档时，它能够同时看到整体布局和细节内容，就像人类阅读时能够同时把握文章的整体结构和具体段落内容一样。这种能力对于处理现实世界中的复杂视觉任务至关重要，比如分析财务报表、理解技术图纸或者处理包含多种元素的复合图像。

二、让AI说一口流利的中文：双语能力的全面提升

在POINTS1.0版本中，英文数据占据了95%以上的比重，这就像是培养了一个几乎只会说英语的学生。为了让AI更好地服务中文用户，研究团队在POINTS1.5中大幅增加了中文数据的比重，就像是为这个学生提供了充分的中文学习环境。

然而，获取高质量的中文视觉语言数据并非易事，这就像是要为学生找到优质的中文教材一样困难。由于开源的中文数据集相对稀缺，研究团队采用了两种创新策略来解决这个问题。

在预训练阶段，研究团队沿用了POINTS1.0中成功的数据获取策略，从LAION-5B-cn数据库中筛选出高质量的中文图像文本对。他们使用了CapFusion技术和困惑度过滤方法，这就像是有经验的编辑在海量素材中精心挑选最适合的内容。通过这种方法，他们获得了额外的100万条中文预训练数据，与原有的100万条英文数据合并，形成了200万条的双语预训练数据集。

在视觉指令调优阶段，研究团队采用了更加灵活的策略。对于现有的英文数据集，他们使用大语言模型将其翻译成中文，这就像是聘请了一位专业翻译将英文教材改编成中文版本。对于中文OCR（光学字符识别）数据集，他们从互联网收集相关图像，手工设计问题，然后使用强大的视觉语言模型（如Qwen2-VL-72B）生成答案，最后通过人工标注员验证这些答案的准确性。

这种双重策略确保了POINTS1.5在处理中文内容时具有与处理英文内容同样出色的能力。无论是阅读中文菜单、理解中文标识，还是分析中文文档，POINTS1.5都能准确理解并用恰当的中文回应。

三、数据清洗的艺术：过滤出真正有价值的训练素材

训练一个优秀的视觉语言模型就像培养一个博学的学者，教材的质量直接决定了学习的效果。研究团队在仔细审查POINTS1.0使用的数据集时，发现了两个严重问题，就像发现教科书中存在语法错误和无关内容一样。

第一个问题是语法错误。一些数据集中包含大量的语法错误，就像是用错字连篇的教材来教学生一样，不仅无法提升能力，反而会产生负面影响。研究团队使用大语言模型（如Qwen2.5-72B）来检测这些语法错误，然后要么直接丢弃这些有问题的样本，要么修正错误后重新纳入数据集。经过仔细比较，他们发现直接删除有错误的样本比修正后保留的效果更好，这就像是发现使用高质量的少量教材比使用修改过的大量教材效果更佳。

第二个问题更加微妙但同样重要：一些问题可以在不看图像的情况下就能回答。这就像是语文考试中出现了不需要阅读文章就能答出的题目一样，这种数据对于训练视觉语言模型来说是无效的，甚至可能是有害的。研究团队使用大语言模型来测试这些问题，如果模型在没有看到图像的情况下就能给出正确答案，那么这个数据样本就会被标记出来。

有趣的是，当研究团队尝试过滤掉这些"不需要图像"的问题时，发现模型性能略有下降。这个现象与之前的研究发现一致，说明纯文本数据对于维持预训练语言模型的能力是有帮助的。这就像是在专业课程中适当保留一些基础知识复习一样，虽然不直接相关，但对整体能力的维持是有益的。

经过这种精心的过滤过程，研究团队保留了约85%的原始数据，这些数据的质量得到了显著提升。这种"宁缺毋滥"的态度确保了POINTS1.5接受的都是高质量的训练，为其出色的性能表现奠定了坚实基础。

四、训练策略的精妙设计：如何打造一个完美的视觉语言模型

训练POINTS1.5就像是培养一个全才学生的过程，需要精心设计每一个学习阶段。研究团队采用了类似培养专业人才的三阶段策略，每个阶段都有明确的目标和精心设计的方法。

在架构设计上，POINTS1.5遵循了经典的LLaVA风格架构，就像是一个由三部分组成的精密仪器。视觉编码器充当"眼睛"，负责将图像转换成计算机能理解的信息；MLP投影器充当"翻译官"，将视觉信息转换成语言模型能处理的格式；大语言模型则是"大脑"，负责理解和生成最终的文本回应。

研究团队选择了Qwen2.5-7B-Instruct作为语言模型的基础，这就像是选择了一个已经受过良好教育的学生作为培养对象。投影器采用了两层MLP结构，中间使用GELU激活函数来增加非线性处理能力，就像是在翻译过程中添加了创造性思维环节。

训练过程分为两个主要阶段。预训练阶段就像是让学生建立视觉和语言之间的基本联系。在这个阶段，视觉编码器保持不变（就像是使用一副已经调校好的眼镜），只训练投影器和语言模型的连接。研究团队使用了改进的对话模板，为每个图像文本对添加多样化的提示词，比如"请描述这张图片"或"你能详细描述一下这张图片吗？"这种做法让模型在训练早期就学会了如何响应不同类型的视觉问题。

视觉指令调优阶段则像是专业技能的深化训练。在这个阶段，投影器和语言模型都参与训练，而视觉编码器依然保持固定。这种策略的核心思想是，既然视觉编码器已经是一个训练好的专业"摄影师"，就不需要再重新训练它，而是专注于提升"翻译官"和"大脑"的协作能力。

研究团队发现，如果在预训练阶段解冻视觉编码器，性能反而会下降。这个发现很有启发性，说明过度训练有时反而会带来负面效果，就像是让一个已经很优秀的摄影师重新学习基础技能反而会影响其专业水准。

特别值得注意的是，POINTS1.5的训练效率极高，总共使用了不到50亿个token，这比大多数类似模型的训练量要少得多。这种高效率的训练就像是用更少的时间和资源培养出了同样优秀甚至更优秀的人才，体现了研究团队在训练策略上的精妙设计。

五、模型融合的智慧：让优秀变得更加卓越

就像烹饪中将多种优质食材完美融合能创造出更美味的佳肴一样，研究团队采用了"模型汤"（Model Soup）技术来进一步提升POINTS1.5的性能。这种方法的核心理念是将多个表现优秀的模型版本进行融合，取长补短，达到1+1大于2的效果。

具体来说，研究团队训练了多个不同版本的POINTS1.5模型，这些模型使用了不同的视觉指令调优数据集和不同的训练轮数。每个模型就像是一位有着不同专长的专家，有的在数学推理方面表现出色，有的在文本识别方面更强，还有的在图像理解方面更为精准。

通过精心的融合过程，研究团队将这些"专家"的智慧结合在一起，创造出了一个综合能力更强的超级模型。最终，单个最佳模型在OpenCompass评测中获得了66.5分，而经过模型融合后的版本达到了67.4分，性能提升显著。

这种方法的美妙之处在于，它不需要额外的训练成本，只需要通过数学方法将不同模型的参数进行合理组合。就像是让多位专家进行集体决策一样，最终的结果往往比任何单一专家的判断都更加准确和可靠。

六、突破性的性能表现：在实际应用中的卓越能力

POINTS1.5的性能表现就像是一个在各个学科都表现优异的全才学生。在OpenCompass排行榜上，POINTS1.5在所有参数量少于100亿的模型中排名第一，甚至超越了许多参数量更大的模型。这种表现就像是一个轻量级选手在比赛中击败了众多重量级对手一样令人印象深刻。

在数学推理能力方面，POINTS1.5表现得尤为突出。当面对复杂的几何题目时，它能够准确理解题目中的图形关系，分析函数特性，并给出详细的解题步骤。比如在处理一个关于函数性质的问题时，POINTS1.5不仅能识别出函数的奇偶性，还能分析函数的极值点和单调性，最终得出正确答案。

在文字识别（OCR）任务中，POINTS1.5展现了强大的多语言处理能力。无论是中文发票、英文收据，还是复杂的表格文档，它都能准确提取其中的文字信息。特别是在处理中文内容时，它能够准确识别各种字体和排版格式，这种能力对于实际应用来说极其重要。

在图像理解和描述方面，POINTS1.5能够像人类一样细致地观察图像中的细节。当看到一张水果图片时，它不仅能识别出有香蕉、菠萝、梨和苹果，还能详细描述每种水果的特征、营养价值和常见用途，展现了深度的知识整合能力。

特别令人印象深刻的是POINTS1.5在代码生成方面的能力。当用户展示一个简单的图表时，它能够自动生成相应的Python代码来重现这个图表。这种从视觉到代码的转换能力，展现了模型在跨模态理解和生成方面的强大实力。

七、面向未来的技术愿景：多模态AI的发展方向

研究团队在POINTS1.5的开发过程中，不仅解决了当前的技术问题，还为未来的多模态人工智能发展描绘了清晰的路线图。他们认为，开发多模态模型应该遵循一个三阶段的发展策略，就像建造一座复杂建筑需要先打好地基、再建框架、最后装修一样。

第一阶段是训练高质量的模态编码器和解码器，就像是为建筑准备优质的建材。对于视觉模态来说，需要训练能够准确理解图像内容的视觉编码器；对于其他模态比如音频、视频等，也需要相应的专业编码器。这些编码器就像是专业的"翻译官"，能够将不同模态的信息转换成计算机能理解的通用格式。

第二阶段是训练模态嵌入层，也就是让不同模态的信息能够在同一个"语言空间"中进行交流。这个阶段不需要大量的数据，关键是要建立起不同模态之间的准确映射关系，就像是让来自不同国家的专家学会用同一种语言交流。

第三阶段是使用高质量的指令调优数据集来训练整个系统，让模型能够理解复杂的多模态指令并给出准确的回应。在这个阶段，编码器和解码器保持固定不变，主要训练的是系统的"大脑"部分。

这种三阶段策略的优势在于，每个阶段都有明确的目标和可控的复杂度，避免了一次性训练整个系统时可能出现的各种问题。同时，这种方法也更加经济高效，因为不需要每次都重新训练所有组件。

研究团队相信，这种发展策略不仅适用于视觉语言模型，也可以扩展到其他多模态组合，比如音频语言模型、视频语言模型等。随着技术的发展，未来的AI系统将能够同时处理文字、图像、音频、视频等多种模态的信息，就像人类一样自然地在不同感官通道之间切换和整合信息。

八、实际应用的无限可能：POINTS1.5如何改变我们的生活

POINTS1.5的能力不仅仅停留在实验室的测试中，它在现实世界的应用前景极其广阔。就像智能手机改变了我们的通信方式一样，这种视觉语言模型有潜力改变我们与数字世界互动的方式。

在教育领域，POINTS1.5可以成为一个智能的学习助手。当学生遇到复杂的几何题目时，只需要拍一张照片，模型就能详细解释解题思路和关键步骤。对于语言学习者来说，它能够识别和解释图片中的文字内容，帮助学生理解不同语言的表达方式。这种能力特别适合中文学习者，因为模型具备优秀的中文理解和表达能力。

在商业应用中，POINTS1.5可以大大提高工作效率。财务人员可以直接上传发票或账单图片，模型能够自动提取其中的关键信息并整理成结构化的数据。市场分析师可以上传图表，让模型解读数据趋势并生成分析报告。这种自动化的信息处理能力可以节省大量的人工时间。

在医疗健康领域，虽然需要谨慎应用，但POINTS1.5的图像理解能力可以辅助医生进行初步的影像分析。它能够识别医学图像中的结构和异常，为医生提供参考信息。当然，任何医疗决策都必须由专业医生做出最终判断。

在日常生活中，POINTS1.5可以成为一个贴心的生活助手。当你在旅行中遇到不认识的外文标识时，只需拍照就能获得准确的翻译和解释。当你在超市看到不熟悉的产品时，可以让模型帮你分析产品信息和使用方法。这种能力让人机交互变得更加自然和便捷。

对于内容创作者来说，POINTS1.5提供了强大的创作支持。它不仅能够生成图片描述，还能根据图片内容创作相关的故事或文章。程序员可以通过展示设计图让模型生成相应的代码，大大提高开发效率。

九、技术创新的深度剖析：突破传统的关键所在

POINTS1.5之所以能够取得如此出色的性能，关键在于几个重要的技术创新点。这些创新就像是拼图的关键片段，每一个都不可或缺，组合在一起才形成了完整的技术突破。

最核心的创新在于动态高分辨率处理能力。传统的方法就像是用固定大小的取景框来观察世界，遇到超出框架的内容就必须分割处理，这样往往会破坏整体的空间关系。POINTS1.5采用的NaViT架构就像是一个可以自由缩放的智能取景框，能够根据图像的实际大小自动调整处理方式。

这种技术的实现需要解决一个重要的工程问题：批量处理。在传统方法中，多张相同尺寸的图片可以同时处理，就像流水线上同时加工多个相同规格的产品。但是当图片尺寸不同时，就像要在同一条流水线上处理不同规格的产品，需要特别的技术方案。

研究团队采用了序列打包（sequence packing）的策略来解决这个问题。他们将不同大小的图像转换成不同长度的序列，然后将多个序列打包成一个长序列进行处理，同时记录每个图像序列的起始和结束位置。这种方法就像是将不同长度的文章合并成一本书，但仍然保持每篇文章的完整性和边界信息。

在双语能力的实现上，研究团队没有简单地增加中文数据量，而是精心设计了数据获取和处理策略。他们使用CapFusion技术来融合原始图像标注和视觉语言模型生成的描述，这种方法就像是让一个经验丰富的编辑和一个专业的摄影师合作，共同创造出更加丰富和准确的图像描述。

困惑度过滤是另一个重要的技术细节。困惑度可以理解为文本的"流畅度"指标，困惑度越低，说明文本越符合自然语言的表达习惯。通过这种方法，研究团队从海量的候选数据中筛选出了质量最高的训练样本，确保模型学到的都是自然流畅的语言表达。

在模型训练方面，研究团队采用了非常务实的策略。他们发现，过度训练视觉编码器反而会降低性能，这个发现挑战了"训练越多越好"的直觉认知。这种现象说明，在多模态模型的训练中，平衡和控制比单纯的强度更为重要。

对话模板的改进也是一个值得注意的细节。在预训练阶段，研究团队使用了与指令调优阶段一致的对话格式，这种一致性让模型在不同训练阶段之间有了更好的连贯性，避免了格式转换带来的性能损失。

十、性能评测的全面展示：数据背后的技术实力

为了全面评估POINTS1.5的能力，研究团队在多个权威基准测试中进行了详细的性能测评。这些测评就像是让一个学生参加各种不同科目的考试，全方位检验其综合能力。

在OpenCompass综合排行榜上，POINTS1.5-7B获得了67.4分的综合评分，在所有参数量少于100亿的开源模型中排名第一。这个成绩特别令人印象深刻，因为它甚至超越了许多参数量更大的模型，比如参数量达到340亿的LLaVA-Next-Yi-34B和260亿参数的InternVL2-26B。

在数学推理能力测试（MathVista）中，POINTS1.5获得了66.4分，这个成绩在同类模型中遥遥领先。数学推理是视觉语言模型最具挑战性的任务之一，因为它不仅需要准确理解图像中的数学符号和图形，还要具备逻辑推理和计算能力。POINTS1.5在这个领域的出色表现，证明了其在复杂认知任务上的强大实力。

在光学字符识别（OCRBench）测试中，POINTS1.5获得了83.2分，这个成绩接近了专门针对OCR任务优化的模型。考虑到OCR是许多实际应用的基础能力，这个表现对于POINTS1.5的实用价值具有重要意义。无论是处理扫描文档、识别路标文字，还是理解复杂表格，POINTS1.5都展现了可靠的文字识别能力。

在图表分析任务（ChartQA）中，POINTS1.5获得了84.3分的优秀成绩。这个测试要求模型不仅能识别图表中的各种元素，还要理解数据之间的关系并回答复杂的分析性问题。这种能力对于商业智能、数据分析等应用领域具有重要价值。

特别值得一提的是，POINTS1.5在数学相关的多个测试中都表现出色，包括MATH-Vision获得36.9分、MathVerse获得23.7分（文本版）和21.9分（视觉版）。这些成绩说明POINTS1.5不仅能够识别数学表达式，还能进行复杂的数学推理，这种能力为教育和科研应用提供了强大的技术支撑。

在多语言能力方面，POINTS1.5在各个测试中都展现了均衡的中英文处理能力。无论是中文OCR任务还是英文文档理解，模型都能保持稳定的高水平表现，这种双语平衡能力对于国际化应用来说极其重要。

与其他主流模型相比，POINTS1.5的优势不仅体现在绝对分数上，更重要的是它在参数效率方面的突出表现。用更少的参数实现更好的性能，这意味着POINTS1.5在实际部署时能够占用更少的计算资源，运行更加高效，这对于大规模商业应用来说具有重要的经济价值。

说到底，POINTS1.5的成功不是偶然的，而是腾讯研究团队在技术创新、数据处理、训练策略等多个方面精心设计的结果。这个模型就像是一个经过精心培养的全才学生，不仅在单一领域表现出色，更重要的是在各个领域都保持了高水平的综合能力。对于普通用户来说，这意味着未来我们将拥有一个真正实用的AI视觉助手，它能够理解我们看到的世界，并用自然流畅的语言与我们交流。

更令人兴奋的是，POINTS1.5的训练成本相对较低，总共使用了不到50亿个token，这为更多研究机构和企业提供了复制和改进这种技术的可能性。随着技术的进一步发展和优化，我们有理由相信，像POINTS1.5这样的视觉语言模型将越来越普及，成为我们日常生活和工作中不可或缺的智能助手。这项研究不仅推动了学术前沿的发展，更为人工智能技术的实际应用开辟了新的道路。

Q&A

Q1：POINTS1.5与传统视觉模型相比有什么重大突破？

A：POINTS1.5最大的突破是采用了动态高分辨率处理技术，就像给机器装上了"万能眼镜"，能够直接处理任意尺寸的图像而不需要分割，保持了图像的完整空间关系。同时它还具备了优秀的中英文双语能力，在数学推理、文字识别等复杂任务上表现出色，在同参数量模型中排名第一。

Q2：POINTS1.5的训练效率为什么这么高？

A：POINTS1.5采用了精巧的三阶段训练策略，总共只使用了不到50亿个token，比大多数同类模型少得多。关键在于研究团队采用了高质量的数据筛选、合理的模型架构设计（保持视觉编码器固定），以及有效的模型融合技术，实现了用更少资源获得更好性能的目标。

Q3：普通用户可以如何使用POINTS1.5技术？

A：虽然具体的产品化形态还在发展中，但POINTS1.5的技术能力可以广泛应用于教育辅助、商务办公、日常生活等场景。比如拍照识别文字、解答数学题目、分析图表数据、翻译外文标识等。随着技术的普及，未来用户很可能通过各种应用或设备体验到这种强大的视觉语言理解能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.