斯坦福突破：AI实现透明化多模态视觉推理训练|算法|数学|实验|新论文

分享至

这项由新加坡MiroMind AI公司、南洋理工大学、清华大学以及LMMs-Lab团队联合开展的研究发表于2025年11月，论文编号为arXiv:2511.16334v1。张凯晨、吴可明等研究者历经数月，终于揭开了训练高性能多模态推理模型的神秘面纱，并将所有秘密武器完全公开。

人工智能现在能看懂图片、理解文字，甚至能解数学题了，但你有没有想过这些"聪明"的AI是怎么训练出来的？就像学做菜需要完整的食谱一样，训练AI也需要详细的"配方"。然而，目前大多数顶尖AI公司都把这些配方当作商业机密紧紧守护，这让研究人员就像在黑暗中摸索烹饪技巧一样困难重重。

最近，一个国际研究团队决定打破这种局面，他们不仅成功训练出了一个名为OpenMMReasoner的强大AI模型，更重要的是，他们把整个训练过程的每个细节都毫无保留地公开了出来。这就像是一位顶级厨师不仅做出了美味佳肴，还把完整的食谱、烹饪技巧、火候掌控、食材选择的每个秘诀都详细记录并免费分享给所有人。

这个OpenMMReasoner模型究竟有多厉害呢？研究团队在九个不同的推理测试中发现，它的表现比目前广泛使用的Qwen2.5-VL-7B模型平均提升了11.6%。这就好比一个学生的平均成绩从75分提升到了86分，这种进步在AI领域已经算是相当显著的突破了。

更令人兴奋的是，研究团队采用了一种被称为"两阶段训练"的独特方法。第一阶段就像是给AI打基础，使用了87.4万个精心筛选的训练样本，让AI学会基本的推理思路。第二阶段则像是进行强化训练，通过7.4万个特殊设计的样本，让AI的推理能力变得更加稳定和准确。

这项研究的独特之处在于它的完全透明性。在以往的研究中，即使有团队公开了AI模型，但训练数据的来源、筛选过程、训练参数的调整等关键信息往往都不会完全公开。这就像是有人告诉你蛋糕很好吃，甚至给了你成品蛋糕，但不告诉你具体的烘焙温度、时间、食材配比等关键信息。而OpenMMReasoner团队则把从原料采购到最终成品的每一个步骤都详细记录下来，任何人都可以按照他们的方法重现相同的结果。

一、揭开数据筛选的神秘面纱

在训练AI模型的过程中，数据就像是烹饪用的食材，食材的质量直接决定了最终菜品的味道。研究团队在第一阶段的训练中，面临着一个巨大的挑战：如何从海量的数据中筛选出真正有用的"优质食材"？

他们首先从公开数据集中收集了大约10.3万个原始问题，这些问题涵盖了从日常生活场景到复杂数学推理的各个方面。然而，原始数据的质量参差不齐，就像是从菜市场买回来的蔬菜，有些新鲜有些已经开始变质，需要仔细挑选。

为了提升数据质量，研究团队采用了一种被称为"教师模型蒸馏"的技术。简单来说，就是让一个更强大的AI模型（教师）来为这些问题生成高质量的答案，然后用这些答案来训练目标模型（学生）。这个过程就像是请一位经验丰富的厨师来示范如何处理每种食材，然后让新手厨师观摩学习。

在选择教师模型时，研究团队进行了细致的对比实验。他们分别测试了Qwen2.5-VL-72B和Qwen3-VL-235B两个不同的教师模型，发现使用更强大的Qwen3-VL-235B作为教师时，学生模型的平均性能从45.3分提升到了50.5分。这个差异虽然看似不大，但在AI训练中已经是相当显著的提升了。

更有趣的是，研究团队还发现了一个重要规律：对于同一个问题，如果让教师模型生成多个不同的答案，然后从中筛选出正确的答案进行训练，效果会更好。他们测试了1倍、2倍、4倍、8倍采样的效果，发现随着采样倍数的增加，模型性能持续提升。当采样倍数达到8倍时，模型的平均得分从50.5分跃升至55.2分。

这个发现揭示了一个重要道理：多样性比单纯的数量更重要。就像学习解数学题一样，如果你只看到一种解题方法，可能只能应对特定的题型；但如果你看到了同一道题的8种不同解法，你对这类问题的理解就会更加深入，遇到类似问题时也更容易找到正确的解决方案。

在数据筛选过程中，研究团队还遇到了一个有趣的现象。他们原本以为对数据进行更严格的筛选会带来更好的效果，于是尝试了基于难度的筛选和基于长度的筛选。然而实验结果却出人意料：过度筛选反而降低了模型的性能。经过深入分析，他们发现这是因为过度筛选减少了答案的多样性，就像是把食材处理得过于精细，反而失去了一些重要的营养成分。

基于这个发现，研究团队决定采用"无筛选"策略，保留所有通过基本验证的数据。这个决定看似违反直觉，但实际上体现了一个深层的智慧：在AI训练中，多样性往往比纯粹的质量更重要。

二、跨领域融合的智慧

在完成了基础数据的处理后，研究团队面临着另一个挑战：如何让AI模型具备更全面的推理能力？他们的解决方案是进行跨领域的数据融合，就像是在主菜的基础上添加不同的配菜，让整道菜的营养更加均衡。

研究团队在原有的58.3万通用推理样本基础上，又加入了图像数学推理和文本数学推理的专门数据。这个决定的背后有着深刻的考虑：虽然通用推理数据已经为AI模型提供了良好的基础，但在数学推理这个特定领域，模型还需要更专门的训练。

这种跨领域融合的效果立竿见影。当研究团队分别测试只添加图像数学数据、只添加文本数学数据，以及同时添加两种数据的效果时，发现同时添加两种数据能够带来最佳的性能提升。模型的平均得分从55.2分进一步提升到了56.3分，这在AI训练中已经是相当可观的进步。

这个实验结果揭示了一个重要的原理：不同领域的知识可以相互促进和补充。图像数学推理教会了AI如何处理视觉信息中的数学问题，而文本数学推理则强化了AI的逻辑分析能力。当这两种能力结合在一起时，AI就像是掌握了两种不同的武器，在面对复杂问题时能够灵活选择最合适的解决方案。

更深层次地说，这种跨领域融合体现了人类学习的一个重要特点。当我们学习新知识时，往往是通过将新信息与已有的知识体系相结合来实现理解的。AI模型的训练过程实际上也遵循着类似的规律：通过接触不同领域的问题和解决方案，模型能够建立起更加丰富和灵活的知识结构。

经过这一系列精心设计的步骤，研究团队最终构建了一个包含87.4万样本的综合训练数据集。这个数据集不仅在数量上达到了足够的规模，更重要的是在质量和多样性上都达到了很高的水准。

三、强化学习的精妙设计

完成了第一阶段的基础训练后，研究团队开始了更加复杂和精妙的第二阶段：强化学习训练。如果说第一阶段的训练像是教学生掌握基本知识，那么强化学习阶段就像是通过反复练习和调整来提升学生的应试技巧。

强化学习的核心思想是通过奖励和惩罚机制来引导AI模型的行为。就像训练宠物一样，当宠物做对了事情就给它奖励，做错了就适当惩罚，通过这种方式让宠物学会什么行为是被鼓励的，什么行为应该避免。

在选择强化学习算法时，研究团队进行了详细的对比实验。他们测试了三种不同的算法：GSPO（群体序列策略优化）、DAPO（解耦裁剪和动态采样策略优化）、GRPO（群体相对策略优化）。通过长达数百轮的训练观察，他们发现GSPO算法表现出了最佳的稳定性和收敛速度。

这三种算法就像是三种不同的教练风格。GRPO像是一位温和但有些保守的教练，训练进度稳定但相对较慢。DAPO像是一位严格的教练，对学生要求很高，但有时会因为过于苛刻而导致学生心态崩溃。而GSPO则像是一位经验丰富且善于调节的教练，既能保证训练强度，又能维持学生的积极性，因此能够取得最好的训练效果。

在奖励机制的设计上，研究团队也经过了精心的考虑。他们采用了一种组合式的奖励函数，不仅考虑答案的正确性，还考虑输出格式的规范性。具体来说，最终奖励是由90%的准确性奖励和10%的格式奖励组成的。这种设计确保了AI模型不仅能给出正确答案，还能以规范的格式进行输出。

为了解决强化学习过程中可能出现的"过度思考"问题，研究团队还引入了长度惩罚机制。这就像是告诉学生："虽然思考深入很好，但也要学会简洁明了地表达观点。"通过这种机制，AI模型学会了在保持推理深度的同时控制输出长度，避免了冗长而低效的回答。

在训练数据的准备上，研究团队收集了来自多个领域的7.4万个样本，涵盖了科学、数学、图表分析、逻辑推理等各个方面。这种多样性确保了AI模型能够在各种不同的任务中都表现出良好的推理能力。

四、训练过程中的意外发现

在强化学习的训练过程中，研究团队观察到了一个非常有趣的现象：随着训练的进行，AI模型不仅在多模态推理任务上表现越来越好，连纯文本的推理能力也在同步提升。这就像是一个学生在练习看图作文的过程中，写普通作文的能力也不知不觉地提高了。

为了验证这个观察，研究团队专门在几个纯文本数学竞赛数据集上测试了模型的表现。结果显示，在AIME24、AIME25和AMC23这些高难度数学竞赛中，经过强化学习训练的模型得分分别从基准的6.7%、6.7%和31.8%提升到了27.1%、22.1%和38.9%。这种跨领域的能力迁移证明了多模态训练对于提升AI整体推理能力的重要价值。

这个发现具有深远的意义。它表明不同类型的推理任务之间存在着深层的共性，就像不同学科之间往往有着相互关联的逻辑结构。当AI模型在处理视觉加文本的复合任务时，它实际上在学习一种更加通用的推理模式，这种模式同样适用于纯文本的推理任务。

研究团队还发现，在强化学习过程中，AI模型逐渐学会了使用更多的"反思性"词汇。通过分析模型输出的文本，他们发现诸如"让我想想"、"等等"、"重新思考"这样的词汇出现频率随着训练进行而不断增加。这表明AI模型正在学习一种更加深思熟虑的推理方式，就像是从冲动的快速回答转向了谨慎的深度思考。

在训练稳定性方面，研究团队通过大量实验发现了两个关键因素。第一个是生成温度的控制。他们发现当温度设置过高（如1.4）时，模型的训练会变得极其不稳定，甚至可能完全发散。这就像是烹饪时火候过大，不仅不能提升菜品质量，反而可能把菜烧焦。因此，他们选择了相对保守的温度设置（1.0），确保训练过程的稳定性。

第二个关键因素是每次更新时使用的样本数量。他们对比了每次使用8个样本和16个样本的效果，发现16个样本的配置能够提供更稳定的训练动态和更好的最终性能。这个发现强调了在强化学习中批量大小的重要性：太小的批量可能导致训练不稳定，而适当大小的批量则能够提供更可靠的学习信号。

五、性能表现的全面验证

经过两阶段精心训练的OpenMMReasoner模型在九个不同的多模态推理基准测试中都取得了出色的表现。这些测试就像是不同科目的期末考试，全面验证了AI模型的各项能力。

在数学视觉推理方面，OpenMMReasoner在MathVista测试中达到了79.5%的准确率，相比基准模型的69.2%有了显著提升。这个测试要求AI模型能够理解图表、几何图形等视觉信息，并进行相应的数学推理。模型的优异表现说明它已经能够很好地整合视觉信息和数学知识。

在MathVerse测试中，模型取得了38.8%的准确率，虽然绝对数值看起来不高，但这是一个极具挑战性的测试，即使是最先进的模型在这个测试上的表现也都相对有限。OpenMMReasoner相比基准模型25.6%的表现有了大幅提升，显示了其在复杂数学推理方面的进步。

在通用多模态理解方面，模型在MMMU测试中达到了50.0%的准确率，在更具挑战性的MMMU-Pro测试中也达到了57.8%的准确率。这些测试涵盖了从艺术历史到自然科学的广泛领域，要求模型不仅能理解图像内容，还能进行跨学科的推理。

特别值得一提的是，在与其他先进模型的对比中，OpenMMReasoner展现出了显著的效率优势。研究团队发现，虽然某些竞争模型能够达到类似的准确率，但它们往往需要生成非常冗长的推理过程。例如，OpenVisionReasoner模型虽然在某些任务上表现不错，但其平均输出长度是OpenMMReasoner的近两倍，这在实际应用中会大大增加计算成本和响应时间。

这种效率优势的背后体现了OpenMMReasoner训练方法的一个重要特点：它不是简单地追求在单一任务上的极致表现，而是寻求在性能和效率之间的最佳平衡点。这就像是培养一个全才学生，不仅要求各科成绩都要好，还要求答题速度快、思路清晰。

六、完全透明的开源承诺

OpenMMReasoner项目最令人敬佩的地方在于其完全透明的开源理念。在当前AI研究领域，大多数先进模型都只公开最终结果，而将训练数据、方法细节、超参数设置等关键信息作为商业机密保护起来。这种做法虽然可以理解，但却阻碍了整个研究社区的进步。

相比之下，OpenMMReasoner团队选择了一条截然不同的道路。他们不仅公开了最终训练好的模型，还将整个训练过程的每一个环节都详细记录并公开分享。这包括87.4万条精心筛选的监督学习数据、7.4万条强化学习数据、完整的数据处理流程、详细的训练参数设置、以及所有实验的完整记录。

这种透明度是前所未有的。研究团队制作了一个详细的对比表格，显示了不同研究项目的开源程度。结果显示，在数据流程、监督学习数据、强化学习数据、模型权重这四个关键方面，只有OpenMMReasoner实现了全部公开，而其他项目最多只公开了其中的一两个方面。

更重要的是，这种完全透明的做法让任何研究者都能够复现他们的结果。这就像是一位大厨不仅把菜谱公开，还详细说明了每道工序的时间掌控、温度设置、甚至是搅拌的手法。这种无私的分享精神为整个研究社区树立了一个很好的榜样。

透明性的价值不仅体现在可复现性上，更重要的是它为其他研究者提供了一个宝贵的学习机会。通过详细研究OpenMMReasoner的训练过程，其他研究团队可以更好地理解什么方法有效、什么方法无效，从而避免重复犯错，加速整个领域的发展进程。

这种做法也体现了研究团队对于科学研究本质的深刻理解。科学进步从来不是某个个人或团队的专利，而是整个人类知识体系的共同财富。通过完全开放的方式分享研究成果，OpenMMReasoner团队为推动AI技术的民主化和普及化做出了重要贡献。

说到底，OpenMMReasoner项目的意义远远超出了一个单纯的技术成果。它代表了一种全新的研究理念：在追求技术突破的同时，更要注重知识的分享和传播。这个87.4万样本的数据集和7.4万样本的强化学习数据不仅是AI模型的训练材料，更是整个研究社区的宝贵财富。

研究团队通过两年多的努力，不仅证明了完全透明的训练方法能够产生优秀的AI模型，还为后续研究者提供了一个坚实的起点。任何对多模态推理感兴趣的研究者都可以基于这个开源项目进行进一步的探索和改进，这种知识的传承和发展正是科学研究应有的样子。

这项研究表明，在数据质量和训练策略得当的情况下，相对较小规模的训练也能取得显著的效果。OpenMMReasoner仅用87.4万条监督学习样本就达到了其他模型用数千万样本才能达到的效果水平，这为资源受限的研究团队提供了新的思路和希望。归根结底，这项研究最大的贡献不是创造了一个更强的AI模型，而是为整个AI研究社区提供了一份完整的"武功秘籍"，让更多的研究者能够在巨人的肩膀上继续前行。

Q&A

Q1：OpenMMReasoner相比其他AI模型有什么优势？

A：OpenMMReasoner的主要优势在于完全透明的训练过程和出色的性能表现。它在九个多模态推理测试中平均比基准模型提升11.6%，同时输出效率更高，生成的回答长度只有同类模型的一半，大大降低了计算成本。更重要的是，它是首个完全公开训练数据、方法和参数的先进多模态推理模型。

Q2：什么是两阶段训练方法？

A：两阶段训练就像是先打基础再强化提升的过程。第一阶段使用87.4万个精心筛选的样本进行监督学习，让AI掌握基本的推理能力；第二阶段通过7.4万个样本进行强化学习训练，使用奖励机制进一步提升AI的推理准确性和输出质量。这种方法比单纯增加数据量更有效。

Q3：普通研究者能够使用OpenMMReasoner的成果吗？

A：完全可以。研究团队已经将所有训练数据、代码、模型参数等完全开源，任何人都可以免费获取和使用。这包括87.4万条监督学习数据、7.4万条强化学习数据以及完整的训练流程。研究者可以直接使用这些资源复现结果，或者在此基础上进行进一步的改进和研究。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.