清华北航联合突破：让AI学数学像学霸一样会"反思"|模态|实验|逻辑推理

分享至

这项由清华大学计算机科学与技术系和北京航空航天大学软件学院联合完成的研究，发表于2025年11月的人工智能顶级会议AAAI，论文编号为arXiv:2511.06805v1。研究团队由陈金豪、杨震、石建新、沃天宇和唐杰教授等人组成，他们提出了一个名为MathSE的创新框架，专门用于提升多模态大语言模型在数学推理方面的能力。

当前的多模态大语言模型虽然在处理图文结合的任务上表现出色，但在面对复杂的数学问题时往往力不从心。传统的训练方法就像让学生死记硬背标准答案，缺乏灵活应变的能力。一旦遇到稍微复杂或者新颖的数学题目，这些AI模型就会表现得束手无策。

研究团队敏锐地发现了这个问题的根源：现有的训练方法过于依赖"老师"模型提供的固定答案，就像学生只会照搬课本上的解题步骤，缺乏独立思考和自我纠错的能力。更关键的是，这种静态的学习方式无法模拟人类学习数学的真实过程——我们在学数学时会不断试错、反思、改进，形成一个动态的学习循环。

为了解决这个问题，研究团队从人类学习数学的过程中汲取灵感。当一个学生在解数学题时，通常会经历这样的过程：首先尝试解题，然后检查答案是否正确，如果发现错误会分析错在哪里，最后重新思考并改进解题方法。这种"做题-检查-反思-改进"的循环正是人类数学学习的精髓。

基于这种观察，研究团队设计了MathSE框架，它让AI模型也能像人类学生一样进行自我进化。整个过程分为三个核心阶段，就像一个完整的学习周期。

一、知识蒸馏阶段：打好数学基础

就像学生刚开始学数学时需要老师的悉心指导一样，MathSE框架的第一步是让AI模型向"老师"学习基础知识。这里的"老师"是GPT-4o这样的先进模型，它能够提供高质量的数学解题示范。

在这个阶段，研究团队精心挑选了一部分数学题目，让GPT-4o为这些题目生成详细的解题步骤。这些解题过程就像是精心编写的数学教程，包含了完整的推理链条和清晰的逻辑结构。然后，研究团队使用这些高质量的解题示例来训练基础模型，让它们掌握基本的数学推理技能。

这个过程类似于传统的师傅带徒弟，经验丰富的师傅会先示范几个标准操作，让徒弟模仿学习。通过这种方式，AI模型可以快速掌握数学问题的基本解题模式和常用推理方法。

但是，仅仅停留在模仿阶段是远远不够的。正如真正的学习不能只靠死记硬背一样，AI模型也需要发展出独立思考和自我改进的能力。这就引出了MathSE框架的核心创新——自我进化机制。

二、迭代自我进化：在实践中不断提升

传统的训练方法就像让学生只做老师提供的标准练习题，而MathSE框架则鼓励AI模型去挑战新的数学问题，在实践中检验和提升自己的能力。

在自我进化阶段，AI模型会面对一批全新的数学题目。这些题目不是简单的重复练习，而是需要模型运用已学知识进行独立思考的挑战。模型需要自己尝试解答这些问题，生成完整的解题过程。

这个过程充满了不确定性，就像学生独立做作业时可能会犯各种错误一样。模型的解答中必然会包含正确的部分和错误的部分。关键在于如何识别这些错误并从中学习。

为了解决这个问题，研究团队设计了一个专门的"评判官"——结果奖励模型（ORM）。这个模型的作用就像一个经验丰富的数学老师，不仅能判断解题过程是否正确，更重要的是能够精确指出错误发生在哪一步，并分析错误的原因。

结果奖励模型的工作方式非常巧妙。当AI模型提交一个解题过程后，ORM会仔细检查每个推理步骤。如果发现错误，它不会简单地标记"错误"就结束，而是会深入分析：这个错误是由于计算失误造成的，还是推理逻辑有问题？是对题目理解有偏差，还是缺乏相关的数学知识？

通过这种详细的错误分析，AI模型能够获得非常有价值的反馈信息。这就像一个好老师不仅会告诉学生答案错了，还会耐心解释错在哪里、为什么错了、应该怎么改正。

有了准确的错误定位和分析，接下来就是改正和学习的过程。研究团队将那些被确认正确的解题过程收集起来，作为进一步训练的素材。这些解题过程特别珍贵，因为它们代表了模型在当前阶段能够独立完成的数学推理，体现了模型真实的能力水平。

更重要的是，这个过程是迭代进行的。模型在完成一轮自我挑战后，会用新获得的正确解题过程来更新自己的知识库，然后再去挑战下一批问题。随着这个循环的不断进行，模型的数学推理能力会持续提升。

实验数据清楚地展示了这种自我进化的效果。在MathVL-test数据集上，随着迭代轮次的增加，模型答对的题目数量从最初的402道稳步上升到1018道。同时，那些持续答错的题目数量明显减少，从原来的705道下降到276道。这种变化趋势表明，模型不仅在学习新知识，还在稳步改正之前的错误。

三、反思机制：从错误中深度学习

如果说自我进化阶段让AI模型学会了在实践中提升能力，那么反思机制则让模型学会了从失败中汲取智慧。这是MathSE框架最具创新性的部分，也是最接近人类学习方式的环节。

在传统的机器学习中，错误往往被简单地丢弃或忽略。但在真实的学习过程中，错误恰恰是最宝贵的学习资源。当一个学生做错题目时，仔细分析错误原因并重新思考解题方法，往往能获得比直接看标准答案更深刻的理解。

MathSE框架将这种反思机制引入到AI训练中。当结果奖励模型识别出错误的解题过程后，这些错误并不会被简单丢弃，而是会成为深度学习的素材。

反思过程是这样进行的：首先，系统会将错误的解题过程、具体的错误步骤以及详细的错误分析一起提供给GPT-4o。然后，GPT-4o会像一个经验丰富的导师一样，帮助分析这个错误，并生成改进后的正确解题过程。

这个过程非常类似于人类的学习方式。当我们做错数学题时，老师会指出错误所在，解释为什么这样做是错的，然后示范正确的解题方法。通过这种对比和反思，我们不仅学会了正确的解法，还深刻理解了错误的原因，避免了类似错误的再次发生。

反思机制的价值在实验中得到了充分验证。研究团队比较了三种不同的反馈方式：没有反思机制、使用GPT-4o直接反馈、使用专门的ORM反馈。结果显示，使用ORM反馈的反思机制效果最好，在MathVL-test数据集上达到了64.70%的准确率，明显超过了其他两种方式。

这说明专门设计的结果奖励模型在错误分析方面确实比通用模型更加精准和有效。ORM不仅能够准确识别错误，还能提供更有针对性的改进建议，使得反思过程更加高效。

四、实验验证：多个模型的全面提升

为了验证MathSE框架的有效性和通用性，研究团队进行了大规模的实验测试。他们选择了三个不同的基础模型作为测试对象：CogVLM2、Qwen2-VL-7B和InternVL2.5-8B。这些模型在架构设计、参数规模和训练方式上都有显著差异，能够较为全面地验证框架的适用性。

实验结果令人振奋。在MathVL-test数据集上，三个模型都获得了显著的性能提升。CogVLM2从原来的30.85%准确率提升到64.70%，提升幅度超过30个百分点。Qwen2-VL-7B从40.60%提升到57.00%，InternVL2.5-8B更是从33.20%大幅提升到65.13%，接近翻倍的性能提升。

这些数据不仅展示了MathSE框架的强大效果，也证明了其良好的通用性。无论是哪种类型的基础模型，在采用MathSE框架训练后都能获得显著的数学推理能力提升。

更令人惊喜的是，在多个标准测试集上的表现同样出色。在MathVista、MathVerse和MathVision这些广泛使用的数学推理测试集上，经过MathSE训练的模型都取得了明显优于原始模型的成绩。

特别值得一提的是，在几何数学推理任务上，模型的提升效果尤为显著。以MathVista（GPS）测试为例，CogVLM2的准确率从39.61%跃升至70.67%，提升了31个百分点。这表明MathSE框架在处理需要视觉理解和数学推理相结合的复杂任务时特别有效。

研究团队还与当前最先进的开源和闭源模型进行了对比。令人惊喜的是，经过MathSE训练的模型不仅超越了同等规模的开源模型，在某些测试中甚至接近Claude 3.5 Sonnet这样的顶级闭源模型的性能水平。

在MathVL-test数据集上，MathSE-InternVL达到了65.13%的准确率，超过了当时表现最好的开源多模态数学推理模型QVQ（52.25%），这一突破具有重要的里程碑意义。

五、深入分析：理解提升的原因

为了更好地理解MathSE框架为什么如此有效，研究团队进行了详细的分析研究。他们特别关注了几个关键问题：自我进化的数据是否真的比传统方法更好？反思机制究竟起到了什么作用？不同组件的贡献如何？

首先，研究团队比较了自我进化生成的训练数据与传统GPT-4o全量生成数据的效果差异。实验结果显示，使用相同数量的训练数据（约240K条），自我进化方法达到了62.35%的准确率，而纯GPT-4o数据只有58.00%。这个4个多百分点的差距看似不大，但在AI模型性能提升中已经是相当显著的进步。

这个结果揭示了一个重要道理：并不是所有的高质量数据都是等价的。自我进化过程中生成的数据更贴近模型的真实能力分布，因此能够更有效地推动模型改进。这就像量身定制的练习题往往比标准化的习题册更能帮助学生提高成绩一样。

在反思机制的分析中，研究团队发现了另一个有趣的现象。他们比较了使用ORM反馈、GPT-4o反馈和不使用反思三种情况。结果显示，使用专门训练的ORM进行反思效果最好，达到64.70%的准确率，比不使用反思的方法提升了2.35个百分点。

更深入的分析显示，ORM在错误检测和分析方面确实比通用模型更加精准。在包含1000个正确样本和1000个错误样本的测试集上，ORM达到了97.10%的整体准确率，其中对错误样本的识别准确率达到100%。这种高精度的错误检测能力是反思机制有效性的重要保障。

研究团队还详细分析了错误类型的分布和变化。他们发现，在所有错误中，推理错误占据了最大比例（约63-65%），其次是问题理解错误（约21-27%）。知识错误相对较少（约6-9%），计算错误最少（约1-2%）。

这个分析结果很有启发性：它说明当前多模态数学推理的主要挑战不在于基础的数学知识或计算能力，而在于复杂的逻辑推理和准确的问题理解。这也解释了为什么MathSE的自我进化和反思机制如此有效——它们正是针对推理能力的专门训练。

有趣的是，不同模型在视觉识别错误上表现出了明显差异。CogVLM2的视觉识别错误率为4.1%，而Qwen2-VL-7B只有0.6%，InternVL2.5-8B更是低至0.4%。这反映了不同模型架构在视觉处理能力上的差异，也为后续的模型改进指明了方向。

六、技术创新：专业化的结果奖励模型

MathSE框架的一个重要技术创新是专门设计的结果奖励模型（ORM）。与传统的奖励模型只给出简单的"对错"判断不同，这个ORM具备了深度的错误分析能力。

传统的奖励模型工作方式比较简单粗暴，就像一个只会说"对"或"错"的机器。虽然能够完成基本的评判任务，但对于复杂的数学推理来说，这种反馈过于简单，无法提供有价值的改进指导。

MathSE的ORM则完全不同。它不仅能判断解题过程的正确性，更重要的是能够精确定位错误发生的具体步骤，并提供详细的错误原因分析。这就像一个经验丰富的数学老师，不仅知道学生哪里错了，还能解释为什么错了，应该怎么改正。

为了训练这样一个强大的ORM，研究团队构建了一个包含6万个推理样本的专门数据集。这个数据集包含3万个错误推理过程及其详细的错误分析，以及3万个正确的推理过程。每个错误样本都经过精心标注，准确标明了错误步骤的位置和具体的错误类型。

ORM的工作流程分为两个阶段。首先，它会对整个推理过程进行整体评估，判断这个解题过程是否正确。如果发现错误，它会进入第二个阶段：精确定位错误步骤，并生成详细的错误分析报告。

这种错误分析报告非常详细和实用。它不仅会指出"第三步计算错误"，还会解释"在第三步中，错误地将半径当作直径进行计算，导致面积结果偏大四倍"。这种精细化的反馈信息为后续的反思和改进提供了清晰的指导。

实验证明，这种专业化的ORM确实比通用模型更加有效。在错误检测任务上，ORM的准确率达到97.10%，显著超过了只提供二元判断的基础版本（92.65%）。更重要的是，ORM提供的详细错误分析让反思机制的效果得到了显著提升。

七、框架的通用性和可扩展性

MathSE框架的一个重要优势是其良好的通用性和可扩展性。研究团队在设计时就考虑了不同模型架构和应用场景的需求，使得这个框架能够广泛应用于各种多模态数学推理任务。

在模型兼容性方面，MathSE成功适配了三种不同架构的基础模型。CogVLM2基于Meta-Llama-3-8B-Instruct，支持最高8K的上下文长度和1344×1344的图像分辨率。Qwen2-VL-7B采用了动态分辨率技术和多模态旋转位置编码。InternVL2.5-8B则结合了InternViT视觉编码器和InternLM语言模型，采用了动态高分辨率策略。

尽管这些模型在技术细节上差异很大，但MathSE框架都能有效地提升它们的数学推理能力。这说明框架的核心思想——自我进化和反思机制——具有很强的通用性，不依赖于特定的模型架构。

在应用范围上，MathSE同样表现出了良好的适应性。框架能够处理从小学算术到高中几何的各种数学问题，涵盖了代数、几何、概率、应用题等多个数学分支。在不同类型的题目上，框架都能带来显著的性能提升。

特别值得注意的是，MathSE在处理多模态数学问题时表现尤为出色。传统的数学AI往往在纯文本环境下表现不错，但一旦涉及图表、几何图形或者图文结合的问题就会遇到困难。MathSE通过其独特的视觉理解和推理结合机制，很好地解决了这个问题。

在可扩展性方面，MathSE框架的设计也很有前瞻性。它的三阶段训练流程可以根据需要进行调整和扩展。比如，可以增加更多的自我进化轮次，引入更复杂的反思机制，或者针对特定类型的数学问题设计专门的训练策略。

研究团队还提供了详细的实现细节和配置参数，使得其他研究者可以容易地复现和改进这个框架。他们承诺将开源相关代码和模型权重，这将极大地推动整个领域的发展。

八、对未来的影响和启示

MathSE框架的成功不仅在技术上具有重要意义，更在方法论层面为AI教育和训练提供了新的思路。它展示了如何将人类学习的智慧融入到AI训练中，开创了"AI自我教育"的新范式。

从教育角度来看，MathSE框架体现了一种更加自然和有效的学习方式。传统的AI训练更像是"填鸭式教育"，通过大量的标准答案来训练模型。而MathSE则更像是"启发式教育"，鼓励模型在实践中思考、在错误中学习、在反思中进步。

这种方法的成功为AI教育领域带来了重要启示。未来的AI训练可能不再是简单的监督学习，而是更加复杂和智能的自我进化过程。AI系统将能够像人类一样，通过不断的实践和反思来提升自己的能力。

在技术发展方面，MathSE框架为多模态AI的发展指明了新方向。它证明了结合视觉理解和逻辑推理的AI系统确实可以在复杂任务上取得突破性进展。这为开发更加智能的AI助手、教育机器人和自动化数学工具提供了技术基础。

从实际应用的角度来看，经过MathSE训练的模型在数学教育领域具有巨大的应用潜力。它们可以作为智能数学家教，不仅能够解答学生的数学问题，还能够提供详细的解题思路和错误分析。这对于个性化教育和自适应学习系统来说是一个重要的技术突破。

研究团队的工作也为AI的可解释性研究做出了贡献。通过详细的错误分析和反思机制，MathSE让AI的推理过程变得更加透明和可理解。这对于建立人类对AI系统的信任，以及在教育等敏感领域应用AI都具有重要意义。

总的来说，MathSE框架代表了AI发展的一个新里程碑。它不仅在技术上取得了显著突破，更重要的是为AI学习和推理能力的提升探索了新的路径。随着这个框架的进一步完善和推广，我们有理由相信，未来的AI系统将能够在更多复杂任务上展现出接近甚至超越人类的能力。

这项研究的成功也再次证明了跨学科合作的重要性。通过结合认知科学、教育学和机器学习的洞察，研究团队创造出了比单纯技术驱动更加强大和自然的解决方案。这为未来的AI研究指明了一个重要方向：不仅要关注技术本身，更要理解和模拟人类智能的本质特征。

Q&A

Q1：MathSE框架是什么？

A：MathSE是清华北航联合开发的多模态数学推理训练框架，它让AI像人类学生一样通过"做题-检查-反思-改进"的循环来提升数学能力，而不是传统的死记硬背训练方式。

Q2：MathSE相比传统AI训练方法有什么优势？

A：传统方法只能让AI模仿标准答案，遇到新题型就不会了。MathSE让AI自己做题、发现错误、分析原因、改进方法，这样训练出来的AI数学推理能力提升了30多个百分点，接近顶级商业模型水平。

Q3：普通人什么时候能用上这种数学AI？

A：研究团队已承诺开源代码和模型，相关技术可能很快会被集成到在线教育平台和智能学习助手中，成为个性化数学辅导工具，帮助学生分析错题和改进解题思路。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.