南洋理工大学团队突破：让AI像人类一样"深思熟虑"地看图说话|数学|算法|推理|新论文

分享至

这项由南洋理工大学、清华大学、百度公司和中山大学联合完成的研究发表于2024年12月31日的arXiv预印本平台（论文编号：arXiv:2412.18319v2），研究团队开发出了一种名为"集体蒙特卡洛树搜索"（CoMCTS）的全新方法，让人工智能在看图回答问题时能像人类一样进行深度思考和反思。

当我们看到一张复杂的几何图形或者数学题目时，不会立即给出答案，而是会在脑海中一步步分析：先看看图形的特点，然后回忆相关的公式，接着进行计算验证，如果发现哪一步有问题，还会回头重新思考。然而，目前的多模态大语言模型（就是那些既能看图又能理解文字的AI系统）却往往像"急性子"一样，看到问题就直接给出答案，缺乏这种深思熟虑的过程。

这就好比让一个从未学过下棋的人直接和棋王对弈，显然很难取胜。研究团队意识到，如果能让AI学会像人类一样"深思熟虑"，那么它在处理复杂的视觉推理任务时就能表现得更加出色。于是，他们开发出了CoMCTS这套方法，并基于此构建了包含26万个样本的Mulberry数据集，训练出了具备逐步推理和反思能力的Mulberry模型系列。

一、为什么AI需要学会"深思熟虑"

当前的多模态大语言模型就像是一个聪明但冲动的学生。当老师提出一个数学问题时，这个学生往往会凭借第一印象快速给出答案，而不是像优秀学生那样先仔细分析题目、列出解题步骤、逐步计算并检查结果。

研究团队发现了一个有趣的现象：虽然这些AI模型在简单任务上表现不错，但一旦遇到需要深度推理的复杂问题，比如几何证明或者多步数学计算，它们的表现就会明显下降。这是因为它们缺乏"中间思考过程"——就像一个学生在考试时没有写出解题步骤，只是直接写出了最终答案，这样的答案往往是不可靠的。

更严重的问题是，当AI犯错时，它们很难像人类一样意识到错误并进行纠正。人类在解决问题时，如果发现某一步的结果看起来不对劲，会自然地回到前面重新检查，找出错误所在。但现有的AI模型缺乏这种"自我反思"的能力，一旦走错方向就很难自己纠正过来。

正是基于这样的观察，研究团队提出了一个核心观点：要想让AI真正擅长复杂推理，就必须让它学会创造和理解解题的每一个中间步骤，而不仅仅是给出最终答案。这就像教导一个学生不仅要知道答案是什么，更重要的是要理解为什么这个答案是正确的。

二、集体智慧：让多个AI"群策群力"

面对这个挑战，研究团队想到了一个绝妙的解决方案：既然单个AI容易陷入思维定式，那么为什么不让多个AI协同工作呢？这就像解决一个复杂问题时，我们会邀请不同背景的专家一起讨论，每个人都能提供独特的见解。

CoMCTS的核心思想就是"集体学习"。研究团队让四个不同的AI模型（包括GPT-4o、Qwen2-VL-7B、LLaMA-3.2-11B-Vision-Instruct和Qwen2-VL-72B）组成一个"专家团队"，共同攻克每一个复杂问题。这种协作方式就像一群医生在进行疑难杂症的会诊，每个医生都会基于自己的经验和知识提出不同的诊断思路，然后大家一起讨论，最终达成最可靠的诊断结果。

在这个协作过程中，每个AI模型都会提供自己的推理路径，然后系统会对这些不同的思路进行评估。如果某个推理步骤被多数模型认为是合理的，那么这个步骤就会被保留下来；如果某个步骤存在明显错误，其他模型很快就能识别出来并将其淘汰。这种机制确保了最终的推理路径既多样化又可靠。

更巧妙的是，这种集体协作还能加快问题解决的速度。传统的树搜索方法就像一个人在迷宫中摸索，每次只能走一小步，需要很长时间才能找到出路。而CoMCTS则像是派出了多个探索队同时在不同方向上前进，每个队伍都能走得很快，最终能够更高效地找到正确的路径。

通过这种集体智慧的方式，CoMCTS在搜索成功率上达到了80.2%，远超传统方法的58.2%，同时平均搜索时间也大大缩短，从传统方法需要的42.1次迭代降低到仅需12.7次迭代。

三、像棋手一样思考：蒙特卡洛树搜索的魅力

为了理解CoMCTS是如何工作的，我们可以把它想象成一个高超的棋手在下棋时的思考过程。当面对一个复杂的棋局时，优秀的棋手不会随意走棋，而是会在心中构建一棵"可能性之树"：从当前局面出发，考虑所有可能的走法，然后对每种走法进行评估，选择最有前途的路径继续深入思考。

CoMCTS采用了类似的策略，但加入了集体智慧的元素。整个过程包含四个关键步骤，就像一个专业团队在解决复杂问题时的标准流程。

首先是"扩展"阶段，就像头脑风暴会议一样。当面对一个推理节点时（比如解数学题的某个中间步骤），团队中的每个AI模型都会提出自己的后续思路，生成多种可能的推理路径。这确保了思路的多样性，避免了单一模型可能存在的盲点。

接下来是"模拟和错误定位"阶段，这个过程就像是同行评议。每个AI模型都会对其他模型提出的推理步骤进行评估，判断哪些步骤是合理的，哪些可能存在错误。如果某个推理步骤被多数模型认为是有问题的，那么这个步骤以及基于它的所有后续推理都会被淘汰掉。这种机制能够及早发现和纠正错误，避免在错误的道路上越走越远。

然后是"反向传播"阶段，就像是经验总结。系统会根据评估结果更新每个推理节点的价值评分，那些被证明是正确且有用的推理步骤会获得更高的评分，而那些被发现有问题的步骤则会被降低评分。这种机制帮助系统学习什么样的推理模式是有效的。

最后是"选择"阶段，系统会综合考虑每个推理节点的价值评分和探索程度，选择最有希望的节点作为下一轮搜索的起点。这个过程平衡了对已知好方案的利用和对未知可能性的探索。

四、学会反思：从错误中汲取智慧

人类智慧的一个重要特征就是能够从错误中学习。当我们在解题过程中发现某个步骤有问题时，我们不会简单地忽略这个错误，而是会分析错误的原因，然后调整思路重新开始。CoMCTS巧妙地将这种反思能力融入了AI的学习过程中。

在构建推理树的过程中，CoMCTS会特意保留那些被识别为错误的推理步骤。这些错误步骤并不是无用的垃圾，相反，它们是宝贵的学习资源。系统会创建"反思轨迹"，将错误的推理步骤和正确的推理步骤进行对比，形成一种特殊的学习样本。

这种学习方式就像是让学生同时看到错误解法和正确解法的对比。学生不仅知道了正确答案是什么，更重要的是理解了为什么某种思路是错误的，应该如何纠正。这种对比学习比单纯的正面示例更加有效，因为它能帮助AI建立更加健壮的推理能力。

在训练过程中，Mulberry模型会学习这些反思轨迹，逐渐掌握如何识别错误、分析错误原因，并找到正确的解决路径。这使得模型在实际应用中遇到类似错误时，能够及时发现并自我纠正，大大提高了推理的准确性和可靠性。

五、构建推理数据库：Mulberry-260k的诞生

基于CoMCTS方法，研究团队构建了一个包含26万个样本的大规模数据集，命名为Mulberry-260k。这个数据集就像是一个巨大的"推理案例库"，收录了各种复杂问题的详细解答过程。

这些样本涵盖了极其广泛的领域：从基础的数学计算到复杂的几何证明，从图表分析到科学推理，从医学影像理解到日常生活问题解答。每个样本都不是简单的问答对，而是包含了完整的推理树结构，记录了从问题到答案的每一个思考步骤。

更重要的是，这些推理步骤的数量是灵活的。对于简单问题，推理路径可能只需要6-7步；而对于复杂的几何证明问题，可能需要8-10步甚至更多。这种灵活性反映了人类思维的真实特点：面对不同难度的问题，我们会自然地调整思考的深度和复杂度。

数据集中还包含了大量的反思样本，这些样本记录了AI如何从错误的推理路径转向正确的解决方案。这些珍贵的学习资源帮助模型培养了强大的自我纠错能力。

六、Mulberry模型：推理能力的新突破

基于CoMCTS搜索得到的高质量数据，研究团队训练出了Mulberry系列模型，包括2B、7B、8B、11B等不同规模的版本。这些模型就像是经过专业训练的"推理专家"，具备了类似人类的逐步思考和自我反思能力。

在性能测试中，Mulberry模型展现出了令人印象深刻的能力提升。以Mulberry-7B为例，它在MathVista数学推理测试中的得分从基础模型的58.2%提升到了63.1%，在MMMU多学科理解测试中从54.1%提升到了55.0%。虽然这些提升看起来不是特别大，但在AI领域，这样的性能提升是非常显著的，因为这些测试本身就极其困难。

更令人惊喜的是，Mulberry模型在与其他专门的推理模型对比中表现优异。例如，使用相同基础架构的LLaVA-NeXT-8B模型在数学推理上只能达到37.5%的准确率，而Mulberry-8B则达到了56.3%，提升幅度达到了18.8个百分点。

这种显著的性能提升主要归功于CoMCTS带来的高质量训练数据。与那些只是简单问答对的传统训练数据不同，Mulberry的训练数据包含了丰富的推理过程和反思机制，让模型能够真正学会"如何思考"，而不仅仅是记住"标准答案"。

七、实验验证：数据说话

为了验证CoMCTS和Mulberry模型的有效性，研究团队进行了大量的对比实验。这些实验就像是严格的临床试验，通过客观的数据来证明新方法的优势。

在搜索效率的对比中，CoMCTS展现出了压倒性的优势。传统的MCTS方法在GPT-4o上的搜索成功率只有63.8%，而CoMCTS达到了80.2%。更重要的是，CoMCTS的搜索效率极高，平均只需要12.7次迭代就能找到正确答案，而传统方法需要42.1次迭代。这就像是两个探险队在寻宝，一个队伍需要摸索一个多月才能找到宝藏，而另一个队伍只需要不到两周时间。

在不同规模模型的测试中，Mulberry系列都表现出了一致的优势。无论是2B的小模型还是11B的大模型，经过CoMCTS数据训练后都获得了显著的性能提升。这证明了CoMCTS方法的普适性，不依赖于特定的模型架构或规模。

研究团队还进行了详细的消融实验，分析了集体学习中每个组件的贡献。结果显示，即使是相对较小的模型（如Qwen2-VL-7B），在集体协作中也能提供有价值的贡献，将整体性能提升2.4%。这个发现很有意思：就像在团队合作中，不是只有最聪明的人才能做出贡献，每个团队成员都能从不同角度提供有用的想法。

八、质量分析：推理步骤的深度探索

研究团队对生成的推理数据进行了深入分析，发现了一些有趣的规律。在Mulberry-260k数据集中，推理步骤的分布呈现出明显的任务相关性：简单的图表理解任务平均需要6.8步推理，而复杂的几何问题则需要平均8.9步推理。

这种自适应的推理深度反映了人类思维的真实特点。当我们面对简单问题时，大脑会自动采用较为直接的思考路径；而面对复杂问题时，我们会本能地启动更深层次的分析过程。Mulberry模型学会了这种智能化的思考深度调节，既能在简单问题上快速给出答案，又能在复杂问题上进行深度思考。

通过对推理树结构的分析，研究团队发现CoMCTS生成的推理路径具有良好的逻辑连贯性和多样性。不同的AI模型贡献了互补性的推理角度，形成了丰富的思考维度。这就像是一个多学科专家团队，每个专家都从自己的专业角度提供见解，最终形成了全面而深入的问题分析。

九、应用展望：改变AI推理的未来

CoMCTS和Mulberry模型的成功，不仅仅是学术研究上的突破，更重要的是为AI应用开辟了新的可能性。这种具备深度推理能力的AI，在许多实际场景中都能发挥重要作用。

在教育领域，这种AI可以成为优秀的智能导师。传统的AI教学系统往往只能给出标准答案，而具备推理能力的AI则能够展示完整的解题过程，帮助学生理解每一个步骤的逻辑。更重要的是，它还能识别学生的错误思路，并提供针对性的纠正建议，就像一个耐心的老师一样。

在科学研究中，这种AI能够协助研究人员进行复杂的数据分析和假设验证。它不仅能处理大量的实验数据，还能提供详细的分析过程和推理逻辑，帮助研究人员更好地理解实验结果的含义。

在工业应用中，具备推理能力的AI可以用于复杂系统的故障诊断。当设备出现异常时，AI不仅能识别问题所在，还能提供详细的诊断过程，包括排除了哪些可能性、为什么选择某个诊断结果等，这种透明的推理过程对于工程师来说是极其宝贵的。

在金融分析领域，这种AI能够提供不仅仅是投资建议，还包括完整的分析推理过程。投资者可以清楚地了解AI是如何得出结论的，基于哪些关键因素，考虑了哪些风险因素，这种透明度大大增强了AI建议的可信度。

说到底，CoMCTS和Mulberry模型的真正价值在于让AI从"黑盒子"变成了"透明盒子"。以前我们使用AI时，往往只能看到输入和输出，不知道中间发生了什么。现在，我们可以清楚地看到AI的思考过程，理解它是如何一步步得出结论的。这种透明度不仅提高了AI的可信度，也为人机协作开创了新的模式。

这项研究还为AI的未来发展指明了一个重要方向：不是简单地让AI变得更大更强，而是让它们变得更聪明、更像人类。通过集体智慧和深度推理，AI正在从工具演变为真正的智能伙伴。

当然，这项技术目前还处于研究阶段，距离大规模商业应用还有一定距离。但研究团队已经开源了相关代码和数据，这意味着全世界的研究者都可以基于这项工作继续改进和优化。随着技术的不断完善，我们有理由相信，具备深度推理能力的AI将在不久的将来走进我们的日常生活，成为我们解决复杂问题的得力助手。

对于有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2412.18319v2在arXiv平台上查询完整的研究论文，其中包含了详细的算法描述、实验设置和性能分析。

Q&A

Q1：CoMCTS和传统的MCTS有什么区别？

A：最大区别在于CoMCTS引入了"集体学习"概念，让多个AI模型协同工作，而传统MCTS只依靠单个模型自我搜索。这就像传统方法是一个人独自解题，而CoMCTS是让多个专家组成团队共同攻克难题，不仅搜索效率更高（从42.1次迭代降到12.7次），成功率也从63.8%提升到80.2%。

Q2：Mulberry模型的推理能力是如何实现的？

A：Mulberry模型通过学习CoMCTS生成的Mulberry-260k数据集获得推理能力。这个数据集包含26万个样本，每个样本都记录了完整的推理过程，包括正确的推理步骤和错误的推理步骤对比。模型通过学习这些丰富的推理轨迹，掌握了逐步思考和自我纠错的能力，就像学生通过大量练习题学会了解题方法。

Q3：这项技术在实际应用中有哪些优势？

A：主要优势是透明度和可靠性大幅提升。传统AI像"黑盒子"，只给结果不给过程，而Mulberry能展示完整的推理步骤，让用户清楚了解AI是如何得出结论的。在数学推理任务中，Mulberry-8B比同类模型提升了18.8个百分点，这种性能提升在教育、科研、工业诊断等需要复杂推理的领域都有重要应用价值。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.