微软AI首次让小型语言模型变身超级推理机：8B参数媲美600B巨无霸|算法|实验|数学|正确性|微软ai|知名企业

微软AI首次让小型语言模型变身超级推理机：8B参数媲美600B巨无霸

2025-12-05 23:09:15　来源: 科技行者

北京举报

分享至

这项由北京大学刘子涵、微软亚洲研究院郑舜等研究团队共同完成的突破性研究，发表于2025年10月的arXiv预印本，论文编号为arXiv:2510.17498v1。对于那些希望深入了解技术细节的读者，可以通过这个编号查询完整的学术论文。

在人工智能领域，有一个长期困扰研究者的难题：为什么小型AI模型在面对复杂推理任务时总是力不从心？就好比一个聪明但经验不足的学生，虽然基础知识扎实，但在解决奥数竞赛题目时却屡屡碰壁。传统观点认为，要想获得强大的推理能力，就必须训练更大规模的模型，这就像认为只有博士生才能解决复杂问题一样。

然而，微软亚洲研究院的研究团队却提出了一个颠覆性的观点：即使是相对较小的AI模型，只要给它足够的时间和正确的方法来"深度思考"，同样可以解决那些看似不可能完成的复杂问题。这就像让一个高中生通过反复思考、验证和修正，最终也能解出大学生才能解决的难题。

研究团队将他们的方法命名为"深度自进化推理"（Deep Self-Evolving Reasoning，简称DSER）。这个名字听起来很学术，但它的核心思想却非常直观。设想你在解决一道特别困难的数学题，传统方法是一次性给出答案，要么对要么错。而DSER的方法则是让AI模型像人类学生一样，先给出一个初步答案，然后自己检查这个答案是否正确，如果发现问题就重新思考和修正，然后再次检查，如此反复循环，直到找到正确答案为止。

这种方法的妙处在于，它不依赖于模型每次验证和修正都必须完美无缺。就像掷硬币一样，虽然单次结果具有随机性，但如果改进的概率哪怕只是略微超过退步的概率，经过足够多次的尝试，最终还是会朝着正确方向发展。研究团队用数学中的马尔科夫链理论证明了这种方法的理论基础，就像证明了为什么坚持朝着大致正确的方向走，最终总能到达目的地一样。

为了验证这个想法，研究团队选择了一个只有80亿参数的AI模型进行实验。这个模型的规模相比目前最先进的模型来说是相当小的，就像拿一台普通笔记本电脑去挑战超级计算机一样。他们测试的题目是美国数学邀请赛（AIME）2024和2025年的竞赛题目，这些题目的难度相当于高中数学竞赛的最高水平，即使是数学专业的大学生也需要仔细思考才能解答。

实验结果令人震惊。在常规方法下，这个80亿参数的小模型面对最困难的9道题目时完全束手无策，就像一个普通学生面对奥数竞赛的压轴题一样。但是，当使用DSER方法后，这个小模型竟然成功解决了其中的5道题目。更令人惊讶的是，通过多次并行运行这种深度思考过程，小模型在整体表现上甚至超越了它的"老师"——一个拥有6000亿参数的超大模型。

这就好比一个高中生通过反复思考和自我修正，最终在数学竞赛中击败了博士生导师。这种现象的背后蕴含着深刻的道理：智慧不仅仅来自于知识的数量，更来自于思考的深度和方法的正确性。

研究团队是如何实现这个看似不可能的突破的呢？他们的方法可以用一个简单的比喻来理解。设想你在解决一个复杂的拼图游戏，传统的AI方法就像一次性把所有拼片放到正确位置，成功率很低。而DSER方法则像是这样一个过程：首先随意拼一个大概的形状，然后检查哪些地方不对，调整那些明显错误的拼片，再次检查和调整，如此反复。虽然每次调整不一定都是正确的，但只要正确调整的次数稍微多于错误调整，最终就能完成整个拼图。

这种方法的核心在于三个简单而强大的步骤，这三个步骤就像一个永不停歇的循环。首先是"求解"步骤，AI模型针对问题给出一个初步答案，就像学生第一次尝试解题一样。然后是"验证"步骤，模型检查自己的答案是否合理，寻找可能存在的错误，这就像学生检查自己的计算过程一样。最后是"改进"步骤，基于验证中发现的问题，模型尝试给出一个更好的答案，就像学生根据发现的错误重新解题一样。

这个循环会重复进行很多次，有时候需要几十次甚至上百次的迭代。在某些特别困难的问题上，研究团队让模型进行了80轮这样的循环思考，消耗了大约1000万个推理步骤，这相当于让一个学生连续思考几个小时来解决一道超难题目。

研究团队还发现了一个有趣的现象：即使在某些情况下，模型退步的概率比进步的概率更高，通过同时运行多个这样的思考过程，仍然可以通过"投票"的方式得到正确答案。这就像让多个学生独立解决同一道题目，虽然每个学生都可能犯错，但如果大多数学生的答案指向同一个方向，这个答案往往是正确的。

更重要的是，这种方法揭示了当前AI推理能力的一些根本限制。通过详细分析模型在验证和改进过程中的表现，研究团队发现了现有开源推理模型的几个关键弱点。这些发现为未来开发更强大的AI推理系统指明了方向，就像医生通过诊断发现病因，从而找到了治疗方案一样。

在技术实现层面，研究团队使用了非常简洁的提示词来引导模型进行自我验证和改进。验证提示词要求模型逐步检查给定解答的正确性，提供简短的验证报告，包含解答的关键点和发现的错误，最后严格按照格式给出判断。改进提示词则要求模型根据之前的解答和验证报告，重新仔细考虑问题并提供修正后的解答。这种简洁而有效的设计体现了"大道至简"的哲学思想。

实验结果表明，DSER方法不仅能解决之前无法解决的难题，还能整体提升模型的推理性能。在AIME 2024测试中，准确率从82.8%提升到89.3%，在AIME 2025测试中，准确率从74.4%提升到83.4%。这种提升不仅体现在解决新问题的能力上，还体现在处理各种难度问题的稳定性上。

研究团队还将他们的方法与之前的一些类似方法进行了对比。他们发现，传统的验证-改进框架往往过分依赖于准确的验证能力，当模型的验证能力不够强时，容易过早终止思考过程或者被错误的验证结果误导。而DSER方法通过弱化对单次验证准确性的依赖，转而依靠统计意义上的改进趋势，展现出了更强的鲁棒性和适用性。

这项研究的意义远不止于技术层面的突破。它证明了一个重要观点：在人工智能发展的道路上，并不是只有增加模型规模这一条路可走。通过设计更聪明的推理方法，我们可以让相对较小的模型展现出惊人的能力。这就像证明了通过正确的训练方法，业余选手也能在某些方面挑战专业选手一样。

从实用角度来看，这项研究开辟了一条用计算时间换取模型能力的新路径。对于许多实际应用场景，用户宁愿等待更长时间来获得更准确的结果，而不是部署一个体积庞大、成本高昂的超大模型。这种权衡在许多领域都是非常有价值的，比如在线教育、智能客服、法律咨询等需要准确推理但对实时性要求不是特别严格的场景。

研究团队通过详细的案例分析，展示了DSER方法是如何一步步解决一道复杂几何题的。在这个案例中，模型经历了80轮迭代，从最初的错误答案逐渐修正，最终找到了正确解答。这个过程就像看着一个学生从完全不会到豁然开朗的完整学习过程，充分展现了深度思考的威力。

值得注意的是，这种方法也暴露了当前AI模型的一些根本性限制。在某些极其困难的问题上，即使经过大量的迭代，模型仍然无法找到正确答案。这提醒我们，虽然DSER方法是一个重要突破，但它并不是万能的解决方案。就像再好的学习方法也无法让所有人都成为天才一样，技术进步是一个渐进的过程。

研究团队还探讨了这种方法对未来AI训练的启示。他们指出，传统的强化学习训练往往只关注最终答案的正确性，而忽略了推理过程的质量。DSER方法的成功表明，我们需要设计新的训练目标，明确提升模型的自我验证能力和改进倾向，而不仅仅是追求单次推理的准确性。

从更广阔的视角来看，这项研究体现了人工智能发展的一个重要趋势：从追求模型规模的粗放式发展，转向追求方法精巧的集约式发展。这种转变不仅有助于降低AI技术的使用门槛和成本，还能让更多的研究团队和组织参与到AI技术的创新中来。

研究的局限性也值得关注。DSER方法需要消耗大量的计算资源进行多轮迭代，这在某些对响应速度要求很高的应用场景中可能不太适用。此外，这种方法目前主要在数学推理任务上得到了验证，在其他类型的推理任务上的效果还需要进一步探索。

展望未来，这项研究为AI推理能力的提升开辟了多个新的研究方向。研究团队建议，未来的工作可以专注于开发更精确的自我验证算法，设计更高效的改进策略，以及将这种深度思考的理念集成到模型的训练过程中。这些方向的探索有望进一步缩小开源模型与商业模型之间的性能差距。

总的来说，这项研究以一种优雅而实用的方式证明了一个简单而深刻的道理：在追求智能的道路上，深度思考往往比庞大规模更为重要。通过让AI模型学会像人类一样反复思考、验证和改进，我们不仅能够提升它们解决复杂问题的能力，还能为构建更加智能、高效和可及的人工智能系统奠定基础。

这个发现的重要性不仅在于技术层面的突破，更在于它为AI民主化指明了一条新路径。当小型模型也能通过巧妙的方法展现出强大的推理能力时，AI技术将不再是少数大公司的专利，而可能成为更多研究者和开发者手中的有力工具。这种技术的普及化对于推动整个人工智能领域的发展具有深远的意义。

研究团队在论文的最后部分还提供了详细的实验数据和案例分析，感兴趣的技术人员可以通过这些资料深入了解DSER方法的具体实现细节。对于那些希望在自己的项目中应用类似方法的开发者来说，这些信息将是非常宝贵的参考资料。

Q&A

Q1：深度自进化推理DSER是什么原理？

A：DSER让AI模型像学生解难题一样，先给出初步答案，然后自己检查是否正确，发现问题就重新思考修正，如此反复循环。关键在于只要改进概率略大于退步概率，经过足够多次尝试就能找到正确答案，就像掷硬币虽然单次随机但长期有规律一样。

Q2：80亿参数的小模型怎么能击败6000亿参数的大模型？

A：这并不是模型本身更聪明，而是通过深度思考的方法弥补了规模不足。就像高中生通过反复思考能解出博士生的题目一样，小模型通过80轮迭代思考，用时间换取了推理能力，最终在数学竞赛题目上的表现超越了大模型的单次推理。

Q3：深度自进化推理方法有什么实际应用价值？

A：这种方法开辟了用计算时间换取模型能力的新路径，让小型AI模型也能处理复杂推理任务。在在线教育、智能客服、法律咨询等对准确性要求高但对实时性要求不严格的场景中，用户可以等待更长时间获得更准确的结果，而不需要部署昂贵的超大模型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.