Meta突破：思考令牌技术提升AI推理效率|算法|算子|智能体|meta突破

分享至

在人工智能的世界里，一直存在着这样一个难题：要让AI更聪明，似乎就必须让它"思考"更长的时间，产生更多的文字内容，但这也意味着更高的成本和更慢的响应速度。然而，Meta超级智能实验室的研究团队最近发表了一项突破性研究，他们发现了一种全新的方法，能够让AI在保持甚至提高准确性的同时，显著降低计算成本和响应时间。

这项由Meta超级智能实验室的Lovish Madaan领导，联合伦敦大学学院、蒙特利尔大学Mila研究所、Anthropic公司以及普林斯顿大学等多个顶尖机构共同完成的研究，于2025年10月发表在arXiv平台上，论文编号为arXiv:2510.01123v1。研究团队重新思考了大语言模型的"思考令牌"机制，提出了一种名为"平行-提取-优化"（PDR）的全新推理方法，在数学问题求解任务中取得了显著效果，在AIME 2024和AIME 2025测试中分别实现了11%和9%的准确率提升。

一、重新定义AI的"思考"过程：从单线程到多线程

要理解这项研究的价值，我们首先需要了解目前AI"思考"的工作方式。传统的AI推理方法就像一个学生在考试时，只能按照固定的顺序一步步地解题，每一步都要写在答题纸上，而且必须等前一步完成后才能开始下一步。这种方法被称为"长思维链"（Long Chain-of-Thought），虽然能够处理复杂问题，但存在明显的弊端：思考过程越复杂，需要的"纸张"（计算资源）越多，解题时间也越长，成本自然水涨船高。

Meta的研究团队换了一个思路，他们让AI的工作方式更像一个拥有多个大脑的智能体。在面对复杂问题时，这个智能体可以同时启动多个"思考进程"，每个进程都独立地尝试解决问题，然后将所有的想法汇总到一个"工作台"上，从中提取最有价值的信息，再基于这些信息产生更好的答案。这个过程可以反复进行，每一轮都能让答案变得更加准确。

关键的创新在于，每一轮思考完成后，AI会将大量的中间思考过程压缩成一份简洁的"总结报告"，下一轮思考就基于这份报告开始，而不是重复阅读所有之前的思考内容。这就像一个研究小组每次开会时，不是重新讨论所有历史记录，而是基于上次会议的总结报告继续推进工作。

二、两种全新的AI推理策略

研究团队设计了两种不同的推理策略，分别适用于不同的场景需求。

第一种策略叫做"顺序优化"（Sequential Refinement，简称SR）。这种方法就像一个工匠反复打磨一件艺术品，每次都在前一次的基础上进行改进。AI会先给出一个初步答案，然后反复审视和修正这个答案，每一次修正都让答案变得更加准确。这种方法特别适合那些需要深度思考但不着急出结果的场景。

第二种策略就是前面提到的"平行-提取-优化"（PDR）方法。这个过程分为三个步骤：首先是"平行"阶段，AI同时产生多个可能的解答方案；接着是"提取"阶段，AI从这些方案中提取关键信息，形成一份简洁的工作报告；最后是"优化"阶段，基于这份报告生成一个更优的答案。整个过程可以进行多轮，每轮都让答案质量得到提升。

这两种方法的巧妙之处在于，它们都避免了传统方法的一个重大缺陷：内容长度随思考深度无限增长。通过合理的信息压缩和组织，AI可以进行更深入的思考，却不需要处理越来越庞大的信息量。

三、"工作台"的奥秘：如何从混乱中提取智慧

PDR方法的核心在于如何构建那个关键的"工作台"——即如何从多个并行的思考结果中提取最有价值的信息。研究团队设计了几种不同的提取策略，每种都有其独特的优势。

"全局总结"策略就像一个经验丰富的会议主持人，能够从多个发言者的观点中提炼出共识、分歧点、已证实的事实和仍需解决的问题。这种方法特别擅长处理复杂的推理任务，因为它不仅保留了正确的信息，还会标记出存在争议或不确定的地方。

"提取式选择"策略则更加直接，它就像从多篇文章中选出最优秀的几篇作为参考资料。AI会对所有的候选答案进行评估，然后选择质量最高的几个作为下一轮思考的基础。这种方法的好处是保持了原始信息的完整性，避免了总结过程中可能出现的信息丢失。

"随机采样"策略看起来最简单，但实际上蕴含着深刻的智慧。通过随机选择不同的候选方案，AI可以避免陷入某种固定的思考模式，保持思考的多样性。这种方法在处理那些没有明确正确答案的开放性问题时特别有效。

四、训练AI学会新的思考方式

仅仅设计出新的推理方法还不够，研究团队还需要训练AI学会使用这些方法。这就面临一个重要挑战：传统的AI训练方法是针对"一次性长思考"设计的，而新方法需要AI进行"多轮短思考"。这就像训练一个习惯了长跑的运动员去适应短跑冲刺，需要完全不同的训练策略。

研究团队开发了一种叫做"算子一致性训练"的新方法。在训练过程中，AI不仅要学习如何进行传统的长思维链推理，还要学习如何进行多轮的平行-提取-优化过程。具体来说，训练时AI会先生成多个并行的候选答案，然后学习如何将这些答案提炼成简洁的工作报告，最后基于这个报告产生最终答案。

这种训练方法的巧妙之处在于它消除了"训练-测试不匹配"问题。过去，AI在训练时学的是一套思考方式，但在实际应用时却被要求用另一套完全不同的方式思考，这自然会影响性能。新的训练方法确保AI在训练和实际应用时使用相同的思考模式，从而获得更好的效果。

五、在数学王国中的精彩表现

为了验证新方法的效果，研究团队选择了数学问题求解作为测试领域。他们使用了AIME（美国数学邀请赛）的题目，这些都是具有挑战性的数学问题，需要多步骤的复杂推理才能解决，正好适合测试AI的推理能力。

实验结果令人印象深刻。在使用相同的计算预算（即处理相同数量的信息）的情况下，PDR方法在准确性上显著超越了传统的长思维链方法。更重要的是，PDR方法能够在更短的响应时间内达到相同甚至更好的准确率。

具体来说，在AIME 2024的测试中，当计算预算设定为49,000个令牌时，传统长思维链方法的准确率为76.9%，顺序优化方法提升至81.5%，而PDR方法更是达到了86.7%，相比传统方法提升了近10个百分点。在AIME 2025的测试中也观察到了类似的改进趋势。

更有趣的是，研究团队还进行了一个"神谕实验"。他们人工控制工作台中的信息质量，发现当工作台中只包含错误信息时，AI的表现会显著下降；而当工作台中只包含正确信息时，AI的表现会大幅提升。这个实验揭示了一个重要问题：AI的自我验证能力对于新方法的成功至关重要。

六、不同AI系统的表现差异

研究团队在两种不同的AI系统上测试了新方法：GPT-O3-mini和Gemini-2.5-flash。实验结果显示，这两个系统对新方法的响应存在有趣的差异。

GPT-O3-mini在使用PDR方法时表现出了更大的改进幅度，但同时也更容易受到错误信息的影响。当工作台中包含错误信息时，GPT-O3-mini的表现下降得比Gemini-2.5-flash更严重。这表明GPT-O3-mini的自我验证能力相对较弱，更依赖于外部信息的质量。

相比之下，Gemini-2.5-flash展现出了更强的自我验证和纠错能力，即使在工作台信息质量不高的情况下，它也能维持相对稳定的性能。但同时，它从PDR方法中获得的改进幅度也相对较小，这可能是因为它本身已经具备了较强的内在推理能力。

这些发现揭示了一个重要的启示：不同的AI系统具有不同的特点和能力边界，新的推理方法需要根据具体系统的特性进行针对性的优化和调整。

七、算子一致性训练的实际效果

为了验证算子一致性训练的效果，研究团队训练了一个80亿参数的AI模型。他们将传统训练方法与新的算子一致性训练方法进行了对比。

实验结果显示，使用算子一致性训练的模型在PDR任务上的表现显著优于传统训练方法。在AIME 2024测试中，基础模型的PDR准确率为75.83%，而使用算子一致性训练后准确率提升至79.17%，进一步使用连续训练后更是达到了80.83%。

有趣的是，算子一致性训练不仅改善了模型在PDR任务上的表现，对传统长思维链任务的表现也有轻微的提升。这说明新的训练方法并没有以牺牲原有能力为代价，而是在保持原有能力的基础上增加了新的推理技能。

八、深入理解AI推理的本质

通过对实验结果的深入分析，研究团队发现了一些关于AI推理本质的有趣洞察。他们发现，PDR方法的成功依赖于四种核心能力的协同作用：验证能力（能够识别和定位错误）、优化能力（能够基于反馈改进答案）、压缩能力（能够将复杂信息总结成简洁形式）以及多样化能力（能够产生不同的候选方案避免思维定式）。

通过对具体失败案例的分析，研究团队发现了PDR方法的一些局限性。当第一轮并行思考中没有产生任何正确答案时，后续轮次往往也难以找到正确方向，因为工作台中缺乏有价值的指导信息。另外，当正确答案被大量错误答案淹没时，AI有时难以从中提取出正确的信息。

这些发现不仅帮助我们理解新方法的工作原理，也为未来的改进指明了方向。例如，可以通过改善AI的自我验证能力来提高第一轮思考的质量，或者通过更好的信息提取策略来提高从混杂信息中筛选有价值内容的能力。

九、理论基础：空间限制计算的启示

这项研究的理论基础来自计算复杂性理论中的"空间限制计算"概念。简单来说，这个理论探讨的是：在内存空间有限的情况下，计算机能够解决多复杂的问题？

研究团队将AI的推理过程类比为一个"空间限制的图灵机"。在这个类比中，AI的"工作内存"就像图灵机的工作磁带，虽然容量有限，但通过巧妙的算法设计，可以解决远超其内存容量的复杂问题。例如，一个只有对数空间的图灵机竟然能够判断比其内存大得多的图的连通性。

这个理论为PDR方法提供了坚实的理论支撑。它表明，通过合理的信息组织和处理策略，AI可以在有限的"工作台"空间内进行高度复杂的推理，而不需要保存所有的中间思考过程。这种方法不仅在实践中有效，在理论上也是可行和合理的。

十、未来展望与应用前景

这项研究开启了AI推理方法的新篇章，但同时也提出了许多值得进一步探索的方向。研究团队指出，未来的工作可以从几个方面进行拓展。

首先是改进信息提取策略。目前的工作台构建方法相对简单，未来可以开发更智能的信息压缩和组织算法，让AI能够更好地从多个候选方案中提取精华。

其次是开发自适应的推理策略。不同类型的问题可能需要不同的推理方法，未来的AI系统可以学会根据问题的特点自动选择最合适的推理策略，甚至在推理过程中动态调整策略。

第三是扩展应用领域。目前的研究主要集中在数学问题求解上，但这种方法理论上可以应用到任何需要复杂推理的任务中，包括科学研究、工程设计、商业决策等各个领域。

最后是结合外部工具和验证器。未来的AI推理系统可以与各种专业工具集成，在推理过程中实时验证和修正自己的想法，进一步提高推理的准确性和可靠性。

说到底，这项研究告诉我们一个重要道理：让AI变得更聪明，不一定需要让它"想"得更久，而是要让它"想"得更好。通过巧妙的方法设计，我们可以在保持甚至提高AI性能的同时，显著降低计算成本和响应时间，让AI技术变得更加实用和普及。

对于普通人来说，这项技术的发展意味着未来我们将能够享受到更快速、更准确、成本更低的AI服务。无论是在学习辅导、工作协助还是生活娱乐方面，这种新的AI推理方法都有望带来显著的改善。而对于整个AI行业来说，这项研究为如何在有限资源下实现更强AI能力指明了一条全新的道路。

有兴趣深入了解这项研究细节的读者，可以通过arXiv平台搜索论文编号arXiv:2510.01123v1查阅完整的原始论文。研究团队在论文中提供了详细的实验数据、技术实现细节以及更深入的理论分析，值得相关领域的研究者和从业者仔细研读。

Q&A

Q1：平行-提取-优化（PDR）方法是如何工作的？

A：PDR方法让AI同时产生多个解答方案，然后从中提取关键信息形成简洁的工作报告，最后基于这个报告生成更优答案。整个过程可以反复进行，每轮都让答案质量得到提升，就像一个拥有多个大脑的智能体在协同思考。

Q2：为什么PDR方法比传统长思维链推理更有效？

A：传统方法只能按固定顺序一步步思考，内容长度随思考深度无限增长。PDR方法通过并行思考和信息压缩，避免了这个问题。在相同计算预算下，PDR在数学问题测试中比传统方法准确率提升了近10个百分点。

Q3：算子一致性训练是什么？为什么需要这种训练方法？

A：这是一种让AI学习新推理方式的训练方法。传统AI训练针对"一次性长思考"，而PDR需要"多轮短思考"。算子一致性训练让AI在训练和实际应用时使用相同的思考模式，消除了训练-测试不匹配问题，从而获得更好效果。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.