清华大学破解AI推理浪费难题：让人工智能思考更高效的"修剪术"|算法|数学|相似性|ai推理

分享至

这项由清华大学的涂尚卿、李亚璇、白昱师，上海科技大学的李亚璇，以及清华大学的侯磊、李娟子等研究者共同完成的研究发表于2025年10月，论文编号为arXiv:2510.08483v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当下的人工智能就像一个勤奋但有些浪费的学生。为了解决一道数学题，它会同时写出很多份答案草稿，然后从中选择最好的一份。这种方法确实能提高答题准确率，但问题在于，这个"学生"经常会写出很多内容几乎相同的草稿，白白浪费了大量的时间和精力。

研究团队发现了一个令人惊讶的现象：当AI同时生成多个推理过程来解决同一个问题时，超过80%的推理路径最终都会得出相同的答案。换句话说，AI花费了大量的计算资源在做重复劳动。这就好比一个班级里30个学生同时解同一道题，结果有25个学生写出了几乎一模一样的解题过程，只有5个学生真正提供了不同的思路。

为了解决这个效率问题，研究团队开发了一种名为"DeepPrune"的新方法。如果把AI的推理过程比作果园里的果树修剪，那么DeepPrune就是一位经验丰富的园丁，能够在果树还在生长的过程中就识别出哪些枝条会结出相同的果实，然后提前剪掉多余的枝条，让果树把营养集中在真正有价值的枝条上。

这种"修剪"并不是盲目的。研究团队训练了一个专门的"判断模型"，就像培养了一位有经验的园丁，这位园丁只需要看看枝条刚开始生长的样子，就能预测它们最终会结出什么样的果实。更神奇的是，这位园丁不需要等到果实完全成熟，仅仅通过观察枝条的早期生长状态，就能以87%的准确率判断出两根枝条是否会结出相同的果实。

一、识别问题：AI推理中的"重复劳动"现象

要理解这个问题，我们可以设想这样一个场景：一家公司需要制定重要决策，于是请来了多位顾问。理想情况下，每位顾问都应该提供不同的见解和建议，这样公司就能从多个角度考虑问题。但现实中经常发生的情况是，大部分顾问最终都提出了几乎相同的建议，只有少数几位顾问真正提供了有价值的不同观点。

研究团队通过仔细分析发现，在当前的AI并行推理系统中，这种"重复劳动"现象极其普遍。他们选择了四种不同的先进AI模型，包括DeepSeek-8B、Qwen3-4B、GLM-4.5-Air和QwQ-32B，让它们解决数学和科学问题。对于每个问题，研究团队让每个AI模型同时生成16个不同的推理过程，然后分析这些推理过程的最终结果。

令人震惊的是，分析结果显示出了严重的冗余现象。以GLM-4.5-Air模型为例，在所有生成的推理对中，高达94.5%都得出了相同的最终答案。即使是表现相对较好的DeepSeek模型，也有超过76%的推理过程产生了重复结果。平均来看，超过80%的计算资源都被浪费在了生成本质上相同的推理路径上。

这个发现让研究团队意识到，仅仅增加推理过程的数量并不是提高AI性能的最佳策略。就像一个工厂如果让大部分工人都在做同样的工作，即使工人再多，整体效率也不会有显著提升。关键在于如何识别和消除这种冗余，让AI把有限的计算资源用在真正有价值的不同推理路径上。

为了验证是否可以提前预测推理结果的相似性，研究团队进行了初步实验。他们首先尝试了简单的文本相似度比较方法，就像比较两篇文章的开头几段来判断它们是否在讲同一件事。结果发现，这种简单方法的预测准确率只有58%，几乎和随机猜测差不多。

接着，他们尝试使用更先进的AI模型来进行判断，让一个AI模型来评估另外两个推理过程是否会得出相同结果。这种方法的准确率提高到了66%，虽然有所改善，但仍然远不够实用。这个结果告诉研究团队，要解决这个问题，需要专门设计和训练一个更精确的判断系统。

二、解决方案：训练专业的"推理相似度判断专家"

面对现有方法的局限性，研究团队决定从零开始训练一个专门的"判断专家"。这个专家的任务就像一位经验丰富的教师，能够通过观察学生解题的前几个步骤，就预测出他们最终会得出什么样的答案。

为了训练这样一位专家，研究团队首先需要收集大量的训练数据。他们选择了DeepSeek-R1-Distill-Llama-8B模型，让它针对来自MATH500、AIME24、AIME25和GPQA等数学和科学竞赛的758个问题生成推理过程。对于每个问题，他们生成了16个不同的推理路径，然后将这些路径两两配对，最终得到了约8万对推理过程的比较数据。

接下来的关键问题是：应该在推理过程的哪个阶段进行判断？研究团队探索了两种策略。第一种是"固定长度截取法"，就像只看文章的前500个字符来判断两篇文章是否在讲同一个主题。第二种是"推理步骤对齐法"，这种方法更加智能，它不是简单地按字符数截取，而是根据推理的逻辑步骤来截取。

推理步骤对齐法的工作原理类似于分析两个人解题的思路。在数学解题中，人们经常会使用"因此"、"所以"、"由于"这样的关键词来标志推理的关键转折点。研究团队训练判断专家识别这些关键的"推理词汇"，然后基于前25个这样的推理步骤来进行判断。这种方法比简单的字符截取更能抓住推理的本质特征。

在训练过程中，研究团队还遇到了一个挑战：数据严重不平衡。由于大部分推理过程确实会得出相同的结果，训练数据中"相同结果"的样本占了约80%，而"不同结果"的样本只占20%。这就像训练一个医生诊断罕见疾病，但病例中99%都是常见病，只有1%是罕见病，这样训练出来的医生可能会倾向于把所有情况都诊断为常见病。

为了解决这个问题，研究团队采用了两种技术手段。首先是"焦点损失"技术，这种技术会让模型更加关注那些难以判断的案例，就像让学生把更多精力放在难题上而不是简单题上。其次是"过采样"技术，人为地增加了少数类样本的数量，确保模型能够充分学习到不同结果的特征。

经过精心设计和训练，这个判断专家最终达到了令人满意的性能。在使用推理步骤对齐方法并结合焦点损失和过采样技术后，判断专家的整体准确率达到了87.01%。更重要的是，在控制误判率为20%的情况下，它能够正确识别出81.86%的真正不同的推理路径。这意味着这个专家既不会错过太多有价值的不同观点，也不会把太多相同的内容误判为不同。

三、在线应用：动态的"智能修剪"系统

有了训练好的判断专家，接下来的挑战是如何在AI实际推理过程中应用这个专家。这就像在果园中实际进行修剪工作，需要一套完整的操作流程。

研究团队设计了一个名为"贪心聚类"的在线算法。这个算法的工作方式类似于一个智能的档案管理员。当新的推理过程开始生成时，管理员会将它们分类放入不同的文件夹中。每当有新的推理过程产生，管理员就会询问判断专家："这个新的推理过程和现有的哪个文件夹最相似？"如果相似度超过了设定的阈值（研究中设为0.5），就把它放入相应的文件夹；如果和所有现有文件夹都不够相似，就为它创建一个新的文件夹。

这个过程的巧妙之处在于，它不需要等到所有推理过程都完成才开始分类，而是在推理过程进行的同时就开始工作。这样可以及时发现和停止那些明显会产生重复结果的推理路径，从而节省大量的计算资源。

为了避免过度修剪，研究团队还设计了一些保护机制。比如，系统会限制文件夹的最大数量为32个，确保至少保留32种不同的推理路径。同时，在计算新推理过程与现有文件夹的相似度时，系统不会与文件夹中的所有推理过程比较，而是随机选择最多10个代表性样本进行比较，这样既保证了判断的准确性，又提高了计算效率。

在决定最终答案时，研究团队采用了多数投票的策略。系统会选择最大的文件夹（即包含最多相似推理过程的文件夹），然后从中最多选择10个推理过程继续完成，最后通过多数投票决定最终答案。这种做法的逻辑是，如果很多推理过程都倾向于同一个答案，那么这个答案更有可能是正确的。

为了应对判断专家可能出现的两种极端错误，系统还设计了应急机制。如果判断专家过于严格，把所有推理过程都判断为不同，导致每个文件夹只有一个推理过程，系统就会放弃聚类结果，直接随机选择64个推理过程进行投票。相反，如果判断专家过于宽松，把所有推理过程都分到一个文件夹里，系统就会从这个大文件夹中选择20个代表性推理过程进行投票。

四、实验验证：显著的效率提升效果

为了验证DeepPrune方法的有效性，研究团队进行了大规模的实验测试。他们选择了三个不同的AI推理模型：DeepSeek-8B、Qwen3-32B和GPT-OSS-20B，并在三个具有挑战性的数学和科学竞赛数据集上进行测试：AIME 2024、AIME 2025和GPQA。

实验的设计非常严谨。作为对比基准，研究团队使用了传统的"consensus@512"方法，即生成512个推理过程然后通过多数投票选择答案。他们还与目前最先进的基于置信度的早停方法DeepConf进行了比较。为了确保比较的公平性，所有方法都使用相同的模型配置和推理设置。

实验结果令人印象深刻。在大多数测试情况下，DeepPrune方法都实现了超过80%的计算量减少，同时保持了与传统方法相当的准确率。具体来说，在使用Qwen3-32B模型解决AIME25问题时，DeepPrune将计算量减少了91.4%，同时准确率还从80.0%提升到了90.0%。这个结果特别令人鼓舞，因为它表明DeepPrune不仅提高了效率，还可能通过更好的推理路径选择来提升准确性。

在与DeepConf方法的比较中，DeepPrune也表现出了明显的优势。虽然DeepConf也能实现显著的计算量减少，但DeepPrune在大多数情况下都能实现更大幅度的减少，同时保持更稳定的准确性。这说明针对推理过程间冗余的专门优化比基于单个推理过程置信度的方法更加有效。

特别值得注意的是DeepPrune的跨模型泛化能力。虽然判断专家只在DeepSeek-R1-Distill-Llama-8B的推理数据上进行训练，但它在其他模型上也表现出了良好的性能。这说明不同AI模型在推理过程中存在一些共同的模式，训练好的判断专家能够识别这些通用模式。

研究团队还进行了详细的消融实验，分析了不同组件对整体性能的贡献。他们发现，推理步骤对齐的截取方法比简单的固定长度截取更有效，平均准确率从85.56%提升到87.01%。焦点损失和过采样技术的组合也非常重要，单独使用其中任何一种技术都无法达到最佳效果，只有两者结合才能充分解决数据不平衡问题。

在不同的相似度阈值设置下，DeepPrune展现出了很好的鲁棒性。当阈值从0.75降低到0.25时，系统会变得更加"严格"，保留更多不同的推理路径，但相应地也会消耗更多计算资源。研究团队发现0.5是一个比较好的平衡点，既能保证足够的效率提升，又能维持良好的答案多样性。

五、技术创新：解决AI推理效率的新思路

DeepPrune方法的技术创新主要体现在几个关键方面。首先是问题识别的新角度。以往的研究主要关注如何提高单个推理过程的效率，或者如何减少推理过程的总数量，但很少有研究专门针对推理过程之间的冗余问题。DeepPrune首次系统性地量化和解决了这个问题，为AI推理效率优化开辟了新的方向。

在技术实现上，推理步骤对齐的截取方法是一个重要创新。传统的文本相似度比较通常基于词汇或句法特征，但推理过程有其特殊的逻辑结构。通过识别和利用"因此"、"所以"、"由于"等推理标志词，DeepPrune能够更准确地捕捉推理的逻辑发展，从而做出更精确的相似度判断。

焦点损失和过采样技术的组合使用也展现了巧妙的工程智慧。数据不平衡是机器学习中的常见挑战，但在推理相似度判断这个特定场景下，简单的数据平衡方法可能会破坏真实的数据分布。研究团队通过精心调节这两种技术的参数，既解决了训练困难，又保持了模型对真实情况的适应性。

在线贪心聚类算法的设计充分考虑了实际应用的需求。与离线批处理方法不同，这个算法需要在推理过程进行的同时做出决策，这要求算法既要快速又要准确。通过限制比较样本数量和设置合理的聚类参数，算法在保证效果的同时实现了实时处理的要求。

从更宏观的角度来看，DeepPrune代表了AI系统优化思路的一个重要转变。传统的优化方法往往专注于提高单个组件的性能，而DeepPrune则从系统整体的角度出发，通过消除冗余来提高整体效率。这种系统级优化的思路在未来的AI发展中可能会变得越来越重要。

六、实际应用前景与局限性分析

DeepPrune方法的成功为AI推理系统的实际部署带来了重要启示。在资源有限的环境中，比如移动设备或边缘计算场景，这种大幅度的计算量减少意味着原本无法部署的复杂AI推理任务变得可行。对于大规模AI服务提供商来说，80%以上的计算量减少直接转化为显著的成本节约和能耗降低。

在教育和科研领域，DeepPrune可以让研究人员用更少的计算资源进行更多的实验，加速研究进程。特别是对于那些需要大量并行推理的任务，比如科学发现、药物设计或工程优化，这种效率提升的价值尤为明显。

然而，研究团队也诚实地指出了当前方法的一些局限性。首先是训练数据的局限性。判断专家目前只在DeepSeek-R1-Distill-Llama-8B的推理数据上进行训练，虽然在其他模型上表现良好，但对于差异更大的模型架构，性能可能会有所下降。这提示未来需要在更多样化的模型和任务上收集训练数据。

贪心聚类算法的局部最优决策也是一个潜在问题。在某些复杂的推理场景中，早期的相似性可能并不能准确预测最终结果的相似性。一些看似相似的推理开始可能会导向完全不同的结论，而一些看似不同的开始可能会收敛到相同的答案。这种情况下，贪心算法可能会做出不够理想的决策。

另一个实际考虑是判断专家本身的计算开销。虽然整体来看计算量大幅减少，但系统需要在推理过程中频繁调用判断专家，这部分开销需要与推理模型的计算成本相平衡。当推理模型相对较小或推理任务相对简单时，判断专家的开销占比可能会比较显著。

相似度阈值的选择也存在任务依赖性的问题。研究中使用的0.5阈值在实验的数据集上效果良好，但对于不同类型的推理任务，最优阈值可能有所不同。这需要在实际部署时进行针对性的调优，增加了系统的复杂性。

尽管存在这些局限性，研究团队的工作为解决AI推理冗余问题提供了一个solid的基础。随着更多研究者的关注和改进，这些局限性很可能在未来的工作中得到逐步解决。

说到底，DeepPrune展示了一个重要的研究方向：通过系统性地分析和优化AI系统中的冗余，我们可以在保持性能的同时大幅提高效率。这不仅仅是一个技术成就，更是对AI系统设计理念的重要启发。随着AI模型变得越来越大、越来越复杂，这种系统级的优化思路将变得更加重要。

对于普通用户来说，这项研究意味着未来我们可能能够在个人设备上运行更强大的AI助手，或者享受到更快速、更节能的AI服务。对于整个AI行业来说，这种效率提升有助于降低AI技术的使用门槛，推动AI技术的更广泛普及和应用。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2510.08483v1查询完整的研究报告。

Q&A

Q1：DeepPrune是什么？它解决了什么问题？

A：DeepPrune是清华大学开发的AI推理优化方法，专门解决AI并行推理中的资源浪费问题。研究发现AI在解决问题时会同时生成多个推理过程，但其中80%以上都会得出相同答案，造成严重的计算资源浪费。DeepPrune通过训练专门的判断模型，能在推理早期就识别出会产生相同结果的路径并及时停止，从而大幅提高计算效率。

Q2：DeepPrune能节省多少计算资源？准确率会下降吗？

A：实验结果显示，DeepPrune在大多数情况下能减少80%以上的计算量，最高可达91.6%的减少。更令人惊喜的是，准确率不仅没有下降，在某些测试中还有所提升。比如在AIME25数学竞赛题目上，使用Qwen3-32B模型时，计算量减少91.4%的同时，准确率从80%提升到90%。

Q3：普通用户什么时候能用到DeepPrune技术？

A：DeepPrune目前还是研究阶段的技术，但它的应用前景很广阔。对普通用户来说，这项技术未来可能让手机或个人电脑运行更强大的AI助手，或者让在线AI服务响应更快、耗电更少。对于需要大量AI推理的科研和工程应用，这种效率提升的价值更为直接。感兴趣的技术人员可以关注相关开源代码的发布。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.