腾讯AI实验室：为什么AI会为"2+3=5"这样的简单问题绞尽脑汁？|推理|数学|复杂性|新论文|知名企业|ai实验室

分享至

这项由腾讯AI实验室联合上海交通大学开展的研究发表于2025年2月1日的arXiv预印本平台（论文编号：arXiv:2412.21187v2），是首个专门研究o1类大语言模型"过度思考"问题的综合性研究。有兴趣深入了解的读者可以通过该论文编号查询完整论文。

当OpenAI在2024年推出o1模型时，人们惊讶地发现这个AI能够像人类一样进行长时间思考。它会在回答问题前展开一番深入的内心独白，考虑多种解决方案，甚至会自我纠错和反思。这种能力让o1在解决复杂数学问题和推理任务时表现出色，仿佛真的拥有了人类般的深度思维能力。

然而，腾讯AI实验室的研究团队却发现了一个有趣而令人担忧的现象：当面对"2+3等于多少"这样极其简单的问题时，这些先进的AI模型却会展开令人哭笑不得的马拉松式思考。它们可能会用13种不同的方法来证明2+3=5，消耗近千个词汇来回答这个幼儿园水平的问题，而普通AI模型只需要几个字就能搞定。

这种现象被研究团队称为"过度思考"问题。就像一个博士生用写论文的架势去回答"太阳从哪边升起"的问题一样，看起来很学术很深刻，但实际上是一种资源的严重浪费。更令人意外的是，这种过度思考现象在简单问题上比复杂问题上更加严重，完全颠覆了人们的直觉预期。

研究团队通过大量实验发现，o1类模型在处理简单数学问题时平均要比传统模型多消耗1953%的计算资源，却并不能带来准确性的提升。这种低效率不仅造成了计算资源的浪费，也暴露出当前AI推理机制的根本性缺陷。更重要的是，这些冗长的思考过程往往缺乏真正的多样性，大部分只是在重复同样的解题思路。

为了解决这个问题，研究团队开发出了两套创新的评估体系来衡量AI思考的效率。第一套从结果角度评估，看看AI是否用最少的"脑力"得到了正确答案。第二套从过程角度评估，检查AI的思考是否真正具有多样性和创新性。基于这些评估标准，他们进一步提出了一种自我训练方法，能够让AI学会更聪明地思考，在保持准确性的同时大幅减少不必要的计算消耗。

这项研究不仅具有重要的学术价值，更对AI的实际应用具有深远影响。随着AI模型规模越来越大，计算成本越来越高，如何让AI更智能地分配计算资源已经成为亟待解决的关键问题。研究成果为未来AI系统的优化指明了方向，有望让AI变得既聪明又节俭。

一、AI也会"小题大做"：过度思考现象的发现

想象一下这样的场景：你问一位数学教授"1+1等于几"，他却开始了长达十分钟的演讲，从自然数的定义讲到群论，从历史发展谈到哲学思辨，最后才告诉你答案是2。这听起来很荒谬，但这正是当前最先进的AI模型在面对简单问题时的真实表现。

研究团队在测试QwQ-32B-Preview模型时发现了一个令人啼笑皆非的现象。当被问及"2+3等于多少"这个问题时，这个拥有320亿参数的超级大脑竟然生成了901个词汇的冗长回答，提供了13种不同的解法。相比之下，传统的AI模型只需要简单地回答"5"，最多加上一两句解释就足够了。

这种现象并非个例。研究团队对多个数据集进行了系统性分析，包括面向小学生的ASDIV数学题、中学难度的GSM8K问题，以及大学竞赛水平的MATH500题目。结果显示，o1类模型普遍存在过度思考的问题，而且这种现象在简单问题上表现得更加明显。

更有趣的是，研究团队发现了一个违反常理的规律：AI模型的思考强度与问题难度呈反比关系。在处理MATH500数据集时，面对最简单的1级题目，模型平均要给出3.7轮解答，而面对最困难的5级题目，反而只给出3.0轮解答。这就像一个学生在做加法题时冥思苦想，在做微积分时却轻松应对，完全颠覆了人们的常识。

为了更深入地理解这种现象，研究团队将模型的回答拆解成多个"解答轮次"。他们发现，大多数o1类模型在76%到80%的情况下会产生2到4轮解答，而第一轮解答通常就已经给出了正确答案。后续的解答轮次虽然占用了大量的计算资源，却很少能够提供新的价值或纠正错误。

这种过度思考现象暴露了当前AI推理机制的一个根本性问题：缺乏根据问题复杂程度来调节思考强度的能力。就像一个不懂得因地制宜的人，无论面对什么情况都使用同样的应对方式，既浪费资源又效率低下。

二、思考质量的双重检验：准确性与多样性的失衡

发现过度思考现象只是研究的第一步，更重要的是要理解这些冗长思考的真正价值。研究团队从两个维度对AI的思考质量进行了深入分析：思考对准确性的贡献和思考的多样性水平。

从准确性角度来看，研究团队发现了一个令人意外的事实：在90%以上的情况下，AI模型在第一轮思考中就已经得到了正确答案。换句话说，后续那些看似深刻的反思和验证过程，大多数时候都是多此一举。这就像一个学生已经写出了正确答案，却还要花费大量时间用不同方法来重复验证，虽然看起来很认真，但实际价值有限。

以QwQ-32B-Preview模型为例，当它正确回答问题时，93%的情况下第一个解答就是对的。然而，第一个解答平均只占整个回答的38.7%篇幅，剩下的61.3%都是对已经正确答案的反复确认。这种现象在所有测试的模型和数据集上都表现得非常一致。

为了量化这种效率损失，研究团队提出了一个"结果效率"指标。这个指标衡量的是模型用于得到正确答案的有效思考占总思考量的比例。结果显示，o1类模型的结果效率普遍很低，通常只有40%到50%，意味着一半以上的计算资源都被浪费了。

从多样性角度分析更是揭示了另一个问题。虽然o1类模型会产生多轮解答，但这些解答在思路上往往高度重复。研究团队使用先进的语言模型对解答进行聚类分析，发现许多看似不同的解答实际上采用的是相同的推理策略。

以前面提到的"2+3=5"问题为例，虽然模型给出了13个解答，但归纳起来只有7种不同的解题思路。其中有些解答只是换了个说法，本质上没有任何新意。第二个解答的独特性比例显著下降，这是因为它经常只是对第一个解答的简单重复或验证。到了第三个解答，模型才可能尝试真正不同的解题方法。

这种缺乏多样性的问题在数据上表现得很明显。以第四个及之后的解答为例，它们提供新思路的概率比第三个解答平均降低了11.5%。这说明随着解答轮次的增加，模型越来越倾向于重复已有的思路，而不是探索真正的新方法。

为了量化思考的多样性，研究团队还提出了"过程效率"指标。这个指标考察的是模型产生的独特思考占总思考量的比例。结果显示，o1类模型的过程效率通常在60%到70%之间，虽然比结果效率高一些，但仍然存在30%到40%的冗余。

三、数字说话：低效率的具体表现

通过对比不同类型模型的表现，研究团队用确凿的数据证明了过度思考问题的严重性。他们将o1类模型与传统的对话模型进行了全面比较，结果令人深思。

在最简单的ASDIV数据集上，QwQ-32B-Preview模型平均每个问题要产生3.5个解答，使用741.8个词汇，而传统的Llama-3.3-70B模型只需要1个解答和166.4个词汇。虽然QwQ模型的准确率略高（96.9% vs 95.6%），但其结果效率只有41.9%，远低于传统模型的95.6%。这意味着QwQ模型有超过一半的思考都是无效的。

在中等难度的GSM8K数据集上，情况并没有明显改善。QwQ模型平均使用3.1个解答和772.8个词汇，结果效率为50.7%。相比之下，传统模型仍然保持着接近100%的效率。更值得注意的是，在某些测试中，传统模型的准确率甚至超过了o1类模型，这进一步质疑了过度思考的价值。

最令人意外的发现来自对不同难度级别的细致分析。在MATH500数据集的5个难度级别中，模型在处理最简单的1级问题时表现出最低的结果效率，只有46%左右。随着问题难度增加，结果效率反而有所提升，在最高难度的5级问题上达到47%。这种倒置的关系说明，模型在简单问题上的过度思考更加严重。

从计算资源的角度来看，这种低效率意味着巨大的浪费。当QwQ模型处理一个简单的"2+3=5"问题时，它实际上只需要39个词汇就能给出正确答案，但却产生了901个词汇的冗长回答。这相当于95.7%的计算资源都被浪费了，效率低得惊人。

研究团队还发现，不同模型之间的过度思考程度有所差异，但总体趋势相似。DeepSeek-R1模型在某些测试中表现出更严重的过度思考，平均解答轮次达到4.5轮，而QwQ模型为3.5轮。然而，两个模型都表现出相同的规律：简单问题上的思考更加冗余。

这些数据清楚地表明，当前的o1类模型虽然在推理能力上有所突破，但在效率方面存在重大缺陷。它们就像一个过于谨慎的司机，在空旷的高速公路上也要反复检查后视镜，虽然看起来很小心，但实际上是对资源的巨大浪费。

四、解决方案的探索：让AI学会聪明地思考

面对过度思考这个棘手问题，研究团队并没有止步于诊断，而是积极寻求解决方案。他们的核心思路是通过自我训练的方式，让AI模型学会根据问题的复杂程度来调节思考的深度和广度。

研究团队首先验证了一个重要假设：AI模型确实有能力产生更高效的回答。他们让模型对每个训练问题生成10个不同的回答，然后分析这些回答的特点。结果发现，在这10个回答中，最短的回答往往具有最高的效率。平均而言，最短回答使用2.5个解答轮次和1051个词汇，结果效率达到69.8%，过程效率达到80.3%。这证明模型本身具备高效思考的潜力，关键是要激发和强化这种能力。

基于这个发现，研究团队设计了多种训练策略。第一种是监督学习方法，直接用高效的回答来训练模型，让它模仿这种简洁明了的思考方式。就像教一个学生用最直接的方法解题，而不是绕弯子。

更有效的方法是偏好优化技术。研究团队让模型在不同质量的回答之间进行比较学习，逐渐形成对高效思考的偏好。他们尝试了直接偏好优化、推理偏好优化和简单偏好优化等多种技术，其中简单偏好优化在实验中表现最佳。

除了训练方法的创新，研究团队还提出了三种回答简化策略。第一种是"首次正确解答"策略，只保留模型首次给出正确答案的部分，去掉后续的重复验证。这种方法最为激进，能够将回答长度压缩到原来的30%左右，效率提升显著。

考虑到过于激进的简化可能影响模型的反思能力，研究团队还设计了"首次正确加反思"策略。这种方法在保留首次正确解答的基础上，额外保留一轮反思过程，既保持了效率又维持了模型的自我检验能力。

第三种策略是"贪心多样化解答"，它会优先选择那些提供新思路的解答，过滤掉重复性的内容。这种方法在保持思考多样性的同时提升了效率，是一种相对平衡的选择。

实验结果证明了这些方法的有效性。以MATH500数据集为例，经过优化的模型在保持92.8%准确率的同时，将平均解答轮次从3.2降低到1.9，词汇使用量从2407.9减少到1330.7，结果效率从52.3%提升到80.0%。这意味着模型在几乎不损失准确性的前提下，将思考效率提升了50%以上。

在其他数据集上的测试也显示出类似的改进。在ASDIV数据集上，优化后的模型将解答轮次从3.5减少到2.0，词汇使用量从741.8降低到381.6，同时准确率基本保持不变。这种改进不仅节约了计算资源，也提升了用户体验，因为用户不再需要阅读冗长的重复内容。

五、广泛验证：从简单到复杂的全面测试

为了确保解决方案的可靠性和普适性，研究团队在多个不同难度级别的数据集上进行了广泛测试。这些测试涵盖了从小学算术到大学竞赛的各个层面，确保优化方法在各种情况下都能发挥作用。

在最具挑战性的GPQA数据集上，这个专门测试研究生水平科学推理能力的数据集要求模型具备深厚的学科知识和复杂的推理能力。经过优化的模型在保持59.1%准确率的同时，将平均解答轮次从2.2减少到1.7，词汇使用量从3228减少到2085，结果效率从51.4%提升到55.7%。虽然在这种高难度任务上的提升相对有限，但仍然证明了方法的有效性。

在AIME24数据集上的测试更是展现了优化方法的实用价值。这个数据集包含了美国数学竞赛中最具挑战性的题目，需要深度的数学洞察和创新思维。优化后的模型将准确率从46.7%小幅降低到43.3%，但将词汇使用量从9480大幅减少到5154，几乎减半。这种权衡在实际应用中是非常有价值的，因为它显著降低了计算成本。

特别值得注意的是，研究团队发现优化效果在不同难度级别上表现出一定的规律性。对于相对简单的问题，优化方法能够实现显著的效率提升而几乎不影响准确性。对于极其复杂的问题，虽然效率提升相对有限，但仍然能够节约相当可观的计算资源。

这种规律性反映了一个重要的洞察：AI模型的过度思考问题确实与问题难度相关。简单问题上的冗余思考更容易被识别和去除，而复杂问题确实需要更多的推理步骤。这为未来开发自适应思考机制提供了重要启示。

研究团队还特别关注了优化方法对模型长期推理能力的影响。他们担心过度简化可能会削弱模型处理真正困难问题的能力。然而，实验结果表明，经过合理优化的模型在复杂任务上的表现基本保持稳定，有时甚至略有提升。这可能是因为去除冗余思考帮助模型更好地聚焦于真正重要的推理步骤。

通过对比不同优化策略的效果，研究团队确认"首次正确加反思"是最佳的平衡方案。这种策略在各种难度级别的任务上都表现出稳定的改进，既保持了必要的推理深度，又避免了无意义的重复。相比之下，过于激进的简化策略在复杂任务上可能导致性能下降，而过于保守的策略则改进有限。

六、深层影响：重新定义AI的智能标准

这项研究的意义远不止于解决一个技术问题，它实际上触及了AI智能评估的根本性问题。传统上，人们倾向于认为思考时间越长、推理步骤越多的AI就越聪明。但这项研究表明，真正的智能可能在于知道什么时候该深度思考，什么时候该快速决策。

研究团队提出的两个效率评估指标——结果效率和过程效率——为AI能力评估提供了全新的维度。结果效率关注的是AI达成目标的路径是否最优，而过程效率关注的是AI的思考过程是否具有真正的多样性和创新性。这两个指标共同构成了一个更全面的智能评估框架。

这种新的评估框架对AI发展具有重要的指导意义。它提醒研究者和开发者，仅仅追求推理步骤的复杂性是不够的，还需要关注推理的质量和效率。就像评判一个人的能力不应该只看他说了多少话，而要看他说的话是否有价值一样。

从计算资源的角度来看，这项研究的实际价值更加明显。随着AI模型规模的不断增大，训练和推理成本呈指数级增长。任何能够在不损失性能的前提下提升效率的技术，都具有巨大的商业价值和环境意义。研究团队实现的48.6%计算量减少，在大规模部署时将转化为显著的成本节约。

这项研究还为AI系统的个性化和自适应发展开辟了新路径。未来的AI系统可能能够根据用户的需求、问题的复杂程度和可用的计算资源来动态调整思考深度。就像一个经验丰富的专家能够快速判断问题的难易程度并相应调整应对策略一样。

更深层次的影响体现在对AI推理本质的理解上。这项研究暗示，当前o1类模型的"长时间思考"可能更多是一种表面现象，而非真正的深度推理。真正的推理能力应该体现在能够用最少的步骤解决问题，而不是用最多的步骤重复同样的逻辑。

研究团队的工作也为AI安全性研究提供了新的视角。过度思考不仅是效率问题，也可能是可控性问题。一个思考过程极其冗长复杂的AI系统更难被人类理解和监督，这可能带来潜在的风险。通过促进AI思考的简洁性和透明性，这项研究间接促进了AI的安全性。

从用户体验的角度来看，这项研究的价值同样显著。没有人愿意等待AI用十分钟时间回答一个简单问题，即使这个过程看起来很"深刻"。高效的AI推理不仅节约了计算资源，也提升了人机交互的流畅性和自然性。

说到底，这项研究提醒我们，真正的智能不在于思考的复杂性，而在于思考的适当性。就像一位智者能够用最简单的话语解释最复杂的道理一样，真正智能的AI应该能够根据问题的本质选择合适的思考深度。腾讯AI实验室的这项工作为AI向着更加智能、高效、实用的方向发展奠定了重要基础，也为整个AI行业提供了宝贵的思路和工具。未来，我们可能会看到更多能够"聪明地偷懒"的AI系统，它们不会为简单问题而大费周章，却能在真正需要深度思考的时候展现出惊人的推理能力。

Q&A

Q1：什么是o1类大语言模型的过度思考问题？

A：过度思考问题是指o1类AI模型在面对简单问题时会进行过度复杂的思考过程。比如回答"2+3=5"这样的简单问题时，模型可能会生成13种不同解法和近千个词汇的冗长回答，而传统模型只需几个字就能解决。这种现象在简单问题上比复杂问题上更严重，造成了计算资源的巨大浪费。

Q2：腾讯AI实验室提出了哪些解决过度思考问题的方法？

A：研究团队主要提出了三种解决策略：首次正确解答策略（只保留第一次正确回答），首次正确加反思策略（保留第一次正确答案加一轮反思），以及贪心多样化解答策略（优先选择提供新思路的解答）。结合简单偏好优化等训练技术，这些方法能在保持准确性的同时将计算效率提升50%以上。

Q3：这项研究对普通用户使用AI有什么实际意义？

A：这项研究的优化方法能让AI回答问题时更加高效，减少不必要的冗长思考过程，提升用户体验。同时降低了AI运行成本，可能让AI服务变得更便宜、更普及。更重要的是，它推动AI向着更智能的方向发展，让AI学会根据问题复杂程度来调节思考深度，就像人类专家那样聪明高效。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.