新加坡国立大学突破：让AI不再被"好心帮倒忙"的推理示例困扰|数学

新加坡国立大学突破：让AI不再被"好心帮倒忙"的推理示例困扰

2025-10-22 21:48:14　来源: 科技行者

北京举报

分享至

这项由新加坡国立大学王浩楠、梁伟达、傅梓航等研究人员与悉尼大学、MiroMind AI联合开展的研究，发表于2025年9月的arXiv预印本平台（论文编号：arXiv:2509.23196v1），揭示了现代AI推理模型面临的一个意外困境：那些本应帮助AI更好推理的示例，反而让它们的表现变得更糟。

当我们谈到AI推理时，通常会想到这样一个场景：就像学生需要看几道例题才能更好地解答新题目一样，AI模型也需要一些推理示例来指导它们处理复杂问题。这种被称为"少样本思维链"的方法，长期以来被认为是提升AI推理能力的黄金标准。然而，这项研究却发现了一个令人意外的现象：对于那些经过强化学习训练的现代推理模型来说，这些"好心"的示例反而成了绊脚石。

研究团队选择了包括DeepSeek-R1和Qwen系列在内的多个先进AI模型进行测试，测试场景包括数学竞赛题目和科学推理问题。结果令人震惊：即使给这些模型提供了高质量、与目标问题高度相关的推理示例，它们的准确率也会显著下降，而且提供的示例越多，表现越差。在某些情况下，准确率甚至下降了35%。

这个发现让人联想到一个有趣的类比：一个已经熟练掌握厨艺的大厨，如果在烹饪时总是被人在旁边指手画脚地提供"建议"，反而可能做出比独自烹饪更糟糕的菜品。现代AI推理模型经过大量训练后，已经具备了相当强的内在推理能力，外部示例有时会干扰它们的正常思维流程。

为了深入了解这种现象的根本原因，研究团队进行了细致的分析，发现了两个关键的失效机制。第一个问题可以称为"表面相似性陷阱"：当AI看到示例问题与目标问题在用词或表述上很相似时，它会误以为这两个问题完全相同，然后直接照搬示例的解题步骤和答案，完全忽略了目标问题的独特逻辑结构。这就像一个学生看到题目中都提到"苹果和橘子"，就认为所有这类题目的解法都一样，结果把计算重量的方法用到了计算价格的问题上。

第二个问题则是"策略提取失败"：即使示例中包含了有用的解题策略，AI也难以正确地提取并应用到新问题上。研究团队观察到，AI经常会错误地简化或误解示例中的推理模式，就像一个人学习别人的写作技巧时，只记住了表面的词汇搭配，却没有理解深层的逻辑结构。

基于这些发现，研究团队开发了一套名为"洞察到解答"(Insight-to-Solve, I2S)的新方法。这种方法的核心思想是将推理示例转化为抽象的、可复用的指导原则，而不是让AI直接模仿具体的解题过程。

I2S方法的工作流程就像一个优秀的导师指导学生学习。首先，它会让AI仔细比较示例问题和目标问题，明确指出两者的相似点和不同点，避免混淆。接着，AI需要从示例的详细解题过程中提取出通用的策略和方法，比如"先分析数据结构"或"检查边界条件"这样的抽象指导。最后，AI运用这些抽象指导来构建针对目标问题的全新推理过程，而不是照搬示例的具体步骤。

更进一步的I2S+版本还加入了自我完善机制。就像一个作家会反复修改自己的文章一样，AI在生成初步答案后，会对自己的推理过程进行多轮检查和改进。它会主动寻找可能的错误，检查逻辑是否连贯，并对有问题的部分进行修正。这个过程通常经过2-3轮迭代就能达到最佳效果。

实验结果显示，这种新方法取得了显著的效果改进。在数学竞赛AIME 2025的测试中，使用I2S+方法的7B参数模型准确率从42%提升到了51.33%，提升幅度超过9个百分点。更令人印象深刻的是，这种方法不仅对开源模型有效，对GPT-4.1和o1-mini这样的闭源商业模型同样有效。GPT-4.1在AIME测试中的表现从34%提升到48%，提升了14个百分点。

研究团队还发现，I2S方法在计算效率方面也表现出色。与简单地生成多个答案然后投票选择最佳结果的方法相比，I2S能够用更少的计算资源获得更好的结果。这就像一个高效的学习方法，能让学生用更少的时间获得更好的学习效果。

在开放式推理任务中，I2S方法同样表现良好。研究团队使用GPT-4.1作为评判标准，发现I2S在工程和通用推理任务中都能带来稳定的性能提升，提升幅度达到1-2个百分点。虽然这个提升看起来不如数学题目那么显著，但考虑到开放式问题评判的复杂性和主观性，这样的提升仍然很有价值。

特别值得注意的是迭代改进的效果模式。研究发现，对于数学类问题，多轮自我改进通常能带来明显的效果提升，而且模型规模越大，从迭代中获得的收益越明显。然而，对于开放式问题，过多的迭代有时反而会产生负面效果，特别是对较小的模型。这揭示了一个重要的实用原则：不同类型的问题需要不同的处理策略。

从技术实现的角度来看，I2S方法的一个重要优势是它的轻量级特性。整个过程只需要三次模型调用：比较生成、策略分析和答案构建，计算开销相对较小。而且，这种方法不需要对原有模型进行重新训练，可以直接应用于现有的各种AI模型，具有很强的实用性。

这项研究的意义远不止于解决一个技术问题。它揭示了AI发展过程中的一个重要现象：随着AI能力的提升，传统的训练和使用方法可能需要相应调整。那些曾经有效的方法可能不再适用于新一代的AI系统，我们需要不断探索更适合先进AI特点的交互方式。

研究还展现了AI推理能力评估的复杂性。表面上看起来应该有帮助的输入，实际可能会产生负面影响，这提醒我们在设计AI系统时需要更加细致地考虑各种因素的相互作用。同时，这也说明了AI的"智能"与人类智能有着本质的不同特点，需要我们用新的视角来理解和优化它们的表现。

从更广泛的应用前景来看，I2S方法的成功为改进AI推理能力开辟了新的思路。它不仅可以应用于学术研究中的复杂推理任务，也可能对实际应用中的AI助手、教育软件、科学计算等领域产生积极影响。任何需要AI进行复杂推理的场景，都可能从这种新方法中受益。

值得一提的是，这项研究还展现了跨机构合作在AI研究中的重要性。新加坡国立大学、悉尼大学和MiroMind AI的合作，汇集了学术界和产业界的不同优势，为解决复杂的AI问题提供了有力支撑。这种合作模式可能是未来AI研究发展的重要趋势。

说到底，这项研究告诉我们一个重要道理：在AI快速发展的今天，我们不能简单地假设传统的方法总是最好的。随着AI能力的提升，我们需要不断重新审视和改进与AI交互的方式。有时候，退一步海阔天空，让AI发挥自己的内在能力，可能比试图过度指导它们更加有效。这项研究为我们提供了一个很好的例子，说明了如何通过深入理解AI的工作机制，开发出更加有效的使用方法。

Q&A

Q1：什么是洞察到解答(I2S)方法？它是如何工作的？

A：I2S是新加坡国立大学研发的一种新型AI推理方法。它不让AI直接模仿示例解题过程，而是先让AI比较示例与目标问题的异同，然后提取抽象的解题策略，最后用这些策略独立构建新的推理过程。就像优秀导师教学生提取解题思路而非照搬具体步骤。

Q2：为什么传统的推理示例会让现代AI表现变差？

A：研究发现两个主要原因：一是"表面相似性陷阱"，AI看到用词相似就误认为是同一问题，直接照搬答案；二是"策略提取失败"，AI难以从示例中正确提取有用的推理策略。这就像一个熟练厨师被人指手画脚反而做不好菜一样。

Q3：I2S方法在实际测试中效果如何？适用于哪些AI模型？

A：效果显著且适用面广。在数学竞赛中，小模型准确率提升9个百分点，GPT-4.1提升14个百分点。方法不需要重新训练，可直接应用于包括GPT-4.1、o1-mini在内的各种开源和闭源模型，计算开销也相对较小。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.