卡内基梅隆团队：数学能力能否提升AI智能？|实验|推理|高中物理

分享至

在人工智能快速发展的今天，各种大型语言模型在数学推理任务上的表现越来越惊艳，有些甚至超越了人类专家的平均水平。然而，一个令人困惑的现象开始浮现：这些在数学题上表现出色的AI模型，在处理其他类型任务时却可能表现平平，甚至不如训练前的版本。这就像一个原本各科成绩都不错的学生，在专门训练数学后，虽然数学成绩大幅提升，但其他科目的成绩却意外下降了。

这项由卡内基梅隆大学、宾夕法尼亚大学、华盛顿大学等多所知名学府研究团队合作完成的研究，发表于2025年7月的arXiv预印本平台（论文编号：arXiv:2507.00432v1），深入探讨了数学推理训练对大语言模型整体能力的真实影响。研究团队包括来自卡内基梅隆大学的Maggie Huan、Seungone Kim、Graham Neubig和Xiang Yue，以及来自华盛顿大学的Yuetai Li和Radha Poovendran等多位研究者。感兴趣的读者可以通过arXiv平台查阅完整论文。

这个问题的重要性远超学术界的关注范围。当我们把这些AI模型应用到真实世界时，我们需要的往往不是单一领域的专家，而是能够处理各种复杂情况的全能助手。如果一个模型在数学方面训练得过度专精，却在日常对话、文本理解或其他推理任务上能力下降，这样的"偏科"现象可能会严重影响AI系统的实用价值。

研究团队通过对超过20个开源推理调优模型的全面评估，发现了一个令人意外的现象：大多数在数学任务上表现优异的模型，并不能将这种优势成功转移到其他领域。这种现象被研究者称为"转移能力"问题。更有趣的是，他们发现造成这种差异的关键因素并非模型的大小或架构，而是训练方法的选择。

通过精心设计的对比实验，研究团队揭示了一个重要发现：使用强化学习方法训练的模型表现出更强的跨领域泛化能力，而使用传统监督学习方法训练的模型则容易出现"灾难性遗忘"，即在学习新技能的同时丢失了原有的一般性能力。这一发现对AI模型的训练策略具有重要的指导意义。

一、研究的核心发现：AI模型的"偏科"现象

为了理解AI模型在不同训练方法下的表现差异，我们可以把这个过程比作培养一个多才多艺的学生。研究团队构建了一个名为"转移能力指数"的评估体系，就像给学生设计了一套综合能力测试，不仅考查数学成绩，还要评估语文、科学和生活技能等各个方面。

这个评估体系将任务分为三大类别：数学推理任务、其他推理任务和非推理任务。数学推理任务包括MATH500、AIME2024/2025和奥林匹克数学竞赛等，这些就像专门的数学考试。其他推理任务涵盖了科学问答、代码生成、医学推理和逻辑规划等，相当于理科综合考试。非推理任务则包括对话问答、指令跟随和事实性问题等，类似于语文和生活常识测试。

通过这套评估体系，研究团队对20多个知名的开源推理模型进行了全面测试。结果显示了一个清晰的分化现象：使用强化学习训练的模型在数学能力提升的同时，其他能力也得到了保持甚至增强；而使用监督学习训练的模型虽然数学成绩显著提高，但在非推理任务上的表现却明显下降，有些甚至比训练前的基础模型表现更差。

这种现象可以用一个生动的比喻来理解：强化学习就像让学生在实践中学习，通过不断尝试和接受反馈来改进，这种方式能够保持学生的综合素质；而传统的监督学习则像让学生死记硬背标准答案，虽然在特定题型上表现优异，但缺乏灵活应变的能力，甚至可能忘记之前学过的其他知识。

二、深入机制：为什么不同训练方法产生如此差异

为了更深入地理解这种现象的内在机制，研究团队设计了一系列精巧的实验，就像医生使用不同的检查手段来诊断病因一样。他们选择了Qwen3-14B作为基础模型，使用相同的数学数据集，但采用不同的训练方法进行对比实验。

在监督学习的实验中，研究团队首先让一个更强大的教师模型（Qwen3-32B）解答数学问题，并通过筛选保留那些能得出正确答案的解题过程。然后让学生模型模仿这些标准答案，就像让学生反复抄写标准解题步骤一样。这种方法确实能让模型在数学题上表现出色，但代价是在其他类型任务上的能力下降。

相比之下，强化学习的方法更像是让学生自己探索解题思路，只在最后告诉他们答案是否正确。模型需要自己尝试不同的推理路径，通过正确性反馈来调整策略。这种训练方式虽然过程更复杂，但能够培养模型更强的适应能力和泛化能力。

实验结果验证了研究团队的假设：强化学习训练的模型不仅在数学推理上表现优异（AIME24达到55.7%，MATH500达到87.8%），在其他推理任务上也有显著提升，甚至在非推理任务上也保持了良好表现。而监督学习训练的模型虽然数学成绩不错，但在非推理任务上出现了明显的性能退化。

三、模型内部变化的显微镜观察

为了理解这种差异的深层原因，研究团队采用了两种创新的分析方法，就像使用显微镜和化学试剂来观察细胞内部的变化一样。

第一种方法是主成分分析，这就像给模型的"大脑"拍X光片。研究团队提取了模型在处理不同类型任务时的内部表征，观察训练前后这些表征的变化模式。结果发现，监督学习会导致模型内部表征发生大幅度偏移，特别是在处理非推理任务时，这种偏移尤其明显。这就像一个人的大脑在专门训练某项技能后，其他区域的神经连接发生了不利的改变。

相反，强化学习训练的模型内部表征变化要小得多，表明这种训练方式能够更好地保持模型原有的知识结构。具体来说，强化学习模型在各类任务上的表征偏移距离都控制在较小范围内，而监督学习模型的偏移距离要大得多，有时甚至超过十倍。

第二种分析方法关注模型输出层面的变化，通过观察模型在不同词汇上的选择倾向来理解训练效果。研究团队发现，强化学习训练的模型只会调整少数与任务相关的关键词汇，而监督学习训练的模型会改变大量词汇的使用模式，包括许多与任务无关的词汇。

这种差异可以用一个简单的比喻来理解：强化学习就像一个精准的外科医生，只在需要的地方进行微调；而监督学习则像是使用粗糙的工具进行大范围改动，虽然能解决目标问题，但也会造成不必要的附带损害。

四、案例研究：具体看看模型是如何"思考"的

研究团队通过具体的案例分析，展示了不同训练方法如何影响模型的"思维方式"。他们设计了一个数学推理题：十个treeks的重量等于三个squigs加一个goolee的重量，两个treeks加一个goolee的重量等于一个squig的重量，问一个squig的重量等于多少个treeks的重量？

强化学习训练的模型表现出了清晰的逻辑思路：首先定义变量，建立方程组，然后系统地求解。整个过程只有15个词汇发生了排序变化，且都是与逻辑推理相关的关键词，如"define"、"add"、"second"、"number"等。

而监督学习训练的模型虽然最终也得出了正确答案，但过程显得冗长和重复，有390个词汇发生了排序变化，包括许多与问题无关的词汇。模型似乎在过度思考，不断重复检查自己的答案，表现出一种"强迫症"般的行为模式。

更有趣的是，当面对非推理任务时，比如写一封辞职邮件，两种模型的差异更加明显。强化学习模型能够简洁明了地完成任务，只有14个词汇发生变化，都是与任务直接相关的词汇如"write"、"formally"等。而监督学习模型却表现出了"思维惯性"，试图对一个简单的写作任务进行复杂的推理分析，结果导致158个词汇发生变化，产生了大量无关的推理性词汇，反而影响了任务完成的效果。

这种现象就像一个习惯了复杂数学证明的学生，在被要求写一篇简单的作文时，仍然试图用数学公式的严谨性来组织语言，结果显得过于繁琐和不自然。

五、训练策略的重新思考

这项研究的发现对AI模型的训练策略提出了重要启示。传统的监督学习方法虽然能够快速提升模型在特定任务上的表现，但可能以牺牲通用能力为代价。这就像让一个全能运动员专门训练某一项运动，虽然在该项目上成绩突出，但其他运动能力可能会退化。

强化学习方法虽然训练过程更加复杂，需要更多的计算资源和时间，但能够在提升特定能力的同时保持模型的通用性。这种方法更像是让运动员在保持全面发展的基础上，重点提升某项技能。

研究团队还发现，模型的大小也会影响这种转移能力。较大的模型通常表现出更好的稳定性和泛化能力，这可能是因为更大的模型有足够的"容量"来同时存储不同类型的知识，而不会出现严重的相互干扰。

此外，不同的模型架构也会影响转移能力的表现。比如，Llama系列模型在某些情况下表现出比Qwen系列更强的稳定性，这提示我们模型的底层设计对最终性能也有重要影响。

六、对AI发展的深远影响

这项研究的意义远不止于学术层面的发现，它对整个AI行业的发展方向都有重要启示。当前，许多AI公司都在竞相开发在特定任务上表现优异的模型，比如专门的数学解题模型、代码生成模型或翻译模型。但这项研究提醒我们，过度的专业化可能会带来意想不到的副作用。

对于普通用户而言，我们更希望拥有一个全能的AI助手，而不是需要为不同任务切换不同模型的复杂系统。一个真正有用的AI助手应该能够在擅长某个领域的同时，保持在其他方面的基本能力。

这项研究也为AI安全研究提供了新的视角。如果一个模型在特定训练后出现了能力退化，这可能会在实际应用中带来不可预见的风险。比如，一个专门训练来处理技术问题的AI助手，如果在基本的人际交往理解上能力下降，可能会在客户服务场景中产生问题。

从技术发展的角度来看，这项研究强调了训练方法创新的重要性。单纯追求某个基准测试上的高分数是不够的，我们需要更加关注模型的综合能力和稳定性。强化学习等更加精细的训练方法，虽然实施起来更加复杂，但从长远来看可能是更好的选择。

研究团队开发的UniReason模型为这种平衡提供了一个很好的范例。这个模型仅使用47000个数学样本进行训练，就在保持通用能力的同时实现了优异的数学推理性能。这证明了通过合适的训练策略，我们确实可以在专业化和通用性之间找到平衡点。

说到底，这项研究告诉我们一个简单而深刻的道理：在AI的世界里，就像在人类教育中一样，训练方法往往比训练数据的数量更加重要。一个好的训练策略能够让模型在掌握新技能的同时，保持原有的知识和能力，而不是简单地用新知识覆盖旧知识。

这种发现对每个关心AI发展的人都有意义。当我们在选择和使用AI工具时，我们应该更加关注它们的综合能力，而不仅仅是在某个特定任务上的表现。同时，这项研究也提醒AI开发者们，在追求性能突破的同时，不要忽视了模型的整体平衡性和实用性。

未来的AI发展可能会更加注重这种平衡。我们期待看到更多像强化学习这样的训练方法被开发出来，帮助AI模型在保持通用性的同时实现专业化。这样的AI系统才能真正成为人类的得力助手，在各种复杂的现实场景中发挥作用。

有兴趣深入了解这项研究细节的读者，可以通过arXiv平台访问完整论文，论文编号为2507.00432v1。研究团队还在GitHub和Hugging Face平台提供了相关的代码和模型，为后续研究提供了宝贵的资源。

Q&A

Q1：什么是"转移能力"？为什么它对AI模型很重要？ A：转移能力指AI模型将在一个领域学到的技能应用到其他领域的能力。比如一个数学训练的模型能否在对话、写作等任务上保持良好表现。这很重要，因为实际应用中我们需要全能的AI助手，而不是只擅长单一任务的专门模型。

Q2：强化学习和监督学习训练AI模型有什么区别？ A：监督学习像让学生背标准答案，通过模仿正确的解题过程来学习；强化学习像让学生自己探索，只在最后告诉对错，让模型自己找到解决方案。研究发现强化学习能更好地保持模型的综合能力。

Q3：这项研究对普通用户使用AI有什么影响？ A：这提醒我们在选择AI工具时，不应只看它在某个任务上的表现分数，还要关注综合能力。一个在数学上得高分但在日常对话中表现差的AI，实用价值可能不如一个各方面都比较均衡的模型。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.