网易首页 > 网易号 > 正文 申请入驻

卡内基梅隆团队:数学能力能否提升AI智能?

0
分享至

在人工智能快速发展的今天,各种大型语言模型在数学推理任务上的表现越来越惊艳,有些甚至超越了人类专家的平均水平。然而,一个令人困惑的现象开始浮现:这些在数学题上表现出色的AI模型,在处理其他类型任务时却可能表现平平,甚至不如训练前的版本。这就像一个原本各科成绩都不错的学生,在专门训练数学后,虽然数学成绩大幅提升,但其他科目的成绩却意外下降了。

这项由卡内基梅隆大学、宾夕法尼亚大学、华盛顿大学等多所知名学府研究团队合作完成的研究,发表于2025年7月的arXiv预印本平台(论文编号:arXiv:2507.00432v1),深入探讨了数学推理训练对大语言模型整体能力的真实影响。研究团队包括来自卡内基梅隆大学的Maggie Huan、Seungone Kim、Graham Neubig和Xiang Yue,以及来自华盛顿大学的Yuetai Li和Radha Poovendran等多位研究者。感兴趣的读者可以通过arXiv平台查阅完整论文。

这个问题的重要性远超学术界的关注范围。当我们把这些AI模型应用到真实世界时,我们需要的往往不是单一领域的专家,而是能够处理各种复杂情况的全能助手。如果一个模型在数学方面训练得过度专精,却在日常对话、文本理解或其他推理任务上能力下降,这样的"偏科"现象可能会严重影响AI系统的实用价值。

研究团队通过对超过20个开源推理调优模型的全面评估,发现了一个令人意外的现象:大多数在数学任务上表现优异的模型,并不能将这种优势成功转移到其他领域。这种现象被研究者称为"转移能力"问题。更有趣的是,他们发现造成这种差异的关键因素并非模型的大小或架构,而是训练方法的选择。

通过精心设计的对比实验,研究团队揭示了一个重要发现:使用强化学习方法训练的模型表现出更强的跨领域泛化能力,而使用传统监督学习方法训练的模型则容易出现"灾难性遗忘",即在学习新技能的同时丢失了原有的一般性能力。这一发现对AI模型的训练策略具有重要的指导意义。

一、研究的核心发现:AI模型的"偏科"现象

为了理解AI模型在不同训练方法下的表现差异,我们可以把这个过程比作培养一个多才多艺的学生。研究团队构建了一个名为"转移能力指数"的评估体系,就像给学生设计了一套综合能力测试,不仅考查数学成绩,还要评估语文、科学和生活技能等各个方面。

这个评估体系将任务分为三大类别:数学推理任务、其他推理任务和非推理任务。数学推理任务包括MATH500、AIME2024/2025和奥林匹克数学竞赛等,这些就像专门的数学考试。其他推理任务涵盖了科学问答、代码生成、医学推理和逻辑规划等,相当于理科综合考试。非推理任务则包括对话问答、指令跟随和事实性问题等,类似于语文和生活常识测试。

通过这套评估体系,研究团队对20多个知名的开源推理模型进行了全面测试。结果显示了一个清晰的分化现象:使用强化学习训练的模型在数学能力提升的同时,其他能力也得到了保持甚至增强;而使用监督学习训练的模型虽然数学成绩显著提高,但在非推理任务上的表现却明显下降,有些甚至比训练前的基础模型表现更差。

这种现象可以用一个生动的比喻来理解:强化学习就像让学生在实践中学习,通过不断尝试和接受反馈来改进,这种方式能够保持学生的综合素质;而传统的监督学习则像让学生死记硬背标准答案,虽然在特定题型上表现优异,但缺乏灵活应变的能力,甚至可能忘记之前学过的其他知识。

二、深入机制:为什么不同训练方法产生如此差异

为了更深入地理解这种现象的内在机制,研究团队设计了一系列精巧的实验,就像医生使用不同的检查手段来诊断病因一样。他们选择了Qwen3-14B作为基础模型,使用相同的数学数据集,但采用不同的训练方法进行对比实验。

在监督学习的实验中,研究团队首先让一个更强大的教师模型(Qwen3-32B)解答数学问题,并通过筛选保留那些能得出正确答案的解题过程。然后让学生模型模仿这些标准答案,就像让学生反复抄写标准解题步骤一样。这种方法确实能让模型在数学题上表现出色,但代价是在其他类型任务上的能力下降。

相比之下,强化学习的方法更像是让学生自己探索解题思路,只在最后告诉他们答案是否正确。模型需要自己尝试不同的推理路径,通过正确性反馈来调整策略。这种训练方式虽然过程更复杂,但能够培养模型更强的适应能力和泛化能力。

实验结果验证了研究团队的假设:强化学习训练的模型不仅在数学推理上表现优异(AIME24达到55.7%,MATH500达到87.8%),在其他推理任务上也有显著提升,甚至在非推理任务上也保持了良好表现。而监督学习训练的模型虽然数学成绩不错,但在非推理任务上出现了明显的性能退化。

三、模型内部变化的显微镜观察

为了理解这种差异的深层原因,研究团队采用了两种创新的分析方法,就像使用显微镜和化学试剂来观察细胞内部的变化一样。

第一种方法是主成分分析,这就像给模型的"大脑"拍X光片。研究团队提取了模型在处理不同类型任务时的内部表征,观察训练前后这些表征的变化模式。结果发现,监督学习会导致模型内部表征发生大幅度偏移,特别是在处理非推理任务时,这种偏移尤其明显。这就像一个人的大脑在专门训练某项技能后,其他区域的神经连接发生了不利的改变。

相反,强化学习训练的模型内部表征变化要小得多,表明这种训练方式能够更好地保持模型原有的知识结构。具体来说,强化学习模型在各类任务上的表征偏移距离都控制在较小范围内,而监督学习模型的偏移距离要大得多,有时甚至超过十倍。

第二种分析方法关注模型输出层面的变化,通过观察模型在不同词汇上的选择倾向来理解训练效果。研究团队发现,强化学习训练的模型只会调整少数与任务相关的关键词汇,而监督学习训练的模型会改变大量词汇的使用模式,包括许多与任务无关的词汇。

这种差异可以用一个简单的比喻来理解:强化学习就像一个精准的外科医生,只在需要的地方进行微调;而监督学习则像是使用粗糙的工具进行大范围改动,虽然能解决目标问题,但也会造成不必要的附带损害。

四、案例研究:具体看看模型是如何"思考"的

研究团队通过具体的案例分析,展示了不同训练方法如何影响模型的"思维方式"。他们设计了一个数学推理题:十个treeks的重量等于三个squigs加一个goolee的重量,两个treeks加一个goolee的重量等于一个squig的重量,问一个squig的重量等于多少个treeks的重量?

强化学习训练的模型表现出了清晰的逻辑思路:首先定义变量,建立方程组,然后系统地求解。整个过程只有15个词汇发生了排序变化,且都是与逻辑推理相关的关键词,如"define"、"add"、"second"、"number"等。

而监督学习训练的模型虽然最终也得出了正确答案,但过程显得冗长和重复,有390个词汇发生了排序变化,包括许多与问题无关的词汇。模型似乎在过度思考,不断重复检查自己的答案,表现出一种"强迫症"般的行为模式。

更有趣的是,当面对非推理任务时,比如写一封辞职邮件,两种模型的差异更加明显。强化学习模型能够简洁明了地完成任务,只有14个词汇发生变化,都是与任务直接相关的词汇如"write"、"formally"等。而监督学习模型却表现出了"思维惯性",试图对一个简单的写作任务进行复杂的推理分析,结果导致158个词汇发生变化,产生了大量无关的推理性词汇,反而影响了任务完成的效果。

这种现象就像一个习惯了复杂数学证明的学生,在被要求写一篇简单的作文时,仍然试图用数学公式的严谨性来组织语言,结果显得过于繁琐和不自然。

五、训练策略的重新思考

这项研究的发现对AI模型的训练策略提出了重要启示。传统的监督学习方法虽然能够快速提升模型在特定任务上的表现,但可能以牺牲通用能力为代价。这就像让一个全能运动员专门训练某一项运动,虽然在该项目上成绩突出,但其他运动能力可能会退化。

强化学习方法虽然训练过程更加复杂,需要更多的计算资源和时间,但能够在提升特定能力的同时保持模型的通用性。这种方法更像是让运动员在保持全面发展的基础上,重点提升某项技能。

研究团队还发现,模型的大小也会影响这种转移能力。较大的模型通常表现出更好的稳定性和泛化能力,这可能是因为更大的模型有足够的"容量"来同时存储不同类型的知识,而不会出现严重的相互干扰。

此外,不同的模型架构也会影响转移能力的表现。比如,Llama系列模型在某些情况下表现出比Qwen系列更强的稳定性,这提示我们模型的底层设计对最终性能也有重要影响。

六、对AI发展的深远影响

这项研究的意义远不止于学术层面的发现,它对整个AI行业的发展方向都有重要启示。当前,许多AI公司都在竞相开发在特定任务上表现优异的模型,比如专门的数学解题模型、代码生成模型或翻译模型。但这项研究提醒我们,过度的专业化可能会带来意想不到的副作用。

对于普通用户而言,我们更希望拥有一个全能的AI助手,而不是需要为不同任务切换不同模型的复杂系统。一个真正有用的AI助手应该能够在擅长某个领域的同时,保持在其他方面的基本能力。

这项研究也为AI安全研究提供了新的视角。如果一个模型在特定训练后出现了能力退化,这可能会在实际应用中带来不可预见的风险。比如,一个专门训练来处理技术问题的AI助手,如果在基本的人际交往理解上能力下降,可能会在客户服务场景中产生问题。

从技术发展的角度来看,这项研究强调了训练方法创新的重要性。单纯追求某个基准测试上的高分数是不够的,我们需要更加关注模型的综合能力和稳定性。强化学习等更加精细的训练方法,虽然实施起来更加复杂,但从长远来看可能是更好的选择。

研究团队开发的UniReason模型为这种平衡提供了一个很好的范例。这个模型仅使用47000个数学样本进行训练,就在保持通用能力的同时实现了优异的数学推理性能。这证明了通过合适的训练策略,我们确实可以在专业化和通用性之间找到平衡点。

说到底,这项研究告诉我们一个简单而深刻的道理:在AI的世界里,就像在人类教育中一样,训练方法往往比训练数据的数量更加重要。一个好的训练策略能够让模型在掌握新技能的同时,保持原有的知识和能力,而不是简单地用新知识覆盖旧知识。

这种发现对每个关心AI发展的人都有意义。当我们在选择和使用AI工具时,我们应该更加关注它们的综合能力,而不仅仅是在某个特定任务上的表现。同时,这项研究也提醒AI开发者们,在追求性能突破的同时,不要忽视了模型的整体平衡性和实用性。

未来的AI发展可能会更加注重这种平衡。我们期待看到更多像强化学习这样的训练方法被开发出来,帮助AI模型在保持通用性的同时实现专业化。这样的AI系统才能真正成为人类的得力助手,在各种复杂的现实场景中发挥作用。

有兴趣深入了解这项研究细节的读者,可以通过arXiv平台访问完整论文,论文编号为2507.00432v1。研究团队还在GitHub和Hugging Face平台提供了相关的代码和模型,为后续研究提供了宝贵的资源。

Q&A

Q1:什么是"转移能力"?为什么它对AI模型很重要? A:转移能力指AI模型将在一个领域学到的技能应用到其他领域的能力。比如一个数学训练的模型能否在对话、写作等任务上保持良好表现。这很重要,因为实际应用中我们需要全能的AI助手,而不是只擅长单一任务的专门模型。

Q2:强化学习和监督学习训练AI模型有什么区别? A:监督学习像让学生背标准答案,通过模仿正确的解题过程来学习;强化学习像让学生自己探索,只在最后告诉对错,让模型自己找到解决方案。研究发现强化学习能更好地保持模型的综合能力。

Q3:这项研究对普通用户使用AI有什么影响? A:这提醒我们在选择AI工具时,不应只看它在某个任务上的表现分数,还要关注综合能力。一个在数学上得高分但在日常对话中表现差的AI,实用价值可能不如一个各方面都比较均衡的模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

721分(满分800分),“山西挖眼案”受害男孩成为全国同专业第一名的双学位大学生

极目新闻
2026-06-23 21:32:14
台湾回归终极方案:土地回归中国,人员自由往来,两岸统一新路径

台湾回归终极方案:土地回归中国,人员自由往来,两岸统一新路径

不甜的李子
2026-06-26 04:31:54
霉霉黑银战袍炸场!夜袭未婚夫派对闪婚戒抢镜

霉霉黑银战袍炸场!夜袭未婚夫派对闪婚戒抢镜

浅遇时光
2026-06-25 00:24:41
山海关外的比基尼远征

山海关外的比基尼远征

中国新闻周刊
2026-06-25 11:51:54
消失的150万契丹人找到了?DNA比对结果一出,原来就在我们身边

消失的150万契丹人找到了?DNA比对结果一出,原来就在我们身边

马蹄烫嘴说美食
2026-06-24 21:36:53
原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

原来洗钱这件事一直都贴近生活!网友:手段变化多端,长见识了

另子维爱读史
2026-05-27 07:52:25
宝妈考编第一被作废后续:官方回应戳破谎言,网友一致表示不同情

宝妈考编第一被作废后续:官方回应戳破谎言,网友一致表示不同情

星娱叨叨社
2026-06-22 18:34:58
知名港星陈敏儿追悼会曝光,长子掩面痛哭,幼子说她已了无遗憾!

知名港星陈敏儿追悼会曝光,长子掩面痛哭,幼子说她已了无遗憾!

草莓解说体育
2026-06-26 03:10:51
换一个轮胎2500块!小米车主:真心碎了,当时干啥要买20寸的呀,也不知道换一下这么贵啊!网友:电车省油不省钱啊

换一个轮胎2500块!小米车主:真心碎了,当时干啥要买20寸的呀,也不知道换一下这么贵啊!网友:电车省油不省钱啊

大白聊IT
2026-06-23 18:14:46
二战士兵怎么解决生理需求的?德国最好笑,美国最实用

二战士兵怎么解决生理需求的?德国最好笑,美国最实用

月光作笺a
2026-06-02 00:10:43
哈佛研究发现:人生回报率最高的一件事,培养一个输出型爱好

哈佛研究发现:人生回报率最高的一件事,培养一个输出型爱好

心理观察局
2026-06-24 07:49:11
分数线公布,湖北高考600分及以上26883人

分数线公布,湖北高考600分及以上26883人

极目新闻
2026-06-25 15:46:43
曾医生还是离开了湖南某医院

曾医生还是离开了湖南某医院

大张的自留地
2026-06-25 13:41:06
莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

音乐时光的娱乐
2026-06-25 12:13:37
目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

犀利强哥
2026-06-25 02:13:25
深圳跌幅最大的片区

深圳跌幅最大的片区

说故事的阿袭
2026-06-26 00:17:53
金正恩宣布消息,美日集体沉默,韩专家:若开战,朝鲜能帮中俄忙

金正恩宣布消息,美日集体沉默,韩专家:若开战,朝鲜能帮中俄忙

谛听骨语本尊
2026-06-25 14:35:27
武统、和统都没希望?台岛专家曾言:大陆已经走上“第3条路”!

武统、和统都没希望?台岛专家曾言:大陆已经走上“第3条路”!

起喜电影
2026-06-26 03:28:33
受不了,这么蠢的国产剧,竟然收视第一!

受不了,这么蠢的国产剧,竟然收视第一!

独立鱼
2026-06-15 21:08:03
曼联又当冤大头!砸 1 亿争抢世界杯水货,厄瓜多尔一战彻底露馅

曼联又当冤大头!砸 1 亿争抢世界杯水货,厄瓜多尔一战彻底露馅

澜归序
2026-06-26 06:56:12
2026-06-26 08:36:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19621文章数 49712关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

上海男生带气胸引流管坐120高考 裸分618分有望上清华

头条要闻

上海男生带气胸引流管坐120高考 裸分618分有望上清华

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

艺术
手机
房产
旅游
公开课

艺术要闻

税务局大楼能是这样?5个立方体扭40度,高171米!

手机要闻

vivo X Fold6参数全公布,就差价格了

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

旅游要闻

新疆特克斯:美丽草原引客来

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版