加州大学圣地亚哥分校：AI推理能力跨领域训练的突破性进展|数学|算法|科学

加州大学圣地亚哥分校：AI推理能力跨领域训练的突破性进展

2025-06-25 21:40:06　来源: 至顶科技

北京举报

分享至

这项由加州大学圣地亚哥分校胡志廷教授与Mohamed bin Zayed人工智能大学、卡内基梅隆大学、普渡大学等多家顶尖学府合作完成的研究，发表于2025年6月的国际机器学习会议（arXiv:2506.14965v1）。这个庞大的研究团队包括来自各大学的21位顶尖学者，有兴趣深入了解的读者可以通过GitHub仓库（https://github.com/LLM360/Reasoning360）获取完整的研究数据、模型和代码。

当我们第一次看到ChatGPT这样的AI模型时，很多人都会好奇：这些机器到底是真的在"思考"，还是只是在复述它们之前学过的内容？这个问题其实比我们想象的更复杂。现在，一个由多所顶尖大学组成的研究团队决定深入挖掘这个问题的答案，他们想知道当我们用奖励和惩罚来训练AI模型时（就像训练宠物一样），这些模型到底是学会了新的思考技能，还是只是变得更善于展示它们原本就会的东西。

为了回答这个问题，研究团队创建了一个名为GURU的数据集。如果把AI训练比作培养一个全能学霸，那么GURU就像是一套包含六个不同学科的超级教材：数学、编程、科学、逻辑推理、模拟仿真和表格分析。每个学科都精心准备了上万道练习题，总共包含92000个经过精心筛选的题目。

研究团队发现了一个特别有趣的现象，就像发现了学习的秘密一样。当他们让AI模型学习数学题时，这个模型居然在编程和科学方面也变得更好了，即使它没有专门练习这些科目。这就好比一个学生专门练习钢琴，结果发现自己弹吉他的能力也提升了。但是，当涉及到逻辑推理、模拟和表格分析这些相对陌生的领域时，AI模型就必须专门练习才能取得进步，就像学习一门全新的外语一样。

这个发现揭示了AI学习的一个重要特点。那些在互联网上有大量资料的学科（比如数学、编程、科学），AI模型在预训练阶段就已经接触过很多相关内容。当我们用强化学习来训练它们时，实际上是在帮助它们更好地激活和运用这些已有的知识，就像帮助一个有音乐天赋的人找到正确的演奏方式。相反，那些在训练数据中相对稀少的领域，AI模型需要通过强化学习真正学习新的技能。

为了验证这个理论，研究团队做了一个巧妙的实验。他们让AI模型在一个领域接受训练，然后测试它在其他领域的表现。结果发现，当模型学习数学、编程或科学时，它在其他熟悉领域的表现也会提升。但是如果让它学习逻辑推理，它在数学方面并不会有明显改进。这就像一个擅长古典音乐的钢琴家学习爵士乐时，可能很快就能掌握，因为两者有共同的音乐基础。但是让同一个钢琴家去学习绘画，就需要从零开始掌握全新的技能体系。

研究过程中，团队还观察到了一些其他有趣的现象。他们发现AI模型在强化学习过程中的"回答长度"变化很有意思。在某些领域，模型学会了给出更详细的回答，而在另一些领域，它们学会了更加简洁精确的表达。这就像不同的学科需要不同的表达方式：写数学证明需要严密简洁，而解释科学现象可能需要更多的描述和举例。

特别值得注意的是，当研究团队专门挑选更难的题目来训练AI模型时，模型在本学科的表现确实提升了，但是它在其他相对简单的跨领域任务上反而表现下降了。这个现象提醒我们，AI训练需要平衡，不能一味追求某个领域的极致表现而忽视了整体能力的均衡发展。就像一个运动员如果只练举重而忽视柔韧性训练，可能在专项比赛中表现出色，但在需要全面身体素质的项目中就会受限。

基于这些发现，研究团队开发了两个新的AI模型：GURU-7B和GURU-32B。这两个模型在17个不同的推理任务中都表现出色，比之前的最好模型分别提升了7.9%和6.7%。更重要的是，这些模型展现出了良好的平衡性，不像之前那些只擅长某个特定领域的AI模型。

研究团队还深入分析了一个叫做"Pass@k"的指标，这个指标用来测量AI模型的"推理边界"。简单来说，就是如果让AI模型对同一个问题回答很多次，它最终能答对的概率是多少。之前有研究认为强化学习并不能扩展AI的推理边界，但这个研究发现情况比想象的复杂。对于那些AI在预训练阶段接触较少的任务（比如复杂的逻辑谜题），强化学习确实能够扩展模型的推理边界。而对于那些已经很熟悉的任务，强化学习主要是提高了答对的概率，而不是发现全新的解题方法。

在具体的实验设计上，研究团队展现了严谨的科学态度。他们不是简单地把各种类型的题目混在一起，而是为每个领域设计了专门的评估方法。数学题需要精确的数值匹配，编程题需要代码能够正确运行，科学题则使用专门的AI验证器来判断答案的正确性。这种针对性的评估方法确保了实验结果的可靠性。

对于逻辑推理部分，研究团队特别用心。他们不仅收集了现有的抽象推理任务，还自己创造了三种新类型的逻辑谜题：斑马谜题、排序谜题和图搜索谜题。这些谜题需要AI模型进行多步推理，就像解决复杂的推理游戏一样。结果显示，这些相对"陌生"的任务确实需要AI模型学习新的推理策略，而不是简单地套用已有的知识。

在模拟和表格分析方面，研究也揭示了有趣的发现。模拟任务要求AI模型预测代码的执行结果，这需要一种特殊的"心理模拟"能力。表格分析则要求模型理解复杂的数据结构和层次关系。这两类任务在传统的AI训练中相对较少，因此成为了测试AI是否能学习新技能的好例子。

通过对比不同规模的模型（7B参数和32B参数），研究团队发现更大的模型更容易从跨领域训练中受益。这可能是因为更大的模型有更强的知识整合能力，能够更好地在不同领域之间建立联系。就像一个知识面更广的人更容易理解不同学科之间的共通之处一样。

整个研究还涉及到AI训练过程中的一些技术细节。研究团队使用了一种叫做GRPO的强化学习算法，这种算法能够有效地利用奖励信号来改进模型的表现。训练过程需要大量的计算资源：7B模型需要3天时间在160个GPU上训练，32B模型需要同样的时间和资源。这种大规模的计算投入体现了现代AI研究的资源密集特点。

在数据质量控制方面，研究团队采用了多层筛选机制。他们首先去除重复和低质量的样本，然后使用强弱两个模型来评估题目难度，最后只保留那些既不太简单也不太困难的题目。这个过程就像精心挑选食材一样，确保每一道题目都能为AI的学习提供有效的信号。

研究的影响不仅限于学术界。这些发现对AI产品的开发也有重要指导意义。它告诉我们，要开发真正通用的AI系统，不能只专注于某个领域的优化，而需要在多个领域之间找到平衡。同时，对于那些相对陌生的应用领域，需要专门的训练数据和方法。

从更宏观的角度看，这项研究揭示了AI学习与人类学习的相似之处。人类在学习新技能时，也会受到已有知识背景的影响。有些技能之间存在正向迁移，而有些则需要独立学习。AI的这种学习模式反映了知识本身的结构特点，以及不同领域之间的内在联系。

研究团队的开源精神也值得称赞。他们不仅公开了研究论文，还释放了完整的数据集、训练代码和模型权重。这种开放态度有助于整个AI研究社区的进步，让更多研究者能够在这个基础上继续探索。

说到底，这项研究回答了一个关于AI本质的重要问题：强化学习到底是在激发AI的潜能，还是在教给它新的技能？答案是两者都有，关键在于具体的应用领域和AI的知识背景。这个发现不仅深化了我们对AI学习机制的理解，也为未来开发更加智能、更加通用的AI系统指明了方向。对于普通人来说，这意味着未来的AI助手可能会更加全面，不再是只会某项技能的专家，而是能够在多个领域都提供帮助的全能伙伴。研究团队通过GitHub开源了所有资源，感兴趣的开发者和研究者可以进一步探索这个激动人心的领域。

Q&A

Q1：GURU数据集是什么？它有什么特殊之处？ A：GURU是研究团队创建的多领域AI推理训练数据集，包含92000个涵盖数学、编程、科学、逻辑、模拟和表格分析六个领域的题目。它的特殊之处在于每个领域都有专门的奖励机制和难度控制，是首个专门为跨领域推理研究设计的大规模数据集。

Q2：强化学习到底是让AI学新技能还是激发旧知识？ A：研究发现两种情况都存在。对于AI在预训练中接触较多的领域（如数学、编程），强化学习主要是激发已有知识；对于接触较少的领域（如逻辑推理、模拟），强化学习确实在教授新技能。这取决于AI的知识背景和具体领域。

Q3：普通人能使用GURU训练的AI模型吗？ A：研究团队已经通过GitHub（https://github.com/LLM360/Reasoning360）开源了所有数据、模型和代码。虽然普通用户直接使用需要一定技术基础，但这些成果将促进更智能、更全面的AI产品开发，最终会惠及所有用户。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.