网易首页 > 网易号 > 正文 申请入驻

加州大学圣地亚哥分校:AI推理能力跨领域训练的突破性进展

0
分享至

这项由加州大学圣地亚哥分校胡志廷教授与Mohamed bin Zayed人工智能大学、卡内基梅隆大学、普渡大学等多家顶尖学府合作完成的研究,发表于2025年6月的国际机器学习会议(arXiv:2506.14965v1)。这个庞大的研究团队包括来自各大学的21位顶尖学者,有兴趣深入了解的读者可以通过GitHub仓库(https://github.com/LLM360/Reasoning360)获取完整的研究数据、模型和代码。

当我们第一次看到ChatGPT这样的AI模型时,很多人都会好奇:这些机器到底是真的在"思考",还是只是在复述它们之前学过的内容?这个问题其实比我们想象的更复杂。现在,一个由多所顶尖大学组成的研究团队决定深入挖掘这个问题的答案,他们想知道当我们用奖励和惩罚来训练AI模型时(就像训练宠物一样),这些模型到底是学会了新的思考技能,还是只是变得更善于展示它们原本就会的东西。

为了回答这个问题,研究团队创建了一个名为GURU的数据集。如果把AI训练比作培养一个全能学霸,那么GURU就像是一套包含六个不同学科的超级教材:数学、编程、科学、逻辑推理、模拟仿真和表格分析。每个学科都精心准备了上万道练习题,总共包含92000个经过精心筛选的题目。

研究团队发现了一个特别有趣的现象,就像发现了学习的秘密一样。当他们让AI模型学习数学题时,这个模型居然在编程和科学方面也变得更好了,即使它没有专门练习这些科目。这就好比一个学生专门练习钢琴,结果发现自己弹吉他的能力也提升了。但是,当涉及到逻辑推理、模拟和表格分析这些相对陌生的领域时,AI模型就必须专门练习才能取得进步,就像学习一门全新的外语一样。

这个发现揭示了AI学习的一个重要特点。那些在互联网上有大量资料的学科(比如数学、编程、科学),AI模型在预训练阶段就已经接触过很多相关内容。当我们用强化学习来训练它们时,实际上是在帮助它们更好地激活和运用这些已有的知识,就像帮助一个有音乐天赋的人找到正确的演奏方式。相反,那些在训练数据中相对稀少的领域,AI模型需要通过强化学习真正学习新的技能。

为了验证这个理论,研究团队做了一个巧妙的实验。他们让AI模型在一个领域接受训练,然后测试它在其他领域的表现。结果发现,当模型学习数学、编程或科学时,它在其他熟悉领域的表现也会提升。但是如果让它学习逻辑推理,它在数学方面并不会有明显改进。这就像一个擅长古典音乐的钢琴家学习爵士乐时,可能很快就能掌握,因为两者有共同的音乐基础。但是让同一个钢琴家去学习绘画,就需要从零开始掌握全新的技能体系。

研究过程中,团队还观察到了一些其他有趣的现象。他们发现AI模型在强化学习过程中的"回答长度"变化很有意思。在某些领域,模型学会了给出更详细的回答,而在另一些领域,它们学会了更加简洁精确的表达。这就像不同的学科需要不同的表达方式:写数学证明需要严密简洁,而解释科学现象可能需要更多的描述和举例。

特别值得注意的是,当研究团队专门挑选更难的题目来训练AI模型时,模型在本学科的表现确实提升了,但是它在其他相对简单的跨领域任务上反而表现下降了。这个现象提醒我们,AI训练需要平衡,不能一味追求某个领域的极致表现而忽视了整体能力的均衡发展。就像一个运动员如果只练举重而忽视柔韧性训练,可能在专项比赛中表现出色,但在需要全面身体素质的项目中就会受限。

基于这些发现,研究团队开发了两个新的AI模型:GURU-7B和GURU-32B。这两个模型在17个不同的推理任务中都表现出色,比之前的最好模型分别提升了7.9%和6.7%。更重要的是,这些模型展现出了良好的平衡性,不像之前那些只擅长某个特定领域的AI模型。

研究团队还深入分析了一个叫做"Pass@k"的指标,这个指标用来测量AI模型的"推理边界"。简单来说,就是如果让AI模型对同一个问题回答很多次,它最终能答对的概率是多少。之前有研究认为强化学习并不能扩展AI的推理边界,但这个研究发现情况比想象的复杂。对于那些AI在预训练阶段接触较少的任务(比如复杂的逻辑谜题),强化学习确实能够扩展模型的推理边界。而对于那些已经很熟悉的任务,强化学习主要是提高了答对的概率,而不是发现全新的解题方法。

在具体的实验设计上,研究团队展现了严谨的科学态度。他们不是简单地把各种类型的题目混在一起,而是为每个领域设计了专门的评估方法。数学题需要精确的数值匹配,编程题需要代码能够正确运行,科学题则使用专门的AI验证器来判断答案的正确性。这种针对性的评估方法确保了实验结果的可靠性。

对于逻辑推理部分,研究团队特别用心。他们不仅收集了现有的抽象推理任务,还自己创造了三种新类型的逻辑谜题:斑马谜题、排序谜题和图搜索谜题。这些谜题需要AI模型进行多步推理,就像解决复杂的推理游戏一样。结果显示,这些相对"陌生"的任务确实需要AI模型学习新的推理策略,而不是简单地套用已有的知识。

在模拟和表格分析方面,研究也揭示了有趣的发现。模拟任务要求AI模型预测代码的执行结果,这需要一种特殊的"心理模拟"能力。表格分析则要求模型理解复杂的数据结构和层次关系。这两类任务在传统的AI训练中相对较少,因此成为了测试AI是否能学习新技能的好例子。

通过对比不同规模的模型(7B参数和32B参数),研究团队发现更大的模型更容易从跨领域训练中受益。这可能是因为更大的模型有更强的知识整合能力,能够更好地在不同领域之间建立联系。就像一个知识面更广的人更容易理解不同学科之间的共通之处一样。

整个研究还涉及到AI训练过程中的一些技术细节。研究团队使用了一种叫做GRPO的强化学习算法,这种算法能够有效地利用奖励信号来改进模型的表现。训练过程需要大量的计算资源:7B模型需要3天时间在160个GPU上训练,32B模型需要同样的时间和资源。这种大规模的计算投入体现了现代AI研究的资源密集特点。

在数据质量控制方面,研究团队采用了多层筛选机制。他们首先去除重复和低质量的样本,然后使用强弱两个模型来评估题目难度,最后只保留那些既不太简单也不太困难的题目。这个过程就像精心挑选食材一样,确保每一道题目都能为AI的学习提供有效的信号。

研究的影响不仅限于学术界。这些发现对AI产品的开发也有重要指导意义。它告诉我们,要开发真正通用的AI系统,不能只专注于某个领域的优化,而需要在多个领域之间找到平衡。同时,对于那些相对陌生的应用领域,需要专门的训练数据和方法。

从更宏观的角度看,这项研究揭示了AI学习与人类学习的相似之处。人类在学习新技能时,也会受到已有知识背景的影响。有些技能之间存在正向迁移,而有些则需要独立学习。AI的这种学习模式反映了知识本身的结构特点,以及不同领域之间的内在联系。

研究团队的开源精神也值得称赞。他们不仅公开了研究论文,还释放了完整的数据集、训练代码和模型权重。这种开放态度有助于整个AI研究社区的进步,让更多研究者能够在这个基础上继续探索。

说到底,这项研究回答了一个关于AI本质的重要问题:强化学习到底是在激发AI的潜能,还是在教给它新的技能?答案是两者都有,关键在于具体的应用领域和AI的知识背景。这个发现不仅深化了我们对AI学习机制的理解,也为未来开发更加智能、更加通用的AI系统指明了方向。对于普通人来说,这意味着未来的AI助手可能会更加全面,不再是只会某项技能的专家,而是能够在多个领域都提供帮助的全能伙伴。研究团队通过GitHub开源了所有资源,感兴趣的开发者和研究者可以进一步探索这个激动人心的领域。

Q&A

Q1:GURU数据集是什么?它有什么特殊之处? A:GURU是研究团队创建的多领域AI推理训练数据集,包含92000个涵盖数学、编程、科学、逻辑、模拟和表格分析六个领域的题目。它的特殊之处在于每个领域都有专门的奖励机制和难度控制,是首个专门为跨领域推理研究设计的大规模数据集。

Q2:强化学习到底是让AI学新技能还是激发旧知识? A:研究发现两种情况都存在。对于AI在预训练中接触较多的领域(如数学、编程),强化学习主要是激发已有知识;对于接触较少的领域(如逻辑推理、模拟),强化学习确实在教授新技能。这取决于AI的知识背景和具体领域。

Q3:普通人能使用GURU训练的AI模型吗? A:研究团队已经通过GitHub(https://github.com/LLM360/Reasoning360)开源了所有数据、模型和代码。虽然普通用户直接使用需要一定技术基础,但这些成果将促进更智能、更全面的AI产品开发,最终会惠及所有用户。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Shams:詹姆斯愿底薪加盟争冠队 详解8大潜在下家勇骑热领衔

Shams:詹姆斯愿底薪加盟争冠队 详解8大潜在下家勇骑热领衔

醉卧浮生
2026-07-02 09:33:18
香港女星梁珊离世,知名制作人发文悼念:一路好走

香港女星梁珊离世,知名制作人发文悼念:一路好走

TVB剧评社
2026-07-02 14:50:20
苹果新品官宣:7月4日,正式开售

苹果新品官宣:7月4日,正式开售

科技堡垒
2026-07-02 10:32:36
西安赛格回应“商户负责人坠亡”:5月25日其有轻生举动被及时救回,违约金1154.6万元有书面确认,悲剧发生前一天双方仍在洽谈

西安赛格回应“商户负责人坠亡”:5月25日其有轻生举动被及时救回,违约金1154.6万元有书面确认,悲剧发生前一天双方仍在洽谈

每日经济新闻
2026-07-02 21:21:08
加息,突变!美国重磅数据出炉!美股、黄金、比特币全线拉升

加息,突变!美国重磅数据出炉!美股、黄金、比特币全线拉升

证券时报
2026-07-02 21:53:03
突然崩了!一大群网友已炸锅:不会办公了……

突然崩了!一大群网友已炸锅:不会办公了……

极目新闻
2026-07-02 17:59:52
赔偿1030万元!茉莉奶白被LV告了,成为第一个被奢侈品牌告的奶茶,很多上海人喝过……创始人表示将上诉

赔偿1030万元!茉莉奶白被LV告了,成为第一个被奢侈品牌告的奶茶,很多上海人喝过……创始人表示将上诉

扬子晚报
2026-07-02 21:06:30
成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

成都一女子不洗手抱孙子,儿媳怒斥不卫生,儿子一拳打面中,母亲扬言要儿子坐牢,儿子却说:她活该!6年后现状曝光...

背包旅行
2026-07-02 14:33:11
“一个月600块你要饿死他?”大学男生吃饭被偷拍,看的人心疼!

“一个月600块你要饿死他?”大学男生吃饭被偷拍,看的人心疼!

林林先生
2026-07-01 12:30:03
墨西哥球迷狂欢震动地球:地震仪捕捉到强烈信号 狂欢导致三人死亡

墨西哥球迷狂欢震动地球:地震仪捕捉到强烈信号 狂欢导致三人死亡

红星新闻
2026-07-02 17:59:23
2026上半年电影总票房仅173亿元 暴跌超40%

2026上半年电影总票房仅173亿元 暴跌超40%

快科技
2026-06-30 21:49:05
3-0横扫!赢球不可怕,可怕的是孙颖莎赛后这番话,低调且自信!

3-0横扫!赢球不可怕,可怕的是孙颖莎赛后这番话,低调且自信!

田先生篮球
2026-07-02 11:58:37
泰山被曝用135公里刀片刺绳隔离网围山,泰山景区最新回应:接受批评,与正常游览路线不交叉不重叠

泰山被曝用135公里刀片刺绳隔离网围山,泰山景区最新回应:接受批评,与正常游览路线不交叉不重叠

大象新闻
2026-07-02 09:55:29
西安赛格坠楼热搜刷屏:我看到谋生的严总,走上绝路时的无助

西安赛格坠楼热搜刷屏:我看到谋生的严总,走上绝路时的无助

李晚书
2026-07-02 18:44:26
王兴认错也救不了美团,2.2万亿市值灰飞烟灭

王兴认错也救不了美团,2.2万亿市值灰飞烟灭

流苏晚晴
2026-07-02 20:05:05
小红书上市前夜爆雷

小红书上市前夜爆雷

不正确
2026-07-02 18:51:26
韩红,你要小心了

韩红,你要小心了

燕梳楼频道
2026-07-02 14:53:59
上海酒吧中国球迷穿日本球衣狂欢,那边78%的日本年轻人支持修宪

上海酒吧中国球迷穿日本球衣狂欢,那边78%的日本年轻人支持修宪

行者殷涛
2026-07-02 15:49:39
突发!以色列宣布:打死伊斯梅尔·马斯里

突发!以色列宣布:打死伊斯梅尔·马斯里

每日经济新闻
2026-06-30 11:36:05
仅仅十年时间!从世界第85飙升世界第7,他们才是国足学习的对象

仅仅十年时间!从世界第85飙升世界第7,他们才是国足学习的对象

大卫的篮球故事
2026-07-02 19:44:05
2026-07-03 02:16:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19821文章数 49713关注度
往期回顾 全部

科技要闻

马斯克不承认,但SpaceX就该造AI手机

头条要闻

商户在西安赛格商场坠亡 好友:他曾变卖门店发工资

头条要闻

商户在西安赛格商场坠亡 好友:他曾变卖门店发工资

体育要闻

韩国人,为什么恨透了洪明甫?

娱乐要闻

众星祝福祖国,曾沛慈原形毕露?

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

有纯电有增程 还有二代VLA支持 小鹏MONA L03预售价14.38万起

态度原创

亲子
本地
家居
数码
公开课

亲子要闻

从新生儿到学龄期全覆盖:儿童被子成长型选型的策略与实用方法

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

家居要闻

传奇筑 日常诗

数码要闻

卓威同步发布XQ2766X显示器:27" QHD 360Hz TN

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版