网易首页 > 网易号 > 正文 申请入驻

MIT带来强化学习新突破:让AI像人类一样探索多样解题策略

0
分享至


这项由麻省理工学院、新加坡国立大学、耶鲁大学和南洋理工大学共同完成的研究发表于2025年1月,论文编号为arXiv:2601.08763v2。研究团队提出了一种名为"独特性感知强化学习"的全新训练方法,专门用来解决大型语言模型在解决复杂问题时经常遇到的"思维僵化"问题。

想象一下,如果你让一个很聪明的学生反复练习数学题,刚开始他可能会尝试各种不同的解法,但随着练习的进行,他逐渐发现某种方法最容易得分,于是就只用这一种方法了。虽然这样做能保证基本的正确率,但当需要他提供多种解题思路时,他就显得束手无策了。这正是目前人工智能大模型面临的核心问题:在强化学习训练过程中,模型会逐渐收敛到少数几种"安全"的解题模式,虽然单次尝试的成功率可能很高,但缺乏解题策略的多样性。

这种现象在学术界被称为"探索崩溃",就像一个原本充满创造力的艺术家,因为某种画风特别受欢迎,就放弃了其他所有的创作风格。对于需要多次尝试来解决难题的场景来说,这种单一化的思维模式显然是不够的。

研究团队发现了问题的根源:传统的训练方法主要关注单个词汇或局部行为的多样性,但这种表面的多样性并不能真正代表解题策略的丰富性。两个看似不同的解答过程,可能使用了完全相同的核心思路,只是在表述方式上略有差异。就好比同一道二次方程,有人写成详细的逐步推导,有人直接给出简化结果,虽然表面形式不同,但本质上采用的都是二次公式法,而不是因式分解这种截然不同的策略。

为了解决这个问题,研究团队开发了一套巧妙的解决方案。他们的核心想法是:不应该仅仅奖励正确答案,而应该特别奖励那些既正确又罕见的解题策略。这就像在一个创意比赛中,不仅要看作品是否优秀,更要看是否具有独创性。

具体来说,他们的方法包含了一个智能的"策略识别器"。当AI模型为同一个问题生成多个解答时,这个识别器会分析每个解答的核心策略,将使用相同高层思路的解答归为一类,而忽略那些仅仅是表面差异的变化。然后,系统会给使用稀有策略的正确解答更高的奖励,给使用常见策略的解答较低的奖励。这样一来,模型就被鼓励去探索和保持多样化的解题方法。

这种方法的巧妙之处在于,它在保证解答正确性的同时,还激励了策略的创新性。就像一个好的老师,不仅会表扬做对题目的学生,更会特别鼓励那些想出独特解法的学生,这样既保证了学习效果,又培养了创造性思维。

研究团队在数学、物理和医学三个不同领域进行了大规模实验验证。在数学方面,他们使用了包括美国数学邀请赛(AIME)和人类最后考试(HLE)等高难度数学竞赛题目。在物理领域,他们测试了奥林匹克物理竞赛的问题。在医学领域,则使用了复杂的临床案例推理题目。

实验结果证明了这种方法的有效性。当需要模型提供多个解答尝试时(比如提供64个、128个甚至256个解答),使用新方法训练的模型表现出了显著优于传统方法的成功率。更重要的是,随着尝试次数的增加,这种优势变得更加明显。这表明新方法确实让AI保持了解题策略的多样性,而不是简单地重复同一种思路。

为了更深入地验证效果,研究团队还进行了一项有趣的人工评估实验。他们挑选了20个极具挑战性的数学竞赛题目,收集了每道题的多种人类专家解法,然后比较不同训练方法的AI模型能够覆盖多少种人类策略。结果显示,使用传统方法的模型往往只能掌握最常见的一两种解法,而使用新方法的模型能够学会更多样的策略,包括一些需要深刻洞察的高级方法。

以一道几何题为例,传统模型可能只会使用勾股定理和余弦定理这些基础方法,而新方法训练的模型还能掌握对称点相似性、三切线引理等更加精巧的几何技巧。这种差异在组合数学问题中表现得更为明显,新方法让AI学会了二进制约束表示、内部线段分类分析、轨迹流观点等多种不同的思考框架。

有趣的是,研究团队还发现,这种训练方法不仅提高了解题的多样性,还在一定程度上保持了模型的"好奇心"。通过监测训练过程中模型行为的随机性程度,他们发现传统方法会让模型变得越来越确定化和保守,而新方法则让模型在整个训练过程中保持了较高的探索意愿。

这项研究的意义不仅限于技术层面的改进。在实际应用中,当人们遇到困难问题时,往往需要AI能够提供多种不同的思路和方案,而不是简单地重复同一种方法。无论是科学研究、工程设计还是创意写作,多样化的思维方式都是至关重要的。

当然,这种方法也面临一些挑战。最主要的是,它需要一个智能的策略识别系统来判断不同解答之间的真正差异,这本身就是一个复杂的任务。在某些情况下,这个识别系统可能会出现误判,将本质相同的策略误认为不同,或者将真正不同的策略归为一类。

另外,这种方法主要关注单个问题内部的策略多样性,还没有考虑跨问题的长期创新能力。未来的研究可能需要进一步扩展这个框架,使AI能够在更广泛的知识领域内保持持续的创造性。

从更广阔的视角来看,这项研究代表了人工智能训练方法的一个重要转变:从单纯追求准确率向同时追求准确性和创造性的方向发展。这种思路不仅适用于数学和科学问题,也可能在艺术创作、商业策划、教育方法等各个领域发挥重要作用。

研究团队已经将他们的代码和数据开源,供其他研究者使用和改进。这意味着更多的科研团队可以在此基础上进一步发展,推动整个领域的进步。

说到底,这项研究解决的是一个非常现实的问题:如何让AI既聪明又有创造力。在未来的人工智能时代,我们需要的不是只会标准答案的机器,而是能够提供多元化思路和创新解决方案的智能伙伴。这项研究为实现这个目标提供了一个有希望的方向。

对于普通用户来说,这意味着未来的AI助手可能会变得更加灵活和富有创意。当你向它询问一个复杂问题时,它不会只给你一种千篇一律的回答,而是能够从多个角度提供不同的见解和解决方案。这样的AI将更像一个真正的思考伙伴,而不是一个简单的信息检索工具。

有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2601.08763v2查询完整论文,其中包含了详细的算法设计、实验数据和技术实现方案。

Q&A

Q1:独特性感知强化学习和传统AI训练方法有什么不同?

A:传统方法主要关注让AI给出正确答案,而独特性感知强化学习不仅要求答案正确,还特别奖励那些使用罕见解题策略的回答。就像老师不仅要表扬做对题的学生,还要特别鼓励想出独特解法的学生。这样可以防止AI只学会一种"安全"的解题方法,而是保持多样化的思维方式。

Q2:这种新方法在哪些领域进行了测试?

A:研究团队在数学、物理和医学三个不同领域进行了大规模测试。数学方面使用了美国数学邀请赛等高难度竞赛题目,物理领域测试了奥林匹克物理竞赛问题,医学领域则使用了复杂的临床案例推理。实验结果表明,当需要多次尝试解决问题时,新方法的成功率显著高于传统方法。

Q3:普通用户什么时候能用上这种技术?

A:虽然研究团队已经开源了相关代码,但这种技术要真正应用到日常AI产品中还需要一些时间。不过,这项研究为未来开发更有创造力的AI助手指明了方向。未来的AI可能不会只给你标准答案,而是能从多个角度提供不同的见解和解决方案,成为真正的思考伙伴。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山西焦煤集团有限责任公司原副总经理杨新华被开除党籍

山西焦煤集团有限责任公司原副总经理杨新华被开除党籍

界面新闻
2026-01-29 17:02:24
国内期货开盘 沪金涨超7%

国内期货开盘 沪金涨超7%

证券时报
2026-01-29 09:23:03
德国软件巨头SAP跌幅扩大至15%

德国软件巨头SAP跌幅扩大至15%

每日经济新闻
2026-01-29 18:54:16
赵薇胃癌传闻真相大白,再迎坏消息连累李湘

赵薇胃癌传闻真相大白,再迎坏消息连累李湘

观察者海风
2026-01-26 20:24:53
刚刚,i茅台发布声明

刚刚,i茅台发布声明

中国基金报
2026-01-29 20:33:58
深夜黄金白银急速跳水,微软重挫10%,油价飙涨4%,比特币超18万人爆仓

深夜黄金白银急速跳水,微软重挫10%,油价飙涨4%,比特币超18万人爆仓

21世纪经济报道
2026-01-29 23:47:18
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
现货黄金、白银跌幅收窄至3%、3.8%

现货黄金、白银跌幅收窄至3%、3.8%

财联社
2026-01-30 00:14:07
06年我把卧铺票让给孕妇,自己站了一宿,下车前她递给我一张纸条

06年我把卧铺票让给孕妇,自己站了一宿,下车前她递给我一张纸条

温情邮局
2026-01-27 10:14:26
002231,拟终止上市!明起停牌

002231,拟终止上市!明起停牌

每日经济新闻
2026-01-29 23:29:06
黄金变现业务爆了!水贝黄金回收克价突破1100元,女子卖300克黄金变现30万!金饰克价涨破1700元,网友:还没结婚,五金能换宝马了

黄金变现业务爆了!水贝黄金回收克价突破1100元,女子卖300克黄金变现30万!金饰克价涨破1700元,网友:还没结婚,五金能换宝马了

极目新闻
2026-01-29 16:13:26
委内瑞拉军方承认代总统罗德里格斯为最高统帅

委内瑞拉军方承认代总统罗德里格斯为最高统帅

新京报
2026-01-29 07:36:01
大动作!占地220亩全国最大落户江苏宿迁,硬核参数曝光

大动作!占地220亩全国最大落户江苏宿迁,硬核参数曝光

金哥说新能源车
2026-01-29 17:24:55
拓媒:杨瀚森打出了本赛季最佳一战,他关系着开拓者未来上限

拓媒:杨瀚森打出了本赛季最佳一战,他关系着开拓者未来上限

懂球帝
2026-01-29 10:55:13
没想到竟然这么多工作需要保密的!网友:不让看非看被一枪毙了

没想到竟然这么多工作需要保密的!网友:不让看非看被一枪毙了

另子维爱读史
2025-12-08 20:58:22
20岁的拜合拉木,拿到国足奖金,扭头给他哥在伊犁付房子的首付。

20岁的拜合拉木,拿到国足奖金,扭头给他哥在伊犁付房子的首付。

南权先生
2026-01-29 15:51:59
王光辉任天津市人民检察院检察长

王光辉任天津市人民检察院检察长

澎湃新闻
2026-01-29 19:25:07
CBA积分榜最新排名出炉!广厦第1辽篮第12:山西已跌出前八?

CBA积分榜最新排名出炉!广厦第1辽篮第12:山西已跌出前八?

篮球快餐车
2026-01-30 05:39:06
这就是赤裸裸的差距!烟草公司正式员工的公积金,离谱到你不敢信

这就是赤裸裸的差距!烟草公司正式员工的公积金,离谱到你不敢信

复转这些年
2026-01-27 23:46:25
不打了!广东最大克星被曝离队,或被朱芳雨“白菜价”捡漏签下?

不打了!广东最大克星被曝离队,或被朱芳雨“白菜价”捡漏签下?

绯雨儿
2026-01-29 12:01:22
2026-01-30 06:11:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1501文章数 157关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

头条要闻

金晨被指肇事逃逸让助理顶包 律师:顶包者或被判刑

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

曝金晨涉嫌交通肇事逃逸 本人尚未回应

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

数码
本地
健康
家居
公开课

数码要闻

1999 REDMI Turbo5系列开箱测试,9000mAh大电池 一步MAX!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

家居要闻

极简轻奢 家的无限可能

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版