网易首页 > 网易号 > 正文 申请入驻

微软亚洲研究院重大发现:AI推理训练真的能让机器变聪明

0
分享至

这项由微软亚洲研究院的温旭萌、刘子涵、郑舜等研究人员主导的研究发表于2025年6月,论文标题为《具有可验证奖励的强化学习隐性激励大语言模型中的正确推理》。有兴趣深入了解的读者可以通过arXiv:2506.14245v1访问完整论文。

近年来,人工智能领域出现了一个引人注目的现象:通过"强化学习"训练的AI模型在解决数学问题时表现出色,但学界对其真正的推理能力产生了质疑。就像学生考试时,有些人真正理解了解题思路,有些人则是靠运气蒙对答案。那么,经过特殊训练的AI究竟是真正学会了推理,还是只是变得更善于"蒙答案"呢?

这个问题的核心在于一种叫做"具有可验证奖励的强化学习"(RLVR)的训练方法。这种方法就像给AI配备了一位严格的数学老师:每当AI解出一道题,老师只会告诉它最终答案对不对,但不会检查解题过程是否正确。久而久之,AI学会了找到正确答案,但人们开始怀疑——它是真正理解了数学原理,还是只是学会了一些解题技巧?

为了解答这个疑问,微软研究团队展开了一项深入调查。他们发现,传统的评估方法存在一个重大缺陷:只关注最终答案是否正确,却忽略了思维过程的质量。这就像评判一个学生的数学水平时,只看他在多次尝试中是否能蒙对答案,而不检查他的解题步骤是否合理。

研究团队发现,许多看似"聪明"的基础AI模型实际上经常使用错误的推理过程得出正确答案。就像一个学生在解方程时计算步骤全错,但最后却意外得到了正确结果。这种现象在AI世界中相当普遍,特别是那些经过大量文本训练的模型,它们具有强大的"联想"能力,能够凭借对语言模式的记忆找到答案,即使推理过程并不严谨。

为了更准确地评估AI的真实推理能力,研究团队提出了一个新的评估标准,称为"CoT-Pass@K"。这个标准不仅要求AI给出正确答案,还要求其思维过程(Chain of Thought,简称CoT)必须逻辑清晰、步骤正确。这就像数学考试中,老师不仅要看最终答案,还要检查每一个解题步骤是否合理。

研究团队还建立了一套理论框架来解释RLVR训练的工作原理。他们发现,这种训练方法确实能够激励AI产生正确的推理过程。原理很简单:如果AI的思维过程更加严谨,那么它得出正确答案的概率就会更高。在训练过程中,系统会奖励那些得出正确答案的尝试,而拥有正确推理过程的AI自然更容易获得奖励,从而形成良性循环。

这就像培养一个学生解题能力的过程。虽然老师只对最终答案进行评分,但那些真正掌握了解题方法的学生,长期来看总是比那些依赖运气的学生表现更好。因此,通过持续的练习和反馈,AI会逐渐学会使用更加可靠的推理方法。

为了验证这一理论,研究团队进行了大量实验。他们使用了一个强大的AI模型作为"评判员",专门检查其他AI的思维过程是否正确。这个评判员模型经过特殊训练,能够识别数学推理中的逻辑错误、计算错误和概念误用。

实验结果令人振奋。在传统的评估方法下,经过RLVR训练的模型似乎并没有比基础模型强多少,有时甚至表现更差。但当使用新的CoT-Pass@K标准时,训练后的模型表现出明显的优势。这说明RLVR训练确实提升了AI的推理质量,只是传统评估方法无法准确捕捉到这种提升。

研究团队特别关注了两个数学竞赛数据集:AIME 2024和AIME 2025。这些是美国中学数学竞赛的真题,难度较高且不太可能出现在AI的训练数据中,因此能够更客观地测试AI的推理能力。结果显示,经过RLVR训练的模型在这些测试中表现出了持续的优势,无论是在少量尝试还是大量尝试的情况下。

更有趣的是,研究团队还观察了训练过程中AI能力的变化。他们发现,正确推理能力的提升出现得很早,几乎从训练开始就能观察到改善。这表明RLVR训练确实在从根本上改善AI的思维模式,而不是仅仅让它记住更多解题套路。

通过分析训练数据,研究人员发现了一个有趣现象:在简单问题上,基础AI模型经常能够找到正确答案,但其推理过程往往存在缺陷。而经过RLVR训练后,AI不仅保持了找到正确答案的能力,其推理过程的质量也显著提升。这就像一个原本依赖直觉解题的学生,通过系统训练学会了规范的解题方法。

研究团队还解释了为什么在某些测试中,训练效果可能不够明显。当题目过于简单时,即使是基础模型也能轻松解决,因此训练效果不明显。当题目涉及的领域与训练数据差异较大时,训练效果也会受到限制。这提醒我们,AI的能力提升需要在合适的难度水平和相关领域内才能充分体现。

这项研究的意义远不止于学术层面。它为我们理解AI的学习机制提供了重要洞察,也为未来AI训练方法的改进指明了方向。更重要的是,它证明了AI确实可以通过适当的训练方法获得更强的推理能力,而不仅仅是记忆和模式匹配。

从实际应用角度来看,这项研究为开发更可靠的AI推理系统奠定了基础。当我们能够确信AI的推理过程是可靠的,而不仅仅是答案碰巧正确时,AI在教育、科研、工程等需要严谨逻辑的领域的应用将变得更加可靠。

研究团队也坦诚地指出了当前方法的局限性。目前他们主要依靠另一个AI模型来评判推理过程的正确性,这种方法虽然实用,但可能存在误判。此外,研究主要集中在数学推理领域,在其他类型的推理任务中的效果还需要进一步验证。

展望未来,这项研究为AI训练方法的发展开辟了新的道路。研究人员提出,未来的AI训练应该更加注重推理过程的质量,而不仅仅是最终结果的正确性。这可能需要开发更好的自动评估工具,或者设计新的训练目标来直接优化推理质量。

说到底,这项研究回答了一个关键问题:AI确实可以通过适当的训练方法学会更好的推理,而不仅仅是变得更善于找到正确答案。这为我们对AI能力的理解带来了重要转变——从关注"它能做什么"转向关注"它是如何思考的"。正如研究团队所说,真正的智能不在于能够给出正确答案,而在于能够进行可靠的推理。

这一发现对普通人意味着什么呢?随着AI推理能力的真正提升,我们可能很快就会看到在教育辅导、科学研究、工程设计等领域出现更加可靠的AI助手。这些AI不仅能给出答案,还能清晰地解释推理过程,让人类能够理解和验证其逻辑。这将大大提升人机协作的效率和可靠性。

当然,这也提醒我们在评估AI能力时要更加谨慎。仅仅看AI是否能给出正确答案是不够的,我们还需要理解它的思维过程。只有当AI的推理过程变得透明、可靠时,我们才能真正信任它在重要任务中的表现。

Q&A

Q1:什么是RLVR训练?它和传统AI训练有什么不同? A:RLVR是"具有可验证奖励的强化学习"的简称,就像给AI配备了一位只看最终答案的老师。与传统训练不同,这种方法不直接教AI如何解题,而是让AI自己尝试,然后根据答案正确与否给予奖励。研究发现,这种方法能够间接激励AI发展出更好的推理能力。

Q2:为什么传统的评估方法不能准确反映AI的推理能力? A:传统评估只看最终答案是否正确,就像只看学生考试成绩而不检查解题过程。许多AI模型能够通过记忆、联想或运气得到正确答案,但推理过程可能存在严重缺陷。这就导致我们高估了AI的真实推理能力。

Q3:CoT-Pass@K评估标准有什么特别之处? A:这个标准不仅要求AI给出正确答案,还要求其思维过程必须逻辑清晰、步骤正确。就像数学考试中,老师既要看最终答案,也要检查每个解题步骤。通过这种更严格的评估,研究人员发现经过RLVR训练的AI确实具有更强的推理能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京协和分析100名胃癌患者,惊讶发现:患胃癌的人,有7大共性

北京协和分析100名胃癌患者,惊讶发现:患胃癌的人,有7大共性

任医生聊健康
2026-06-27 08:00:30
国产AI,永远跑不出Anthropic

国产AI,永远跑不出Anthropic

深水研究
2026-06-25 19:19:33
白眼狼啊!单亲母亲辛劳置三居室,女儿一心争抢主卧,并发帖控诉

白眼狼啊!单亲母亲辛劳置三居室,女儿一心争抢主卧,并发帖控诉

火山詩话
2026-06-27 06:51:42
67岁王朔现状:一身毛病,爱吃甜食,独自定居北京,拒绝综艺商演

67岁王朔现状:一身毛病,爱吃甜食,独自定居北京,拒绝综艺商演

白面书誏
2026-06-25 18:37:27
知名网红带货翻车,助农卖茶叶被曝光是假货,获利已经超千万

知名网红带货翻车,助农卖茶叶被曝光是假货,获利已经超千万

新游戏大妹子
2026-06-26 13:06:36
网传体制内单身问题已经相当严重了,问题到底出在哪里?

网传体制内单身问题已经相当严重了,问题到底出在哪里?

慧翔百科
2026-06-26 17:29:07
拍一年赚一亿日圆白木圣菜真的有赚那么多?

拍一年赚一亿日圆白木圣菜真的有赚那么多?

孤独的独角兽影视
2026-05-21 09:35:14
据称SpaceX正筹划在美国推出面向消费者的Starlink地面蜂窝网络服务

据称SpaceX正筹划在美国推出面向消费者的Starlink地面蜂窝网络服务

cnBeta.COM
2026-06-27 12:21:04
杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

照见古今
2026-03-26 19:06:28
钱再多有什么用?董卿痛失母亲,丈夫被传失联,她一人撑起三代人

钱再多有什么用?董卿痛失母亲,丈夫被传失联,她一人撑起三代人

卷史
2026-06-28 03:32:05
她就是世界杯上走红,五官完美的雅利安(波斯)美女球迷!

她就是世界杯上走红,五官完美的雅利安(波斯)美女球迷!

吃瓜党二号头目
2026-06-26 09:09:48
波切蒂诺怒了:我们小组第一,输球怎么了

波切蒂诺怒了:我们小组第一,输球怎么了

浅遇时光
2026-06-28 00:56:20
杨紫获白玉兰视后,台下孙俪和观众的表情说明一切,宋丹丹没说错

杨紫获白玉兰视后,台下孙俪和观众的表情说明一切,宋丹丹没说错

马浵在解说
2026-06-27 18:09:55
4.7万元买断倒计时30天!特斯拉FSD全球强推订阅制,中国区沉默回应

4.7万元买断倒计时30天!特斯拉FSD全球强推订阅制,中国区沉默回应

我是一个粉刷匠2
2026-06-26 16:00:39
陈宇剑,被免职

陈宇剑,被免职

新京报
2026-06-26 21:14:02
高分学子成试验品?福耀科大风波发酵,网友:张雪峰的含金量上升

高分学子成试验品?福耀科大风波发酵,网友:张雪峰的含金量上升

火山詩话
2026-06-27 16:12:32
真主党在首都骚乱,说明黎巴嫩政府做对了:以色列并不是最大敌人

真主党在首都骚乱,说明黎巴嫩政府做对了:以色列并不是最大敌人

林子说事
2026-06-27 18:20:55
买啤酒无论价格多贵,只要酒瓶有这几个字,都是低成本工业啤酒

买啤酒无论价格多贵,只要酒瓶有这几个字,都是低成本工业啤酒

涛哥美食汇
2026-06-25 10:03:08
孙兴慜新称号诞生,韩国球迷表态:从此以后叫 “孙大骗子”

孙兴慜新称号诞生,韩国球迷表态:从此以后叫 “孙大骗子”

酷侃体坛
2026-06-27 17:42:59
林彪与部分军地领导谈话实录

林彪与部分军地领导谈话实录

新大观
2026-06-27 12:25:07
2026-06-28 06:27:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19665文章数 49712关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

塞尔维亚总统武契奇:将在数周后辞职

头条要闻

塞尔维亚总统武契奇:将在数周后辞职

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

教育
时尚
艺术
房产
亲子

教育要闻

精华学校升学规划中心校长何艳丽建议,在这两种情况下,志愿填报时可以考虑出京

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

艺术要闻

看完他的局部,我原谅了整个世界的不完美

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

亲子要闻

向太首次聊双孙性格,坦言孙女霸道,细节暴露顶级豪门育儿格局

无障碍浏览 进入关怀版