网易首页 > 网易号 > 正文 申请入驻

AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini

0
分享至

来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由微软亚洲研究院的谢天、洪毓谦、邱凯、武智融、罗翀,九坤投资高梓添、Bryan Dai、Joey Zhou,以及独立研究员任庆楠、罗浩铭合著完成。

只刷逻辑益智题,竟能让 AI 数学竞赛水平大幅提升?

继中国大模型突破硅谷围堵后,国内团队再放大招,揭秘 DeepSeek R1 背后的秘密。他们通过仅五千条合成数据进行低成本强化学习,让 7B 小模型在逻辑推理测试中的表现超越 OpenAI o1,直逼 o3-mini-high。更令人惊叹的是,在完全未见过的美国数学奥林匹克(AIME)测试中,该模型的推理性能提升了 125%!

论文标题:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning论文链接:https://arxiv.org/abs/2502.14768Github 链接:https://github.com/Unakar/Logic-RL

这是首个全面深入的类 R1 强化学习模型训练动态过程分析。需要强调的是,该团队不仅完整开源了全流程代码,还发布了详细的参数设置,训练数据和设计经验。

研究团队开宗明义,提出要探究以下问题:

1.DeepSeek R1 所采用的 GRPO 未必就是最合适的强化学习(RL)算法?应该如何调参实现稳定训练?由易到难的课程学习还有用吗?

2. 从 Base 模型启动 RL 与完全冷启动,究竟有多大差异?哪种方式更优?

3. 训练中,模型输出长度常呈现近似线性增长的 Scaling Law,但这种增长速度是否等同于推理能力的提升?

4. 当模型频繁使用 “verify” “check” 等反思性词汇时,是否意味着其推理能力增强了?哪些 token 能可靠反映推理性能的提升?

5.RL 是真正掌握了抽象推理能力,还是仅仅依赖问题模板的死记硬背?相比传统有监督微调(SFT),它的优势究竟体现在哪里?

6. 推理过程中,模型时常混用中文和英文,这种语言切换现象对性能提升是否有实际帮助,甚至是否可能有害?

随着强化学习 (RL) 训练进行,各观测指标变化。红线是模型回答长度,蓝线是验证集准确率,黄色散点是两种域外 (OOD) 的数学竞赛正确率,三者均保持稳定增长趋势:

测试时的计算量,自然而然地从数百 token,扩展到了数千 token,暗示着 RL 训练正在鼓励模型对思考路径进行不断的探索和修正。

在经过 5K 个逻辑问题的训练后,7B 模型就发展出了一些在逻辑语料库中原本不存在的高级推理技能 —— 如自我反思、验证和总结能力。在没见过的数学竞赛题 (AIME/AMC)上,各自取得了 125% 和 38% 的性能提升。

方法

数据设定

常见的数学训练集在问题难度上无明确界限,数学问题往往具有不定的逻辑深度、知识背景要求,对可控的分析实验不友好。于是为了分析推理模型的机制,作者转向了完全由程序合成的的「逻辑谜题」作为训练数据。

示例问题:一个非常特殊的岛屿上只住着骑士和骗子。骑士总是说真话,骗子总是说谎。你遇到两位岛民:Zoey 和 Oliver。Zoey 说:「Oliver 不是骑士。」Oliver 说:「Oliver 是骑士且 Zoey 是骗子。」请问,谁是骑士,谁是骗子?

这个「骑士与骗子」谜题,因其合成设计和逻辑精确性而非常适合进一步分析:

1. 谜题对于模型来说都是未见过的数据,非常适合用来测试泛化能力

2. 通过改变游戏人数(2 到 8 个)和逻辑运算的深度(1 到 4 种布尔运算符的组合),可以调节难度

3. 每个谜题都有一个单一、明确的正确答案,正确性由生成算法保证。解答需要严格的演绎推理,因此减少了奖励作弊的风险

4. 这消除了自然语言任务中常见的模糊性,使我们能够清晰地区分真正的推理能力和数据表面上的记忆能力。

奖励设计

模型起初会用作弊 (hack) 的方式来骗取奖励分:

跳过 过程并直接回答。将推理过程放在 标签内。反复猜测答案而没有适当的推理。在提供答案之外包含无关的废话。在已经输出一个

后再次进入思考阶段,因为推理不足。

重复原始问题或使用诸如 “在此处进行思考过程” 之类的短语来避免真正的推理。

多轮迭代改进奖励函数后,作者设计出了一种几乎无法作弊的基于规则的奖励系统。仅包含两种奖励类型:格式奖励和答案奖励。思考标签应该严格按照顺序出现,且出现次数唯一,思考过程必须包含真正的推理,答案组织要可提取且可读。

格式奖励:按格式正确与否给 + 1 或 - 1 的奖励。答案奖励:答案无法被提取,奖励为 - 2;答案部分错误时,奖励为 - 1.5,答案正确时,奖励为 + 2。

为了减少 Base 模型指令跟随难度(遵守先思考再回答的范式),作者建议直接把 标签手动加入 prompt 里。

实验结果

作者经过百组对比实验,对比了 PPO,GRPO,和 REINFORCE++。最后选择采用性价比最好的 REINFORCE++ 算法完成主实验。团队遵循 DeepSeek Math 论文的建议,改动了 REINFORCE++ 算法实现,提出了两点修正:将 KL 惩罚从 reward 计算提出,放进 loss 函数里;并且更换 KL 估计器,采用一种无偏非负的 KL 估计。

训练方式上,作者尝试了多组复杂调度 (例如高低温多阶段训练),发现增益不高,由此决定采用最简单的训练方式:使用 4e-7 的学习率以及 0.7 的温度一训到底。经过 3.6K 步数的训练之后,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的性能。

有趣的发现与分析

「思考」token 词频与推理能力的关系?

作者检查了思考相关的词汇,在模型输出的 内出现与否,对应答案的准确率:

1. 当 "wait" "verify" "yet"(稍等,验证,然而)等等词出现的时候,推理性能明显更高。然而也有意想不到的情况:“recheck” 出现的时候,会导致推理分数下降,不是所有人们以为的思考词都能涨点。recheck 可能表示模型总是举棋不定,会更大概率犯错。

2. 说 re-evaluate 和 reevaluate(再次评估)的行为完全不一样。前者涨,后者跌。作者检查了原始模型输出,发现前者的频次本身就很高,而后者几乎不出现,这似乎表明模型使用自己偏好的词能更顺利地完成推理过程。

3. 语言混杂现象 (例如中英夹杂回答问题) 虽然迷人,但会削弱模型性能,增加模型犯错的几率。由此作者建议在格式奖励中加入语言一致性惩罚。不仅能提高用户的可读性,还能潜在地增强性能。

突如其来的 Aha Moment 或许根本不存在?

作者统计了训练过程中思考相关的各词频变化。RL 训练自然地提高了与反思相关词汇(如 verify, check)以及语气舒缓词(let's, yet, now that..)的频率。

似乎不存在忽然的顿悟时刻 —— 即所谓的 Aha moment。这些思考性词汇,在训练的前十步就已经出现,只是频次很低。并且在训练过程中,这些词语的词频只是缓慢增长,并不存在突然的顿悟。

SFT 依赖记忆;RL 泛化性更好

在训练数据集上进行扰动,例如更换逻辑题里的表述(and->or/not),调换多人进行陈述的顺序,使得问题答案和解答路径发生完全改变。如果模型真的学会了题目背后的推理技能,应该在题目被扰动后还能保持相当的正答率。于是定义记忆分数 (LiMem) 为:测试集正确率 * 训练集扰动后的出错率。

为了获得合理的有监督微调(SFT)思维链数据,作者用原模型进行 50 次拒绝采样,挑选正确且最短的输出作为新的 CoT 数据集。由此合理对比拒绝采样微调(RFT)和强化学习(RL)的效率和记忆性。

SFT 是在记忆分数 (横轴) 大幅增长的代价下,换取少量的测试集分数提高的;而 RL 几乎不增长记忆性 (甚至出现了负增长),而纵轴上的测试集分数快速增长。

这暗示着强化学习的优越性:不依赖于数据本身的结构,用极低的数据代价就能实现高效进化,体现出超越当前数据领域的强大泛化性。

更长的思考过程是否代表了更好的推理性能?

作者在训练过程中找到几组反例,有力地驳斥了这种观点。

虽然训练动态中模型输出长度总是自然增长,但其涨幅不能代表推理性能的同步增长。有时候模型会陷入 " 过度思考 “困境,输出过长的思维链,更容易触发长度崩坏。最有效率的思考过程,往往来自最短且正确的路径。

故而,更长的输出长度不是训练过程里衡量推理性能的有效指标,只能当成自然产生的副产物看待。对测试集分数与模型输出的观察,是更稳妥的做法。

其它结果

除了上述结果,该研究还有几个有趣的发现:

冷启动自有其好处,但非必需。无论是从 Base 模型还是 Instruct 模型开始,训练动态都保持惊人的相似性。不过 SFT 后的模型往往拥有略高的准确率。对难度递进的课程学习仍然重要。在固定的数据混合比例下,精心设计的课程学习方法总是优于随机打乱。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1991年日本房价开始暴跌,上万人自尽,他们悟出一套道理沿用至今

1991年日本房价开始暴跌,上万人自尽,他们悟出一套道理沿用至今

谈史论天地
2026-04-21 18:40:03
尴尬!董宇辉被吐槽:喜欢支教,一天没去;不喜欢带货,一天没停

尴尬!董宇辉被吐槽:喜欢支教,一天没去;不喜欢带货,一天没停

火山詩话
2026-04-21 06:59:47
山东泰山本轮取胜,本赛季中超首次有扣分队排名高于未扣分队

山东泰山本轮取胜,本赛季中超首次有扣分队排名高于未扣分队

懂球帝
2026-04-21 22:45:07
大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

大专、野模、知三当三,孙怡浪姐"骚操作"不断难怪王京花看不上她

橙星文娱
2026-04-18 16:01:07
沉默1天,中国准时发话,“高市下岗”传遍全境,石破茂判断没错

沉默1天,中国准时发话,“高市下岗”传遍全境,石破茂判断没错

黑鹰观军事
2026-04-21 23:07:57
二战时期,唯一没参战的世界级强国,当时它到底在忙什么?

二战时期,唯一没参战的世界级强国,当时它到底在忙什么?

诺言卿史录
2026-03-27 09:49:20
尾盘突发!002342,收盘前4分钟垂直涨停!商业航天,集体爆发!

尾盘突发!002342,收盘前4分钟垂直涨停!商业航天,集体爆发!

证券时报e公司
2026-04-21 16:57:22
3年前就戳穿西贝预制菜没人信,如今被实锤!这个探店博主藏得太深了

3年前就戳穿西贝预制菜没人信,如今被实锤!这个探店博主藏得太深了

马蹄烫嘴说美食
2026-04-15 18:29:48
“刘仪伟,我们的百亿去哪了?”大片投资骗局受害人联名质问

“刘仪伟,我们的百亿去哪了?”大片投资骗局受害人联名质问

文娱春秋Plus
2026-04-20 09:00:08
甘油三酯从6.27到1.68,我用了一个月,与大家分享我的经历!

甘油三酯从6.27到1.68,我用了一个月,与大家分享我的经历!

健康之光
2026-04-08 20:35:05
实在搞不懂,这么漂亮的女神,为啥也离婚了

实在搞不懂,这么漂亮的女神,为啥也离婚了

动物奇奇怪怪
2026-04-21 17:03:30
经济大省调研行|吞吐之间见活力——透视长三角港口群的韧性支撑

经济大省调研行|吞吐之间见活力——透视长三角港口群的韧性支撑

新华社
2026-04-21 16:51:07
工信部:今年来存储芯片等产品产量实现超过40%的高速增长

工信部:今年来存储芯片等产品产量实现超过40%的高速增长

北青网-北京青年报
2026-04-21 13:11:04
与李晨分手6年后嫁普通人,以为是好牌打烂,其实她才是人生赢家

与李晨分手6年后嫁普通人,以为是好牌打烂,其实她才是人生赢家

悦君兮君不知
2026-04-20 21:07:31
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
24架!歼-10直飞伊朗,美以不敢轻举妄动!背后藏着一个天大的局

24架!歼-10直飞伊朗,美以不敢轻举妄动!背后藏着一个天大的局

趣文说娱
2026-04-21 21:35:21
考辛斯:开拓者会被马刺轻松横扫,但对这支年轻球队是积极的

考辛斯:开拓者会被马刺轻松横扫,但对这支年轻球队是积极的

懂球帝
2026-04-21 23:37:05
全场哗然!29岁女子在相亲舞台称“娶我一定让你爽”,王婆也懵了

全场哗然!29岁女子在相亲舞台称“娶我一定让你爽”,王婆也懵了

火山詩话
2026-04-19 06:42:57
六层楼高的大树“偷”走了她家的光,女子把隔壁小区的业委会告了

六层楼高的大树“偷”走了她家的光,女子把隔壁小区的业委会告了

上观新闻
2026-04-20 19:58:10
天安门偶遇张杰一家五口,杰哥一手牵一个女儿,画面看着真幸福

天安门偶遇张杰一家五口,杰哥一手牵一个女儿,画面看着真幸福

圆梦的小老头
2026-04-21 17:38:06
2026-04-22 00:08:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2950652文章数 6840关注度
往期回顾 全部

科技要闻

创造4万亿帝国、访华20次,库克留下了什么

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

头条要闻

三国取消飞航许可 赖清德无法窜访斯威士兰

体育要闻

一到NBA季后赛,四届DPOY就成了主角

娱乐要闻

宋承炫晒宝宝B超照,宣布老婆怀孕

财经要闻

现实是最大的荒诞:千亿平台的冲突始末

汽车要闻

全新坦克700正式上市 售价42.8万-50.8万元

态度原创

教育
旅游
手机
数码
时尚

教育要闻

被导师批到想退学,答辩当天他单挑专家组:硬实力才是底气!

旅游要闻

“江江好时节 吴江春日市集”上海豫园开市

手机要闻

苹果折叠iPhone:壳确认MagSafe!2亿长焦挤牙膏:2028年上!

数码要闻

OPPO发布影像双旗舰:专业口袋哈苏OPPO Find X9 Ultra领衔

顶流复工,已判若两人

无障碍浏览 进入关怀版