网易首页 > 网易号 > 正文 申请入驻

AI数学竞赛能力飙升!微软、九坤投资:7B小模型也能逼近o3-mini

0
分享至

来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由微软亚洲研究院的谢天、洪毓谦、邱凯、武智融、罗翀,九坤投资高梓添、Bryan Dai、Joey Zhou,以及独立研究员任庆楠、罗浩铭合著完成。

只刷逻辑益智题,竟能让 AI 数学竞赛水平大幅提升?

继中国大模型突破硅谷围堵后,国内团队再放大招,揭秘 DeepSeek R1 背后的秘密。他们通过仅五千条合成数据进行低成本强化学习,让 7B 小模型在逻辑推理测试中的表现超越 OpenAI o1,直逼 o3-mini-high。更令人惊叹的是,在完全未见过的美国数学奥林匹克(AIME)测试中,该模型的推理性能提升了 125%!

论文标题:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning论文链接:https://arxiv.org/abs/2502.14768Github 链接:https://github.com/Unakar/Logic-RL

这是首个全面深入的类 R1 强化学习模型训练动态过程分析。需要强调的是,该团队不仅完整开源了全流程代码,还发布了详细的参数设置,训练数据和设计经验。

研究团队开宗明义,提出要探究以下问题:

1.DeepSeek R1 所采用的 GRPO 未必就是最合适的强化学习(RL)算法?应该如何调参实现稳定训练?由易到难的课程学习还有用吗?

2. 从 Base 模型启动 RL 与完全冷启动,究竟有多大差异?哪种方式更优?

3. 训练中,模型输出长度常呈现近似线性增长的 Scaling Law,但这种增长速度是否等同于推理能力的提升?

4. 当模型频繁使用 “verify” “check” 等反思性词汇时,是否意味着其推理能力增强了?哪些 token 能可靠反映推理性能的提升?

5.RL 是真正掌握了抽象推理能力,还是仅仅依赖问题模板的死记硬背?相比传统有监督微调(SFT),它的优势究竟体现在哪里?

6. 推理过程中,模型时常混用中文和英文,这种语言切换现象对性能提升是否有实际帮助,甚至是否可能有害?

随着强化学习 (RL) 训练进行,各观测指标变化。红线是模型回答长度,蓝线是验证集准确率,黄色散点是两种域外 (OOD) 的数学竞赛正确率,三者均保持稳定增长趋势:

测试时的计算量,自然而然地从数百 token,扩展到了数千 token,暗示着 RL 训练正在鼓励模型对思考路径进行不断的探索和修正。

在经过 5K 个逻辑问题的训练后,7B 模型就发展出了一些在逻辑语料库中原本不存在的高级推理技能 —— 如自我反思、验证和总结能力。在没见过的数学竞赛题 (AIME/AMC)上,各自取得了 125% 和 38% 的性能提升。

方法

数据设定

常见的数学训练集在问题难度上无明确界限,数学问题往往具有不定的逻辑深度、知识背景要求,对可控的分析实验不友好。于是为了分析推理模型的机制,作者转向了完全由程序合成的的「逻辑谜题」作为训练数据。

示例问题:一个非常特殊的岛屿上只住着骑士和骗子。骑士总是说真话,骗子总是说谎。你遇到两位岛民:Zoey 和 Oliver。Zoey 说:「Oliver 不是骑士。」Oliver 说:「Oliver 是骑士且 Zoey 是骗子。」请问,谁是骑士,谁是骗子?

这个「骑士与骗子」谜题,因其合成设计和逻辑精确性而非常适合进一步分析:

1. 谜题对于模型来说都是未见过的数据,非常适合用来测试泛化能力

2. 通过改变游戏人数(2 到 8 个)和逻辑运算的深度(1 到 4 种布尔运算符的组合),可以调节难度

3. 每个谜题都有一个单一、明确的正确答案,正确性由生成算法保证。解答需要严格的演绎推理,因此减少了奖励作弊的风险

4. 这消除了自然语言任务中常见的模糊性,使我们能够清晰地区分真正的推理能力和数据表面上的记忆能力。

奖励设计

模型起初会用作弊 (hack) 的方式来骗取奖励分:

跳过 过程并直接回答。将推理过程放在 标签内。反复猜测答案而没有适当的推理。在提供答案之外包含无关的废话。在已经输出一个

后再次进入思考阶段,因为推理不足。

重复原始问题或使用诸如 “在此处进行思考过程” 之类的短语来避免真正的推理。

多轮迭代改进奖励函数后,作者设计出了一种几乎无法作弊的基于规则的奖励系统。仅包含两种奖励类型:格式奖励和答案奖励。思考标签应该严格按照顺序出现,且出现次数唯一,思考过程必须包含真正的推理,答案组织要可提取且可读。

格式奖励:按格式正确与否给 + 1 或 - 1 的奖励。答案奖励:答案无法被提取,奖励为 - 2;答案部分错误时,奖励为 - 1.5,答案正确时,奖励为 + 2。

为了减少 Base 模型指令跟随难度(遵守先思考再回答的范式),作者建议直接把 标签手动加入 prompt 里。

实验结果

作者经过百组对比实验,对比了 PPO,GRPO,和 REINFORCE++。最后选择采用性价比最好的 REINFORCE++ 算法完成主实验。团队遵循 DeepSeek Math 论文的建议,改动了 REINFORCE++ 算法实现,提出了两点修正:将 KL 惩罚从 reward 计算提出,放进 loss 函数里;并且更换 KL 估计器,采用一种无偏非负的 KL 估计。

训练方式上,作者尝试了多组复杂调度 (例如高低温多阶段训练),发现增益不高,由此决定采用最简单的训练方式:使用 4e-7 的学习率以及 0.7 的温度一训到底。经过 3.6K 步数的训练之后,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的性能。

有趣的发现与分析

「思考」token 词频与推理能力的关系?

作者检查了思考相关的词汇,在模型输出的 内出现与否,对应答案的准确率:

1. 当 "wait" "verify" "yet"(稍等,验证,然而)等等词出现的时候,推理性能明显更高。然而也有意想不到的情况:“recheck” 出现的时候,会导致推理分数下降,不是所有人们以为的思考词都能涨点。recheck 可能表示模型总是举棋不定,会更大概率犯错。

2. 说 re-evaluate 和 reevaluate(再次评估)的行为完全不一样。前者涨,后者跌。作者检查了原始模型输出,发现前者的频次本身就很高,而后者几乎不出现,这似乎表明模型使用自己偏好的词能更顺利地完成推理过程。

3. 语言混杂现象 (例如中英夹杂回答问题) 虽然迷人,但会削弱模型性能,增加模型犯错的几率。由此作者建议在格式奖励中加入语言一致性惩罚。不仅能提高用户的可读性,还能潜在地增强性能。

突如其来的 Aha Moment 或许根本不存在?

作者统计了训练过程中思考相关的各词频变化。RL 训练自然地提高了与反思相关词汇(如 verify, check)以及语气舒缓词(let's, yet, now that..)的频率。

似乎不存在忽然的顿悟时刻 —— 即所谓的 Aha moment。这些思考性词汇,在训练的前十步就已经出现,只是频次很低。并且在训练过程中,这些词语的词频只是缓慢增长,并不存在突然的顿悟。

SFT 依赖记忆;RL 泛化性更好

在训练数据集上进行扰动,例如更换逻辑题里的表述(and->or/not),调换多人进行陈述的顺序,使得问题答案和解答路径发生完全改变。如果模型真的学会了题目背后的推理技能,应该在题目被扰动后还能保持相当的正答率。于是定义记忆分数 (LiMem) 为:测试集正确率 * 训练集扰动后的出错率。

为了获得合理的有监督微调(SFT)思维链数据,作者用原模型进行 50 次拒绝采样,挑选正确且最短的输出作为新的 CoT 数据集。由此合理对比拒绝采样微调(RFT)和强化学习(RL)的效率和记忆性。

SFT 是在记忆分数 (横轴) 大幅增长的代价下,换取少量的测试集分数提高的;而 RL 几乎不增长记忆性 (甚至出现了负增长),而纵轴上的测试集分数快速增长。

这暗示着强化学习的优越性:不依赖于数据本身的结构,用极低的数据代价就能实现高效进化,体现出超越当前数据领域的强大泛化性。

更长的思考过程是否代表了更好的推理性能?

作者在训练过程中找到几组反例,有力地驳斥了这种观点。

虽然训练动态中模型输出长度总是自然增长,但其涨幅不能代表推理性能的同步增长。有时候模型会陷入 " 过度思考 “困境,输出过长的思维链,更容易触发长度崩坏。最有效率的思考过程,往往来自最短且正确的路径。

故而,更长的输出长度不是训练过程里衡量推理性能的有效指标,只能当成自然产生的副产物看待。对测试集分数与模型输出的观察,是更稳妥的做法。

其它结果

除了上述结果,该研究还有几个有趣的发现:

冷启动自有其好处,但非必需。无论是从 Base 模型还是 Instruct 模型开始,训练动态都保持惊人的相似性。不过 SFT 后的模型往往拥有略高的准确率。对难度递进的课程学习仍然重要。在固定的数据混合比例下,精心设计的课程学习方法总是优于随机打乱。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄最困难的时候到了,高市早苗托人给普京带一句话,中国准备收网

俄最困难的时候到了,高市早苗托人给普京带一句话,中国准备收网

娱乐督察中
2026-01-19 14:49:56
全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

全了!各年龄段血压、血糖、血脂、尿酸对照表,果断收藏

华人星光
2026-01-12 13:14:21
79岁陶华碧太狠了!出山救子改回老配方,老干妈狂赚54亿重回巅峰

79岁陶华碧太狠了!出山救子改回老配方,老干妈狂赚54亿重回巅峰

卷史
2026-01-17 04:17:58
俄罗斯人一口咬定,成飞和沈飞放飞的,绝对不是六代机

俄罗斯人一口咬定,成飞和沈飞放飞的,绝对不是六代机

流史岁月
2026-01-16 11:41:55
高市派船挖海底稀土,花120亿日元只得70公斤?日媒怒斥民众被忽悠

高市派船挖海底稀土,花120亿日元只得70公斤?日媒怒斥民众被忽悠

近史谈
2026-01-19 11:23:20
吴佩慈成最大赢家?婆婆入狱纪家崩塌,13年不领证终成保命符

吴佩慈成最大赢家?婆婆入狱纪家崩塌,13年不领证终成保命符

青史楼兰
2026-01-17 17:39:32
苹果突然官宣:1月17日,价格正式下调!

苹果突然官宣:1月17日,价格正式下调!

科技堡垒
2026-01-17 12:42:00
大鱼压境!德尔加多迎最后通牒,克雷桑归化或终结他的泰山生涯

大鱼压境!德尔加多迎最后通牒,克雷桑归化或终结他的泰山生涯

体坛小鹏
2026-01-19 15:33:30
42岁国足前队长遭怒喷!诋毁U23后辈:点球赢没意义 光去练防守的

42岁国足前队长遭怒喷!诋毁U23后辈:点球赢没意义 光去练防守的

我爱英超
2026-01-18 22:32:26
幻方量化年收益率曝光,DeepSeek梁文锋发财了

幻方量化年收益率曝光,DeepSeek梁文锋发财了

新行情
2026-01-19 15:10:45
马英九疾呼:两岸开战或无法避免,但台湾绝不可能成第二个乌克兰

马英九疾呼:两岸开战或无法避免,但台湾绝不可能成第二个乌克兰

米果说识
2026-01-17 19:56:39
李国庆为嫣然天使儿童医院捐款100万元,网友询问捐款途径,院方工作人员回应

李国庆为嫣然天使儿童医院捐款100万元,网友询问捐款途径,院方工作人员回应

极目新闻
2026-01-19 11:15:23
突发!600058,盘中“天地板”!此前3连涨停

突发!600058,盘中“天地板”!此前3连涨停

证券时报e公司
2026-01-19 10:38:08
注意!iOS26.3更新包10.89GB:权限放开,老机型升级要三思

注意!iOS26.3更新包10.89GB:权限放开,老机型升级要三思

小兔子发现大事情
2026-01-18 10:21:39
美国邀约60国加入“特朗普版联合国”,特朗普任“终身主席”,只有这国总理明确接受邀请

美国邀约60国加入“特朗普版联合国”,特朗普任“终身主席”,只有这国总理明确接受邀请

每日经济新闻
2026-01-19 10:03:08
北极为什么没有企鹅?当年放养北极的69只企鹅,后来怎么样了?

北极为什么没有企鹅?当年放养北极的69只企鹅,后来怎么样了?

半解智士
2025-12-25 20:01:24
曝梁小龙去世过程!凌晨两点半胸口痛,下午抢救不及,儿女在澳洲

曝梁小龙去世过程!凌晨两点半胸口痛,下午抢救不及,儿女在澳洲

裕丰娱间说
2026-01-19 13:40:53
最后一舞继续前进!40岁瓦林卡苦战晋级,5年后再次在澳网赢球

最后一舞继续前进!40岁瓦林卡苦战晋级,5年后再次在澳网赢球

全景体育V
2026-01-19 15:50:41
李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

牛牛叨史
2025-12-10 22:19:51
我搭伙绝经女人过了15天,果断散伙,女人老了比年轻时还让人无语

我搭伙绝经女人过了15天,果断散伙,女人老了比年轻时还让人无语

王二哥老搞笑
2026-01-17 15:17:56
2026-01-19 17:24:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057573文章数 5289关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

头条要闻

嫣然天使基金暂停筹款 工作人员:常规筹款预算已筹满

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

离婚三年,孙怡董子健首次公开互动

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

教育
亲子
旅游
公开课
军事航空

教育要闻

“打了没用,是打得不够狠”,家长晒女儿哭闹视频,网友看清现实

亲子要闻

当父母面指责孩子会怎么样

旅游要闻

60分钟航程穿越千年,“大运扬州”游船演艺缘何跻身国家级精品?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

古美关系高度紧张 古巴启动"战争状态"

无障碍浏览 进入关怀版