网易首页 > 网易号 > 正文 申请入驻

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能

0
分享至

Polaris团队 投稿
量子位 | 公众号 QbitAI

4B模型的数学推理能力和顶尖商业大模型差在哪里?

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:

通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

并且,Polaris-4B的轻量化允许在消费级显卡上部署。



详细的blog、训练数据、模型和代码都已全部开源,链接可见文末。

围绕待训练模型进行参数配置

之前的RL训练配方,如DeepScaleR,已经展示了Scaling RL在较弱基模型上强大的效果。

但对于目前最前沿的开源模型(如Qwen3),Scaling RL是否也能复现如此显著的提升呢?

Polaris的研究团队给出了明确回答:可以!

具体来说,Polaris通过仅仅700步的RL训练,成功地让Qwen3-4B在数学推理任务上接近了其235B版本的表现

只要方法得当,RL还存在着巨大的开发潜力。

Polaris的成功的秘籍就是:训练数据及超参数设置都要围绕待训练的模型来进行设置

训练数据构造

Polaris团队发现,对于同一份数据,不同能力的基模型展现出的难度分布呈现出镜像化的特征。、

对于DeepScaleR-40K训练集中的每个样本,研究人员使用R1-Distill-Qwen-1.5B/7B两个模型回答分别推理了8次,再统计其中正确次数,以此衡量每个样本的难度水平。



实验结果显示,大多数样本位于两端(8/8正确解答或0/8正确解答),意味着该数据集虽然对1.5B模型具有挑战性,却不足以有效训练7B模型。

Polaris提出,构建轻微偏向难题的数据分布,形状就像镜像J,过度偏向简单题或难题的分布都会使得无法产生优势的样本在每个batch中占有过大的比例。

Polaris对开源数据DeepScale-40K和AReaL-boba-106k进行了筛选,剔除所有8/8正确的样本,最终形成了53K的初始化数据集。



尽管已经得到了一个好的初始化数据,但它并不是训练数据的“最终版本”。

在强化学习训练过程中,随着模型对训练样本的“掌握率”提高,难题也会变成简单题。

为此,研究团队在训练中引入了数据动态更新策略。训练过程中,每个样本的通过率会随着reward计算而实时更新。在每个训练阶段结束时,准确率过高的样本将被删除。

以多样性为核心的采样控制

在RL训练中,多样性被视为提升模型表现的重要因素。好的多样性使模型能探索更广泛的推理路径,避免在训练早期陷入过于确定的策略中。

Rollout阶段的多样性主要通过topp、topk与温度t来调控。当前大多数工作都采用topp=1.0和topk=-1,这已经达到了最大的多样性,但采样温度t还没有统一的设置。

目前主流的t的设置方法有两种:1、采用建议的解码温度,如Qwen3 demo中设置的0.6;2、直接设置为一个整数1.0。

但这两种做法在Polaris的实验中都不是最优解。

温度、性能与多样性的平衡之道



Polaris团队通过一系列试验,分析了采样温度与模型准确率及路径多样性之间的关系。

为了量化采样轨迹的多样性,他们采用Distinct N-gram指标(n=4)用于衡量生成文本中独特连续词组的比例:分数越接近1.0,说明生成内容越多样;反之则重复率较高。

结果显示,较高的温度能显著提升多样性,但不同模型在相同温度下的表现也存在较大差异。从上图来看,对于这两个模型来说,以0.6作为采样温度明显多样性是不足的。



但也并非是把温度设的越大就越好,也需要考虑性能的变化

Polaris团队发现模型性能随温度升高呈现“低-高-低”的趋势。例如,把采样温度设置成1.0,对于Deepseek-R1-distill系列模型过高了,而对于Qwen3系列来说又有点低。

说明理想温度的设计需要针对待模型进行精细校准,没有一个超参数是适配所有模型的

温度区间的定义



Polaris团队基于实验趋势归纳出模型采样温度的三个区域:

  • 1.鲁棒生成区(Robust Generation Zone)
  • 在该区域内,性能波动较小。测试阶段解码温度通常就选自鲁棒生成区。
  • 2.控制探索区(Controlled Exploration Zone)
  • 此区域的温度虽然会导致模型性能较鲁棒生成区略有下降,但降幅在可接受范围内,同时能显著提升多样性,适合作为训练温度使用。
  • 3.性能崩塌区(Performance Collapse Zone)
  • 当采样温度超出一定范围时,性能急剧下降。

根据上图规律,Polaris团队提出以控制探索区的温度作为初始化温度。



实验显示,常用的t=0.6或t=1.0的设置温度过低,限制了模型的探索空间,导致难以挖掘RL潜力。

因此,Polaris把Qwen3-4B的初始训练温度设置为1.4。

动态温度调整



在性能增长的同时,多样性同样也会发生偏移。随着训练收敛,各路径间共享的N-gram比例增加,探索空间也随之缩小。

在整个训练过程中始终使用最开始的温度,会导致训练后期多样性不足

因此,Polaris团队提出在RL训练过程中动态更新采样温度的策略:在每个阶段开始前都进行和温度初始化时类似的搜索方法,使得后续阶段起始的多样性分数和第一阶段的相似。

举个例子,假如第一阶段开始的多样性分数是60,那此后的每个阶段,Polaris团队都会选择一个能把多样性分数拉到60的温度来进行训练。



对比实验的结果显示,采用同一温度训练到结束,其效果不及多阶段温度调整。

多阶段温度调整不仅带来了更优的RL训练效果,还使得回答长度的提升更加稳定。

思维链长度外推

在训练Qwen3-4B的过程中,一个显著难题在于长上下文训练,因为模型本身的回答长度就已经非常长了,要继续训练的更长需要更高昂的计算代价。

Qwen3-4B的模型预训练上下文长度仅有32K,而RL阶段Polaris将最大训练长设定为52K。但实际达到最大序列长度的训练样本比例不足10%,意味着真正使用长文本进行训练的样本非常有限。



为评估Polaris-4B-Preview的长文生成能力,Polaris究团队选取了AIME2024/25中的60题,每题进行32次推理,总计1920个样本,并按照回答长度将其分为三组:

  • 短文本组:回答长度小于16K;
  • 中等文本组:回答长度介于16K到32K;
  • 长文本组:回答长度超过预训练长度32K。

统计结果表明,长文本组的准确率仅为26%,证明模型在生成超过预训练长度的长CoT时,性能明显受限。

既然RL在长上下文长度的时候具备劣势,那么长CoT性能不佳可能是由于长文本训练不充分导致。

针对长文本训练样本不足的问题,团队引入了长度外推技术。通过位置编码RoPE的调整,模型能够在推理时处理超出训练时所见的更长序列,进而补偿长文本训练中的不足。

具体实现上,研究团队采用了YaRN作为外推方法,并设置扩展因子为1.5,如下配置所示:



实验结果显示,通过应用该策略,超过32K长度回答的准确率由26%提升至超过50%



多阶段训练



Polaris采用多阶段的训练方式,在早期阶段,模型使用较短的上下文窗口;待模型表现收敛后,再逐渐增加上下文窗口的长度以拓宽模型的推理能力。

尽管这一策略在某些模型下有效,但在多阶段训练中,初始阶段选择合适的最大长度至关重要,不同基础模型token利用效率存在差异。



实验发现,对于DeepSeek-R1-Distill-Qwen-1.5B/7B,采用较短的响应长度训练效果都较好;但对Qwen3-4B来说,即使响应长度只有24K且响应截断比例低于15%,其性能也会急剧下降,这种下降即使在后期阶段也难以恢复。



通常来说,从一开始就让模型“思考更长”会更安全:对于Qwen3-4B,实验观察到从零开始使用40K响应长度时性能稳步提升,这与从一开始就采用24K和24K→40K的方案形成了鲜明对比。

要点:当计算资源允许时,直接从官方仓库建议的最大解码长度开始

评估结果



Polaris模型需要使用比Qwen3更高的采样温度和更长的响应长度;所有其他设置保持相同。

对于AIME24和AIME25,上表报告了32次运行的平均性能。

可以看到,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,在大多数评测中表现最佳。

notion地址: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
blog 地址: https://hkunlp.github.io/blog/2025/Polaris/
代码: https://github.com/ChenxinAn-fdu/POLARIS
Huggingface主页: https://huggingface.co/POLARIS-Project

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
同样是武术演员,谢苗登上全运会舞台,和释小龙走上了不一样的路

同样是武术演员,谢苗登上全运会舞台,和释小龙走上了不一样的路

查尔菲的笔记
2025-11-11 18:05:19
祖某某与曾某都在一起7年了?网友曝更多细节,祖某曾酒后吐真言

祖某某与曾某都在一起7年了?网友曝更多细节,祖某曾酒后吐真言

十九妹
2025-11-11 15:38:20
留给赖清德时间不多了!大陆巷战演习,繁体字一出,台媒舆论大变

留给赖清德时间不多了!大陆巷战演习,繁体字一出,台媒舆论大变

时时有聊
2025-11-11 20:55:04
广州市建筑集团有限公司原党委书记、董事长梁湖清接受纪律审查和监察调查

广州市建筑集团有限公司原党委书记、董事长梁湖清接受纪律审查和监察调查

极目新闻
2025-11-12 10:27:52
日本知名童颜巨乳女星公开近照,网友热议

日本知名童颜巨乳女星公开近照,网友热议

随波荡漾的漂流瓶
2025-11-10 16:40:08
乌军溃败,内讧升级!乌军精锐投降,泽连斯基与总司令公开翻脸?

乌军溃败,内讧升级!乌军精锐投降,泽连斯基与总司令公开翻脸?

趣文说娱
2025-11-11 14:37:53
前海开源基金创始董事长、党委书记王兆华因病去世 终年69岁

前海开源基金创始董事长、党委书记王兆华因病去世 终年69岁

财联社
2025-11-12 11:20:20
深度长文:通俗理解爱因斯坦的广义和狭义相对论,收藏了!

深度长文:通俗理解爱因斯坦的广义和狭义相对论,收藏了!

宇宙时空
2025-11-09 09:02:37
官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

懂球帝
2025-11-11 18:01:10
重大突破!中国造出全球首个新型反应堆,美西方研究60年没成功

重大突破!中国造出全球首个新型反应堆,美西方研究60年没成功

兵国大事
2025-11-11 17:50:05
镇政府回应“3岁幼童拿泡泡糖没付款引发争执”:高度重视,多部门在处理

镇政府回应“3岁幼童拿泡泡糖没付款引发争执”:高度重视,多部门在处理

红星新闻
2025-11-11 19:18:16
突发!贾跃亭正式向雷军宣战了!

突发!贾跃亭正式向雷军宣战了!

李东阳朋友圈
2025-11-12 11:39:35
蔡磊已确诊晚期!拒见老婆孩子,3名阿姨伺候,用针管喝水都勉强

蔡磊已确诊晚期!拒见老婆孩子,3名阿姨伺候,用针管喝水都勉强

来科点谱
2025-11-01 09:26:41
检察机关依法对王中和涉嫌受贿、行贿案提起公诉

检察机关依法对王中和涉嫌受贿、行贿案提起公诉

新华社
2025-11-12 10:01:02
英美没想到!联手踢人民币出局,只为巩固美元,交易市场却变天了

英美没想到!联手踢人民币出局,只为巩固美元,交易市场却变天了

近史谈
2025-11-11 15:46:40
高市早苗闯了大祸,日方意识到大事不妙!中国有权在日本驻军

高市早苗闯了大祸,日方意识到大事不妙!中国有权在日本驻军

时时有聊
2025-11-11 07:19:55
1比3落败!王楚钦再遇樊振东正反手压制,全运会冲冠难度升级

1比3落败!王楚钦再遇樊振东正反手压制,全运会冲冠难度升级

番茄体坛
2025-11-11 18:54:12
太子集团强烈否认涉诈指控!

太子集团强烈否认涉诈指控!

荆楚寰宇文枢
2025-11-11 22:13:26
太突然:广州门店,下月关闭!知名歌手开的

太突然:广州门店,下月关闭!知名歌手开的

羊城攻略
2025-11-11 23:32:30
外媒:马云妻子张瑛1950万英镑购入伦敦前意大利使馆宅邸!

外媒:马云妻子张瑛1950万英镑购入伦敦前意大利使馆宅邸!

荆楚寰宇文枢
2025-11-11 22:11:26
2025-11-12 12:07:00
量子位 incentive-icons
量子位
追踪人工智能动态
11657文章数 176329关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

英国暂停共享"贩毒船"情报 美媒:英美出现"重大决裂"

头条要闻

英国暂停共享"贩毒船"情报 美媒:英美出现"重大决裂"

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

辛芷蕾配得上威尼斯影后吗?

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

能得到央视的肯定 长安马自达EZ-60可不简单

态度原创

旅游
亲子
教育
游戏
手机

旅游要闻

视频丨彩椒咖啡火“出圈” 崇礼这波宠粉操作爱了

亲子要闻

一定要试试!2岁后多和孩子聊这些话题,越长大越聪明!

教育要闻

区域特色“六堂课”推动平谷教育高质量发展 | 现教沙龙

《超级机器人大战Y》新DLC将于11月21日发布

手机要闻

苹果新配件被喷智商税 1299元就给一块布

无障碍浏览 进入关怀版