网易首页 > 网易号 > 正文 申请入驻

4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

0
分享至

新智元报道

编辑:编辑部

【新智元导读】只用4500美元成本,就能成功复现DeepSeek?就在刚刚,UC伯克利团队只用简单的RL微调,就训出了DeepScaleR-1.5B-Preview,15亿参数模型直接吊打o1-preview,震撼业内。

强化学习迎来重大突破!

近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。

在AIME2024基准中,模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%,而且在只有1.5B参数的情况下超越了OpenAI o1-preview!

目前,研究团队已开源数据集、代码和训练日志。

只用不到5000美元的预算,团队就复现了DeepSeek的成功。至此,开源又赢下一局。

网友们称赞:当机器学习和数学相遇,就是超强组合的诞生!

训练秘籍简版:先短后长

1.5B模型,通过RL训练,就能超越o1-preview,进行数学推理?

简而言之,团队这次的训练策略就是四个字——先短后长

第一步,研究人员会训练模来型进行短思考。他们使用DeepSeek的GRPO方法,设定了8k的上下文长度来训练模型,以鼓励高效思考。

经过1000步训练后,模型的token使用量减少了3倍,并比基础模型提升了5%。

接下来,模型被训练进行长思考。强化学习训练扩展到16K和24K token,以解决更具挑战性、以前未解决的问题。

随着响应长度增加,平均奖励也随之提高,24K的魔力,就让模型最终超越了o1-preview!

DeepScaleR-1.5B-Preview

最近,Deepseek-R1开源发布,对推理模型技术普及来说,是个重要突破。不过,它具体的训练方法、超参数还有底层系统,都还没公开。

在扩展强化学习的时候,最大的难题之一就是计算成本太高。

就拿DeepSeek-R1的实验来说,要想完全复现,上下文长度得达到32K以上,训练大概8000步,就算是只有1.5B参数的模型,起码都得花70,000 GPU小时。

如何利用强化学习,把小型模型变成超厉害的推理模型呢?

为了解决这个问题,研究人员用了知识蒸馏模型,还创新性地引入了强化学习迭代延长方法。

团队推出了DeepScaleR-1.5B-Preview模型,它经过4万个高质量数学问题的训练,训练一共用了3800个A100 GPU小时。

最终,成本只需约4500美元,省了18.42倍!同时模型的性能还在几个竞赛级数学基准中,超过了o1-preview。

研究表明,用强化学习开发定制化的推理模型,既能大规模进行,还能控制成本,性价比超高!

AIME 2024测试集Pass@1准确率随训练进度而变:训练至第1040步,上下文长度扩至16K token;到第1520步,上下文长度增至24K token

技术方案

数据集构建

在训练数据集方面,研究人员收集了1984至2023年的美国国际数学邀请赛(AIME)、2023年之前的美国数学竞赛(AMC),以及来自Omni-MATH和Still数据集的各国及国际数学竞赛题目。

数据处理流程包含三个核心步骤:

  1. 答案提取:对于AMC和AIME等数据集,使用gemini-1.5-pro-002模型从AoPS官方解答中提取答案。

  2. 重复问题清理:基于RAG,并结合sentence-transformers/all-MiniLM-L6-v2的词向量嵌入来消除重复问题。同时,对训练集和测试集进行重叠检测,以防止数据污染。

  3. 不可评分题目过滤:数据集(如Omni-MATH)中的部分问题,无法通过sympy数学符号计算库评估(得靠LLM判断)。这不仅会降低训练速度,还会引入不稳定的奖励信号,因此需要增加额外的过滤步骤,来剔除无法自动评分的问题。

在经过去重和过滤之后,就得到了约4万个独特的问题-答案对作为训练数据集。

奖励函数设计

按Deepseek-R1的经验,用结果奖励模型(ORM)而不是过程奖励模型(PRM),来避免模型通过投机取巧得到奖励。

奖励函数返回值如下:

  • 返回「1」:如果LLM的答案,既能通过LaTeX语法检查,又能通过Sympy数学验证,就给它奖励。

  • 返回「0」:要是LLM的答案是错的,或者格式不对,比如少了 和 标记,那就不给奖励。

迭代增加上下文长度:从短到长的思维扩展

推理任务由于会生成比标准任务更长的输出,计算开销较大,这会同时降低轨迹采样(Trajectory Sampling)和策略梯度(Policy Gradient)更新的速度。

与此同时,上下文窗口大小翻倍,则会导致训练计算量至少增加2倍。

这种情况产生了一个根本性的权衡取舍:较长的上下文能为模型提供更充足的思维空间,但会显著降低训练速度;而较短的上下文虽然可以加快训练进度,但可能会限制模型解决那些需要长上下文的复杂问题的能力。

因此,在计算效率和准确性之间找到最佳平衡点至关重要。

基于Deepseek的广义近端策略优化(GRPO)算法的训练方案包含两个主要步骤:

  • 首先,使用8K token的最大上下文长度进行强化学习训练,从而实现更有效的推理能力和训练效率。

  • 随后,将上下文长度扩展到16K和24K token,使模型能够解决更具挑战性的、此前未能攻克的问题 。

用8K上下文构建高效思维链推理

正式训练之前,先用AIME2024测试集对Deepseek-R1-Distilled-Qwen-1.5B模型进行评估,并分析它的推理轨迹数据。结果发现,错误答案里平均包含的token数量,是正确答案的三倍。这说明回答越长,越容易出错。

因此,直接采用长上下文窗口进行训练效率可能不高,因为大部分token都没有被有效利用。此外,冗长的回答还会表现出重复性模式,这表明它们并未对对思维链推理(CoT)产生实质性的贡献。

基于这些发现,团队决定先从8K token的上下文长度开始训练。在AIME2024测试里,获得了22.9%的初始准确率,只比原始模型低6%。

事实证明这个策略很有效:训练的时候,平均训练奖励从46%提高到了58%,平均响应长度从5500 token减少到了3500 token。

把输出限制在8K token以内,模型能更高效地利用上下文空间。如下表所示,不管是生成正确答案还是错误答案,token数量都大幅减少了。

在AIME准确率上,比原始基准模型还高了5%,用的token数量却只有原来的1/3左右。

扩展至16K token上下文,关键转折点出现

在大约1000步后,8K token运行中发生了一个有趣的变化:响应长度再次开始增加。然而,这却没有增加收益——输出准确率达到了平台期,并最终开始下降。

与此同时,响应截断比例从4.2%上升到了6.5%,这表明更多的响应在上下文长度的限制下被截断。

这些结果表明,模型试图通过「延长思考时间」来提高训练奖励。然而,随着更长的输出,模型越来越频繁地触及到8K token上下文窗口的上限,从而限制了性能的进一步提升。

研究人员意识到这是一个自然的过渡点,于是决定「放开笼子,让鸟儿飞翔」。

他们选择了在第1040步的检查点——即响应长度开始上升的地方——重新启动训练,并使用了16K上下文窗口。

这种两阶段的做法比从一开始就用16K token训练效率高得多:8K的预热阶段让平均响应长度保持在3K token而不是9K,这使得此阶段的训练速度至少提高了2倍。

在扩展上了下文窗口后,研究人员观察到训练奖励、输出长度和AIME准确率都呈现稳定提升趋势。经过额外的500步训练,平均输出长度从3.5K增加至5.5K token,AIME2024的Pass@1准确率达到了38%。

24K魔法,超越o1-preview

在16K token上下文环境下额外训练500步后,研究人员发现模型性能开始趋于平稳——平均训练奖励收敛在62.5%,AIME单次通过准确率徘徊在38%左右,输出长度再次呈现下降趋势。同时,最大输出截断比率逐渐升至2%。

为了最终推动模型性能达到o1级别,研究人员决定决定推出「24K魔法」——将上下文窗口扩大到24K token。

首先,将16K训练时的检查点设定在第480步,并重新启动了一个24K上下文窗口的训练。

随着上下文窗口的扩展,模型终于突破了瓶颈。在大约50步后,模型的AIME准确率首次超过了40%,并在第200步时达到了43%。24K的魔力发挥得淋漓尽致!

总体来看,训练历时约1750步。最初的8K阶段使用了8块A100 GPU进行训练,而16K和24K阶段则扩展到32块A100 GPU进行训练。

整个训练过程共耗时约3800个A100小时,相当于32块A100 GPU上运行了大约5天,计算成本约为4500美元。

研究人员用多个竞赛级别的数学评测基准来测试模型,像AIME 2024、AMC 2023、MATH-500、Minerva Math还有OlympiadBench。

这里报告的是Pass@1准确率,简单说,就是模型第一次就答对的概率。每个问题的结果,都是16次测试取平均值得到的。

将DeepScaleR和DeepSeek模型,以及近期专注推理任务强化学习的成果对比。DeepScaleR在所有评测里,都比基础模型强很多。

在AIME 2024测试中,成绩更是大幅提升了14.4%,整体性能也提高了8.1%。

DeepScaleR比最新模型的表现还好,像从7B参数模型微调来的rSTAR、Prime和SimpleRL。DeepScaleR只用1.5B参数,就达到了o1-preview的性能水平——这是模型效率的重大突破!

AIME准确率与模型规模对比,DeepScaleR实现性能与规模最佳平衡(帕累托最优)。

关键发现

很多人认为强化学习只对大型模型有用,其实强化学习在小型模型上也能发挥显著作用。

Deepseek-R1发现,直接在小型模型上用强化学习,效果不如知识蒸馏。在Qwen-32B模型上做对比实验,强化学习只能让AIME测试的准确率达到47%,但只用知识蒸馏就能达到72.6%。

不过,要是从更大的模型中,通过蒸馏得到高质量的SFT数据,再用强化学习,小模型的推理能力也能大幅提升。

研究证明了这一点:通过强化学习,小型模型在AIME测试中的准确率从28.9%提高到了43.1%。

不管是只用监督微调,还是只用强化学习,都没办法让模型达到最佳效果。只有把高质量的监督微调蒸馏和强化学习结合起来,才能真正发挥LLM的推理潜力。

之前的研究发现,强化学习直接在16K token的上下文环境里训练,和8K token比起来,效果并没有明显提升。这很可能是因为计算资源不够,模型没办法充分利用扩大后的上下文。

最近的研究也指出,模型回复太长,里面就会有很多冗余的推理内容,这些内容容易导致错误结果。本文的实验证实了这些发现。

团队先在较短的8K token上下文里,优化模型的推理能力,这样一来,后续在16K和24K token的环境里训练时,就能取得更快、更明显的进步。

这种一步一步增加长度的方法,能让模型在扩展到更长的上下文之前,先建立起稳定的推理模式,从而提高强化学习扩展上下文长度的效率 。

核心贡献者

项目主页还展示了参与DeepScaleR设计的所有研究人员,其中有两位核心贡献者。

Michael Luo

Michael Luo目前是UC伯克利电气工程与计算机科学系(EECS)的博士生,导师是Ion Stoica教授。

在此之前,他获得了UC伯克利电气工程与计算机科学硕士和工商管理双学士学位。

他的研究兴趣主要在人工智能和系统领域。目前,其研究主要是为机器学习从业者构建可扩展的系统,以实现Sky Computing的愿景。

Sijun Tan(谭嗣俊)

谭嗣俊目前是UC伯克利计算机科学专业的三年级博士生,导师是Raluca Ada Popa。

此前,他在弗吉尼亚大学获得计算机科学和数学双学士学位,导师是David Wu和Yuan Tian。

他曾在Facebook AI Research(FAIR)实习过一段时间,并在蚂蚁集团担任过高级算法工程师。

他的研究领域涵盖机器学习、计算机安全和应用密码学。目前,其研究重点是增强通用型AI智能体的能力和鲁棒性。

参考资料:HNYZs

https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华农27岁博士校园溺亡后续:父亲被安保抬出,姐姐怀孕6月哭晕

华农27岁博士校园溺亡后续:父亲被安保抬出,姐姐怀孕6月哭晕

180视角
2025-11-11 13:30:42
祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

祖雄兵越扒越有:男方有前科,曾琦医德很好,偷拍者身份炸裂

寒士之言本尊
2025-11-10 22:51:59
31架军机巡台,明确统一后红利!台民高呼统一,美国准备“弃台”

31架军机巡台,明确统一后红利!台民高呼统一,美国准备“弃台”

纾瑶
2025-11-10 19:21:54
耿直boy+1!18岁复旦学子击败潘展乐孙杨夺冠,赛后回应亮了

耿直boy+1!18岁复旦学子击败潘展乐孙杨夺冠,赛后回应亮了

青春上海
2025-11-11 11:35:14
全美嘲讽!浓眉都胖成这样了?被曝与球队关系或已破裂

全美嘲讽!浓眉都胖成这样了?被曝与球队关系或已破裂

十点街球体育
2025-11-11 18:05:34
毒株变了,传染性更强!专家提醒:这类冬季高发病马上要冲高

毒株变了,传染性更强!专家提醒:这类冬季高发病马上要冲高

新民晚报
2025-11-11 15:35:48
申请3天就获批!A股1300亿市值公司“摘帽”

申请3天就获批!A股1300亿市值公司“摘帽”

每日经济新闻
2025-11-10 23:11:07
欧委会要求欧盟成员排除中兴、华为设备,外交部:损人不利己

欧委会要求欧盟成员排除中兴、华为设备,外交部:损人不利己

澎湃新闻
2025-11-11 15:38:26
火星撞地球,15万乌军增援波城,谁能笑到最后?

火星撞地球,15万乌军增援波城,谁能笑到最后?

史政先锋
2025-11-11 19:11:35
特朗普:只要我在任,无人敢收台,话音刚落,中方划下4条红线

特朗普:只要我在任,无人敢收台,话音刚落,中方划下4条红线

现代小青青慕慕
2025-11-10 11:09:16
仅10分钟13中13轰28分!2.26米张子宇连续三战100% 女版鲨鱼太强

仅10分钟13中13轰28分!2.26米张子宇连续三战100% 女版鲨鱼太强

颜小白的篮球梦
2025-11-11 18:16:24
进入高发期!山东疾控紧急提醒:11月底或12月初出现高峰

进入高发期!山东疾控紧急提醒:11月底或12月初出现高峰

鲁中晨报
2025-11-11 19:11:42
汉堡王也卖了,外资巨头怎么了?

汉堡王也卖了,外资巨头怎么了?

中产先生
2025-11-11 12:23:39
全运会200米混合泳:小孩姐于子迪摘金,打破尘封13年亚洲纪录

全运会200米混合泳:小孩姐于子迪摘金,打破尘封13年亚洲纪录

全景体育V
2025-11-11 20:33:22
国足新帅上任3把火:拒绝足协“塞人”,30岁老将出局,提拔小将

国足新帅上任3把火:拒绝足协“塞人”,30岁老将出局,提拔小将

鋭娱之乐
2025-11-11 12:31:55
以1敌7国,中方为琉球正名,高市已为战争铺路,日本前首相出山

以1敌7国,中方为琉球正名,高市已为战争铺路,日本前首相出山

知鉴明史
2025-11-10 20:22:08
CCTV5直播!女单全国冠军出局!今日产生首金!王曼昱陈梦出战!王艺迪惊险过关!

CCTV5直播!女单全国冠军出局!今日产生首金!王曼昱陈梦出战!王艺迪惊险过关!

好乒乓
2025-11-11 11:40:14
神舟二十号最新消息显示:飞船遭撞击问题不大,或仍用该飞船返回

神舟二十号最新消息显示:飞船遭撞击问题不大,或仍用该飞船返回

科普大世界
2025-11-11 16:30:58
官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

懂球帝
2025-11-11 18:01:10
人到老年才明白的12个道理,别等80-90岁才明白,一切都晚了

人到老年才明白的12个道理,别等80-90岁才明白,一切都晚了

情感大使馆
2025-11-10 09:49:53
2025-11-11 21:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13843文章数 66242关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

媒体:高市早苗接连触碰中国底线 日本贼心不死

头条要闻

媒体:高市早苗接连触碰中国底线 日本贼心不死

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

数码
家居
游戏
旅游
房产

数码要闻

慧天X5测评:超轻薄机身加标压性能,企业办公神器?

家居要闻

国美学子 打造筑梦空间

知情人爆料:ON离队!Knight和BLG续约难度大,missing加入LNG

旅游要闻

打开旅居的“乡村盲盒”

房产要闻

海口湾,1300亩巨无霸地块登场!

无障碍浏览 进入关怀版