网易首页 > 网易号 > 正文 申请入驻

360智脑开源Light-R1!1000美元数学上首超DeepSeek-R1-Distill

0
分享至

机器之心发布

机器之心编辑部

2025 年 3 月 4 日,360 智脑开源了 Light-R1-32B 模型,以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成,从没有长思维链的 Qwen2.5-32B-Instruct 出发,仅使用 7 万条数学数据训练,得到 Light-R1-32B,在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分,在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前,360 智脑联合北大开源了 TinyR1-32B-Preview,从 DeepSeek-R1-Distill-Qwen-32B 训练,在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。Light-R1-32B 则不依赖 DeepSeek-R1-Distill,从没有长思维链的模型出发,在数学上从零复现并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智脑希望这些工作助力开源社区发展。

注:表中为 64 次采样均分,较 16 次平均更稳定;其他开源模型截取开源汇报的结果,若没有则测试 64 次取均分。

  • 模型仓库:https://huggingface.co/qihoo360/Light-R1-32B
  • 项目地址:https://github.com/Qihoo360/Light-R1

低成本从零超越,领域专精

DeepSeek-R1 模型发布以来,尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能,但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成绩。

360 智脑开源的 Light-R1-32B 实现了突破,从没有长思维链的 Qwen2.5-32B-Instruct 开始训练,它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分,均显著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的这套从零训练的方案,按 H800 租用价格估算,训练成本仅需 1000 美元左右。仅使用了 7 万条数学数据,通过两阶段的课程学习 SFT 接着 DPO,即可超过 DeepSeek-R1-Distill-Qwen-32B,12 台 H800 机器的训练时长仅需 6 小时以内(约 4+0.5+0.5 小时)。

虽然仅使用数学数据训练了模型的长思维链能力,但在 GPQA Diamond 任务上的优秀结果,让我们相信 Light-R1 的训练方案的泛化性及有效性。相比于内部目前正在研发的强化学习路线,Light-R1 的课程学习 SFT+DPO 对整个训练流程更轻便,成本也更友好。随着训练和推理技术的不断发展,未来长思维链模型将更加普及,Light-R1 正为低成本快速训练一个领域专精推理模型提供了重要参考。

全量开源,简单易用

Light-R1 开源首日即开源全量训练和评测资产:

  • Light-R1-32B 模型:沿用 Qwen2.5-32B Apache 2.0 License;
  • 课程学习 SFT+DPO 数据集:两阶段课程学习 SFT 和 DPO 的全部数据;
  • 360-LLaMA-Factory 训练框架:在长思维链数据 Post-Training(尤其是 DPO)上解锁序列并行;
  • 完整评测代码和结果:基于 DeepScaleR 的评测工具,Light-R1-32B 的原始采样结果也在 Huggingface 模型目录下。

Fully open at Day 1,确保可信度和可复现性。360 智脑也正在探索强化学习续训,未来性能有望进一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了个别特殊 token。使用 Light-R1-32B 模型时,因其长思维链能力目前仅通过数学数据训练,故并不会对所有用户输入输出长思维链。参照 DeepSeek 的推理建议,我们在聊天模板中硬编码了 < think> token 强制其思考。建议使用较新版本的 vLLM 或 SGLang 进行推理。

课程 SFT+DPO,稳步提升

数据准备

训练用的数学题来自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME(截至 2023 年)等多个开源的数学数据集,并对 AIME、MATH、GPQA 等基准测试的数据泄露去除了污染的题目。

数学题的答案抓取了 DeepSeek-R1 的结果并经过验证过滤。同时使用 DeepScaleR-1.5B-Preview 进行采样根据回答正确率估算题目的难度分级。

课程学习 SFT+DPO

基于 Qwen2.5-32B-Instruct,依次进行 Post-Training:

  • SFT 阶段 1:根据验证结果和难度分级初筛,得到 7 万条数据进行 SFT;
  • SFT 阶段 2:在 SFT 阶段 1 之后,筛选出难度最大的 3 千条数据,进行 SFT;
  • DPO 阶段:在 SFT 阶段 2 之后,在 3 千条数据上多次采样 Light-R1-SFT 阶段 2 的回答,根据验证结果和 DeepSeek-R1 的回答构建 DPO pair 对,进行 DPO,使用 DPO 原始 loss 或 NCA loss。

模型融合

最终,智脑团队将 SFT 阶段 2、DPO 和另一个 DPO 版本的模型(AIME24 74.7 分)融合,使用 Arcee 团队的 mergekit 工具,得到 Light-R1-32B。这两个 DPO 版本在训练数据和超参上略有不同。

整个训练流程中,每一步的提升都在前文的表格中体现。在完全没训练的科学类题目评测 GPQA 上,数学专项训练导致了部分遗忘,但 Light-R1-32B 也体现了较强的泛化性。

数据去重,助力开源生态

基准测试分数既有其重要性,也有局限性。虽然预训练阶段的个别基准测试污染难以完全避免,但在后训练阶段,应当严格杜绝数据污染,在训练集中对测试数据严格去重。360 智脑在研发过程中发现,虽然开源数据集对 AIME 都没有污染,但是在 MATH-500 和 GPQA 上都存在一定污染,通过 N-gram 或纯字母匹配检测,可以发现原题或仅更改数字的计算题。针对这种情况,Light-R1-32B 在训练过程中做了严格去重。

在开源社区中,Light-R1-32B 是首个从零训练超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于开源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多个开源数据,使用开源框架 360-LLaMA-Factory 训练,使用开源项目 DeepScaleR 和 verl 评测。360 希望通过 Light-R1-32B 和上周开源的 TinyR1 等工作助力开源生态发展,加速中国 AI。

注:本文 “从零” 表示从没有长思维链的模型开始训练

团队成员:Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

参考资料:

https://github.com/Qihoo360/Light-R1

https://huggingface.co/qihoo360/Light-R1-32B

https://huggingface.co/collections/qihoo360/light-r1-67c675125e2443d7d5ed133d

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
还是做好准备吧,一美元只能兑换5.5元人民币时代,或许终会到来

还是做好准备吧,一美元只能兑换5.5元人民币时代,或许终会到来

阅识
2026-01-31 15:32:50
央视宋世雄,晚年选择87岁独居北京,这一决定刺痛无数中国式家庭

央视宋世雄,晚年选择87岁独居北京,这一决定刺痛无数中国式家庭

人生录
2026-06-22 16:37:13
韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

大风新闻
2026-06-25 14:15:08
13岁少女遭强奸不予立案事件迎来转机!30岁凶手围猎少女手段恶劣令人发指

13岁少女遭强奸不予立案事件迎来转机!30岁凶手围猎少女手段恶劣令人发指

不二表姐
2026-06-26 00:55:55
他是央视金牌主持人,57岁头婚娶北师大教授,如今无儿女定居北京

他是央视金牌主持人,57岁头婚娶北师大教授,如今无儿女定居北京

白面书誏
2026-06-26 15:03:58
去掉华为,日前德国铁路网全国瘫痪,中国也用GSM-R网络却更稳定

去掉华为,日前德国铁路网全国瘫痪,中国也用GSM-R网络却更稳定

老谢谈史
2026-06-26 11:43:03
哀悼,18岁澳大利亚球迷在墨尔本观看世界杯后遭遇车祸离世

哀悼,18岁澳大利亚球迷在墨尔本观看世界杯后遭遇车祸离世

懂球帝
2026-06-26 17:41:21
后台偶遇三秒侧身擦肩,吴越沉默回避陈建斌,清醒格局引全网热议

后台偶遇三秒侧身擦肩,吴越沉默回避陈建斌,清醒格局引全网热议

陈意小可爱
2026-06-26 20:21:05
增强成人内容生成,已成马斯克旗下Grok的主要流量增长策略

增强成人内容生成,已成马斯克旗下Grok的主要流量增长策略

不看车bukanche
2026-06-25 11:12:54
曼联血亏!8000 万王牌完爆 1.2 亿安德森,红魔放着不抢专砸水货

曼联血亏!8000 万王牌完爆 1.2 亿安德森,红魔放着不抢专砸水货

澜归序
2026-06-27 07:21:22
一国宣布:放假1天!庆祝世界杯晋级

一国宣布:放假1天!庆祝世界杯晋级

南方都市报
2026-06-26 15:02:13
登贝莱戴帽!世界杯小组第3积分榜:太惨了,5-0送韩国退居第7了

登贝莱戴帽!世界杯小组第3积分榜:太惨了,5-0送韩国退居第7了

求球不落谛
2026-06-27 05:05:27
王菲悠闲慢游西安城墙,网友:天后果然偏爱陕西!

王菲悠闲慢游西安城墙,网友:天后果然偏爱陕西!

玖宇维
2026-06-27 05:53:17
4年2.75亿!浓眉值这个价吗?

4年2.75亿!浓眉值这个价吗?

柚子说球
2026-06-26 09:24:15
中国球迷谈支持日本队:我们90后从小看日本动漫长大 愿架起友谊桥梁

中国球迷谈支持日本队:我们90后从小看日本动漫长大 愿架起友谊桥梁

漫川舟船
2026-06-26 18:11:15
憋不下这口气!

憋不下这口气!

浪花妈妈
2026-06-27 07:45:27
人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

人口大迁徙已成定局?明后年,越来越多的人会举家流入这4座城市

哄动一时啊
2026-06-26 14:23:48
电脑跌41%,手机跌16%,中国消费者,已被内存“制服”了

电脑跌41%,手机跌16%,中国消费者,已被内存“制服”了

科技故事聚焦
2026-06-25 16:12:46
发现没有?超市、菜市场已经出现大怪现象,值得每一个人去深思

发现没有?超市、菜市场已经出现大怪现象,值得每一个人去深思

糖逗在娱乐
2026-06-27 04:26:12
50岁以后,个人存款超过“这两个数”,你就是“低调的有钱人”了

50岁以后,个人存款超过“这两个数”,你就是“低调的有钱人”了

心理观察局
2026-06-27 07:31:24
2026-06-27 08:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13370文章数 142682关注度
往期回顾 全部

科技要闻

GPT-5.6发布,旗舰模型先向可信伙伴开放

头条要闻

13岁女孩称被两男子性侵 家属:警方立案4个月后撤案

头条要闻

13岁女孩称被两男子性侵 家属:警方立案4个月后撤案

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

本地
亲子
教育
数码
公开课

本地新闻

世界杯球迷节:比球赛更好玩的派对

亲子要闻

你的底线来了,老兵月子中心了解一下

教育要闻

高考之后该干嘛,多少人能上清北?

数码要闻

vivo TWS 5 Pro无线耳机发布:独立Hi-Fi DAC芯片加持 949元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版