网易首页 > 网易号 > 正文 申请入驻

成本不到150元!李飞飞等26分钟训出推理模型媲美R1,秘诀:蒸馏

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!

这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作:s1

在数学和编程能力的评测集上,s1的表现比肩DeepSeek-R1和o1。



而训一个这样性能的模型,团队仅仅用了16个英伟达H100,训练耗时26分钟。

据TechCrunch,这个训练过程消耗了不到50美元的云计算成本,约合人民币364.61元;而s1模型作者之一表示,训练s1所需的计算资源,在当下约花20美元(约145.844元)就能租到

怎么做到的???

s1团队表示,秘诀只有一个:蒸馏

简单来说,团队以阿里通义团队的Qwen2.5- 32B-Instruct作为基础模型,通过蒸馏谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking实验版,最终得到了s1模型。

为了训练s1,研究团队创建了一个包含1000个问题(精心挑选那种)的数据集,且每个问题都附有答案,以及Gemini 2.0 Flash Thinking实验版的思考过程。

目前,项目论文《s1: Simple test-time scaling》已经挂上arXiv,模型s1也已在GitHub上开源,研究团队提供了训练它的数据和代码。

150元成本,训练26分钟

s1团队搞这个花活,起因是OpenAI o1展现了Test-time Scaling的能力。

即「在推理阶段通过增加计算资源或时间,来提升大模型的性能」,这是原本预训练Scaling Law达到瓶颈后的一种新Scaling。

但OpenAI并未公开是如何实现这一点的。

在复现狂潮之下,s1团队的目标是寻找到Test-time Scaling的简单方法



过程中,研究人员先构建了一个1000个样本的数据集,名为s1K

起初,在遵循质量、难度、多样性原则的基础上,这个数据集收集了来自MATH、AGIEval等诸多来源的59029个问题。



经去重、去噪后,通过质量筛选、基于模型性能和推理痕迹长度的难度筛选,以及基于数学学科分类的多样性筛选,最终留下了一个涵盖1000个精心挑选过的问题的数据集

且每个问题都附有答案,以及谷歌Gemini 2.0 Flash Thinking实验版的模型思考过程。

这就是最终的s1K。



研究人员表示,Test-time Scaling有2种。

第1种,顺序Scaling,较晚的计算取决于焦躁的计算(如较长的推理轨迹)。

第2种,并行Scaling,be like计算独立运行(如多数投票任务)。

s1团队专注于顺序这部分,原因是团队“从直觉上”认为它可以起到更好的Scaling——因为后面的计算可以以中间结果为基础,从而允许更深入的推理和迭代细化。

基于此,s1团队提出了新的顺序Scaling方法,以及对应的Benchmark。



研究过程中,团队提出了一种简单的解码时间干预方法budget forcing,在测试时强制设定最大和/或最小的思考token数量。

具体来说,研究者使用了一种很简单的办法:

直接添加“end-of-thinking token分隔符”和“Final Answer”,来强制设定思考token数量上限,从而让模型提前结束思考阶段,并促使它提供当前思考过程中的最佳答案。

为了强制设定思考过程的token数量下限,团队又禁止模型生成“end-of-thinking token分隔符”,并可以选择在模型当前推理轨迹中添加“wait”这个词,鼓励它多想想,反思反思当前的思考结果,引导最佳答案。

以下是budget forcing这个办法的一个实操示例:



团队还为budget forcing提供了baseline。

一是条件长度控制方法(Conditional length-control methods),该方法依赖于,在提示中告诉模型它应该花费多长时间来生成输出。

团队按颗粒度将它们分为Token-conditional控制、步骤条件控制和类条件控制。

  • Token-conditional控制:在提示词中,指定Thinking Tokens的上限;
  • 步骤条件控制:指定一个思考步骤的上限。其中每个步骤约100个tokens;
  • 类条件控制:编写两个通用提示,告诉模型思考短时间或长时间。

二是拒绝抽样(rejection sampling)。

即在抽样过程中,若某一生成内容符合预先设定的计算预算,就停止计算。

该算法通过其长度来捕捉响应的后验分布。



而s1模型的整个训练过程,只用了不到半个小时——

团队在论文中表示,他们使用Qwen2.532B-Instruct模型在s1K数据集上进行SFT,使用16个英伟达H100,训练耗时26分钟

s1研究团队的Niklas Muennighoff(斯坦福大学研究员)告诉TechCrunch,训练s1所需的计算资源,在当下约花20美元就能租到。

研究新发现:频繁抑制思考会导致死循环

训出模型后,团队选用3个推理基准测试,把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通义Qwen2.5系列/QWQ、昆仑万维Sky系列、Gemini 2.0 Flash Thinking实验版等多个模型进行对比。

3个推理基准测试如下:

  • AIME24:2024年美国数学邀请考试中使用的30个问题
  • MATH500:不同难度的竞赛数学问题的基准
  • GPQA Diamond:生物、化学和物理领域的198个博士级问题



整体来说,采用了budget forcing的s1-32B扩展了更多的test-time compute。

评测数据显示,s1-32B在MATH500上拿到了93.0的成绩,超过o1-mini,媲美o1和DeepSeek-R1

不过,如下图所示,团队发现,虽然可以用budget forcing和更多的test-time compute来提高s1在AIME24上的性能,在AIME24上比 o1-preview最高提升27%。

但曲线最终在性能提升6倍后趋于平缓。

由此,团队在论文中写道:

过于频繁地抑制思考结束标记分隔符,会导致模型进入重复循环,而不是继续推理。



而如下图所示,在s1K上训练Qwen2.5-32B-Instruct来得到s1-32B,并为它配备了简单的budget forcing后,它采用了不同的scaling范式。

具体来说,通过多数投票在基础模型上对test-time compute进行Scale的方法,训出的模型无法赶上s1-32B的性能。

这就验证了团队之前的“直觉”,即顺序Scaling比并行Scaling更有效



此外,团队提到,s1-32B仅仅使用了1000个样本训练,在AIME24上的成绩就能接近Gemini 2.0 Thinking,是“样本效率最高的开源数据推理模型”。

研究人员还表示,Budget forcing在控制、缩放和性能指标上表现最佳。

而其它方法,如Token-conditional控制、步骤条件控制、类条件控制等,均存在各种问题。

One More Thing

s1模型,是在一个1000个精挑细选的小样本数据集上,通过SFT,让小模型能力在数学等评测集上性能飙升的研究。

但结合近期刷爆全网的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窥见模型推理技术的更多值得挖掘之处。

模型蒸馏技术加持下,DeepSeek-R1的训练成本震撼硅谷。

现在,AI教母李飞飞等,又一次运用「蒸馏」,花费低到令人咋舌的训练成本,做出了一个能媲美顶尖推理模型的32B推理模型。

一起期待大模型技术更精彩的2025年吧~

arXiv:

https://arxiv.org/pdf/2501.19393

GitHub:

https://github.com/simplescaling/s1

https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国乒天才选手诞生!孙颖莎或被爆冷,丢失世界杯冠军

国乒天才选手诞生!孙颖莎或被爆冷,丢失世界杯冠军

体坛狗哥
2025-04-19 12:05:20
预定普斯卡什?柏林联合后卫奎菲尔德轰入超40米超级世界波

预定普斯卡什?柏林联合后卫奎菲尔德轰入超40米超级世界波

直播吧
2025-04-20 01:44:10
谢娜发文道歉!张小婉管乐深夜回应引爆乘风2025,真相太讽刺?

谢娜发文道歉!张小婉管乐深夜回应引爆乘风2025,真相太讽刺?

乡野小珥
2025-04-20 06:38:23
这咋赢?快船全队出现20次失误丢29分 罚球只有16次比掘金少11次

这咋赢?快船全队出现20次失误丢29分 罚球只有16次比掘金少11次

Emily说个球
2025-04-20 06:53:07
日本“地震夜”! 一夜47连震, 后续还会更糟?

日本“地震夜”! 一夜47连震, 后续还会更糟?

每日经济新闻
2025-04-20 11:59:48
现在全世界基本上除了中美自己,很多国家都盼着中美赶紧开战。

现在全世界基本上除了中美自己,很多国家都盼着中美赶紧开战。

泸沽湖
2025-04-19 11:40:37
西甲-马竞0-1遭拉斯帕尔马斯绝杀落后榜首10分 阿尔瓦雷斯失良机

西甲-马竞0-1遭拉斯帕尔马斯绝杀落后榜首10分 阿尔瓦雷斯失良机

直播吧
2025-04-20 05:03:14
多人合同到期!广东队夏天恐怕要重建,爆料多支球队想挖走杜锋

多人合同到期!广东队夏天恐怕要重建,爆料多支球队想挖走杜锋

宗介说体育
2025-04-20 14:08:26
今年养老金上涨3.8%,工龄15年和30年,调整后相差多少钱?

今年养老金上涨3.8%,工龄15年和30年,调整后相差多少钱?

社保小达人
2023-06-05 12:34:25
挽救赛点!13比11绝杀!女网金花张帅创造历史,追赶郑钦文脚步

挽救赛点!13比11绝杀!女网金花张帅创造历史,追赶郑钦文脚步

体坛知道分子
2025-04-20 10:33:34
74人烧死171人受伤!美军迎来报复:两艘航母遭导弹攻击

74人烧死171人受伤!美军迎来报复:两艘航母遭导弹攻击

不冻港来了
2025-04-19 22:26:49
“不是阵痛,而是猝死”,关税风暴下的美国商家

“不是阵痛,而是猝死”,关税风暴下的美国商家

新京报
2025-04-20 10:59:31
Skip:爱德华兹去年季后赛时心脏像蚂蚁那么小 湖人4-1胜森林狼

Skip:爱德华兹去年季后赛时心脏像蚂蚁那么小 湖人4-1胜森林狼

直播吧
2025-04-20 08:58:12
徐杰:第二阶段自己得到了历练,但后面很多东西越打越回去了

徐杰:第二阶段自己得到了历练,但后面很多东西越打越回去了

懂球帝
2025-04-20 11:49:16
鲍仁君:今天这样的老詹可能会成为常态 这个系列我还是看好湖人

鲍仁君:今天这样的老詹可能会成为常态 这个系列我还是看好湖人

直播吧
2025-04-20 11:17:14
连巴铁都不敢想!歼20和红旗19技术保密不外销,可埃及人不想放弃

连巴铁都不敢想!歼20和红旗19技术保密不外销,可埃及人不想放弃

荷兰豆爱健康
2025-04-20 11:43:36
张若昀版霍去病来袭,长达75集还虚构女主,就担心用情爱戏水时长

张若昀版霍去病来袭,长达75集还虚构女主,就担心用情爱戏水时长

最爱酷影视
2025-04-20 09:35:04
邱贻可立功!关键时刻喊出一句话,助蒯曼4-3翻盘,王曼昱送掌声

邱贻可立功!关键时刻喊出一句话,助蒯曼4-3翻盘,王曼昱送掌声

何老师呀
2025-04-19 17:26:22
马航370并非意外失联,前美中情局特工说出真相后,车祸身亡

马航370并非意外失联,前美中情局特工说出真相后,车祸身亡

南冥那只猫
2025-03-05 21:11:34
恰如其分,尼克斯队唐斯对杰伦·布伦森首战的神勇表现直言不讳

恰如其分,尼克斯队唐斯对杰伦·布伦森首战的神勇表现直言不讳

好火子
2025-04-20 13:54:13
2025-04-20 14:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
10339文章数 157519关注度
往期回顾 全部

科技要闻

机器人半马:摇摇晃晃21公里,跌倒也燃!

头条要闻

日本人去韩国抢大米吐槽:便宜没好货 还是日本的好吃

头条要闻

日本人去韩国抢大米吐槽:便宜没好货 还是日本的好吃

体育要闻

末节21-0!尼克斯逆转活塞1-0 唐斯23+11

娱乐要闻

分手了?鹿晗生日关晓彤未送祝福,

财经要闻

不到8个月,购买量何以超亿台?

汽车要闻

把探险刻进DNA,2025长安福特年度福探长盛典举办

态度原创

艺术
房产
本地
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

房产要闻

白鹅潭C位新品登场!抢占主城晋阶改善,盯紧新世界·天馥

本地新闻

云游湖北 | 七仙女都爱的山水,双峰米酒一口上头

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗外长: 下一轮伊美核问题谈判将于26日举行

无障碍浏览 进入关怀版