网易首页 > 网易号 > 正文 申请入驻

16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

0
分享至

新智元报道

编辑:犀牛

【新智元导读】大模型推理性能的提升,真的只能靠堆数据、加算力吗?李飞飞等用仅1000个样本微调模型,并提出预算强制(budget forcing)技术,成功让推理能力随测试计算量增加而提升。他们的s1-32B模型在多个基准测试中超越闭源模型OpenAI o1-preview,成为目前最具样本效率的推理模型。

OpenAI o系列模型为何性能如此强大?

OpenAI将他们的方法描述为使用大规模强化学习(RL),暗示使用了大量的数据。

最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式,成功地达到了o1级别的性能。

然而,至今为止没有人公开成功复现清晰的测试时扩展行为。

那么问题来了,实现测试时扩展和强推理性能的最简单方法是什么?

近日,来自斯坦福大学、华盛顿大学、Ai2等机构的研究人员发表了一篇题为「s1: Simple test-time scaling」的论文,回答了上述问题。

论文地址:https://arxiv.org/pdf/2501.19393

团队证明,仅使用1000个样本进行下一个token的预测训练,并在测试时通过一种简单的预算强制(budget forcing)技术来控制思维持续时间,就能获得一个强大的推理模型,其性能随着测试计算量的增加而提升。

预算强制(budget forcing)可以简单理解为通过强制提前结束模型的思考过程,或通过重复添加「Wait」来延长思考时间,从而影响模型的推理深度和最终答案。

这种方法可以引导模型进行自我检查,并修正推理过程中的错误,从而提高推理性能。

具体来说,他们构建了一个叫做「s1K」的数据集,由1000个精心筛选的问题组成,每个问题都配有推理轨迹(reasoning traces)和从Gemini Thinking Experimental蒸馏而来的答案。

接着团队在一个预训练模型上进行监督微调(SFT),仅使用16张H100 GPU训练26分钟。

训练完成后,使用预算强制(budget forcing)方法来控制模型在测试时的计算量:

  1. 若模型生成的推理token超过设定的上限,则强制结束推理过程,并附加思维结束(end-of-thinking)token,促使模型进入答案生成阶段。

  2. 若希望模型在问题上投入更多测试时计算资源,则抑制思维结束token的生成,并在推理轨迹中追加 「Wait」,鼓励模型进行更深入的推理探索。

基于这个简单的方法,并在1000个样本上进行SFT训练 + 测试时的预算强制(budget forcing)后,团队提出的s1-32B展现出了测试时扩展(test-time scaling)的能力。

此外,s1-32B也是目前最具样本效率(sample-efficient)的推理模型,在推理能力上超越了OpenAI的o1-preview等闭源模型。

如何创建s1K数据集

s1K数据集是一个包含1000个高质量推理问题的精选数据集。

团队创建过程主要分为两个阶段。

初始阶段,研究人员从16个不同的来源收集了59029个问题,并遵循三个指导原则:质量、难度和多样性。

这些来源包括现有的数学问题数据集(如 NuminaMATH、AIME、OmniMath 和 AGIEval),以及研究人员自己创建的概率问题集 (s1-prob) 和脑筋急转弯问题集 (s1-teasers)。

为了确保质量,研究人员检查了所有样本,并忽略了格式不佳的数据集。为了增加难度,他们选择需要大量推理努力的问题。为了确保多样性,他们涵盖了不同的领域和推理任务.

第二阶段,最终筛选1K样本。研究人员通过三个阶段的过滤,从59K样本中筛选出1000个样本,并继续依赖质量、难度和多样性这三个原则。

通过这些过程,研究人员创建了s1K数据集,该数据集包含50个不同领域的1000个高质量、多样化和高难度的问题,并附带推理过程。

这个数据集对于训练s1-32B模型至关重要。

测试时扩展方法

其核心思想是通过在测试时增加计算量来提高语言模型的性能。

论文将测试时扩展方法分为两类:顺序(Sequential)和并行(Parallel)。

顺序扩展是指后面的计算依赖于前面的计算,例如长的推理过程;并行扩展是指计算是独立运行的,例如多数投票。

论文主要关注顺序扩展,因为作者认为它可以更好地利用中间结果进行更深入的推理和迭代改进。

预算强制(Budget Forcing):通过限制模型在测试时使用的最大和/或最小思考token数量来控制计算量。

论文通过实验证明了,这种简单的方法能够引导模型修正答案。

下图这个例子中,模型最初在回答一个关于「raspberry」中 「r」的数量的问题时给出了错误的答案 「2」。

然而,通过抑制结束思考的token生成,并追加「Wait」来强制模型继续推理,模型最终意识到自己快速阅读导致了错误,并最终给出了正确的答案「3」。

测试时扩展方法

如下图所示,s1-32B模型在使用预算强制技术后,其性能会随着测试时计算量的增加而提高。

具体来说,通过增加模型思考的token数量(例如,通过追加「Wait」),模型在 AIME24 基准测试上的表现得到了提升。

然而,这种提升最终会趋于平缓,过度抑制结束思考的token会导致模型进入重复循环。

结果表明,s1-32B模型是目前样本效率最高的开源推理模型。尽管只使用了1000个样本进行微调,s1-32B的性能仍明显优于其基础模型Qwen2.5-32B-Instruct。

同时,虽然DeepSeek r1-32B模型性能更强,但其使用了800倍的训练样本。

此外,s1-32B模型在AIME24上的表现几乎与Gemini 2.0 Thinking API持平,表明其蒸馏过程是有效的。

总之,实验结果证明了s1-32B模型在测试时扩展、样本效率和推理能力方面的优势,并验证了预算强制技术的有效性。

消融实验

数据消融实验:研究人员通过以下对比实验,验证了高质量、多样性、和难度这三个数据选择标准的重要性:


  • 仅质量 (1K-random):随机选取1000个高质量样本,性能明显低于s1K,表明难度和多样性过滤的重要性。

  • 仅多样性 (1K-diverse):均匀选取各个领域样本,性能也远不如s1K,表明只关注多样性是不够的。

  • 仅难度 (1K-longest):选择推理轨迹最长的1000个样本,在GPQA上有提升,但整体不如s1K,表明难度只是一个方面。

  • 最大化数据量 (59K-full):使用所有59K样本训练,虽然性能略有提升,但训练资源消耗巨大,且提升幅度有限,说明精心挑选的少量数据比大量数据更高效。

结果表明,将质量、难度和多样性相结合是实现样本高效推理训练的关键。

测试时扩展方法消融实验:研究人员通过比较不同的测试时扩展方法,验证了预算强制的优越性:

  • Token/步骤/类别 条件控制 (TCC/SCC/CCC):这些方法都无法有效控制计算量或获得良好的扩展效果,表明仅在提示中告知模型计算量或步骤是不足的。

  • 拒绝采样 (RS):使用拒绝采样会导致性能随着计算量的增加而下降,因为更短的生成往往是模型一开始就走在正确轨道上的结果。

  • 预算强制 (BF):实验表明,预算强制在控制性、扩展性和性能方面都优于其他方法。

  • 在预算强制中,追加「Wait」能够鼓励模型进行额外的思考,从而提高性能。

下图展示了在AIME24数据集上使用s1-32B模型进行拒绝采样(rejection sampling)的实验结果,结果表明,随着平均思考时间(以token数量衡量)的增加,模型的准确率反而下降,呈现出反向扩展趋势。

更长的推理过程并不一定意味着更好的性能。 这一结果也反衬了论文提出的预算强制方法(budget forcing)的优越性,因为预算强制可以更有效地控制测试时的计算量,并促使模型进行更有目的性的思考。

实验结果表明,预算强制是测试时扩展的最佳方法。

总结

尽管很多模型,例如DeepSeek-r1和k1.5,通过强化学习或使用数万个蒸馏样本来构建强大的推理模型。

但该研究表明,仅需在1000个样本上进行监督微调 (SFT) 就足以构建一个具有竞争力的推理模型,该模型可以与 OpenAI的o1-preview相媲美。

李飞飞团队研究人员认为,预训练阶段模型已经接触了大量的推理数据,因此微调阶段只需少量样本就能激活模型的推理能力,这与LIMA论文中提出的表面「对齐假说」类似。

论文提出的预算强制 (budget forcing) 是一种简单有效的顺序扩展方法,它通过控制模型思考的token数量来提高性能,并首次复现了OpenAI的测试时扩展曲线。

尽管预算强制有其局限性,例如最终会趋于平缓和受上下文窗口的限制,但它证明了测试时扩展的潜力,并为未来的研究提供了明确的指标:可控性、扩展性和性能。

为了克服顺序扩展的局限性,论文还探讨了并行扩展方法,如多数投票和基于REBASE的树搜索(下图)。实验结果表明,将顺序扩展与并行扩展方法相结合,还可以进一步扩展测试时的计算量。

未来方向

论文强调,未来的研究可以探索如何进一步改进预算强制,例如轮换使用不同的字符串或结合频率惩罚。

一个有前景的方向是将预算强制应用于通过强化学习训练的推理模型,并研究新的测试时扩展方法。

此外,可以研究如何进一步扩展测试时的计算量,以克服现有语言模型上下文窗口的限制。

参考资料:

https://arxiv.org/pdf/2501.19393

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iPhone 17 Pro散热大幅改进!但依旧远远落后于安卓

iPhone 17 Pro散热大幅改进!但依旧远远落后于安卓

雷科技
2025-09-19 21:50:30
赵睿离开新疆队!阿不都沙拉木终于说出心里话,说得很实在

赵睿离开新疆队!阿不都沙拉木终于说出心里话,说得很实在

球哥评球
2025-09-19 12:37:18
英国战后统计:打不过志愿军的原因,太多人被中国人打成了精神病

英国战后统计:打不过志愿军的原因,太多人被中国人打成了精神病

诺言卿史录
2025-08-28 04:00:03
罗永浩会被跨省吗?律师解读

罗永浩会被跨省吗?律师解读

慕容律师
2025-09-19 12:00:51
华南沿海最大的猛禽!在珠海这里拍到了!

华南沿海最大的猛禽!在珠海这里拍到了!

珠海发布
2025-09-19 17:03:37
经济学家眼中最奇葩的案例——阿根廷的复苏之路

经济学家眼中最奇葩的案例——阿根廷的复苏之路

入木三分谈
2025-09-02 20:10:14
31岁施工员:娶一个农村女孩,一天好日子也没有,但我乐意

31岁施工员:娶一个农村女孩,一天好日子也没有,但我乐意

施工员小天哥
2025-09-19 20:49:28
金莎也没想到,恋爱3年,小17岁男友孙丞潇,竟走上了贾冰的老路

金莎也没想到,恋爱3年,小17岁男友孙丞潇,竟走上了贾冰的老路

白面书誏
2025-09-18 11:15:41
新四军老战士、内蒙古军区原司令员蔡英逝世,享年102岁

新四军老战士、内蒙古军区原司令员蔡英逝世,享年102岁

澎湃新闻
2025-09-19 11:06:26
世界仅剩的两个殖民地:主国拼命劝独立,可人家愣是不答应

世界仅剩的两个殖民地:主国拼命劝独立,可人家愣是不答应

牛牛叨史
2025-08-31 20:35:29
“人口警报”再次拉响,二胎效果不佳三胎没人生,奇葩建议频出!

“人口警报”再次拉响,二胎效果不佳三胎没人生,奇葩建议频出!

云景侃记
2025-09-19 16:10:22
8000 个家庭案例研究曝光:中国孩子已经变了,老师和家长却还没跟上!

8000 个家庭案例研究曝光:中国孩子已经变了,老师和家长却还没跟上!

心理提升课堂
2025-09-06 16:21:06
单节10分钟+恢复升降级,CBA赛制改革,是对姚明时代拨乱反正

单节10分钟+恢复升降级,CBA赛制改革,是对姚明时代拨乱反正

姜大叔侃球
2025-09-19 10:46:04
步步高创始人:移民美国二十多年,却不间断给中国捐款十几个亿

步步高创始人:移民美国二十多年,却不间断给中国捐款十几个亿

以绝望挥剑
2025-08-08 22:05:15
多位媒体人确认!曾凡博百分百出战NBA中国赛 冲篮网最后双向名额

多位媒体人确认!曾凡博百分百出战NBA中国赛 冲篮网最后双向名额

醉卧浮生
2025-09-19 18:21:33
范世琦方终于回应,否认当晚参与伤害于朦胧,晒证据击碎5大谣言

范世琦方终于回应,否认当晚参与伤害于朦胧,晒证据击碎5大谣言

小海娱计
2025-09-19 18:54:28
脸都不要了!澳超球队亚冠首轮全败,总胜率仅有27.3%

脸都不要了!澳超球队亚冠首轮全败,总胜率仅有27.3%

直播吧
2025-09-19 09:24:08
男子400米栏:本杰明跑出46秒52的赛季最佳,因碰倒栏架被取消资格

男子400米栏:本杰明跑出46秒52的赛季最佳,因碰倒栏架被取消资格

懂球帝
2025-09-19 20:57:02
这辈子你最闹心的经历是啥?网友:自认心灵纯洁的朋友一定要慎看

这辈子你最闹心的经历是啥?网友:自认心灵纯洁的朋友一定要慎看

解读热点事件
2025-09-18 00:15:06
关于人口数据这事,网友们提供了一系列的细节

关于人口数据这事,网友们提供了一系列的细节

清晖有墨
2025-09-02 12:21:41
2025-09-19 22:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13479文章数 66162关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

女教师在闺蜜群聊"八卦"被认定诽谤遭行拘 当事人发声

头条要闻

女教师在闺蜜群聊"八卦"被认定诽谤遭行拘 当事人发声

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

684亿大牛股,把孕妇逼到胎停?

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

艺术
游戏
数码
公开课
军事航空

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

《战地6》可允许自由安装战役或多人 还有究极画质

数码要闻

卢伟冰:小米空调正式推出 10 年免费保修 / 包修服务

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

卫星图像显示以军坦克集结加沙城周围

无障碍浏览 进入关怀版