网易首页 > 网易号 > 正文 申请入驻

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

0
分享至

机器之心报道

编辑:泽南、陈陈

跟大模型说:要多想。

今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。

最近一段时间,全世界的科技公司、研究团队都在尝试复现 DeepSeek,但如果这个时候有人说「我还能大幅改进 AI 的推理效率」,你会怎么想?

s1 论文作者,斯坦福大学在读博士 Niklas Muennighoff 表示,DeepSeek r1 令人兴奋,但其缺少 OpenAI 的测试时间扩展图并且需要大量数据。我们推出的 s1 仅使用 1K 样本和简单的测试时间干预即可重现 o1 的预览扩展和性能。

这个新方法叫 s1。本周,斯坦福大学、华盛顿大学等研究机构尝试了最简化实现测试时间扩展(test-time scaling)的方法,仅让模型训练 1000 个问题就获得了超越 o1 的强推理性能。

测试时间扩展是一种有前途的语言建模新方法,它使用额外的测试时间计算来提高模型性能。此前,OpenAI 的 o1 模型展示了这种能力,但并未公开分享其方法。很多工作都在尝试复现 o1,这些尝试包含蒙特卡洛树搜索、多智能体等等。今年 1 月开源的 DeepSeek R1 成功实现了 o1 级别的性能,它是在数百万个样本上通过多训练阶段强化学习实现的。

在 s1 的新工作中,研究人员寻求最简单的方法来实现测试时间扩展。它们构建了一个小型数据集 s1K,其中包含 1000 个问题,并根据三个标准(难度、多样性和质量)与推理轨迹进行配对。

在此基础上,研究人员开发了「预算强制」来控制测试时间计算,方法是强制终止模型的思考过程,或者在模型试图结束时多次将「等待」附加到模型的生成中以延长思考。这有可能会导致模型仔细检查其答案,修复其不正确的推理步骤。

在 s1K 上对 Qwen2.5-32B-Instruct 语言模型进行监督微调(16 块 H100 GPU,26 分钟)并为其设定预算强制后,新模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 高出 27%(MATH 和 AIME24)。

s1 性能与其他大模型的对比。

  • 论文:《s1: Simple test-time scaling》
  • 论文链接:https://arxiv.org/abs/2501.19393
  • 项目链接:https://github.com/simplescaling/s1

测试时间扩展

本文将测试时间扩展方法分为两类:

  1. 序列扩展,即后续计算依赖于先前的计算结果;
  2. 并行扩展,即计算独立运行。

本文专注于序列扩展,因为直观上其具有更好的扩展性,因为后续计算可以基于中间结果进行,从而实现更深层次的推理和迭代优化。

此外,本文还提出了新的序列扩展方法以及对其进行基准测试的方式。

预算强制(Budget forcing)。本文提出了一种简单的解码时间(decoding-time )干预方法,通过在测试时强制设定最大或最小思考 token 数量来实现。图 3 为该方法的一个示例展示,说明了这种简单的方法可以引导模型得出更好的答案。

具体来说,本文通过简单地追加思考结束(end-of-thinking)token 分隔符和「Final Answer:」来强制设定最大 token 数量,从而提前退出思考阶段,使模型提供其当前的最佳答案。为了强制设定最小 token 数量,本文抑制思考结束 token 分隔符的生成,并选择性地在模型的当前推理轨迹后追加字符串「Wait」,以鼓励模型反思其当前生成的内容。

基线。本文用以下方法对预算强制进行基准测试:

(I)条件长度控制方法,该方法依赖于在提示中告诉模型它应该生成多长时间。本文按粒度将它们分组为(a)token 条件控制,在提示中指定思考 token 的上限;(b)步骤条件控制,指定思考步骤的上限;(c)类条件控制,编写两个通用提示,告诉模型思考一小段时间或很长一段时间。

(II)拒绝采样,即采样直到生成符合预定的计算预算。

实验

在训练阶段。本文使用 s1K 数据集对 Qwen2.5-32B-Instruct 进行监督微调,以获得本文的模型 s1-32B。微调是在 16 台 NVIDIA H100 GPU 上使用 PyTorch FSDP 进行的,耗时 26 分钟。

评估。本文采用了三个推理基准进行评估。

  • AIME24 包含 30 个问题,这些问题来自 2024 年 1 月 31 日至 2 月 1 日举行的美国 AIME 数学竞赛。AIME 用来测试模型在算术、代数、计数、几何、数论、概率等领域的能力;
  • MATH500 是一个包含不同难度竞赛数学问题的基准;
  • GPQA Diamond 包含 198 个来自生物学、化学和物理学的博士级科学问题。

其他模型。本文将 s1-32B 与以下模型进行基准测试对比:OpenAI o1 闭源系列模型;DeepSeek r1 开源模型;Qwen 的 QwQ-32B-preview 等模型。

值得一提的是,s1-32B 是完全开源的,包括权重、推理数据和代码。

性能

测试时间扩展。图 1 展示了 s1-32B 在使用预算强制技术后,随着测试时间计算资源的增加,性能的变化情况。

图 4(左)扩展了图 1(中)的图表,结果显示虽然本文可以通过预算强制技术和更多的测试时计算资源提升 AIME24 的性能,但最终在六倍计算量时趋于平缓。可以得出过于频繁地抑制思考结束 token 分隔符可能会导致模型陷入循环重复,而不是持续推理。

图 4(右)展示了在对 Qwen2.5-32B-Instruct 进行 1,000 个样本的训练,从而生成 s1-32B,并为其配备简单的预算强制技术后,它进入了一种不同的扩展范式。通过多数投票在基础模型上扩展测试时间计算资源无法赶上 s1-32B 的性能,这验证了这一直觉,即序列扩展比并行扩展更有效。

图 5 提供了 s1-32B 的生成示例。

样本效率。图 2(右)和表 1 将 s1-32B 与其他模型进行了比较。

结果显示, s1-32B 是样本效率最高的开放数据推理模型。尽管只在额外的 1000 个样本上进行训练,但它的表现明显优于基础模型(Qwen2.5-32B-Instruct)。

r1-32B 在仅使用 SFT 的情况下表现出比 s1-32B 更好的性能,但前者是在 800 倍以上的推理样本上进行训练的。仅用 1000 个样本是否能达到这个性能还是一个悬而未决的问题。

s1-32B 在 AIME24 上几乎与 Gemini 2.0 Thinking 相匹配,因为 s1-32B 是从 Gemini 2.0 中蒸馏出来的,这表明本文的蒸馏程序可能是有效的。

最后,本文还进行了一系列消融实验,感兴趣的读者,可以查看原论文,了解更多内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
女子在按摩店做理疗时被技师偷走金项链

女子在按摩店做理疗时被技师偷走金项链

新闻晨报随申Hi
2026-03-26 09:56:05
阿根廷世界杯名单已定20人!16大名将争最后6席 21岁加纳乔已出局

阿根廷世界杯名单已定20人!16大名将争最后6席 21岁加纳乔已出局

我爱英超
2026-03-26 19:07:13
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

很多人都患过“带状疱疹”,却不知它和“老年痴呆”有关!了解下

岐黄传人孙大夫
2026-03-26 20:45:03
美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

美国记者挖坑提问:万一台湾不想被统一怎么办?被中方精准反杀

雪中风车
2026-02-23 19:34:34
卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

卡塔尔正式宣布暂停跟中国的合同,而且短时间内不会恢复

南权先生
2026-03-25 15:19:55
翻到张雪峰2016年婚纱照,瞬间看哭了!

翻到张雪峰2016年婚纱照,瞬间看哭了!

魔都姐姐杂谈
2026-03-26 22:06:50
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

柴狗夫斯基
2026-03-26 21:06:15
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
盲目的大学扩招,正在反噬整个社会

盲目的大学扩招,正在反噬整个社会

凡人志
2026-03-25 01:34:53
跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

跌麻了!笔记本开年销量暴跌40%近乎腰斩:没人买了

中国能源网
2026-03-26 14:13:04
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
2026-03-27 03:00:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
亲子
艺术
数码
公开课

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版