别被误导 | 李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型？？|实验|deepseek|大模型|样本

别被误导 | 李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型？？

2025-02-07 15:58:34　来源: 网易科技报道

北京举报

分享至

作者：张发恩创新奇智CTO

转载自公众号：后向传播

最近一篇新闻标题《李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型》吸引了不少眼球，似乎预示着AI技术即将迎来一场“廉价革命”。不少人可能会惊呼：“什么？不到50美元就能训练出媲美DeepSeek Rl的AI模型？这AI也太便宜了吧！”

但，事实真的如此吗？作为一名AI从业者，看到这个标题，我感觉事情并不简单。仔细研读新闻和相关论文后，我发现这篇新闻的解读存在不少夸大和误导之处。我详细读了原论文，尽可能还原事实，避免大家被不实信息所误导。

“标题党”嫌疑：事实可能并非如此“美好”

1. “媲美DeepSeek R1”？实际效果可能与你的期待有差距

DeepSeek R1是DeepSeek公司推出的闭源大模型，而新闻中提到的 s1模型 ，实际上是与 OpenAI的o1-preview模型 以及 DeepSeek-R1 800K数据蒸馏出的32B模型 做对比。注：DeepSeek R1是670B的大模型，与DeepSeek-R1 800K数据蒸馏出的32B模型是完全不同的两个模型。

论文中的实验结果表明，s1模型在部分推理任务上（例如AIME24竞赛数学题）超过了o1-preview ，但这并不代表s1模型就 全面媲美 甚至超越了DeepSeek R1。更重要的是， s1的效果离DeepSeek-R1 800K数据蒸馏出的32B模型还有不小的差距 。新闻标题用 “媲美DeepSeek Rl” 这样的字眼，容易给读者造成 s1模型已经可以和DeepSeek的顶尖模型相提并论 的 错误印象 。下图是s1论文披露的实验数据（https://arxiv.org/pdf/2501.19393）

2. “不到50美元”？请注意限定语和实际成本

新闻中 “用不到50美元的云计算费用” 的说法， 容易让人误以为训练一个高性能AI推理模型只需要区区几十美元 。但实际上，这50美元仅仅是 指论文中s1模型在16张H100 GPU上训练26分钟的云计算费用 。

这 “不到50美元” 的成本， 仅仅是模型微调阶段的计算成本 ，并不包括 ：

前期数据收集和清洗成本
为了构建高质量的1K训练数据集s1K，研究团队需要从59K原始数据集中进行筛选和标注，这其中投入的人力成本和时间成本远不止50美元 。
预训练模型的成本
s1模型是基于 Qwen2.5-32B-Instruct 这个 已经预训练好的大模型 进行微调的。 预训练大模型的成本是极其高昂的 ，动辄数百万美元甚至更高。新闻有意忽略了预训练阶段的巨大投入，只强调微调的低成本，有“避重就轻”之嫌 。

3. “训练出媲美...的AI推理模型”？数据筛选的功劳不可忽视

新闻标题容易让人觉得，是李飞飞团队提出了一种革命性的模型训练方法，才能用 “不到50美元” 训练出高性能模型。但深入分析论文后，我们发现 数据筛选 在 s1模型的成功中扮演了至关重要的角色。

s1模型的核心创新之一，在于其构建的 高质量小样本数据集 s1K 。研究团队并非随机使用1K数据进行训练，而是从59K 数据集中 精心筛选 出1K 高质量样本。筛选过程主要包括：

质量筛选
去除低质量、存在格式错误或 API 错误的数据。
难度筛选
去除 Qwen2.5-7B-Instruct 或 Qwen2.5-32B-Instruct 等模型能够轻松解答的简单问题。
多样性筛选
根据 MSC 分类系统对问题进行领域分类，确保数据集涵盖不同领域的知识。

实验结果表明，使用精心筛选的1K 数据训练的模型，性能甚至可以媲美使用全量59K 数据训练的模型 ，远超随机选择数据或仅考虑数据长度、多样性的方法。这说明，在数据驱动的AI领域，数据质量往往比数据数量更重要 。 s1模型的成功，很大程度上归功于其高质量的数据筛选策略，而非仅仅是 “低成本” 训练 。

论文的创新之处：小样本高效微调 + 推理预算强制

当然，这篇论文并非一无是处。 s1论文在以下方面还是有其创新性和贡献的 ：

1. 验证了小样本高效微调的可行性

s1论文再次印证了 高质量小样本数据在模型微调中的巨大潜力 。在算力成本高昂、数据获取困难的背景下， 如何利用少量数据训练出高性能模型 一直是 AI 领域的研究热点。 s1论文提供了一个 利用数据筛选策略实现小样本高效微调 的成功案例，为后续研究提供了有益的参考。 尤其值得肯定的是，论文开源了高质量的 s1K 数据集 ，这将有助于推动小样本学习和推理相关领域的研究进展。

2. 提出 “推理预算强制” 方法，探索推理过程干预

s1论文提出的 “推理预算强制 (Budget Forcing)” 方法，也为 模型推理过程的干预和调控 提供了一种新的思路。通过 强制结束或延长模型的思考时间 ， s1模型能够在推理过程中进行自我调整和优化 ，从而在一定程度上提升推理性能。这种 在推理阶段对模型行为进行干预 的思想，具有一定的启发意义 ，未来或可应用于更多推理优化方法的研究中。

理性看待技术进步，“标题党”新闻对行业有害

总的来说，“李飞飞团队50美元AI模型” 这篇新闻标题存在夸大和误导之处 ，容易让读者对 AI 技术的现状产生不切实际的幻想。 s1模型的成功，是数据质量、巧妙技术和现有预训练模型共同作用的结果，并非 “廉价” 和 “速成” 的代名词 。

我们肯定 s1论文在小样本学习和推理干预方面的探索和贡献 ，赞赏研究团队开源高质量数据集的举动 。但同时，我们必须保持清醒的认识 ：