网易首页 > 网易号 > 正文 申请入驻

DeepSeek是新源神!推理模型o1性能1/50价格,微调蒸馏商用全免费

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek新发布远超预期,Reddit/狂暴刷屏中。

这次大事共有3件:

  • 开源DeepSeek-R1推理大模型,与o1性能相近。
  • 开源DeepSeek-R1-Zero,预训练模型直接RL,不走SFT,堪称语言模型的AlphaZero。
  • 开源用R1数据蒸馏的Qwen、Llama系列小模型,在某些任务上直接超过GPT-4o。

同时开放官方API,输入token(命中缓存)价格只有OpenAI o1的1/50,未命中缓存以及输出token价格约1/27。

论文中被反复热议的小细节就更多了:

R1-Zero模型在思考过程中涌现了“顿悟时刻”(aha moment),并自己学会为问题分配更多思考时间。

网友们开始推演接下来的剧情,如果顿悟的力量能被稳定利用……那就不知道会通向何处了。

再有,目前社区猜测OpenAI的o1-pro/o3可能使用了tree-of-agents方法,许多个o1的分身各自回答问题,再通过某种方式选出最优答案。

如果将DeepSeek-R1与Search-o1和Tree-of-Agents(大约50个智能体)结合起来,可以很小的成本获得与o3类似的性能,最终可能便宜数百倍。

这次DeepSeek总共开源6个在R1数据上蒸馏的小模型,其中蒸馏版Qwen-1.5B都能在部分任务上超过GPT-4o

DeepSeek还特别更新了开源许可证,现在是MIT Lisence

R1是开源的,R1数据想跑多少有多少,API可以用于蒸馏和微调,商用是免费的。

新的源神出现了!

DeepSeek新发布

OpenAI的o1系列模型率先引入了推理时扩展(inference-time scaling)的概念,通过增加思维链(Chain-of-Thought)推理过程的长度,在数学、编程、科学推理等任务上取得了显著的性能提升。

先前的研究探索了基于过程的奖励模型、强化学习、蒙特卡洛树搜索和束搜索等方法,但尚未有方法在通用推理性能上达到o1系列模型的水平。

DeepSeek-R1-Zero

DeepSeek团队迈出了利用纯强化学习提升语言模型推理能力的第一步。

他们的目标是探索大模型在没有任何监督数据的情况下,通过纯强化学习过程进行自我进化,从而获得推理能力。

具体而言,他们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Group Relative Policy Optimization)作为强化学习框架来提高模型在推理任务上的表现。

在训练过程中,DeepSeek-R1-Zero自然而然地涌现出许多强大而有趣的推理行为。

经过数千步的强化学习,DeepSeek-R1-Zero在推理基准测试中表现出色。

例如,它在AIME 2024上的pass@1得分从15.6%提高到71.0%,并且通过多数投票,得分进一步提高到86.7%,与OpenAI-o1-0912的表现相当。

DeepSeek-R1

然而,DeepSeek-R1-Zero也面临着可读性差、语言混杂等挑战

为了解决这些问题并进一步提高推理性能,团队提出了DeepSeek-R1,它结合了少量冷启动数据和多阶段训练流程。

具体而言,他们首先收集数千条冷启动数据来微调DeepSeek-V3-Base模型。随后,他们进行了类似DeepSeek-R1-Zero的面向推理的强化学习。

当接近强化学习过程的收敛时,他们通过在强化学习检查点上进行拒绝采样,结合来自DeepSeek-V3在写作、事实型问答、自我认知等领域的监督数据,创建新的SFT数据,然后重新训练DeepSeek-V3-Base模型。

使用新数据进行微调后,该检查点还经历了一个额外的强化学习过程,考虑到所有场景下的提示。

经过这些步骤,他们获得了一个称为DeepSeek-R1的检查点,其性能与OpenAI-o1-1217不相上下。

R1数据蒸馏模型

DeepSeek团队进一步探索了从DeepSeek-R1蒸馏到更小的密集模型。使用Qwen2.5-32B作为基础模型,直接从DeepSeek-R1蒸馏的效果优于在其上应用强化学习。

这表明,更大的基础模型发现的推理模式对于提高推理能力至关重要。

他们开源了蒸馏的Qwen和Llama系列模型。值得注意的是,他们的蒸馏14B模型在推理基准测试中大幅超过了当前最先进的开源QwQ-32B-Preview,而蒸馏的32B和70B模型在密集模型中树立了新的推理任务基准。

最后,团队还把在实验过程中很多失败的尝试分享出来,防止后人踩坑。

在过程奖励模型、蒙特卡洛树搜索算法上,DeepSeek都没能获得进展。

不过他们也强调,只是他们失败了,并不意味着这些方法无法开发出有效的推理模型。

未来他们计划在以下方向继续投入研究:提升通用能力、解决语言混杂问题、优化提示词敏感问题,以及改进软件工程任务的性能。

One More Thing

还有英语母语者挑起了论文中的遣词造句,认为很可能是大模型帮团队撰写的论文。

同时很多人注意到,在DeepSeek的许多论文里,“DeepSeek-AI”都出现在作者列表的第一位。

论文地址:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

参考链接:
[1]https://x.com/deepseek_ai/status/1881318130334814301
[2]https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,现如今怎样

“乱港分子”周庭,弃保潜逃加拿大,扬言永不回国,现如今怎样

博览历史
2025-09-13 21:50:07
盘点从俞敏洪手里出走的6位大佬,罗翔最让人意外,罗永浩混最差

盘点从俞敏洪手里出走的6位大佬,罗翔最让人意外,罗永浩混最差

禾寒叙
2025-09-13 14:13:04
被女童母亲造谣猥亵女童,蛋糕店老板最新发声:官司赢了马上就要一年,对方一直没有道歉和赔偿

被女童母亲造谣猥亵女童,蛋糕店老板最新发声:官司赢了马上就要一年,对方一直没有道歉和赔偿

观威海
2025-09-14 06:15:05
王思聪上海豪宅再次降价出售,还是难找买主!偌大豪宅只能装灰尘

王思聪上海豪宅再次降价出售,还是难找买主!偌大豪宅只能装灰尘

娱乐团长
2025-09-12 22:01:51
9月13日俄乌最新:俄军大规模投降

9月13日俄乌最新:俄军大规模投降

西楼饮月
2025-09-13 18:35:04
单打4强出炉!产生3大不可思议,孙颖莎苦战翻盘,林诗栋被淘汰

单打4强出炉!产生3大不可思议,孙颖莎苦战翻盘,林诗栋被淘汰

知轩体育
2025-09-14 01:07:07
罗永浩再呛西贝:这一次我甚至还没出手呢

罗永浩再呛西贝:这一次我甚至还没出手呢

中国基金报
2025-09-13 23:55:07
家委会变“官委会”?广州廖爸爸火了,正面硬刚揭开家委会的真相

家委会变“官委会”?广州廖爸爸火了,正面硬刚揭开家委会的真相

恪守原则和底线
2025-09-12 12:55:45
4名将领被罢免人大代表,含上将王春宁

4名将领被罢免人大代表,含上将王春宁

观察者网
2025-09-12 22:45:08
预制菜“国标”讨论会参加者:当时争论焦点就是什么标准算预制菜,还讨论了“简单复热、复杂复热”

预制菜“国标”讨论会参加者:当时争论焦点就是什么标准算预制菜,还讨论了“简单复热、复杂复热”

红星新闻
2025-09-13 22:51:09
舆论战升级?罗永浩直播结束后,西贝连夜召开1.8万人罗永浩作战大会,最新回应

舆论战升级?罗永浩直播结束后,西贝连夜召开1.8万人罗永浩作战大会,最新回应

新民周刊
2025-09-13 13:16:52
短短72小时内,以色列连炸6国,中方开始介入,战场转到联合国

短短72小时内,以色列连炸6国,中方开始介入,战场转到联合国

文雅笔墨
2025-09-14 01:52:35
当下民政局离婚排队,暴露真相:年轻人不结婚,不少是父母导致的

当下民政局离婚排队,暴露真相:年轻人不结婚,不少是父母导致的

诗词中国
2025-09-12 14:23:49
假如诺和诺德真把天津工厂连根拔起,得有多少张饭碗瞬间碎一地?

假如诺和诺德真把天津工厂连根拔起,得有多少张饭碗瞬间碎一地?

花心电影
2025-09-13 09:46:14
罗永浩称西贝的事情告一段落

罗永浩称西贝的事情告一段落

每日经济新闻
2025-09-14 00:12:21
10人皇马杀疯了!开局4连胜领跑西甲,姆巴佩传射,主裁判惹争议

10人皇马杀疯了!开局4连胜领跑西甲,姆巴佩传射,主裁判惹争议

侃球熊弟
2025-09-14 00:14:00
英超变天!切尔西遭绝平2-2跌出前4,黑马3连胜,热刺追平阿森纳

英超变天!切尔西遭绝平2-2跌出前4,黑马3连胜,热刺追平阿森纳

我爱英超
2025-09-14 06:30:22
官宣:青岛市委常委孙永红,被查

官宣:青岛市委常委孙永红,被查

新京报政事儿
2025-09-14 10:21:31
厨师戴大金链子炒菜,贾国龙睡不着,才两天,西贝无人生意惨淡

厨师戴大金链子炒菜,贾国龙睡不着,才两天,西贝无人生意惨淡

白浅娱乐聊
2025-09-14 08:47:55
记者探访成都西贝:“罗永浩菜单”已上线 食客表示以为不用排队,结果还是等了

记者探访成都西贝:“罗永浩菜单”已上线 食客表示以为不用排队,结果还是等了

封面新闻
2025-09-13 17:41:20
2025-09-14 12:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
11307文章数 176267关注度
往期回顾 全部

科技要闻

L3级车型要来了!辅助驾驶迎重大利好

头条要闻

预制菜"国标"讨论会参加者:焦点是什么标准算预制菜

头条要闻

预制菜"国标"讨论会参加者:焦点是什么标准算预制菜

体育要闻

3次遭争议判罚!皇马向FIFA投诉西甲裁判

娱乐要闻

彪悍那英,大女人与旧妻子

财经要闻

西贝贾国龙,“错”得离谱

汽车要闻

混动狂潮 835马力V12 阿斯顿·马丁的最后浪漫

态度原创

时尚
旅游
房产
公开课
军事航空

衣服“买精不买多”,日常准备这几款单品,简单舒适又大方

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

房产要闻

「世界冠军×人居升阶」白鹅潭CLD封面,实力馥见人生新高度!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

多国将承认巴勒斯坦国 支持"两国方案"

无障碍浏览 进入关怀版