网易首页 > 网易号 > 正文 申请入驻

DeepSeek技术报告解析:DeepSeek-R1 低成本训练出高效的模型

0
分享至

DeepSeek-R1 通过创新的训练策略实现了显著的成本降低,同时保持了卓越的模型性能。本文将详细分析其核心训练方法。

成本优势对比

在推理成本方面,DeepSeek-R1 展现出显著优势:

  • 输入 tokens: $0.55/百万 tokens
  • 输出 tokens: $2.19/百万 tokens

相比之下,O1 的推理成本:

  • 输入 tokens: $15.00/百万 tokens
  • 输出 tokens: $60.00/百万 tokens

核心训练策略

DeepSeek 团队采用了一种独特的训练方案,通过减少监督微调(SFT)步骤来降低训练成本。他们首先尝试完全跳过 SFT,推出了名为 DeepSeek-R1-Zero 的版本,仅依赖强化学习(RL)技术。虽然这种方法在初期带来了较高的计算开销(因为模型需要更多探索),但研究人员发现添加少量冷启动数据可以显著提升训练稳定性和模型推理能力。

RLHF 工作原理

在深入了解 DeepSeek-R1 的训练方法之前,我们需要理解 RLHF(基于人类反馈的强化学习)的基本工作原理:

  1. 数据收集:首先,团队创建提示并收集人类对这些提示的响应。
  2. 监督微调(SFT):研究人员使用预训练的语言模型并在人类生成的数据上进行微调。模型响应与人类编写的参考进行比较,并根据匹配程度分配分数。
  3. 构建奖励模型:人类评估者对模型的回复进行评分,选择最自然或正确的回复。这些评分用于训练一个独立的"奖励模型"。
  4. 策略优化:主要语言模型从奖励模型获得反馈,并调整其生成文本的策略。通过多次迭代,模型逐渐适应人类期望。

三大关键训练方法

1、创新的策略优化算法(GRPO)

DeepSeek-R1 采用组相对策略优化(GRPO)替代传统的近端策略优化(PPO)。PPO 在 RLHF 过程中的具体工作流程包括:

  • 样本收集:生成响应并收集其相关状态和估计奖励的数据
  • 优势估计:计算每个响应的"优势",确定响应相对于平均水平的好坏程度
  • 策略更新:使用 PPO 的目标函数调整语言模型的策略以最大化预期奖励
  • 剪辑机制:通过 PPO 的剪辑机制防止策略发生剧变,确保稳定学习

相比之下,GRPO 通过以下创新实现了更高效的训练:

GRPO 的主要优势:

  • 无需单独的价值模型
  • 采用基于组的相对优势估计
  • 显著降低内存和计算开销
  • 增强了模型的数学推理能力

PPO 和 GRPO 的比较

2、高效的双重奖励系统

DeepSeek-R1-Zero 实施了一个精心设计的基于规则的奖励系统,包含两个核心组件:

准确性奖励:

  • 针对数学问题等确定性任务
  • 要求模型在特定格式中提供答案
  • 支持自动化验证答案正确性
  • 对于编程问题可利用编译器进行验证

格式奖励:

  • 引导模型使用标准化的思考过程格式
  • 要求将推理过程放在''和''标签之间
  • 提高输出的结构化程度和可解释性

3、模板化 RLHF 训练

团队开发了一个简洁而有效的训练模板,具有以下特点:

  • 提供清晰的推理过程生成指南
  • 强调结构化输出格式
  • 避免引入特定内容偏见
  • 便于观察和评估模型的学习进展

训练成果与突破

训练中的关键发现:

  1. 零监督突破:DeepSeek-R1-Zero 成功证明无需传统的监督微调数据也能实现强大推理能力。通过多数投票机制,性能甚至超越了 OpenAI-o1。
  2. 自适应思考:在训练过程中观察到一个有趣的现象 - 模型学会了在必要时重新评估其初始方法并分配更多思考时间。这种自适应能力展示了强化学习带来的意外收益。
  3. 效率提升:通过 GRPO 和高效奖励系统的结合,模型在保持性能的同时显著降低了计算资源消耗。

这些发现不仅验证了 DeepSeek 团队的创新训练方法的有效性,也为未来大语言模型的开发提供了重要参考。

DeepSeek-R1-Zero 中间版本的一个有趣的"aha 时刻"

DeepSeek-R1 与其他代表性模型的比较

成本效益分析

DeepSeek-R1 的开发成本仅为 600 万美元,相比 OpenAI 的 O1 模型(约 5 亿美元)节省了超过 98% 的成本。这种显著的成本优势主要得益于:

  • 创新的 GRPO 训练算法
  • 高效的奖励系统设计
  • 精简的训练流程
  • 模板化的训练方法

总结

DeepSeek-R1 的成功表明,通过创新的训练方法和精心设计的架构,可以在保持模型性能的同时显著降低训练成本。这为未来大语言模型的开发提供了新的思路,特别是在资源受限的情况下如何实现高性能模型的训练。

这种低成本高效益的训练方法,不仅降低了 AI 研发的门槛,也为开源 AI 社区的发展提供了宝贵的经验。随着这些技术的不断完善和推广,有望看到更多创新且实用的 AI 模型出现。

https://avoid.overfit.cn/post/2f80a71952734612820d9986fadf2f1a

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾不顾恩师聂卫平反对,常昊执意娶大8岁师姑为妻,如今怎么样了

曾不顾恩师聂卫平反对,常昊执意娶大8岁师姑为妻,如今怎么样了

流史岁月
2026-01-19 11:25:40
1-2,刘诚宇破门难救主,上海申花不敌韩国劲旅,陈晋一乌龙球酿悲剧

1-2,刘诚宇破门难救主,上海申花不敌韩国劲旅,陈晋一乌龙球酿悲剧

侧身凌空斩
2026-01-20 21:01:05
丹麦养老基金拟清仓美债 称美国“不再是优质信用主体”

丹麦养老基金拟清仓美债 称美国“不再是优质信用主体”

智通财经
2026-01-21 00:17:05
阿森纳3-1国米关键结论:锋线之争愈演愈烈?阿尔特塔获球迷盛赞

阿森纳3-1国米关键结论:锋线之争愈演愈烈?阿尔特塔获球迷盛赞

桥看世界
2026-01-21 07:00:38
支付宝奇袭微信支付

支付宝奇袭微信支付

本原财经
2026-01-19 10:26:30
悲剧!曝破三大神在重庆马拉松冲刺时晕倒+随后去世 官方:正核实

悲剧!曝破三大神在重庆马拉松冲刺时晕倒+随后去世 官方:正核实

风过乡
2026-01-20 12:48:50
早新闻 | 601933预计2025年净利润亏损超21亿元

早新闻 | 601933预计2025年净利润亏损超21亿元

数据宝
2026-01-21 07:49:39
宋轶裙子上有 99 朵玫瑰!时尚之夜美翻全场,清冷氛围感绝了

宋轶裙子上有 99 朵玫瑰!时尚之夜美翻全场,清冷氛围感绝了

随性的海浪
2026-01-20 14:11:18
当年药厂抓了谭秦东,但这次西贝不可能抓罗永浩了?

当年药厂抓了谭秦东,但这次西贝不可能抓罗永浩了?

芳华青年
2026-01-19 20:55:13
民进党推王世坚选台北市长?谢寒冰:若败选,赖清德可把责任推给英系

民进党推王世坚选台北市长?谢寒冰:若败选,赖清德可把责任推给英系

海峡导报社
2026-01-20 10:04:03
血腥的“糖霜苹果”,原教旨资本主义出品!

血腥的“糖霜苹果”,原教旨资本主义出品!

北山浮生
2026-01-20 23:41:07
多地紧急叫停“刨猪宴”背后

多地紧急叫停“刨猪宴”背后

中国新闻周刊
2026-01-20 12:30:02
豪取七连胜,阿森纳提前锁定欧冠联赛阶段榜首晋级淘汰赛

豪取七连胜,阿森纳提前锁定欧冠联赛阶段榜首晋级淘汰赛

懂球帝
2026-01-21 06:09:56
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
袁记云饺赴港IPO:超95%门店为加盟,拟募资加速海外市场拓展

袁记云饺赴港IPO:超95%门店为加盟,拟募资加速海外市场拓展

澎湃新闻
2026-01-21 07:57:05
韩国总统:向朝鲜放飞无人机属于严重违法行为,须彻查并严惩

韩国总统:向朝鲜放飞无人机属于严重违法行为,须彻查并严惩

第一财经资讯
2026-01-20 10:39:32
中国队踢不了复杂足球?U23国足3球完胜越南!一人值得被抛起!

中国队踢不了复杂足球?U23国足3球完胜越南!一人值得被抛起!

运动帮
2026-01-21 07:58:41
国乒乒联终身主席放出狠话!字字不提刘国梁,句句戳刘国梁心窝

国乒乒联终身主席放出狠话!字字不提刘国梁,句句戳刘国梁心窝

素衣读史
2026-01-20 15:42:29
委内瑞拉和伊朗这一手“反水”,直接给中国上一堂最昂贵的战略课

委内瑞拉和伊朗这一手“反水”,直接给中国上一堂最昂贵的战略课

南权先生
2026-01-16 16:22:00
斯诺克冷门不断!2大世界冠军陪跑,吴宜泽又止步4强,赵心童丢冠

斯诺克冷门不断!2大世界冠军陪跑,吴宜泽又止步4强,赵心童丢冠

刘姚尧的文字城堡
2026-01-21 05:02:50
2026-01-21 08:52:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1896文章数 1443关注度
往期回顾 全部

科技要闻

走进车间,感受中国低轨卫星互联网“加速度”

头条要闻

牛弹琴:特朗普和马克龙直接开干 马克龙疾呼欢迎中国

头条要闻

牛弹琴:特朗普和马克龙直接开干 马克龙疾呼欢迎中国

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

拆解涉税黑中介虚开套路

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

时尚
教育
数码
本地
军事航空

冬季不臃肿穿搭指南来了,奔五奔六照着穿,拿捏温暖与高级感

教育要闻

避雷!学校中层最容易踩的四个管理坑

数码要闻

苹果妙控键盘固件更新,覆盖M4/M5款iPad Pro与M3 Air机型

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

军事要闻

德军13人前脚刚走 荷兰2名军人也撤离格陵兰岛

无障碍浏览 进入关怀版