网易首页 > 网易号 > 正文 申请入驻

DeepSeek更新R1论文:猛增64页,能公开的全部公开

0
分享至



这可不是简单的内容扩充,而是把AI训练的“家底”全亮了出来:从算法创新到失败尝试,连花了多少钱都写得明明白白。

这在大模型圈里简直像当众拆自家发动机,以前谁家不是把技术藏着掖着?这次DeepSeek-R1玩这么大,怕是要改写行业规则。



聊技术绕不开算法,DeepSeek-R1最狠的一手是掏出了GRPO算法,直接叫板行业主流的PPO。

本来想顺着传统思路用PPO做强化学习,但后来发现这玩意儿太“烧钱”,得训练一个和主模型差不多大的价值模型,算起来成本高到肉疼。

GRPO的思路就野多了:不搞价值预测,直接“组内比烂”。



同一个问题让模型生成16个答案,按奖励分数排个名,用均值和标准差归一化后更新模型。

这么一来,既不用额外训练价值模型,又避开了跨时间步预测的坑。

MATH数据集上一测,没调参的GRPO居然比精心优化的PPO还好使,尤其长链推理时优势明显。

搞AI的都知道,算法好不好使,最终还得看工程落地。



他们这套分布式训练架构拆成了四个模块:采样、推理、奖励计算、策略更新,中间还用了显存动态卸载和自投机解码,硬是撑住了单次训练32个问题×16个输出的超大工作量。

最让人意外的是训练成本。

以前总听人说顶级大模型训练要几千万美元,结果DeepSeek-R1的增量成本才29.4万美元,648块H800GPU跑198小时花了20.2万,数据准备1万,后续优化8.2万。

连它的基座模型V3-Base也才556.6万美元,这数字直接把行业所谓的“千万美元门槛”砸了个稀碎。



为啥能这么省?四阶段训练流水线功不可没。

第一阶段R1-Zero纯靠强化学习瞎摸索,居然摸出了“自我反思”能力,训练到8000步时,模型突然开始频繁用“wait”“mistake”这类词,正确率跟着飙升。

本来以为这就成了,结果第二阶段加了监督微调(SFT),语言是流畅了,推理能力反而掉了点。

后来又用拒绝采样搞了80万条数据,才算把性能拉回来。



整个过程像极了科研狗做实验:试错、调整、再试错,最后在第四阶段融合规则奖励和偏好模型,才摸到最优解。

这说明啥?中小模型与其死磕强化学习,不如老老实实搞蒸馏。

当然,想突破人类智能边界,还得靠大基座+大规模RL,二者各有各的道。



比如过程奖励模型(PRM),标注成本高不说,还容易让模型学会“奖励作弊”,蒙特卡洛树搜索(MCTS)更惨,token级搜索空间直接爆炸,根本玩不转。

这种“把伤疤揭开给人看”的操作,在AI圈实属罕见。

安全方面他们也下了功夫,10.6万条样本训出来的安全奖励模型(SRM),加上部署层的双重审核,外部测试安全分能到95%,就是版权问题还得再琢磨琢磨。



以前大家比谁的模型参数大、谁的效果好,现在突然有人把训练日志、失败经验、成本明细全晒出来,这等于逼着整个行业从“闭门造车”转向“开源协作”。

复杂推理能力原来可以不靠堆数据,靠“困难问题+可靠验证器+足量RL资源”就能自然涌现,这个结论,怕是要让不少还在死磕标注数据的团队重新想想路该怎么走了。



声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴基斯坦宣战!塔利班疯狂报复?中国看在眼中,紧急下场表态!

巴基斯坦宣战!塔利班疯狂报复?中国看在眼中,紧急下场表态!

boss外传
2026-03-04 00:00:04
当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

当年举债120亿“吞”下沃尔沃!如今16年过去,李书福赚了多少?

牛锅巴小钒
2026-02-25 15:15:15
美军超5万名士兵、200架战斗机和两艘航母参战;伊朗:打赢“存亡之战”!

美军超5万名士兵、200架战斗机和两艘航母参战;伊朗:打赢“存亡之战”!

上观新闻
2026-03-04 15:41:05
黄金暴跌!网传一投资群里一片哀嚎,有投资客直言爆仓,彻底拉稀

黄金暴跌!网传一投资群里一片哀嚎,有投资客直言爆仓,彻底拉稀

火山詩话
2026-03-04 09:13:50
全国人大代表张学武:建议5年内将农民养老金逐步提升到每月1000元

全国人大代表张学武:建议5年内将农民养老金逐步提升到每月1000元

经济观察报
2026-03-04 16:07:24
中组部人社部明确:公职人员违纪待遇标准 一文全理清

中组部人社部明确:公职人员违纪待遇标准 一文全理清

解说阿洎
2026-03-04 09:41:08
又有两国参战中东!战局变成了3打2,沙特也选择了背刺

又有两国参战中东!战局变成了3打2,沙特也选择了背刺

书纪文谭
2026-03-04 14:47:08
中东为啥乱?一口气搞懂中东各国关系

中东为啥乱?一口气搞懂中东各国关系

混知
2026-03-04 15:12:03
景区介绍标注作者为DeepSeek,回应:确实是DeepSeek写的,存在版权问题,不能随便说是我们写的

景区介绍标注作者为DeepSeek,回应:确实是DeepSeek写的,存在版权问题,不能随便说是我们写的

大风新闻
2026-03-04 18:03:03
高速免费“大改”?3000公里额度,到底便宜了谁又亏了谁?

高速免费“大改”?3000公里额度,到底便宜了谁又亏了谁?

汽车网评
2026-03-04 20:45:03
水货专家开喷伊朗战争,称美国热衷斩首是衰退表现,误导公众对战争认知

水货专家开喷伊朗战争,称美国热衷斩首是衰退表现,误导公众对战争认知

回旋镖
2026-03-04 18:07:39
委员建议,取消在居民身份证上印刷“住址”信息

委员建议,取消在居民身份证上印刷“住址”信息

中国新闻周刊
2026-03-04 14:03:06
24小时内,美俄伊都喊话中国,世界终于看清:特朗普真正怕的是啥

24小时内,美俄伊都喊话中国,世界终于看清:特朗普真正怕的是啥

探源历史
2026-03-04 13:06:53
伊朗:霍尔木兹海峡只允许中国船只进出,其他船只都将遭到攻击

伊朗:霍尔木兹海峡只允许中国船只进出,其他船只都将遭到攻击

我心纵横天地间
2026-03-04 19:55:19
美防长:北约拦截伊朗导弹不会触发集体防御条款

美防长:北约拦截伊朗导弹不会触发集体防御条款

财联社
2026-03-05 01:00:16
拒唱国歌!伊朗女足主帅:哈梅内伊被杀让我开心?现在不想谈这个

拒唱国歌!伊朗女足主帅:哈梅内伊被杀让我开心?现在不想谈这个

风过乡
2026-03-04 21:21:17
北京某顶级建工集团崩了,全面停工,全员待岗!

北京某顶级建工集团崩了,全面停工,全员待岗!

黯泉
2026-03-04 21:50:39
遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

遭鞭打,被迫在尿骚味地道取暖?迪丽热巴猛料升级,滞留只是一角

阿纂看事
2026-03-04 18:21:39
谢谢谢娜,贡献出26年内娱的第一个笑话!

谢谢谢娜,贡献出26年内娱的第一个笑话!

娱乐圈笔娱君
2026-03-04 14:03:54
两组照片对比,伊朗神权集团崩塌的必然

两组照片对比,伊朗神权集团崩塌的必然

涛哥锐评
2026-03-04 06:32:25
2026-03-05 01:32:49
多多爱探索
多多爱探索
想学习更多科学知识,就来找多多一起学习吧!
205文章数 106关注度
往期回顾 全部

科技要闻

多位核心离职,阿里亲手废掉最强AI天团?

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

头条要闻

外媒称伊朗封锁霍尔木兹海峡只让中俄船通行 中方回应

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢谢谢娜 贡献出26年内娱的第一个笑话

财经要闻

人大代表建议:将农民养老金提到500元

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

游戏
手机
健康
亲子
旅游

《LOL》凌晨停机维护!一次性更新两个版本内容

手机要闻

一加15T 全面升级,官方剧透来了

转头就晕的耳石症,能开车上班吗?

亲子要闻

保护孩子宝妈必学,孩子这种行为不是遗传!

旅游要闻

日照莒县:浮来山庙会引来八方游客

无障碍浏览 进入关怀版