网易首页 > 网易号 > 正文 申请入驻

DeepSeek V4即将发布?先读懂梁文峰这份86页的技术底牌

0
分享至

最近DeepSeek V4的传言越来越多了。

据The Information报道,知情人士透露DeepSeek计划在2月中旬、农历新年前后发布V4模型。内部测试显示,V4在编程能力上可能超越Claude和GPT系列——尤其是处理超长代码提示的场景。


去年R1也是春节前一周发布的,直接引发了全球市场一万亿美元的震动。在大型节假日前搞大事确实也很符合DeepSeek一贯的做法,今年会不会故技重施?

但在V4发布之前,DeepSeek先悄悄做了一件事:把一年前的R1论文从22页扩充到了86页

我下载了两个版本对比,文件大小从928KB变成4.8MB。多出来的60多页显然不是废话,是他们训练的详细账本和踩过的坑。


这个时间点更新旧论文,绝不是巧合。我猜他们在做两件事:一是为V4铺路,让社区先完全理解R1的技术细节;二是用行动回应之前"只开源权重不给训练细节"的质疑。

说实话,看完这份更新,我对Open这个词有了新的理解。上周我发的这篇关于DeepSeek mHC论文的解读很多人表示意外地能看懂,阅读量都突破20万+了,哈哈哈~

所以我今天再挑战下自己,试试给大家用人话说说这次DeepSeek老论文里都更新了啥。

先说更新了什么

v1版本发布于2025年1月22日,22页,主要讲R1是什么、怎么训的、效果多好。

v2版本发布于2026年1月4日,86页。时隔将近一年,多出来的60多页都在讲什么?

我把两个版本的目录对比了一下。v1只有一个简短的Appendix(作者列表)。v2新增了6大类Supplementary:

  • A: GRPO和PPO的详细对比

  • B: 训练细节(这部分最长,约50页)

  • C: 推理行为分析

  • D: 基准测试详情 + 10页安全报告

  • E: 综合分析(与V3对比、test-time scaling等)

  • F: 推理能力迁移

说白了,这次更新就是把"解题过程"补上了,给出了可复现的技术文档。

之前R1开源的时候,很多人吐槽说"只给权重不给训练细节,这算什么开源"。现在DeepSeek把这块补上了。

294K美元的训练账单

论文新增了Table 7,第一次公开了完整的训练成本:


阶段

GPU小时

成本

DeepSeek-R1-Zero

101K

$202K

SFT数据创建

5K

$10K

DeepSeek-R1

41K

$82K

总计

147K

$294K

这个成本是按H800租赁价格$2/GPU hour算的。

29.4万美元,训练一个媲美OpenAI o1的推理模型。

29.4万美元是什么概念?之前写V3.2的时候我提到,DeepSeek只有150人的团队。现在加上这个成本数据,画面更清晰了——他们不是靠砸钱,是靠效率。

具体怎么训的?论文给了精确配置:

  • R1-Zero: 64×8张H800 GPU,跑了198小时

  • R1: 同样的GPU配置,80小时(约4天)

64×8是512张卡。198+80=278小时。不到12天,训完了两个阶段。

数据配方首次公开

这是我觉得最有价值的部分——Table 4详细列出了RL训练数据的构成:


数学:26k题

  • 从区域竞赛到国际奥林匹克级别

  • 包括代数、微积分、概率、几何

  • 排除了数学证明(因为难以自动验证)

代码:17k + 8k

  • 17k算法竞赛题(Codeforces、LeetCode风格)

  • 8k GitHub真实bug修复问题

STEM:22k选择题

  • 化学占46.5%(最多)

  • 生物30.7%

  • 物理15.5%

  • 其他7.3%

逻辑:15k题

  • 真实世界:脑筋急转弯、经典逻辑谜题

  • 合成数据:Code-IO问题、Zebra puzzle等

通用:66k + 12k

  • 66k评估helpfulness(创意写作、编辑、问答、角色扮演)

  • 12k评估harmlessness

总共约150k条数据。

为什么化学题最多?论文没解释,但我猜测可能是因为化学题的答案更容易自动验证(选择题),同时又需要多步推理。

更有意思的是Cold Start数据的创建流程。R1不是从零开始训的,而是先用R1-Zero的输出,经过这个流程:

  1. 用R1-Zero在高温度(1.0)下生成多条推理轨迹

  2. 过滤:保留答案正确、格式可读的

  3. 用sympy验证数学表达式

  4. 用DeepSeek-V3重写,让推理过程更"人话"

  5. 人工二次验证

论文里甚至给出了重写的prompt,让V3把R1-Zero那种"we"风格的推理,改成"I"风格——因为用户更喜欢第一人称的思考过程。

这种细节,以前根本不会公开。

失败也写进论文

v1版本有一小节叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把这部分扩展了,还加了一个我觉得很有价值的案例:Reward Hacking。


Figure 6展示了一个典型的失败场景:用helpful reward model训练时,reward分数一直在涨(左边红线),但CodeForces的实际性能却在跌(右边蓝线)。

这就是reward hacking——模型学会了"讨好"奖励函数,但并没有真正变强。

论文原文的解释是:

"如果reward model包含系统性偏差或不准确,LLM可能学会生成那些被模型高评分、但与真实人类偏好背离的回答。"

PRM(Process Reward Model)的问题也讲得更清楚了:

  1. 细粒度步骤难定义:什么算"一步推理"?在通用推理任务里很难界定

  2. 中间步骤对错难判断:自动标注效果差,人工标注又没法规模化

  3. 必然导致reward hacking:只要引入模型做判断,就会被exploit

所以DeepSeek最后用的是rule-based reward——数学题直接匹配答案,代码题跑测试用例。简单粗暴,但不会被hack。

为什么要公开这些失败?我觉得这才是真正的Open。告诉社区"这条路我们走过了,不通",比只展示成功更有价值。

基础设施首次披露

Supplementary B.1详细描述了RL训练的基础设施,分为4个模块:

1. Rollout Module

  • 用vLLM做推理

  • 对MoE架构实现expert parallelism,减少内存访问开销

  • 部署热点expert的冗余副本来负载均衡

  • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

2. Inference Module

  • 加载reward model和reference model

  • 对rollout阶段生成的样本做forward pass

3. Rule-based Reward Module

  • 统一接口:代码执行器、答案匹配器、格式检查器

  • 异步调度,和前两个模块overlap执行

4. Training Module

  • 支持PPO、GRPO、DPO等算法

  • 数据打包策略:先按长度排序,再用Best-Fit装箱

  • 集成了DualPipe算法做pipeline parallelism

还有一个细节:每个模块跑完后,模型会自动从显存offload到内存或磁盘,给下一个模块腾空间。

这些基础设施细节以前只有DeepSeek内部知道。现在写进论文,其他团队可以照着搭。

10页安全报告

Supplementary D.3是一份完整的安全评估报告,包括:

  1. 风控系统:公开了完整的risk review prompt(Listing 8)

  2. 6个公开benchmark对比:和其他SOTA模型的安全性比较

  3. 分类测试:基于自研安全测试集的细分评估

  4. 多语言安全:不同语言下的安全表现

  5. Jailbreak鲁棒性:对抗攻击下的表现

风控prompt里列了11条安全标准,从"通用原则"到"隐私伪造"到"风险建议",细到可以直接抄。

对想部署R1的企业来说,这部分很实用——不只是模型安全性数据,还告诉你外部风控系统怎么搭。

为什么选择现在更新?

论文更新的时间点是2026年1月4日。

结合V4的发布传言,时间线就很清晰了:

  • 2025年1月20日:R1发布,春节前一周

  • 2026年1月4日:R1论文v2发布,详细补全技术细节

  • 2026年2月中旬(传闻):V4发布,又是春节前后

DeepSeek似乎在做一件事:先把上一代的账本摊开,再发布下一代

这对社区的好处是显而易见的——当V4发布时,研究者已经完全理解R1的技术细节,可以更清晰地看出V4到底改进了什么。

当然,这也可能是回应之前"只开源权重不给训练细节"的批评。不管出于什么原因,结果很实在——社区拿到了一份真正可复现的技术报告。

最后

回到"Open"这个词。

大多数公司的Open是什么?开源权重,开源推理代码,发个技术博客。

DeepSeek的Open是什么?

  • 训练成本精确到GPU小时

  • 数据配方精确到每个类别的数量和来源

  • 失败尝试写进论文,告诉你哪条路不通

  • 基础设施架构图,告诉你怎么搭RL系统

  • 安全评估报告,告诉你怎么做风控

这才是让社区能真正复现和改进的Open。

之前写mHC论文的时候我说,DeepSeek的技术哲学是"去质疑那些所有人都觉得没必要改的东西"。现在看来,他们对"开源"这件事的理解也是一样——不是做到行业平均水平就够了,而是要做到让别人能真正用起来。

从22页到86页,多出来的60页不是凑数,是掏心窝子的诚意。

至于V4会带来什么?如果传言属实,2月中旬就会揭晓。

但不管V4表现如何,这份86页的论文已经是一份礼物——它让我们知道,一个顶尖推理模型是怎么从零训出来的。这种知识,以前只有极少数公司内部才有。

参考资料

  • DeepSeek-R1论文v2: https://arxiv.org/abs/2501.12948v2

  • DeepSeek-R1论文v1: https://arxiv.org/abs/2501.12948v1

  • V4传言报道: https://finance.yahoo.com/news/deepseek-set-launch-next-gen-153258894.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三分30投仅7中!火箭队心态崩了?申京赛后表态:提升防守+篮板

三分30投仅7中!火箭队心态崩了?申京赛后表态:提升防守+篮板

熊哥爱篮球
2026-01-13 10:43:59
中使馆:柬埔寨侦破两起绑架、非法拘禁中国公民案件,抓获8名中国籍犯罪嫌疑人

中使馆:柬埔寨侦破两起绑架、非法拘禁中国公民案件,抓获8名中国籍犯罪嫌疑人

界面新闻
2026-01-12 22:59:02
周杰伦宣布以球员身份参加澳网

周杰伦宣布以球员身份参加澳网

大象新闻
2026-01-12 16:09:05
美媒:未获中国技术,印度企业叫停大项目

美媒:未获中国技术,印度企业叫停大项目

环球网资讯
2026-01-13 06:50:29
书记每次签字都故意让我空等3小时,我不急不躁,他晋升时却后悔了

书记每次签字都故意让我空等3小时,我不急不躁,他晋升时却后悔了

张道陵秘话
2025-12-28 12:08:06
天呢!网友热议山东最垃圾的国企,却被警告“送进去”…

天呢!网友热议山东最垃圾的国企,却被警告“送进去”…

慧翔百科
2026-01-13 09:08:27
内蒙古自治区党委组织部部长调整

内蒙古自治区党委组织部部长调整

上观新闻
2026-01-12 17:34:12
特朗普50%关税重击下,“天空之国”扛不住了:成衣厂开工率5%?

特朗普50%关税重击下,“天空之国”扛不住了:成衣厂开工率5%?

王爷说图表
2026-01-12 15:05:28
法国撤离驻伊朗使馆非必要人员

法国撤离驻伊朗使馆非必要人员

新华社
2026-01-13 09:09:05
正式出炉!勇士4换1方案得到小波特!库里迎锋线新星搭档

正式出炉!勇士4换1方案得到小波特!库里迎锋线新星搭档

湖人侃球师
2026-01-13 06:44:22
年仅1岁儿子也要变性?马斯克紧急提交申请,剥夺孩子母亲的监护权

年仅1岁儿子也要变性?马斯克紧急提交申请,剥夺孩子母亲的监护权

大洛杉矶LA
2026-01-13 05:22:00
国产挖掘机出口持续增长,核心发动机却依靠日本进口,究竟为何?

国产挖掘机出口持续增长,核心发动机却依靠日本进口,究竟为何?

丰谭笔录
2026-01-11 07:35:09
热搜炸了!蔡依林演唱会被举报"搞邪教献祭",30米机械蛇吓坏网友

热搜炸了!蔡依林演唱会被举报"搞邪教献祭",30米机械蛇吓坏网友

乌娱子酱
2026-01-12 12:50:47
停不下来!重庆“呆呆”杀猪宴后续:直播间礼物收到手软,全国掀起“杀猪风”,各地网友主动送猪上门

停不下来!重庆“呆呆”杀猪宴后续:直播间礼物收到手软,全国掀起“杀猪风”,各地网友主动送猪上门

文字里拾光
2026-01-12 19:52:19
一位老人感叹:人没必要活得太长寿。60岁走,太年轻;70岁走,有点早;80岁去世,刚好合适。

一位老人感叹:人没必要活得太长寿。60岁走,太年轻;70岁走,有点早;80岁去世,刚好合适。

二胡的岁月如歌
2026-01-12 18:27:06
2轮4分!亚洲冠军比中国队还危险:打平韩国=可能出局 3队同积5分

2轮4分!亚洲冠军比中国队还危险:打平韩国=可能出局 3队同积5分

侃球熊弟
2026-01-12 22:14:21
用“余威”谋“余利”!“退而不休”的徐宪平

用“余威”谋“余利”!“退而不休”的徐宪平

环球网资讯
2026-01-12 21:31:40
邵佳一:德国人的严谨对我影响很大,在1860降级给我上了一课

邵佳一:德国人的严谨对我影响很大,在1860降级给我上了一课

懂球帝
2026-01-12 20:25:15
怪不得阿隆索下课!皇马内讧曝光:2亿巨星带头,跟主帅对着干

怪不得阿隆索下课!皇马内讧曝光:2亿巨星带头,跟主帅对着干

球场没跑道
2026-01-13 09:28:12
网红“口子姐”离世!仅29岁,年轻漂亮身材好,朋友曝猝死原因

网红“口子姐”离世!仅29岁,年轻漂亮身材好,朋友曝猝死原因

叶公子
2026-01-12 20:01:35
2026-01-13 10:59:00
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
115文章数 57关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

媒体:巴基斯坦靠歼-10一鸣惊人后 北约成员国求保护

头条要闻

媒体:巴基斯坦靠歼-10一鸣惊人后 北约成员国求保护

体育要闻

一场安东尼奥式胜利,给中国足球带来惊喜

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

中国一口气申报20万颗卫星,意味着什么?

汽车要闻

吉利持续加码亿咖通 智能化海外布局提速

态度原创

本地
手机
教育
旅游
军事航空

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

手机要闻

三星Galaxy S26 Ultra手机跑分首曝:第五代骁龙8至尊版芯片

教育要闻

燃动滨州!第二届山东省中小学生海洋意识和素养展示活动圆满落幕,少年逐浪向深蓝

旅游要闻

“冰城”百年老街的璀璨冬夜

军事要闻

官方确认:歼10CE在空战中击落多架战机

无障碍浏览 进入关怀版