网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

DeepSeek-R2要来了？

2026-01-21 09:57:59　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：Aeneas KingHZ

【新智元导读】DeepSeek-R1发布一周年之际，核心算法库惊现MODEL1，是V4还是R2?

2025年1月20日，DeepSeek-R1正式发布。从此，国产大模型第一次走到了全球舞台的核心位置，开启了开源时代。

而就在今天深夜，开发者社区沸腾了：DeepSeek的一个存储库进行更新，引用了一个全新的「model 1」模型。

DeepSeek-R1一年了，但DeepSeek-R2还没来。

而这个被爆出的MODEL1，极有可能就是R2！

在DeepSeek的开源项目FlashMLA库代码片段明确引用了「MODEL1」，并且伴随针对KV缓存的新优化，和576B步幅的稀疏FP8解码支持。

FlashMLA是DeepSeek的优化注意力内核库，为DeepSeek-V3和DeepSeek-V3.2-Exp模型提供支持。

项目里，大约有28处提到model 1。

这可以被解读为新模型即将发布的明确信号。

巧的是，这个爆料正好赶在DeepSeek-R1发布一周年（2025年1月20日）。

R1作为开源推理模型，曾匹敌OpenAI o1并登顶iOS App Store，此后彻底改变了开源AI社区。

MODEL1即便不是R2，也意义非凡，毕竟FlashMLA是DeepSeek优化的注意力核心算法库。

FlashMLA是DeepSeek为Hopper架构GPU（如H800）优化的MLA（Multi-head Latent Attention）解码内核。

在推理层代码中提及新模型ID，往往意味着该新模型（代号为Model1）将继续复用或改进现有的MLA架构。

这表明 DeepSeek 团队正紧锣密鼓地推进新模型的推理适配工作，FlashMLA 作为其核心推理优化的地位依然稳固。

过去，DeepSeek的确遇到了一些麻烦。

本月15日，国外媒体报道，去年在研发其新一代旗舰模型时，DeepSeek在算力上碰到了一点麻烦。但DeepSeek及时调整了策略，取得了进展，并正准备在「未来几周内」推出这款新模型。

HuggingFace：

DeepSeek如何改变开源AI

HuggingFace在DeepSeek R1发布一周年之际，发文解释了DeepSeek如何改变了开源AI。

R1并不是当时最强的模型，真正意义而在于它如何降低了三重壁垒。

首先是技术壁垒。

通过公开分享其推理路径和后训练方法，R1将曾经封闭在API背后的高级推理能力，转变为可下载、可蒸馏、可微调的工程资产。

许多团队不再需要从头训练大模型就能获得强大的推理能力。推理开始表现得像一个可复用的模块，在不同的系统中反复应用。这也推动行业重新思考模型能力与计算成本之间的关系，这种转变在中国这样算力受限的环境中尤为有意义。

其次是采用壁垒。

R1以MIT许可证发布，使其使用、修改和再分发变得简单直接。原本依赖闭源模型的公司开始直接将R1投入生产。蒸馏、二次训练和领域适应变成了常规的工程工作，而非特殊项目。

随着分发限制的解除，模型迅速扩散到云平台和工具链中，社区讨论的重点也从「哪个模型分数更高」转向了「如何部署它、降低成本并将其集成到实际系统中」。

久而久之，R1超越了研究产物的范畴，成为了可复用的工程基础。

第三个变化是心理层面的。

当问题从「我们能做这个吗？」转变为「我们如何做好这个？」时，许多公司的决策都发生了变化。

对中国AI社区而言，这也是一个难得的、获得全球持续关注的时刻，对于一个长期被视为跟随者的生态系统来说，这一点至关重要。

这三个壁垒的降低共同意味着，生态系统开始获得了自我复制的能力。

DeepSeek-R1一周年

今天，让我们回到原点，回顾DeepSeek-R1诞生的一年。

在R1之前，大模型的进化方向几乎只有一个，更大的参数规模、更多的数据……

但是，模型真的在思考吗？

这个问题，就是DeepSeek-R1的起点。

它不是让让模型回答得更快，而是刻意让它慢下来，慢在推理链条的展开，慢在中间状态的显式表达。

从技术上看，DeepSeek-R1的关键突破，并不在某一个单点技巧，而在一整套系统性设计。

推理优先的训练目标

在传统SFT/RLHF体系中，最终答案的「正确性」是唯一目标。R1 则引入了更细粒度的信号。这也是第一次，模型

高密度推理数据，而非高密度知识

R1的训练数据，不追求百科全书式的覆盖，而是高度聚焦在数学与逻辑推导、可验证的复杂任务。

总之，答案不重要，过程才重要。因此，R1才在数学、代码、复杂推理上，呈现出「跨尺度跃迁」。

推理过程的「内化」，而不是复读模板

一个常见误解是：R1只是「更会写CoT」。

但真正的变化在于：模型并不是在复读训练中见过的推理模板，而是在内部形成了稳定的推理状态转移结构。

从此，推理不再是外挂，而是内生能力。

一年之后：R1改变了什么？

首先，它改变了对「对齐」的理解。

R1之后，我们开始意识到，对齐不仅是价值对齐，也是认知过程的对齐。

第二，它改变了我们对开源模型的想象空间。

R1证明：在推理维度，开源模型不是追随者，而可以成为范式定义者。这极大激活了社区对「Reasoning LLM」的探索热情。

第三，它改变了工程师与模型的协作方式。

当模型开始「展示思路」，人类就不再是提问者，而是合作者。

回到今天：R1仍然是一条未走完的路。

一周年，并不是终点。

我们仍然清楚地知道：推理能力还有明显上限，长链路思考仍然昂贵

但正如一年前做出 R1 的那个选择一样——真正重要的，不是已经解决了什么，而是方向是否正确。

DeepSeek-R1的故事，还在继续。

而这一年，只是序章。

参考资料：

https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment%20

https://x.com/testingcatalog/status/2013588515271962678%20

https://x.com/nopainkiller/status/2013522059662614653

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

开源新王炸！10B多模态小模型屠榜，性能媲美20倍巨无霸

智东西 2026-01-20 23:17:30
3 跟贴 3
R1一周年，DeepSeek Model 1悄然现身

机器之心Pro 2026-01-21 10:11:16
0 跟贴 0

马斯克罕见低头：开源推荐算法，自嘲“很烂”不过未来月更

量子位 2026-01-21 12:30:26
0 跟贴 0

代码泄密！DeepSeek下一代“王炸”模型架构曝光

智东西 2026-01-21 13:06:16
0 跟贴 0
拒绝DeepSeek的清华学霸，如何拿捏OpenAI的最新大模型？

智东西 2026-01-20 22:49:06
4 跟贴 4

男孩在数学考试时睡大觉，果不其然真考了个零鸭蛋。#

听风影视v 2026-01-18 12:18:12
1 跟贴 1

五年级数学求面积，两个模型

天天数理学习分享 2026-01-21 09:55:34
3 跟贴 3
两三角形的面积分别是4和16，求长方形的面积

公考客栈店小二 2026-01-20 20:00:00
0 跟贴 0

这就是月薪5万的焊工技术，大家觉得如何，这等手艺你又会打几分

磨自明 2026-01-21 03:56:50
5 跟贴 5
小学数学求质数和，不是要硬算

天天数理学习分享 2026-01-20 11:48:30
4 跟贴 4
五年级数学求阴影部分面积，如何求上底

天天数理学习分享 2026-01-17 16:39:31
3 跟贴 3
DeepSeek R1发布一年了，不卷功能、不融资、不着急，凭什么「硬控」硅谷

爱范儿 2026-01-20 15:22:30
55 跟贴 55
初中数学解根式方程，如何换元

天天数理学习分享 2026-01-18 10:30:47
4 跟贴 4
六年级数学求阴影面积，容斥原理解题

天天数理学习分享 2026-01-18 10:30:47
3 跟贴 3
小升初巧求面积，这方法太难想

大力小学数学 2026-01-20 13:21:00
0 跟贴 0
数学老师手把手教你解数学难题，轻松上90分！

宏傲易 2026-01-17 04:06:30
0 跟贴 0
从平面几何出发：形式化验证如何驱动MLLM的推理能力跃迁

机器之心Pro 2026-01-20 19:17:51
0 跟贴 0
一年级思维训练：在方框里填上合适的数

公考客栈店小二 2026-01-17 19:00:00
0 跟贴 0
数学9分到97分，我爸只给了我一本旧书

肃竹 2026-01-20 09:41:11
0 跟贴 0
小学数学易错题，最小质数

大力小学数学 2026-01-18 14:49:00
0 跟贴 0
2026年度AI最佳场景渗透案例评选启动丨招募

36氪 2026-01-21 12:30:12
0 跟贴 0
五年级求面积，缺少条件？ - 副本

大力小学数学 2026-01-17 14:45:00
0 跟贴 0
沙特带头劝美不要动武，伊朗才醒悟，中方策略是对的

军武时间线 2026-01-20 13:46:57
0 跟贴 0
华罗庚数学竞赛题，求解x²º²º+y²º²º+z²º²º的值

大力小学数学 2026-01-19 13:21:00
1 跟贴 1
1170新升一年级:连个要求都没有，是让干嘛呢，小姐姐一块看

我服子佩 2026-01-20 16:31:20
1 跟贴 1
成都七中学生在下课后模仿博主“猫爷”，不仅会玩还是个学霸，数学能考140那种

营天下 2026-01-19 12:25:05
1 跟贴 1
冯德莱恩:欧盟决定永久冻结俄罗斯资产并保留使用权利

央视新闻客户端 2026-01-20 18:45:02
23785 跟贴 23785
1152三年级:班里所有的孩子张口就来:12桶，老师掷地有声的说:错

我服子佩 2026-01-19 00:26:10
1 跟贴 1
数学学不好被骗了都不知道

三有追剧 2026-01-20 07:20:43
1 跟贴 1
曾仕强：中国人数学不好？！西方人认为中国人10以内的算法都不会

UP主硬照鬼才 2026-01-20 04:47:41
1 跟贴 1
五大学科竞赛含金量权威解析！锁定高价值赛道

老盖实话升学 2026-01-20 02:04:17
0 跟贴 0
数形结合-小学数学方法导引

吴龙艳 2026-01-18 00:00:00
0 跟贴 0
编程成“入场券”，盘点2026中学拔尖创新人才冬令营

电脑报少年派 2026-01-21 11:25:14
0 跟贴 0
1.19数学老师巧用数学板，教出数学小天才！

风蛍月缓缓 2026-01-20 02:54:03
0 跟贴 0
条件允许技术到位，军车居然也能漂移，老司机一般都不难

肥熊爱搞笑 2026-01-20 14:49:18
1 跟贴 1
仅播1天就夺得第一，连刷6集，我想说：国产剧又有天花板了！

小娱乐悠悠 2026-01-20 10:20:05
6 跟贴 6
宝宝睡得香甜，妈妈在一旁讲解数学，宝宝：这一觉睡得好累啊

新知速报 2026-01-19 13:52:55
0 跟贴 0
日本人表演武士刀，动作没看出什么技术含量，却引的全场都欢呼！

鸭嘴爱搞笑 2026-01-21 10:18:58
1 跟贴 1
1162新升二年级:全班有36名学生，男生比女生多8人，男女生各几人

我服子佩 2026-01-20 16:13:01
1 跟贴 1
1.20课堂上的时光，每一秒都是知识的积累

奶糖甜心Cutie 2026-01-21 03:03:59
0 跟贴 0

分手14年，释小龙何洁境遇天差地别，一个身家过亿，一个养不起娃

分手14年，释小龙何洁境遇天差地别，一个身家过亿，一个养不起娃

查尔菲的笔记

2026-01-09 22:17:44

“不敢想在国外玩得有多野”，看完牢A后，网友难以直视留学母女

“不敢想在国外玩得有多野”，看完牢A后，网友难以直视留学母女

乐悠悠娱乐

2026-01-21 10:33:27

男子故意花13万买奔驰抵押车后,直奔青藏,清收队到场后:不收了

男子故意花13万买奔驰抵押车后,直奔青藏,清收队到场后:不收了

悬案解密档案

2025-07-23 15:53:17

男子背婴儿参加香港马拉松被中止劝离！医生：摇晃婴儿头部或致严重脑损伤

男子背婴儿参加香港马拉松被中止劝离！医生：摇晃婴儿头部或致严重脑损伤

都市快报橙柿互动

2026-01-20 13:21:50

19岁男子KTV上班，三名女孩来喝酒，男子下体过度使用成永久创伤

19岁男子KTV上班，三名女孩来喝酒，男子下体过度使用成永久创伤

丫头舫

2025-09-22 20:39:00

拉夫罗夫最新涉华表态：前所未有

拉夫罗夫最新涉华表态：前所未有

环球时报国际

2026-01-21 00:11:18

ICE找上门，亚裔男子隔门对峙视频走红：“只想保护家人”

ICE找上门，亚裔男子隔门对峙视频走红：“只想保护家人”

纽约时间

2026-01-21 05:40:57

知名央企迎来最终审判！全烂透了，9个董监高无一清白，强制清退

知名央企迎来最终审判！全烂透了，9个董监高无一清白，强制清退

慕名而来只为你

2026-01-20 05:59:04

国际乒联终身主席接受专访，字字不提刘国梁，句句戳刘国梁心窝

国际乒联终身主席接受专访，字字不提刘国梁，句句戳刘国梁心窝

说历史的老牢

2026-01-21 12:01:09

孙颖莎主管教练确认！王励勤委以重任，蒯曼遗憾离开，对双方都好

孙颖莎主管教练确认！王励勤委以重任，蒯曼遗憾离开，对双方都好

体育就你秀

2026-01-21 05:05:03

吴京《镖人》刚定档，网络上却为何清一色的抵制，汪海林一语道破

吴京《镖人》刚定档，网络上却为何清一色的抵制，汪海林一语道破

小徐讲八卦

2026-01-21 12:51:09

12斤肉3个月甩净！全红婵减重到离谱，这哪是减肥，是拿命拼金牌

12斤肉3个月甩净！全红婵减重到离谱，这哪是减肥，是拿命拼金牌

做一个合格的吃瓜群众

2025-12-31 07:41:05

小团团时隔2年更新视频，疑似为复出做准备，网友：这次露脸直播

小团团时隔2年更新视频，疑似为复出做准备，网友：这次露脸直播

情感大头说说

2026-01-21 13:04:54

可怕！断亲戚率高达63%！断亲现象已成为未来趋势

可怕！断亲戚率高达63%！断亲现象已成为未来趋势

另子维爱读史

2025-12-26 16:11:17

内塔尼亚胡：若伊朗攻击，我们将动用其“未知的力量”

内塔尼亚胡：若伊朗攻击，我们将动用其“未知的力量”

红星新闻

2026-01-20 15:22:17

你别不信：大部分公公，都会趁儿子不在家的时候跟儿媳妇保持距离

你别不信：大部分公公，都会趁儿子不在家的时候跟儿媳妇保持距离

大熊欢乐坊

2025-11-24 10:19:03

现场惨不忍睹！36岁啃老逆子不满父母每月只给5000不够花，竟37刀手刃双亲震动新北市，警方在工地抓获凶手！

现场惨不忍睹！36岁啃老逆子不满父母每月只给5000不够花，竟37刀手刃双亲震动新北市，警方在工地抓获凶手！

澳门月刊

2026-01-20 11:53:31

AFC亚洲杯发文赞U23国足完美逆袭，只差临门一脚；中国足协：再创历史！我们决赛见！

AFC亚洲杯发文赞U23国足完美逆袭，只差临门一脚；中国足协：再创历史！我们决赛见！

扬子晚报

2026-01-21 10:02:39

为什么去非洲的中国人不愿回来？看完网友的分享，太真实了！

为什么去非洲的中国人不愿回来？看完网友的分享，太真实了！

另子维爱读史

2026-01-18 20:06:34

满屏荷尔蒙！Netflix这一脱，又赢麻了

满屏荷尔蒙！Netflix这一脱，又赢麻了

来看美剧

2026-01-16 20:05:37

AI产业主平台领航智能+时代

14375文章数 66521关注度

往期回顾全部

科技要闻

中芯国际等巨头集体提价，8英寸芯片最高涨20%

头条要闻

特朗普：对美国的真正威胁是联合国和北约

头条要闻

特朗普：对美国的真正威胁是联合国和北约

体育要闻

只会防守反击？不好意思，我们要踢决赛了

娱乐要闻

李亚鹏2天获1291万网友力挺

财经要闻

消失的投资金起底华文映像电影投资骗局

汽车要闻

新一代理想L9电池加码体型加大重夺高端话语权

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戏

家居

房产

健康

教育

200万起家、盛大力捧！这款仙侠网游换了4任运营商后又回来了！

家居要闻

褪去浮华触达松弛与欣喜

房产要闻

那个砸下400亿的绿地，又要杀回海南了！

血常规3项异常，是身体警报！

教育要闻

英语背单词：戳破自然拼读的谎言，字母拼读法不是死记硬背

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版