网易首页 > 网易号 > 正文 申请入驻

DeepSeek MODEL1横空出世,R系列将被放弃还是新生?

0
分享至

一行代码泄漏的新架构标识,正悄然揭示这家中国AI独角兽在轻量化与专用化赛道上的战略转向。

01

开源社区的狂欢

2026年1月20日,DeepSeek-R1发布一周年之际,一位开发者在DeepSeek官方GitHub仓库更新的FlashMLA代码中发现了一个神秘标识——“MODEL1”。这个隐藏在114份文件、数十处代码注释中的名字,迅速点燃了全球AI社区的好奇心。



恰逢Hugging Face发布《“DeepSeek时刻”一周年》博客,盛赞R1对全球开源生态的重塑作用1,MODEL1的现身仿佛一场精心编排的周年献礼。

它究竟是V4的雏形、R2的前奏,还是DeepSeek第三条技术路线的起点?更关键的是:曾以推理能力惊艳世界的R系列,会被放弃吗?

02

时代的技术竞赛

根据对代码库的详细分析,MODEL1展现出与当前旗舰模型DeepSeek-V3.2(代码中标识为V32)完全不同的技术路径。在总计114个文件中,MODEL1被提及28至31次,且被置于与V3.2平行的独立分支中,这明确表明它并非现有模型的简单迭代,而是一个全新的架构序列。

架构层面的标准化回归是MODEL1最显著的特征之一。



DeepSeek V3系列曾采用独特的576维非对称MLA设计(128维RoPE + 448维Latent),而MODEL1则将head_dim参数重新设定为512维。这一“回归标准”的动作并非技术倒退,而是DeepSeek可能已经找到了无需依赖非标维度也能实现高压缩率的新方法。

代码中提及的Engram机制或许就是关键所在,这种机制被认为是DeepSeek在分布式存储或KV压缩上的新突破。通过更完美的GPU Tensor Core计算特性对齐,MODEL1在换取更高计算通用性的同时,可能实现了更优的性能表现。

对下一代硬件的深度适配是MODEL1的另一大亮点。代码库中出现了大量针对英伟达最新Blackwell架构(SM100)的专门优化,包括SM100接口和B200显卡的专用内核实现。



特别值得注意的是,SM100的Head128实现仅支持MODEL1,而不支持V3.2,这被解读为DeepSeek为适配新一代硬件专门优化了新架构。测试数据显示,在尚未完全优化的状态下,MODEL1的稀疏算子在B200上已能达到350 TFlops的算力利用率,显示出其技术前瞻性。

计算效率的显著提升通过引入“Token-level Sparse MLA”机制得以实现。代码中出现了test_flash_mla_sparse_decoding.py测试脚本和FP8 KV Cache混合精度支持。这意味着DeepSeek正在将MLA机制从“全量计算”进化为“Token级稀疏计算”,允许模型在处理超长上下文时动态忽略不重要的Token,从而在显存占用和推理速度上实现数量级优化。

此外,MODEL1每个token的KVCache大小为584字节,相比V3.2的592字节有所减少,在32K长度序列中可节省约256KB内存,这对于边缘设备部署具有重要意义。

03

战略迷雾

V4、R2,还是第三条路线?

MODEL1引发的最大悬念是其产品定位。目前线索指向三种可能:

猜想1:旗舰全能模型V4

此前传闻DeepSeek将于2月发布V4,且编程能力“超过现有顶级模型”1。MODEL1对长序列(16K+)的优化、对文档与代码场景的适配,符合V系列“全能专家”定位。

猜想2:新一代推理专家R2

其稀疏计算、FP8解码、低内存特性完美契合R系列“高效率解题专家”基因。开发者社区认为它可能是“针对大规模推理优化的R1继任者”,甚至实现“双RTX 4090运行1M上下文”。

猜想3:架构层通用底座,支持V与R双线迭代

最可能的情形是:MODEL1并非具体产品,而是新一代基础架构,可同时衍生V系列(重知识广度)和R系列(重推理深度)——类似“芯片级创新”,上层可灵活封装不同能力。

04

R系列的价值重估

在MODEL1引发广泛关注的同时,业界对R系列未来命运的担忧不无道理。



DeepSeek-R1在后训练阶段大规模使用强化学习技术,在仅有很少标注数据的情况下极大提升了模型的推理能力。与传统的监督微调不同,R1开创了一种纯粹的强化学习方法,通过基于规则的奖励系统引导模型进行逻辑推理。

这种“推理即训练”的自我进化机制,突破了自GPT大模型以来的人类输入瓶颈,在数学、代码、自然语言推理等任务上达到了与OpenAI o1正式版接近的性能。

2025年12月,DeepSeek同时发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两款模型,前者被形容为“话少活好”的助手,主打高性价比与日常使用;后者则像“偏科”的科研天才,专攻高难度数学问题求解和学术研究逻辑验证。



这种产品分化策略表明,DeepSeek早已认识到不同应用场景对模型能力的差异化需求。R系列作为专门优化的推理模型,与通用对话模型V系列形成了良好的互补关系。

同时,成本控制的突破性是R系列的另一重要价值。

据DeepSeek技术报告,DeepSeek-V3的训练成本仅为557.6万美元,远低于OpenAI的GPT-4(1-2亿美元)和谷歌的Gemini(2亿美元)。R1不仅继承了这种成本控制能力,还通过模型蒸馏技术将推理能力压缩到小至15亿参数的小模型中。

令人惊讶的是,R1的15亿参数蒸馏模型在数学基准测试中能够优于更大的专有模型,在AIME上获得28.9%的分数,在MATH上获得83.9%的分数。这种“四两拨千斤”的技术路线,正是DeepSeek能够在算力受限环境下实现突破的关键。

05

从单一产品到生态矩阵的构建

自2025年2月起,华为云、阿里云、百度智能云、字节火山引擎、腾讯云等国内主要云厂商纷纷宣布上线DeepSeek模型。紧随其后的是各大国产芯片厂商,包括沐曦、天数智芯、摩尔线程、壁仞科技等十数家企业宣布完成了对DeepSeek模型的适配和上线。

由于DeepSeek打破了对高算力的约束限制,国产芯片的利用率得到极大提升。在应用层,金融、医疗、制造、通讯等各行各业都在积极接入DeepSeek模型,希望借助其能力升级自身服务。

从代码结构看,MODEL1并非V3.2的简单缩小版,而是不同的架构选择。V3.2追求最大性能和精度,MODEL1则可能追求效率和可部署性。社区对MODEL1的身份有多种猜测:一种观点认为它可能是一个追求极致效率的轻量级模型,更适合边缘设备部署;另一种分析则指向它可能是一个“长序列专家”,专门为处理超长文档或代码项目而生。

更深入的代码解读发现,MODEL1支持动态稀疏推理和额外的缓存区,这些设计可能旨在提升复杂任务(如智能体应用)的调度能力。

综合以上分析,我们可以得出一个明确的结论:R系列不会被放弃,而是会在DeepSeek的技术演进中扮演新的角色。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯警告塞尔维亚别乱来,中国不愿看到的一幕发生,武契奇急了

俄罗斯警告塞尔维亚别乱来,中国不愿看到的一幕发生,武契奇急了

有牙的兔纸
2026-01-30 03:33:01
1923年,戴笠在表弟家睡地铺,飞黄腾达后的处置方式让人大跌眼镜

1923年,戴笠在表弟家睡地铺,飞黄腾达后的处置方式让人大跌眼镜

磊子讲史
2026-01-23 15:21:12
普京罕见松口,邀泽连斯基访俄,不到24小时,俄议员却直接打脸

普京罕见松口,邀泽连斯基访俄,不到24小时,俄议员却直接打脸

安珈使者啊
2026-01-30 16:21:02
1.4万国民党干部留在上海,部下请示杀多少?陈毅做法惊动毛主席

1.4万国民党干部留在上海,部下请示杀多少?陈毅做法惊动毛主席

浩渺青史
2026-01-23 04:15:59
1700家社区食堂关门了:不是老人不吃饭,是饭没送到嘴边

1700家社区食堂关门了:不是老人不吃饭,是饭没送到嘴边

阿伧说事
2025-08-01 07:23:30
重磅官宣!公积金房贷贴息,来了!

重磅官宣!公积金房贷贴息,来了!

南昌楼市情报
2026-01-30 18:33:59
震惊!广州一企业发放800元年终奖,分8个月发放,提前离职就停发

震惊!广州一企业发放800元年终奖,分8个月发放,提前离职就停发

火山诗话
2026-01-29 13:30:41
中国陆军火力要变天,电磁火箭炮千公里打击真的要来了?

中国陆军火力要变天,电磁火箭炮千公里打击真的要来了?

杨风
2026-01-28 22:30:13
杨鸣揭秘球员转会!张镇麟选择上海,周琦有特权,赵继伟也要走?

杨鸣揭秘球员转会!张镇麟选择上海,周琦有特权,赵继伟也要走?

体坛大事记
2026-01-30 11:01:10
“尼帕病毒”来势汹汹!建议:1不喝、2不碰、1坚持,别马虎了!

“尼帕病毒”来势汹汹!建议:1不喝、2不碰、1坚持,别马虎了!

现代小青青慕慕
2026-01-28 08:54:56
今天骂塔利班的人,美军撤离的时候有没有喊过要和塔利班合照?

今天骂塔利班的人,美军撤离的时候有没有喊过要和塔利班合照?

走读新生
2026-01-29 10:35:48
工行、建行同日出手,调整黄金积存业务

工行、建行同日出手,调整黄金积存业务

21世纪经济报道
2026-01-30 17:50:07
甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

39健康网
2026-01-30 20:09:01
湖南省湘西自治州人民政府原党组成员、副州长刘冬生等3人被提起公诉

湖南省湘西自治州人民政府原党组成员、副州长刘冬生等3人被提起公诉

界面新闻
2026-01-30 16:12:06
津门虎被罚10分,于根伟队内喊话:男子汉站出来,一分一分往回拼

津门虎被罚10分,于根伟队内喊话:男子汉站出来,一分一分往回拼

米修体育
2026-01-30 16:10:24
人为财死3:江湖传闻引血光

人为财死3:江湖传闻引血光

金昔说故事
2026-01-30 19:45:13
五胡乱华时期,是谁救了即将灭族的汉民族?请记住我们的英雄!

五胡乱华时期,是谁救了即将灭族的汉民族?请记住我们的英雄!

小豫讲故事
2026-01-29 06:00:08
末轮0-3出局!46岁名帅怒交辞职信:球员集体造反 执教13年第1次

末轮0-3出局!46岁名帅怒交辞职信:球员集体造反 执教13年第1次

风过乡
2026-01-30 08:03:11
古董DDR3内存条暴涨!二手8G翻了几倍,世界都疯掉了

古董DDR3内存条暴涨!二手8G翻了几倍,世界都疯掉了

闲搞机
2026-01-30 11:04:56
她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

阿胡
2026-01-21 17:34:15
2026-01-30 20:40:49
电脑报少年派 incentive-icons
电脑报少年派
最新鲜的互联网产业资讯
3910文章数 1603关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

泽连斯基:我邀请普京来基辅 不可能在莫斯科与他会面

头条要闻

泽连斯基:我邀请普京来基辅 不可能在莫斯科与他会面

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

金晨出事前 曾灵魂发问未收到春晚邀请

财经要闻

金银闪崩,是调整还是趋势反转的开始?

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

本地
游戏
亲子
房产
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

《全境封锁:终极版》将于3月发售 售价50美元

亲子要闻

萌娃问爸爸:谁是你的宝贝?爸爸的回答让萌娃说男人都爱撒谎

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版