网易首页 > 网易号 > 正文 申请入驻

R1一周年,DeepSeek Model 1悄然现身

0
分享至

内容来源:机器之心

2025 年 1 月 20 日,DeepSeek(深度求索)正式发布了 DeepSeek-R1 模型,并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1 也是该平台上获赞最多的模型。


https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

如今,刚过一年时间,DeepSeek 的新模型又在 GitHub 悄然现身。

这些天,DeepSeek 给其 FlashMLA 代码库推送了不少更新,而在这些更新中,一个名为 Model1 的模型引起了广大网友的注意。


如下截图所示,这个目前还很神秘的 Model1 不仅出现在了代码与注释中,甚至还有与 DeepSeek-V3.2 并驾齐驱的文件。





这也不禁让网友们开始猜测,这个 Model1 很可能就是传闻中 DeepSeek 即将在春节前后发布的新模型的代号。






我们也让 Gemini 帮忙分析了 DeepSeek 的这些 Commit,让其提取了其中的技术细节,结果如下:

根据 DeepSeek 在 2026 年 1 月提交的 flashmla 库代码变更,可以推断出 Model1 是 DeepSeek 下一代旗舰模型 DeepSeek-V4 的内部开发代号或首个工程版本。以下是根据代码 diff 提取的技术细节分析:

1. 核心架构:回归 512 维标准

在 csrc/api/common.h 的 DISPATCH_HEAD_DIM 宏中,可以看到 head_dim 的分支处理:


  • V32 (DeepSeek-V3.2):继续沿用 d_qk = 576 的配置。这是 DeepSeek-V3 引入的非对称 MLA 设计(128 维 RoPE + 448 维 Latent)。

  • Model1:切换到了 512 维。这表明 DeepSeek-V4 在 MLA 架构上进行了「标准化」回归,可能是为了更好地匹配 Blackwell (SM100) 架构的算力对齐,或者优化了 Latent 压缩比例

2. 全面支持 Blackwell (SM100) 架构

代码库中出现了大量针对 NVIDIA 下一代 Blackwell GPU 的专门优化:


  • SM100 接口:api.cpp 中新增了 FMHACutlassSM100FwdRun。这直接指向了 Blackwell 架构的核心指令集优化。

  • CUDA 版本要求:README 提到在 B200 上运行需要 CUDA 12.9。

  • 性能表现:在 B200 上,目前尚未完全优化的 Sparse MLA 算子已能达到 350 TFlops。而在 H800 (SM90a) 上,Dense MLA 的计算吞吐量高达 660 TFlops。


3. 引入「Token-level Sparse MLA」

这是 Model1 相比 V3 系列最显著的算子演进:


  • Sparse & Dense 并行:测试脚本中出现了 test_flash_mla_sparse_decoding.py 和 test_flash_mla_dense_decoding.py。

  • FP8 KV Cache 混合精度:Sparse 算子使用 FP8 存储 KV Cache,但在计算矩阵乘法时使用 bfloat16 以保证精度。这说明 Model1 在极长上下文场景下,会通过「稀疏化推理」来降低显存压力和提升速度

4. 新机制:Value Vector Position Awareness (VVPA) 与 Engram

虽然 diff 主要是算子层面的,但结合 DISPATCH_MODEL_TYPE 的逻辑和社区披露,Model1 引入了以下新特性:


  • VVPA(数值向量位置感知):这可能解决了传统 MLA 在长文本下位置信息衰减的问题。

  • Engram 机制:这被认为是 DeepSeek 在分布式存储或 KV 压缩上的新突破,用于配合 Model1 的高吞吐需求


而 Gemini 之所以判断 Model1 是 DeepSeek 下一代旗舰模型 DeepSeek-V4 的内部开发代号或首个工程版本,是因为它认为在下面所示的代码中,MODEL1 的定位是一个与 V32 并列且独立的分支,「说明它不是 V3 系列的补丁,而是一个采用了不同架构参数的全新模型。按照 DeepSeek 的命名惯例,在 V3.2 之后的旗舰级架构跨越,逻辑上即为 V4。」


对此,你怎么看,你觉得 Model1 就是传说中的 DeepSeek V4 吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
著名京剧演员孙彩虹逝世,曾参演并担任87版《红楼梦》剧务

著名京剧演员孙彩虹逝世,曾参演并担任87版《红楼梦》剧务

澎湃新闻
2026-01-21 15:55:20
李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

素衣读史
2026-01-21 13:57:53
密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

密密麻麻全是佛像!新西兰华人买下海景大房后,爆改后院,邻居看傻

发现新西兰
2026-01-20 11:20:02
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
巴特勒倒了想起我?库明加时隔16场重新登场,10中7砍20分5板

巴特勒倒了想起我?库明加时隔16场重新登场,10中7砍20分5板

懂球帝
2026-01-21 14:43:06
力推都没用?吴京《镖人》遭抵制,摇头晃脑的他们有很大责任

力推都没用?吴京《镖人》遭抵制,摇头晃脑的他们有很大责任

白面书誏
2026-01-20 13:53:46
全球首例!上海瑞金医院医生“唤醒”了失忆的妈妈!阿尔茨海默病或有新解法

全球首例!上海瑞金医院医生“唤醒”了失忆的妈妈!阿尔茨海默病或有新解法

新民晚报
2026-01-21 15:41:44
毛主席只用一句话,就点破武则天无字碑:原来我们猜了千年都错了

毛主席只用一句话,就点破武则天无字碑:原来我们猜了千年都错了

鹤羽说个事
2026-01-20 11:48:10
官方:沙特主裁判将执法U23亚洲杯决赛中国vs日本的比赛

官方:沙特主裁判将执法U23亚洲杯决赛中国vs日本的比赛

懂球帝
2026-01-21 17:34:21
网传《歌手2026》阵容,看到名单后,难掩激动泪水,期待的都来了

网传《歌手2026》阵容,看到名单后,难掩激动泪水,期待的都来了

娱乐圈十三太保
2026-01-21 15:03:20
“陈真”梁小龙死因公布!这种病最近高发,被称为心脏疾病“最后的战场”,5年内病死率高达42.3%

“陈真”梁小龙死因公布!这种病最近高发,被称为心脏疾病“最后的战场”,5年内病死率高达42.3%

都市快报橙柿互动
2026-01-21 18:06:09
特变电工:黄金年产量约2.5-3吨

特变电工:黄金年产量约2.5-3吨

财联社
2026-01-21 15:47:08
曝嫣然医院房东张毅:履历被扒,涨租金或想收回来自己搞医美

曝嫣然医院房东张毅:履历被扒,涨租金或想收回来自己搞医美

古希腊掌管月桂的神
2026-01-21 12:41:44
芬兰总统“出招”:邀特朗普蒸桑拿,帮助解决格陵兰岛的复杂局势;他曾将特朗普与泽连斯基的争吵比作婚姻中的争执,呼吁双方回到谈判桌前

芬兰总统“出招”:邀特朗普蒸桑拿,帮助解决格陵兰岛的复杂局势;他曾将特朗普与泽连斯基的争吵比作婚姻中的争执,呼吁双方回到谈判桌前

扬子晚报
2026-01-21 17:48:57
严重违纪违法,惠阳一干部被“双开”

严重违纪违法,惠阳一干部被“双开”

南方都市报
2026-01-21 17:14:07
深圳地铁过紧日子了!人流量小的地方扶梯只开上的,闸机口也停了

深圳地铁过紧日子了!人流量小的地方扶梯只开上的,闸机口也停了

火山诗话
2026-01-21 18:59:59
10亿身家换不来10分钟!刚签大单就突然猝死,他的悲剧戳中多少人

10亿身家换不来10分钟!刚签大单就突然猝死,他的悲剧戳中多少人

叮当当科技
2026-01-21 00:02:16
2026刚半个月,18岁全红婵被官媒公开点名,原来郭晶晶真的没说错

2026刚半个月,18岁全红婵被官媒公开点名,原来郭晶晶真的没说错

削桐作琴
2026-01-21 13:24:27
“国民神车”连续两个月 0 销量之后,搞了个骚操作

“国民神车”连续两个月 0 销量之后,搞了个骚操作

蓝字计划
2026-01-20 15:13:01
网友拍到京东快递车上,有人将刘强东喝酒照片恶意涂改

网友拍到京东快递车上,有人将刘强东喝酒照片恶意涂改

映射生活的身影
2026-01-21 16:41:27
2026-01-21 20:59:00
冒泡泡的鱼儿
冒泡泡的鱼儿
每天带来社会资讯
337文章数 14982关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

头条要闻

风波中的西贝股权发生变化 新荣记张勇对贾国龙伸援手

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

旅游
时尚
健康
亲子
本地

旅游要闻

免票!超值套票!伏羲山冰雪节全线优惠上线!

新春穿搭新趋势,天猫服饰与百大品牌共同演绎新年吉服美学

打工人年终总结!健康通关=赢麻了

亲子要闻

奶奶想蒸馒头小孙子不同意?7条狗3个窝排成排,狗妈妈挨个检查

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

无障碍浏览 进入关怀版