网易首页 > 网易号 > 正文 申请入驻

R1一周年,DeepSeek Model 1悄然现身

0
分享至



编辑|Panda

2025 年 1 月 20 日,DeepSeek(深度求索)正式发布了 DeepSeek-R1 模型,并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1 也是该平台上获赞最多的模型。



https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

如今,刚过一年时间,DeepSeek 的新模型又在 GitHub 悄然现身。

这些天,DeepSeek 给其 FlashMLA 代码库推送了不少更新,而在这些更新中,一个名为Model1的模型引起了广大网友的注意。



如下截图所示,这个目前还很神秘的 Model1 不仅出现在了代码与注释中,甚至还有与 DeepSeek-V3.2 并驾齐驱的文件。









这也不禁让网友们开始猜测,这个 Model1 很可能就是传闻中 DeepSeek 即将在春节前后发布的新模型的代号。







我们也让 Gemini 帮忙分析了 DeepSeek 的这些 Commit,让其提取了其中的技术细节,结果如下:

根据 DeepSeek 在 2026 年 1 月提交的 flashmla 库代码变更,可以推断出Model1 是 DeepSeek 下一代旗舰模型 DeepSeek-V4 的内部开发代号或首个工程版本。以下是根据代码 diff 提取的技术细节分析:

1. 核心架构:回归 512 维标准

在 csrc/api/common.h 的 DISPATCH_HEAD_DIM 宏中,可以看到 head_dim 的分支处理:

  • V32 (DeepSeek-V3.2):继续沿用 d_qk = 576 的配置。这是 DeepSeek-V3 引入的非对称 MLA 设计(128 维 RoPE + 448 维 Latent)。
  • Model1:切换到了 512 维。这表明 DeepSeek-V4 在 MLA 架构上进行了「标准化」回归,可能是为了更好地匹配 Blackwell (SM100) 架构的算力对齐,或者优化了 Latent 压缩比例。

2. 全面支持 Blackwell (SM100) 架构

代码库中出现了大量针对 NVIDIA 下一代 Blackwell GPU 的专门优化:

  • SM100 接口:api.cpp 中新增了 FMHACutlassSM100FwdRun。这直接指向了 Blackwell 架构的核心指令集优化。
  • CUDA 版本要求:README 提到在 B200 上运行需要 CUDA 12.9。
  • 性能表现:在 B200 上,目前尚未完全优化的 Sparse MLA 算子已能达到 350 TFlops。而在 H800 (SM90a) 上,Dense MLA 的计算吞吐量高达 660 TFlops。

3. 引入「Token-level Sparse MLA」

这是 Model1 相比 V3 系列最显著的算子演进:

  • Sparse & Dense 并行:测试脚本中出现了 test_flash_mla_sparse_decoding.py 和 test_flash_mla_dense_decoding.py。
  • FP8 KV Cache 混合精度:Sparse 算子使用 FP8 存储 KV Cache,但在计算矩阵乘法时使用 bfloat16 以保证精度。这说明Model1 在极长上下文场景下,会通过「稀疏化推理」来降低显存压力和提升速度

4. 新机制:Value Vector Position Awareness (VVPA) 与 Engram

虽然 diff 主要是算子层面的,但结合 DISPATCH_MODEL_TYPE 的逻辑和社区披露,Model1 引入了以下新特性:

  • VVPA(数值向量位置感知):这可能解决了传统 MLA 在长文本下位置信息衰减的问题。
  • Engram 机制:这被认为是 DeepSeek 在分布式存储或 KV 压缩上的新突破,用于配合 Model1 的高吞吐需求

而 Gemini 之所以判断 Model1 是 DeepSeek 下一代旗舰模型 DeepSeek-V4 的内部开发代号或首个工程版本,是因为它认为在下面所示的代码中,MODEL1 的定位是一个与 V32 并列且独立的分支,「说明它不是 V3 系列的补丁,而是一个采用了不同架构参数的全新模型。按照 DeepSeek 的命名惯例,在 V3.2 之后的旗舰级架构跨越,逻辑上即为 V4。」



对此,你怎么看,你觉得 Model1 就是传说中的 DeepSeek V4 吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英国大选,绿党被“夺舍”

英国大选,绿党被“夺舍”

南文视界
2026-05-09 22:43:03
伦敦世乒赛今晚落幕!5月10日赛程公布:中日巅峰对决争夺2项冠军

伦敦世乒赛今晚落幕!5月10日赛程公布:中日巅峰对决争夺2项冠军

全言作品
2026-05-10 06:21:22
董宇辉回应恋情传闻,女方身份真相大白,也许跟你想不太一样

董宇辉回应恋情传闻,女方身份真相大白,也许跟你想不太一样

白面书誏
2026-05-09 14:50:55
那个从华莱士出走的“叛徒”,如今带着10000家店,强势归来

那个从华莱士出走的“叛徒”,如今带着10000家店,强势归来

凡人说体育
2026-03-18 19:37:41
暴跌10亿!宜家疯狂降价自救,曾经的中产神话彻底凉了

暴跌10亿!宜家疯狂降价自救,曾经的中产神话彻底凉了

青眼财经
2026-05-07 22:00:36
一场2-0,救了中国队一把,出线有戏!感谢卡塔尔,最新排名如下

一场2-0,救了中国队一把,出线有戏!感谢卡塔尔,最新排名如下

侃球熊弟
2026-05-10 02:44:07
第一个帮助中国的日本企业,不留余力提供技术!如今怎么样了?

第一个帮助中国的日本企业,不留余力提供技术!如今怎么样了?

博览历史
2025-10-07 17:13:05
貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

貔貅认主不看财富,这四个生肖千万别碰,戴了反而会破财

纸鸢奇谭
2026-04-13 16:06:54
上海男篮,“恐怖”如斯

上海男篮,“恐怖”如斯

新民晚报
2026-05-10 10:27:45
0-2、对手2个赛点!王皓1句话,让梁靖崑从“地狱”爬回

0-2、对手2个赛点!王皓1句话,让梁靖崑从“地狱”爬回

曹老师评球
2026-05-10 08:24:13
上海地铁车厢内,男子突然倒地、呼吸全无!被送至华山医院!

上海地铁车厢内,男子突然倒地、呼吸全无!被送至华山医院!

环球网资讯
2026-05-10 15:05:19
又被抢先一步?外交部官宣,一国总统将要访华,特朗普还得再等等

又被抢先一步?外交部官宣,一国总统将要访华,特朗普还得再等等

知法而形
2026-05-09 11:40:54
半决赛G3后,NBA夺冠概率更新!湖人不足0.1%垫底骑士0.7%遭低估

半决赛G3后,NBA夺冠概率更新!湖人不足0.1%垫底骑士0.7%遭低估

锅子篮球
2026-05-10 16:36:09
社保局提醒,退休证不算啥,这三张“保命纸”不办就亏大了!

社保局提醒,退休证不算啥,这三张“保命纸”不办就亏大了!

逍遥论经
2026-05-10 16:59:24
一觉醒来,中国油轮在波斯湾遇袭!这不是误炸,是有人想“破窗”

一觉醒来,中国油轮在波斯湾遇袭!这不是误炸,是有人想“破窗”

闫树军论评
2026-05-08 18:11:21
上海交大发现:体内有恶性肿瘤的人,身体一般或可能有4个表现?

上海交大发现:体内有恶性肿瘤的人,身体一般或可能有4个表现?

垚垚分享健康
2026-05-09 20:15:08
中国民航新规出炉:日本航空过境中国规则迎变化!网友:大快人心

中国民航新规出炉:日本航空过境中国规则迎变化!网友:大快人心

阿校谈史
2026-05-10 08:36:34
央视首播!重磅年代剧《主角》来了,主演阵容强,收视要爆

央视首播!重磅年代剧《主角》来了,主演阵容强,收视要爆

小椰的奶奶
2026-05-10 10:05:27
3-0!神锋两场连轰3脚世界波 13.1亿豪门5轮4胜 争冠形势再生变

3-0!神锋两场连轰3脚世界波 13.1亿豪门5轮4胜 争冠形势再生变

狍子歪解体坛
2026-05-10 02:24:36
禁欲真的好吗?研究表明:禁欲时间越长,排出的精子活动率越低!

禁欲真的好吗?研究表明:禁欲时间越长,排出的精子活动率越低!

黯泉
2026-05-04 14:05:52
2026-05-10 19:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12957文章数 142647关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

"孕妇泰国坠崖"当事人王暖暖病房落泪:只为陪孩子长大

头条要闻

"孕妇泰国坠崖"当事人王暖暖病房落泪:只为陪孩子长大

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

艺术
游戏
健康
教育
手机

艺术要闻

3位出轨女性的自述,颠覆了我对婚外情的理解

LCK第二赛段:许秀和DK领先后,不会打比赛!T1直落两局横扫DK

干细胞能让人“返老还童”吗

教育要闻

被三桶油看上的6所大学,不是211,不是双一流,毕业就业超级好!

手机要闻

周销量TOP30出炉!华为一家占了10款,这统治力谁受得了?

无障碍浏览 进入关怀版