网易首页 > 网易号 > 正文 申请入驻

架构彻底重构!DeepSeek新模型代码曝光,要来的V4让国内外都坐不住了?

0
分享至


整理 | 华卫

DeepSeek V4 马上要来了?

正值 DeepSeek-R1 发布一周年之际,DeepSeek 的官方 GitHub 代码库意外曝光了代号为“MODEL1”的全新模型线索。

而综合泄露代码片段中呈现的架构调整、硬件优化与全新处理机制来看,“MODEL1”似乎绝非简单的版本迭代,而是一次全方位的架构重构。

此次 DeepSeek 在 GitHub 代码库的提前部署,在时间线上与业内疯传的“其新模型再次在春节期间发布”的消息高度吻合。本月初,也有外媒爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 DeepSeek V4。

1 新模型曝光,代码揭露全新架构能力

近日,DeepSeek 陆陆续续给其在 GitHub 上的 FlashMLA 代码库做了一系列更新。


而刚刚,有开发者发现,114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。而且,在代码逻辑结构中,该标识符与现有模型“V32”(即 DeepSeek-V3.2)是并列且作为独立分支出现的。也就是说,“MODEL1”很可能代表一个不同于现有架构和技术路径的全新模型。


网友们也纷纷猜测,这个“MODEL1”很可能就是 DeepSeek 即将发布的新模型 V4 的内部开发代号或首个工程版本。

根据代码片段中披露的技术规格,这个新模型有重大架构变更,或在 KV Cache(键值缓存)布局、稀疏性处理及 FP8 解码支持等方面改变了策略和机制,还包括参数维度切换至 512 维以及针对英伟达下一代 Blackwell GPU 架构的专项优化。

在 FP8 解码路径上,该模型有多处针对性的内存优化调整。测试脚本中同步新增了 test_flash_mla_sparse_decoding.py 与 test_flash_mla_dense_decoding.py 两个文件,这一改动证实“MODEL1”具备稀疏与稠密计算并行处理的能力。在稀疏化实现方案中,键值缓存存储采用 FP8 精度,而矩阵乘法运算则使用 bfloat16 精度,以此保障计算准确性。这种混合精度设计表明,“MODEL1”通过在推理阶段对部分数据进行选择性稀疏化处理,有效降低内存占用压力,从而具备处理超长上下文窗口的能力。


在 csrc/api/common.h 文件内的代码显示,“MODEL1”的注意力头参数维度被配置为 512 维,与上一代产品 DeepSeek V3.2 采用的 576 维参数设置形成显著差异。这一架构调整意味着,DeepSeek 已对其多头隐式注意力(MLA)结构进行了重新设计。此前的 V3 系列采用非对称设计方案,将 128 维旋转位置编码(RoPE)与 448 维隐层维度相结合。此次转向标准化的 512 维参数配置,或许是为了更好地适配硬件性能,也可能是在隐层压缩率方面实现了技术突破。


代码更新记录还显示,DeepSeek 研发团队已围绕英伟达 Blackwell 架构开展了大量优化工作,预示着 DeepSeek 正为“MODEL1”量身打造下一代硬件适配方案。代码中新增了一批专门面向 Blackwell 指令集的接口,包括 FMHACutlassSM100FwdRun;相关文档明确指出,该模型若要在 B200 GPU 上运行,需依赖 CUDA 12.9 版本环境;内嵌的性能指标数据显示,即便在未完全优化的状态下,稀疏化 MLA 算子在 B200 硬件平台上的运算性能仍可达到 350 万亿次浮点运算每秒(TFLOPS)。在当前主流的 H800 GPU(基于 SM90a 架构)上,稠密型 MLA 算子的吞吐量则能达到 660 万亿次浮点运算每秒。

尽管本次代码提交的内容主要聚焦于算子层面的实现,但调度逻辑中仍提及多项新增功能。从代码仓库的结构可以推断,“MODEL1”集成了价值向量位置感知(VVPA)技术,这项技术有望解决传统 MLA 架构在长文本处理场景下存在的位置信息衰减问题。代码注释中还提到了一种名为 “记忆印记(Engram)机制” 的技术,但在已公开的代码提交记录中,相关实现细节尚不完整。从该机制在分布式处理模块中的部署位置推测,其功能大概率与分布式存储优化或高级键值压缩技术相关,旨在满足“MODEL1”对高吞吐量的性能需求。

前不久,DeepSeek 研究团队刚发布了 Engram 的技术论文。当时,就有业内观察者认为,Engram 模块可能会成为 DeepSeek V4 的重要组成部分,并预示 DeepSeek 下一代模型会在记忆和推理协同上实现架构级提升。

这些优化能够表明,“MODEL1”在推理效率上可能有更好的表现。此前也有爆料称,DeepSeek V4 的代码表现已超越 Claude 和 GPT 系列,并且具备处理复杂项目架构和大规模代码库的工程化能力。

2 国内外万众期待,“中国 AI 站起来了”

“DeepSeek 刚刚泄露了一个模型,这可能会再次改变整个 AI 行业的格局。”在国内外的各大社交平台及社区,针对 DeepSeek 新模型的上线猜测、能力预测的期待帖子已大量涌现。

“中国 AI 站起来了。”昨日,全球最大的 AI 开源社区 Hugging Face 以“距离 DeepSeek 时刻一周年”为题专门发文,复盘了 R1 发布这一年来对中国开源社区及其对整个 AI 生态系统的影响。

“这是中国研发的开源模型首次跻身全球主流榜单。此后一年间,每当有新模型发布时,R1 都会被当作重要的参照基准。该模型迅速登顶 Hugging Face 平台历史最受欢迎模型榜单,而这一平台上最受青睐的模型,也不再以美国研发的产品为主导。”

在他们看来,R1 的真正价值在于降低先进 AI 能力的门槛或者说障碍,并提供了清晰的模式。

  • 技术障碍。通过公开分享其推理路径和训练后的方法,R1 将此前被封闭 API 锁定的高级推理转变为可下载、提炼和微调的工程资产。许多团队不再需要从零开始训练庞大的模型来获得强大的推理能力。

  • 应用障碍。R1 以 MIT 许可证发布,使其使用、修改和再分发变得简单。依赖封闭式模型的公司开始直接将 R1 投入生产。蒸馏、二次培训和领域特定适应成为常规工程工作,而非专门项目。

  • 心理层面。当问题从“我们能做到吗?”转变为“我们如何做好?”时,许多公司的决策发生了变化。对于中国 AI 社区来说,这也是罕见的持续全球关注时刻,对长期被视为追随者的生态系统意义重大。

“在 R1 模型发布一年后的今天,我们看到的不仅是一大批新模型的涌现,更见证了一个富有生命力的中国 AI 开源生态的加速成型。”

https://github.com/deepseek-ai/FlashMLA?tab=readme-ov-file

https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

https://chinabizinsider.com/deepseeks-mysterious-model-1-surfaces-in-github-code-sparking-speculation-about-next-generation-ai-system/

声明:本文为 InfoQ 翻译整理,不代表平台观点,未经许可禁止转载。

会议推荐

InfoQ 2026 全年会议规划已上线!从 AI Infra 到 Agentic AI,从 AI 工程化到产业落地,从技术前沿到行业应用,全面覆盖 AI 与软件开发核心赛道!集结全球技术先锋,拆解真实生产案例、深挖技术与产业落地痛点,探索前沿领域、聚焦产业赋能,获取实战落地方案与前瞻产业洞察,高效实现技术价值转化。把握行业变革关键节点,抢占 2026 智能升级发展先机!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
徐云龙:0-4还不让日本下去一个?球员压力太大 就像韩日世界杯一样

徐云龙:0-4还不让日本下去一个?球员压力太大 就像韩日世界杯一样

寒律
2026-01-25 09:49:27
2026年政策调整:油电公平,终结一箱油半箱税时代

2026年政策调整:油电公平,终结一箱油半箱税时代

阿芑历史
2026-01-18 23:08:22
埃梅里:球员们的比赛态度非常棒,客胜纽卡会让我们重拾信心

埃梅里:球员们的比赛态度非常棒,客胜纽卡会让我们重拾信心

懂球帝
2026-01-26 02:05:21
猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

猪油再次被关注!医生发现:高血压患者常吃猪油,或出现几种变化

蜉蝣说
2026-01-25 17:41:32
特朗普威胁全球别抛美债?大国冷笑:6830亿,游戏该结束了!

特朗普威胁全球别抛美债?大国冷笑:6830亿,游戏该结束了!

生活新鲜市
2026-01-26 00:26:57
西部排名又变了:湖人逼近火箭,快船坐收好礼,2队排名互换

西部排名又变了:湖人逼近火箭,快船坐收好礼,2队排名互换

篮球大视野
2026-01-25 14:52:19
2026 U23亚洲杯最佳阵容揭晓:中国3人入选,日本成最大赢家

2026 U23亚洲杯最佳阵容揭晓:中国3人入选,日本成最大赢家

行走的知识库
2026-01-25 01:43:38
三星S25+充电时爆炸家人送医!官方承认问题:用户不满赔偿

三星S25+充电时爆炸家人送医!官方承认问题:用户不满赔偿

快科技
2026-01-25 23:16:04
大胆预测一波,黄金最终可能会死于科技之手!

大胆预测一波,黄金最终可能会死于科技之手!

流苏晚晴
2026-01-25 17:50:56
高度警惕!超10名中国海员疑似被困柬埔寨相关诈骗团伙

高度警惕!超10名中国海员疑似被困柬埔寨相关诈骗团伙

NauticEdge
2026-01-25 10:41:48
巴厘岛夜场爆冲突!哈萨克斯坦模特喊“荣耀乌克兰”揍俄罗斯模特

巴厘岛夜场爆冲突!哈萨克斯坦模特喊“荣耀乌克兰”揍俄罗斯模特

老马拉车莫少装
2026-01-24 21:44:07
A股:新一轮牛市来临,如果本金只有五万,建议死磕这么一种股票

A股:新一轮牛市来临,如果本金只有五万,建议死磕这么一种股票

股经纵横谈
2026-01-25 21:06:10
有一种“算计”叫马伊琍,离婚5年后被曝隐婚,前夫早把她看透了

有一种“算计”叫马伊琍,离婚5年后被曝隐婚,前夫早把她看透了

老吴教育课堂
2026-01-26 00:02:58
从宣布到交割仅40天!洛阳钼业完成巴西金矿项目交割,今年可产金6-8吨

从宣布到交割仅40天!洛阳钼业完成巴西金矿项目交割,今年可产金6-8吨

时代财经
2026-01-25 16:47:25
172:233!日本新首相人选出炉,高市开始豪赌,最后三种可能性

172:233!日本新首相人选出炉,高市开始豪赌,最后三种可能性

观星赏月
2026-01-26 00:25:07
“受够了美国!”卡梅隆选择新西兰,暗示美国即将崩溃?

“受够了美国!”卡梅隆选择新西兰,暗示美国即将崩溃?

粉红冻奶的观影日记
2026-01-25 20:00:06
联合国不再挽留!美国正式退出,2.6亿会费未交,特朗普要建新群

联合国不再挽留!美国正式退出,2.6亿会费未交,特朗普要建新群

通文知史
2026-01-24 17:10:03
美军惨败急封报告!大陆一锤定音:统一已成定局

美军惨败急封报告!大陆一锤定音:统一已成定局

我是盲流
2026-01-24 20:39:28
公然支持乱港分子,诋毁爱国人士,香港这家商业巨头如今下场凄惨

公然支持乱港分子,诋毁爱国人士,香港这家商业巨头如今下场凄惨

素衣读史
2026-01-17 17:07:58
随着1月25日的夜幕降临,快船战篮网的赛前传来1个利好+1个隐患!

随着1月25日的夜幕降临,快船战篮网的赛前传来1个利好+1个隐患!

田先生篮球
2026-01-25 22:05:49
2026-01-26 02:52:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
11983文章数 51713关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

房产
健康
本地
公开课
军事航空

房产要闻

正式官宣!三亚又一所名校要来了!

耳石脱落为何让人天旋地转+恶心?

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版