DeepSeek新王牌浮出水面？|内存|代码|model|deepseek

DeepSeek新王牌浮出水面？

2026-01-21 17:06:38　来源: ZAKER新闻

广东举报

分享至

一次代码更新，意外泄露了AI巨头的新野心。

1月21日，DeepSeek在其GitHub仓库的一次常规更新中，意外泄露了下一代模型的关键线索。开发者在核心推理优化库FlashMLA的代码里，发现了一个从未公开的模型架构标识——“MODEL1”。而这一时间点，恰逢其标志性模型R1发布一周年。

根据对代码库的详细分析，“MODEL1”的标识在总计114个文件中被提及了28至31次。更关键的是，它在代码逻辑中被置于与当前旗舰模型DeepSeek-V3.2（代码中标识为V32）完全独立的平行分支中，这表明它并非现有模型的简单迭代，而是一个全新的架构序列。FlashMLA是DeepSeek自主研发、专门针对英伟达Hopper及Blackwell架构GPU进行深度优化的软件工具，旨在加速大模型推理生成环节。MODEL1与V3.2一同被列为该库支持的两个主要模型架构，揭示了DeepSeek产品线的潜在扩展。

技术细节的差异进一步印证了MODEL1的独立性。代码显示，MODEL1的head_dim（头维度）参数被设定为512维，而DeepSeek V3系列模型曾采用576维的设计。在内存布局上，一条已被删除的代码注释曾指出，对于SM90架构下的MODEL1，其KV缓存的内存步长必须是576B的整数倍，这与V3.2的656B配置不同，暗示了底层内存调度机制的改变。此外，代码中出现了针对英伟达最新Blackwell B200（SM100架构）的专用内核实现，其中Head128配置仅支持MODEL1，而不支持V3.2，这被解读为DeepSeek为适配新一代硬件专门优化了新架构。

社区对此展开了激烈讨论。一种观点认为，MODEL1可能是一个追求极致效率的轻量级模型，更适合边缘设备部署。另一种分析则指向它可能是一个“长序列专家”，专门为处理超长文档或代码项目而生。更深入的代码解读发现，MODEL1支持动态稀疏推理和额外的缓存区，这些设计可能旨在提升复杂任务（如智能体应用）的调度能力。海外开发者推测，其背后可能是一套全新的推理机制和内存配置。

截至目前，DeepSeek官方尚未对此发表任何评论。但这次“意外”发生的时间点极为微妙。此前已有消息称，DeepSeek计划在2026年2月，即中国农历春节前后发布下一代旗舰模型。就在此次代码泄露前约两周，DeepSeek还悄然在arXiv上更新了R1的论文，将页数从22页大幅扩充至86页，近乎重写，并加入了完整的训练管线拆解和大量技术附录，这一不寻常的举动已被部分观察者视为新动作的前奏。

业界普遍将MODEL1与传闻中的DeepSeek V4模型联系起来。综合预测，下一代模型的核心突破可能聚焦于代码生成与推理架构。据称，V4可能采用名为“mHC”的新架构，旨在突破传统性能天花板，并专门为企业级编程任务设计，目标是在代码能力上超越当前的顶尖闭源模型。同时，它很可能延续DeepSeek的极致性价比策略，并深化与国产芯片的适配。

从公司背景来看，DeepSeek的研发一直得到其母公司幻方量化的强力支持。这家顶级量化基金在2025年实现了超过53%的回报率，利润超7亿美元。雄厚的资金实力，让DeepSeek能在“零外部融资”的情况下保持高强度研发，不必急于商业化。这种独特的财务结构，为其技术路线的长期主义提供了坚实基础。就连微软CEO萨蒂亚·纳德拉也曾公开提及DeepSeek，称其拥有“真正的创新”，这从侧面印证了其技术影响力。

一次代码泄露，如同投石入水，涟漪已扩散至整个产业。全球最大的AI开源社区Hugging Face在近期文章中，将DeepSeek的开源策略称为“DeepSeek时刻”，认为它深刻改变了全球AI开源生态的格局。如今，随着疑似下一代核心架构的线索浮出水面，所有人都在等待：DeepSeek将如何再次定义前沿？

答案，或许就在不久后的春节揭晓。

来源：星河商业观察

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.