一次代码更新,意外泄露了AI巨头的新野心。
1月21日,DeepSeek在其GitHub仓库的一次常规更新中,意外泄露了下一代模型的关键线索。开发者在核心推理优化库FlashMLA的代码里,发现了一个从未公开的模型架构标识——“MODEL1”。而这一时间点,恰逢其标志性模型R1发布一周年。
![]()
![]()
根据对代码库的详细分析,“MODEL1”的标识在总计114个文件中被提及了28至31次。更关键的是,它在代码逻辑中被置于与当前旗舰模型DeepSeek-V3.2(代码中标识为V32)完全独立的平行分支中,这表明它并非现有模型的简单迭代,而是一个全新的架构序列。FlashMLA是DeepSeek自主研发、专门针对英伟达Hopper及Blackwell架构GPU进行深度优化的软件工具,旨在加速大模型推理生成环节。MODEL1与V3.2一同被列为该库支持的两个主要模型架构,揭示了DeepSeek产品线的潜在扩展。
技术细节的差异进一步印证了MODEL1的独立性。代码显示,MODEL1的head_dim(头维度)参数被设定为512维,而DeepSeek V3系列模型曾采用576维的设计。在内存布局上,一条已被删除的代码注释曾指出,对于SM90架构下的MODEL1,其KV缓存的内存步长必须是576B的整数倍,这与V3.2的656B配置不同,暗示了底层内存调度机制的改变。此外,代码中出现了针对英伟达最新Blackwell B200(SM100架构)的专用内核实现,其中Head128配置仅支持MODEL1,而不支持V3.2,这被解读为DeepSeek为适配新一代硬件专门优化了新架构。
社区对此展开了激烈讨论。一种观点认为,MODEL1可能是一个追求极致效率的轻量级模型,更适合边缘设备部署。另一种分析则指向它可能是一个“长序列专家”,专门为处理超长文档或代码项目而生。更深入的代码解读发现,MODEL1支持动态稀疏推理和额外的缓存区,这些设计可能旨在提升复杂任务(如智能体应用)的调度能力。海外开发者推测,其背后可能是一套全新的推理机制和内存配置。
截至目前,DeepSeek官方尚未对此发表任何评论。但这次“意外”发生的时间点极为微妙。此前已有消息称,DeepSeek计划在2026年2月,即中国农历春节前后发布下一代旗舰模型。就在此次代码泄露前约两周,DeepSeek还悄然在arXiv上更新了R1的论文,将页数从22页大幅扩充至86页,近乎重写,并加入了完整的训练管线拆解和大量技术附录,这一不寻常的举动已被部分观察者视为新动作的前奏。
业界普遍将MODEL1与传闻中的DeepSeek V4模型联系起来。综合预测,下一代模型的核心突破可能聚焦于代码生成与推理架构。据称,V4可能采用名为“mHC”的新架构,旨在突破传统性能天花板,并专门为企业级编程任务设计,目标是在代码能力上超越当前的顶尖闭源模型。同时,它很可能延续DeepSeek的极致性价比策略,并深化与国产芯片的适配。
![]()
从公司背景来看,DeepSeek的研发一直得到其母公司幻方量化的强力支持。这家顶级量化基金在2025年实现了超过53%的回报率,利润超7亿美元。雄厚的资金实力,让DeepSeek能在“零外部融资”的情况下保持高强度研发,不必急于商业化。这种独特的财务结构,为其技术路线的长期主义提供了坚实基础。就连微软CEO萨蒂亚·纳德拉也曾公开提及DeepSeek,称其拥有“真正的创新”,这从侧面印证了其技术影响力。
一次代码泄露,如同投石入水,涟漪已扩散至整个产业。全球最大的AI开源社区Hugging Face在近期文章中,将DeepSeek的开源策略称为“DeepSeek时刻”,认为它深刻改变了全球AI开源生态的格局。如今,随着疑似下一代核心架构的线索浮出水面,所有人都在等待:DeepSeek将如何再次定义前沿?
答案,或许就在不久后的春节揭晓。
来源:星河商业观察
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.