网易首页 > 网易号 > 正文 申请入驻

代码泄密!DeepSeek下一代“王炸”模型架构曝光

0
分享至


智东西
作者 江宇
编辑 冰倩

智东西1月21日报道,DeepSeek-R1发布一周年之际,来自DeepSeek的神秘新模型“MODEL1”悄然现身GitHub代码库。

多位社区开发者推测,MODEL1很可能正是DeepSeek内测中的V3终极版本(V4模型),也有人猜测它可能代表一个完全独立于V系列的新模型。


▲海外开发者在X平台讨论MODEL1身份

近日,DeepSeek向其核心推理内核FlashMLA推送了一系列更新,而在这些提交中,一个此前从未公开亮相的模型命名引发了社区的高度关注——MODEL1。


▲DeepSeek代码库出现MODEL1相关(图源:X)

这一名称不仅出现在SM90架构相关的.cu内核实例化文件中,还贯穿在多个针对FP8稀疏解码路径的模板定义与内存布局注释里。

更关键的是,据海外开发者推测,MODEL1的背后将是一整套新的推理机制、算子结构与底层内存配置,会与DeepSeek现有V3.2模型呈现出完全不同的技术路径

在相关代码文件中可以看到,MODEL1被用于核心解码函数的多个实例中,显式适配了头维度为64和128的场景,并专门部署在SM90和SM100架构上。


▲DeepSeek FlashMLA源码截图(图源:GItHub)

代码中多处调用了“ModelType::MODEL1”,与其对应的还有一套独立的持久化内核。这些文件与V32版本的持久化内核文件并行存在,这显示出DeepSeek或许已为该模型设计了与V3系列完全不同的编译路径与执行逻辑。


▲DeepSeek FlashMLA源码文件树(图源:GItHub)

更值得注意的是,在代码中,有一条特别注释写道:对于F3架构(即SM90平台)下的MODEL1模型,其KV缓存的内存stride必须是576B的整数倍。


▲海外网友推文截图(目前该条注释已于代码库内删除)

这一配置区别于V3.2的656B,暗示着MODEL1对底层内存对齐和调度有更为严格的要求,可能与其更复杂的运行时行为与动态缓存机制有关。

一位海外网友也对这部分代码进行了深入解读,他认为,MODEL1在整体结构上展现出更强的实验性特征,支持动态Top-K稀疏推理逻辑,还引入了额外的KV缓存区。


▲海外开发者的分析(图源:X)

前者通过引入一个可变的topk_length指针,允许模型在推理时根据token或请求动态决定参与计算的key数量,提升了计算资源的精细调度能力;后者则通过extra_kv缓冲区,提供了将系统提示与用户上下文分离存储的可能,为Agent架构或多段上下文场景提供支持

据社区开发者分析,MODEL1在同步逻辑与边界控制上可能比V3.2更加复杂。其中RoPE与NoPE维度在双GEMM运算中耦合更紧,可能意味着其在位置编码与张量路径调度上做出了显著调整。

分析还提到,MODEL1引入了运行时边界检查机制,旨在规避动态Top-K推理中潜在的非法内存访问。

此外,尽管官方注释中标明MODEL1的stride应为576B,但据社区开发者基于代码结构估算,其实际内存分配逻辑可能接近584B。这种细微差异被认为反映出该分支仍处于调试或快速迭代阶段。

在更早的1月9日,外媒援引知情人士称,DeepSeek将于2月中旬,也就是春节前后发布其下一代模型,主打编程能力,并在内部测试中已经在多个基准上超越了Claude与GPT系列。

结合目前模型文件结构已覆盖64和128两个头维度、FP8稀疏解码路径已完成适配、内存规范已强制定义等迹象来看,MODEL1很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证。

在海外社交平台上,不少用户对MODEL1的曝光反应热烈。一位用户调侃道:“我已经能听见‘新模型将带来99.97%成本下降’了。”


而另一位开发者则认为,如果DeepSeek再次开放权重,势必将对闭源巨头形成压力,推动前沿模型进一步走向开放。


恰逢DeepSeek R1发布一周年,Hugging Face官方博客也发布了特别文章《One Year Since the “DeepSeek Moment”》,系统回顾了过去一年中国开源社区的集体爆发,明确提及DeepSeek的开源策略已从一次事件演化为生态策略。


▲Hugging Face官方博客:One Year Since the “DeepSeek Moment”

文章称,R1模型的开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向。

从百度、字节跳动到月之暗面、智谱AI,各大机构在过去一年中陆续加入Hugging Face并发布高质量模型,在社区下载、点赞与引用榜单上频频登顶。

与此同时,越来越多西方开源模型的底座也开始使用DeepSeek系列做微调,DeepSeek-V3更是成为Cogito v2.1等海外模型的底层基座。

结语:一年之后,DeepSeek再次站在开源演进的起点

如今,距离R1发布仅一年,DeepSeek的“MODEL1”很有可能在系统架构、执行路径与推理机制上展现出全面超越V3.2的能力。

如果接下来如传闻所述在春节前后正式发布,DeepSeek或许将再次改写国内开源格局,也可能为全球前沿开源模型树立新的标杆。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

回国了我才敢说:委内瑞拉,是我去过的所有国家中,最被看轻的!

阿纂看事
2026-01-09 09:48:35
猛料!嫣然医院房东拒1.6亿爱心收购,却死磕2600万欠租?

猛料!嫣然医院房东拒1.6亿爱心收购,却死磕2600万欠租?

小徐讲八卦
2026-01-21 08:19:44
大爆发!张子宇首次首发8分钟19+10连创新高 率山东女篮大胜

大爆发!张子宇首次首发8分钟19+10连创新高 率山东女篮大胜

醉卧浮生
2026-01-21 21:13:34
美军大举增兵!“林肯”号航母战斗群、十多架战斗机正在集结

美军大举增兵!“林肯”号航母战斗群、十多架战斗机正在集结

每日经济新闻
2026-01-21 20:27:06
李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

李湘风波再发酵!家境被扒底朝天,父母身份曝光,原来何炅没说错

喜欢历史的阿繁
2026-01-22 02:56:22
难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

难以置信!一家长称已放弃初二女儿的学习,并退出家长群,引争议

火山诗话
2026-01-21 06:07:03
浴血山河:乌军计划每月歼敌5万人,俄占领区强征引发兵变

浴血山河:乌军计划每月歼敌5万人,俄占领区强征引发兵变

史政先锋
2026-01-21 21:05:49
事做太绝了!徐帆回应离婚5个月近况曝光,体面被冯小刚彻底撕碎

事做太绝了!徐帆回应离婚5个月近况曝光,体面被冯小刚彻底撕碎

李橑在北漂
2026-01-21 22:26:50
重磅:北约暂停与美国情报共享!白宫从欧洲撤军

重磅:北约暂停与美国情报共享!白宫从欧洲撤军

项鹏飞
2026-01-21 18:01:43
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
维多利亚「臭脸瞪媳妇」影片疯传! 她杀人眼神超恐怖:气氛尴尬

维多利亚「臭脸瞪媳妇」影片疯传! 她杀人眼神超恐怖:气氛尴尬

ETtoday星光云
2026-01-21 13:30:16
2026年春节大反常!返乡潮突然遇冷,三大原因戳中亿万人的心声!

2026年春节大反常!返乡潮突然遇冷,三大原因戳中亿万人的心声!

老特有话说
2026-01-20 21:53:56
“观众的命也是命”!75岁刘晓庆演少女时期武则天,评论区炸锅了

“观众的命也是命”!75岁刘晓庆演少女时期武则天,评论区炸锅了

八卦南风
2026-01-21 17:03:01
1斤315元!黑草莓成水果新“刺客”!有店铺销售超3000单,业内人士:黑草莓的糖度更高,基本都在15度以上

1斤315元!黑草莓成水果新“刺客”!有店铺销售超3000单,业内人士:黑草莓的糖度更高,基本都在15度以上

大象新闻
2026-01-21 13:45:03
80年前费孝通的《生育制度》神预言,如今被最新出生人口数据证实

80年前费孝通的《生育制度》神预言,如今被最新出生人口数据证实

齐天候
2026-01-21 15:45:18
上海警方就“多人发生肢体冲突”通报:已行政立案,对3人开展伤情鉴定!事发经过曝光

上海警方就“多人发生肢体冲突”通报:已行政立案,对3人开展伤情鉴定!事发经过曝光

新民晚报
2026-01-21 19:46:59
赚了一百万的外卖员

赚了一百万的外卖员

中国青年报
2026-01-21 07:14:51
特朗普称“美国拥有无人知晓的武器”,克宫表态

特朗普称“美国拥有无人知晓的武器”,克宫表态

环球网资讯
2026-01-21 21:29:06
委内瑞拉代总统会见美国中情局局长,特朗普:她会来但现在不合适

委内瑞拉代总统会见美国中情局局长,特朗普:她会来但现在不合适

合赞历史
2026-01-21 16:27:56
水贝市场已禁售铜条

水贝市场已禁售铜条

财联社
2026-01-21 08:48:10
2026-01-22 03:32:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11101文章数 116943关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

教育
数码
艺术
时尚
家居

教育要闻

来上课了——非谓语动词的难点:独立主格现象第1段

数码要闻

AI浪潮让全球供应链陷入危机:1TB SSD仅300元时代结束

艺术要闻

你绝对想不到,他的油画美得如此惊人!

缔造仙女梦的人,去了天堂继续缝制星光✨

家居要闻

褪去浮华 触达松弛与欣喜

无障碍浏览 进入关怀版