网易首页 > 网易号 > 正文 申请入驻

DeepSeek新「模型」浮出水面

0
分享至



作者:青青 2025年1月20日晚间时间,当DeepSeek-R1满周岁之际,代码库里悄悄浮出了一个陌生的名字:"MODEL1"。这个此前从未公开亮相的模型标识符,在DeepSeek更新的FlashMLA代码中被发现了多达28处引用,跨越114个文件。 这套藏在代码层面的架构迭代,可能正是DeepSeek在春节前后计划发布的下一代旗舰模型,也就是传说中的DeepSeek-V4。与其说是泄露,不如说是这家公司对技术方向的又一次大胆重写。

01 .

代码细节里的架构秘密,KV缓存与稀疏推理的双重优化

从GitHub提交记录看,MODEL1与现有的V3.2在底层架构上存在明显差异。海外开发者的分析指出,最核心的变化体现在三个方向:KV缓存布局、稀疏性处理和FP8解码支持。

在KV缓存优化上,MODEL1的内存分配策略从V3.2的576字节调整至接近584字节。这看似微小的改动背后,隐藏着对长文本处理的重新思考。以往的模型在处理超长上下文时,会因为注意力机制的计算量呈平方增长而陷入困境。MODEL1引入了Token-level Sparse MLA,即在令牌级别实现稀疏多头潜注意力机制,这意味着模型可以动态决定哪些历史token值得关注,哪些可以剪枝。

一位海外网友的深入代码分析显示,MODEL1支持动态Top-K稀疏推理逻辑。说得通俗一点,模型不再盲目处理全量历史信息,而是学会了"选择性遗忘"。在某些场景下,这种策略能将显存占用削减40%以上,同时推理速度翻番。对于正在处理百万tokens级别上下文的企业级应用来说,这就是直接的成本收益。

FP8解码的专门支持则体现了DeepSeek对推理效率极致追求的态度。在NVIDIA的Hopper架构GPU上,FP8相对于FP16有约两倍的吞吐量优势。DeepSeek在代码中显式适配了SM90和SM100架构的FP8运算,这意味着MODEL1可能会成为首批在生产环境中充分利用新一代GPU浮点运算能力的大模型。

02 .

Engram与VVPA,两大技术突破指向编程能力的跃升

在不到两周的时间里,DeepSeek相继发布了两篇重磅论文,分别涉及"优化残差连接"(mHC架构)和"AI记忆模块"(Engram)。业界的普遍共识是,这些论文中的创新思想已经被集成进了MODEL1的工程实现中。

Engram的价值在于彻底改变了Transformer架构处理知识的方式。传统的注意力机制本质上是在"计算"中模拟"记忆",每当模型遇到一个实体或固定短语时,都需要通过复杂的矩阵运算才能检索相关信息。这种设计在处理大量重复模式时显得低效。Engram的做法是将记忆和计算彻底分离。它基于哈希N-gram嵌入建立了一个条件记忆层,实现了近似O(1)的确定性知识查找。在数学和代码任务上,这个模块能带来20%到30%的性能提升。

与此同时,MODEL1中引入的VVPA(值向量位置感知)机制则针对另一个长期困扰模型的问题:在长文本下位置信息的衰减。传统的RoPE位置编码在处理极长序列时会出现位置信息混淆的现象,导致模型对某些token的位置判断错误。VVPA通过为值向量增加位置感知能力,确保即使在数千tokens的上下文中,模型仍能精确定位每个token的相对位置。

这些改进直接服务于一个明确的产品目标:编程能力的突破。根据The Information的爆料,DeepSeek内部的基准测试已经显示,MODEL1在代码生成任务上的表现超越了Claude和GPT系列。这不仅意味着更强的代码补全能力,更关键的是解决了困扰AI模型的"灾难性遗忘"问题。以往的模型在处理大型工程项目时,会因为上下文长度的限制或注意力衰减而频繁"遗忘"之前定义的函数或变量。新模型的mHC架构通过严格控制信号增益(限制在1.6倍),在扩大参数量的同时保持了模型的稳定性,这为构建真正的编程Agent打下了基础。

03.

春节档期的战术选择,开源模式下的产业重构

2025年的AI产业已经形成了一个有趣的时间规律。去年春节前后,DeepSeek发布了R1模型,借助假期间的全球关注度实现了指数级传播。今年的计划看起来是复刻这个"春节突袭"的策略。将MODEL1的发布时间设定在农历新年前夕,既能赶上国内技术社区的活跃期,又能利用春节假期期间国外开发者的闲暇时间。

从更大的产业格局看,MODEL1的出现正值AI竞争格局发生深刻变化的时刻。过去一年,DeepSeek已经彻底改写了人们对"需要多少算力才能训练顶级模型"的认知。R1用29.4万美元的后训练成本达成了与OpenAI o1相当的推理能力,这个数字公开发表在《Nature》封面上,成为了对整个硅谷"大力出奇迹"哲学的一次直接挑战。


开源策略是DeepSeek的另一张王牌。当微软、AWS、英伟达等科技巨头纷纷将R1集成到自身的云平台时,我们看到的已经不是单纯的技术竞争,而是生态的重组。开发者可以在Azure、Amazon Bedrock上直接部署DeepSeek模型,这意味着OpenAI的垄断优势正在被逐步瓦解。

MODEL1的发布方式预计也会保持这个开源传统。完全开源的设计让全球开发者都能自由地使用、修改和商业化模型,这不仅降低了部署成本,更重要的是激发了基层开发者的创新动力。

从代码层面的MODEL1细节、到论文里的Engram理论、再到春节前的战术时间点,DeepSeek正在编织一个相当完整的技术和商业策略。这场"不卷功能、不融资、不着急"的独特企业哲学,正在用一种更高效、更开放的方式改写AI产业的竞争规则。今年2月中旬,我们或许就能看到这套架构设计在实际应用中的完整样貌。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
18岁伊斯兰少女直播拒戴头巾,被冷血父亲荣誉处决。

18岁伊斯兰少女直播拒戴头巾,被冷血父亲荣誉处决。

环球趣闻分享
2026-01-07 13:30:09
张水华赛后参加重庆跑友迎接宴,老公作陪,没有火锅全部是果汁

张水华赛后参加重庆跑友迎接宴,老公作陪,没有火锅全部是果汁

乡野小珥
2026-01-21 08:13:46
九旬爹爹为求“体面”祛眼袋,专家:高龄并非“禁区”,但须评估到位

九旬爹爹为求“体面”祛眼袋,专家:高龄并非“禁区”,但须评估到位

极目新闻
2026-01-21 10:19:28
吹出来的“乌托邦”?古巴1/5人口出逃下的大V舆论骗局

吹出来的“乌托邦”?古巴1/5人口出逃下的大V舆论骗局

老马拉车莫少装
2026-01-22 00:05:21
坏消息传来,要严查退休人员,“4类人”可能逃不掉

坏消息传来,要严查退休人员,“4类人”可能逃不掉

巢客HOME
2025-08-03 19:09:22
为什么欧美人不炒菜,只有中国有?美国教授:中国活在原始时代

为什么欧美人不炒菜,只有中国有?美国教授:中国活在原始时代

王一晓
2026-01-20 21:53:04
1941年皖南事变,有三位新四军高级将领叛变,他们后来的结局如何

1941年皖南事变,有三位新四军高级将领叛变,他们后来的结局如何

大运河时空
2026-01-21 17:05:03
潜伏我国30年美国辣酱巨头,年赚300亿打败老干妈,被误认是国货

潜伏我国30年美国辣酱巨头,年赚300亿打败老干妈,被误认是国货

素衣读史
2024-12-19 14:16:46
王新军没想到,闫学晶人设崩塌不到半月,秦海璐因一句话口碑暴增

王新军没想到,闫学晶人设崩塌不到半月,秦海璐因一句话口碑暴增

阿纂看事
2026-01-09 19:28:02
就在刚刚,13家A股上市公司发布重大利空 利好消息,看看都有哪些?

就在刚刚,13家A股上市公司发布重大利空 利好消息,看看都有哪些?

股市皆大事
2026-01-21 18:43:08
快船输球揪出最大毒瘤,进攻低效,防守黑洞,有他在,快船好不了

快船输球揪出最大毒瘤,进攻低效,防守黑洞,有他在,快船好不了

失我者永失qq
2026-01-21 13:38:37
云南鸵鸟肉案凶手被判死刑,当地曾多人购买,这些人后来怎样了

云南鸵鸟肉案凶手被判死刑,当地曾多人购买,这些人后来怎样了

林林故事揭秘
2025-01-03 17:30:21
李湘风波再升级!官方下场,网友呼吁封杀,3大原因,事关赵薇

李湘风波再升级!官方下场,网友呼吁封杀,3大原因,事关赵薇

梦史
2026-01-20 11:36:55
贝克汉姆现身达沃斯,谈社交媒体与子女教育:有时候必须允许孩子犯错

贝克汉姆现身达沃斯,谈社交媒体与子女教育:有时候必须允许孩子犯错

界面新闻
2026-01-21 22:05:17
没有邻居,我搬进“一梯一户”半年,真后悔没有早点买,太幸福了

没有邻居,我搬进“一梯一户”半年,真后悔没有早点买,太幸福了

室内设计师有料儿
2026-01-21 11:25:56
贝克汉姆儿媳妮可拉快哭了!

贝克汉姆儿媳妮可拉快哭了!

东方不败然多多
2026-01-21 13:00:09
血型决定寿命长短?60万人研究发现:A型血或“天生”更易中风

血型决定寿命长短?60万人研究发现:A型血或“天生”更易中风

小舟谈历史
2025-10-11 09:13:30
很多人低估了一万块的威力

很多人低估了一万块的威力

洞见
2026-01-12 20:34:37
马斯克刚点燃脑机接口,中国“脑机一哥”就要上市了

马斯克刚点燃脑机接口,中国“脑机一哥”就要上市了

金角财经
2026-01-21 15:21:00
60岁再婚大妈哭道:退休金17000,过年连双新鞋子都买不起

60岁再婚大妈哭道:退休金17000,过年连双新鞋子都买不起

惟来
2026-01-20 15:58:20
2026-01-22 03:11:00
IT小埋 incentive-icons
IT小埋
爱科技,爱生活,爱吃瓜
1210文章数 1484关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

亲子
家居
艺术
房产
健康

亲子要闻

永远爱你老妈

家居要闻

褪去浮华 触达松弛与欣喜

艺术要闻

你绝对想不到,他的油画美得如此惊人!

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

打工人年终总结!健康通关=赢麻了

无障碍浏览 进入关怀版