DeepSeek大量招人，该梁文锋上场了|算法|mhc|正式版模型|deepseek

DeepSeek大量招人，该梁文锋上场了

2026-01-14 17:11:10　来源: 凤凰网科技

北京举报

分享至

摘要：

早在2025年11月，DeepSeek还开放过行政招聘，据相关人士表述“是因为团队大了，需要更多的行政伙伴”。

凤凰网科技出品

作者｜姜凡

编辑｜董雨晴

虽然距离春节还有些时日，但国内科技圈的节奏似乎已经提前进入了假期模式，唯独 DeepSeek 是个例外。

就在昨天，DeepSeek 毫无预兆地在 GitHub 上开源了新模块 Engram 的相关代码，并发布了一篇题为《Conditional Memory via Scalable Lookup》的论文。更早一点，在元旦当天，他们还甩出了一篇关于模型架构稳定性的《mHC》。

这两篇硬核论文的作者列表中，都赫然出现了 DeepSeek 创始人梁文锋的名字。这种高密度的技术输出，显然不是为了凑年底的 KPI，而是在向外界传递一个明确的信号：在沉默的这段时间里，DeepSeek 并没有休息，他们在为下一代模型积攒弹药。

旺盛的招聘需求似乎印证了这个观点。凤凰网科技在检索社交媒体信息后发现，DeepSeek近期正在大量招人，放出了多个技术核心岗位招聘，包括深度学习研究员（负责LLM各个方向的前沿探索，如预训练、alignment、codemath、backbone、multimodal等）、深度学习研发工程师（LLM预训练数据/搜索策略相关）、大模型全栈工程师（算法与工程并重，归属于各个前沿探索方向，除了实现还会参与一些环境的部署和搭建）、全栈开发工程师、核心系统研发工程署。且据招聘者表述，校招、社招、实习均开放，另有产品、设计、数据百晓生等岗位开放。

值得一提的是，根据此前梁文锋署名的论文作者名单，整个DeepSeek的人员稳定性极高，证明此次招聘主要是扩招需求。另据表述，大部分岗位都可以驻扎在北京或杭州。和此前多数岗位需要去杭州已有不同。早在2025年11月，DeepSeek还开放过行政招聘，据相关人士表述“是因为团队大了，需要更多的行政伙伴”。

现在，弹药已备好，或许真的该梁文锋上场了。

梁文锋已提前开启“春节档”

DeepSeek的这个“春节档”已提前开启。就在全行业都在盘点 2025 年应用层得失的时候，DeepSeek把目光锁在了架构层。

最新发布的Engram研究是与北京大学合作完成的。这项研究直指当前Transformer 架构的一个痛点：大模型虽然通过 MoE 实现了“条件计算”，但缺乏原生的“条件记忆”。现在的模型记东西太笨，只能靠计算来模拟检索。DeepSeek提出的 Engram 模块，要给大模型装上一个外挂式的“硬盘”，让它能像查字典一样，以 O(1) 的时间复杂度调取知识，而不是靠算力硬抗。

在元旦发布的《mHC：流形约束超连接》中，梁文锋和他的团队解决的是另一个问题——超大规模模型的训练稳定性。随着模型越来越大，传统的残差连接开始失效，训练容易崩溃。DeepSeek 用一套数学方法，把神经网络的连接方式约束在特定的流形空间里，恢复了信息传递的稳定性。

实验表明，在 27B 参数的混合专家模型上，mHC 展现出稳定的训练曲线，最终损失相比基线有降低。

DeepSeek 团队还为 mHC 架构开发了一系列基础设施优化。他们使用 TileLang 框架实现了多个融合内核，将原本分散的操作合并执行以减少内存访问次数。针对 Sinkhorn-Knopp 算法，他们设计了专门的前向和反向内核，在芯片上重新计算中间结果以避免存储开销。在流水线并行方面，团队扩展了 DualPipe 调度策略，通过将 MLP 层的特定内核放在高优先级计算流上执行，实现了计算与通信的重叠。这些优化让 mHC 在保持性能优势的同时，减少了额外开销。

回看过去一年，DeepSeek 究竟在做什么？如果说 V2 和 V3 是证明了“团队能把 MoE 做得很好”，那么 DeepSeek 的这一年，则是在试图回答“除了 MoE，大模型还需要什么”。

首先是记忆机制的重构。在 Engram 的设计中，DeepSeek 发现了一个惊人的 U 型扩展规律。他们通过实验证明，纯粹的 MoE 并不是最优解。在同等参数量和计算量（Iso-FLOPs）的限制下，如果把 20%-25% 的资源分给静态记忆（Engram），剩下的分给神经计算（MoE），模型的效果才是最好的。这是一个反直觉的发现：有时候，少算一点，多记一点，反而更聪明。

数据支撑了这一理论。DeepSeek 将 Engram 扩展到了 270 亿参数规模。结果显示，这个外挂记忆模块不仅让模型背书能力变强了（MMLU 提升 3.4），更意外的是，它让模型变聪明了，BBH 推理能力提升 5.0，数学能力提升 2.4。甚至在“大海捞针”这种长文本测试中，准确率直接从 84.2% 飙升到了 97.0%。这说明，当模型不需要耗费脑力去死记硬背时，它就能腾出更多的注意力去处理复杂的逻辑推理。

其次是底层连接的修补。在 mHC 的研究中，DeepSeek 团队展现了极强的工程与数学结合能力。他们不只是提出了理论，还针对硬件做了一系列“变态”级的优化：扩展 DualPipe 调度策略，重新设计 Sinkhorn-Knopp 算法的内核，甚至为了减少显存访问，把分散的操作强行融合。这些优化让 mHC 架构在 27B 规模的模型上，训练损失比基线降低了 0.021，推理能力提升 2.1%。

这一年，DeepSeek 并没有在应用层的红海里恋战，而是退回到了那个最枯燥、最硬核的角落，试图把 Transformer 这座大厦的地基再夯实一点。Engram 解决了“记不住”和“推理慢”的问题，mHC 解决了“长不大”和“练不稳”的问题。

这让一年时间过去，DeepSeek还在神坛之上。用一位行业人士的话说，“DeepSeek这家公司始终在创新”。

V4真的要来了？

现在高潮或许快来了，所有的线索都指向了同一个方向：DeepSeek V4。

如果我们把这两篇论文叠加在一起看，V4的轮廓已经呼之欲出。它极大概率不会是一个单纯堆砌参数的庞然大物，而是一个架构极其精巧的“缝合怪”：它将拥有MoE带来的极致计算效率，同时集成了Engram带来的海量低成本记忆，底层则由 mHC架构支撑其在超大规模下的训练稳定性。

Engram的论文中提到了一个细节：这种架构支持“预取-重叠”策略，可以利用CPU内存来存知识，GPU专心算逻辑。这意味着，V4极有可能在保持推理成本低廉的同时，拥有远超当前一代模型的知识容量和长上下文处理能力。这对于目前受困于显存成本的行业来说，可能又是一次降维打击。

此外，mHC的成功验证意味着DeepSeek已经掌握了训练更大规模多模态模型、甚至万亿参数模型的“稳定器”。对于算力资源本就不富裕的国内 AI 圈，这种算法层面的效率提升，比单纯购买几千张英伟达芯片更有战略意义。

技术拼图已经凑齐，基础设施的优化代码也已上传GitHub。梁文锋在这个时间点连续抛出硬核研究，显然不仅仅是为了学术交流。这更像是一场发布会前的“技术路演”。

春节将至，万物闭藏，但这往往也是惊雷孕育的时刻。DeepSeek V4的发令枪，或许已经握在了梁文锋的手中，只等那最后一声枪响。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.