网易首页 > 网易号 > 正文 申请入驻

DeepSeek大量招人,该梁文锋上场了

0
分享至


摘要:

早在2025年11月,DeepSeek还开放过行政招聘,据相关人士表述“是因为团队大了,需要更多的行政伙伴”。

凤凰网科技 出品

作者|姜凡

编辑|董雨晴

虽然距离春节还有些时日,但国内科技圈的节奏似乎已经提前进入了假期模式,唯独 DeepSeek 是个例外。

就在昨天,DeepSeek 毫无预兆地在 GitHub 上开源了新模块 Engram 的相关代码,并发布了一篇题为《Conditional Memory via Scalable Lookup》的论文。更早一点,在元旦当天,他们还甩出了一篇关于模型架构稳定性的《mHC》。


这两篇硬核论文的作者列表中,都赫然出现了 DeepSeek 创始人梁文锋的名字。这种高密度的技术输出,显然不是为了凑年底的 KPI,而是在向外界传递一个明确的信号:在沉默的这段时间里,DeepSeek 并没有休息,他们在为下一代模型积攒弹药。

旺盛的招聘需求似乎印证了这个观点。凤凰网科技在检索社交媒体信息后发现,DeepSeek近期正在大量招人,放出了多个技术核心岗位招聘,包括深度学习研究员(负责LLM各个方向的前沿探索,如预训练、alignment、codemath、backbone、multimodal等)、深度学习研发工程师(LLM预训练数据/搜索策略相关)、大模型全栈工程师(算法与工程并重,归属于各个前沿探索方向,除了实现还会参与一些环境的部署和搭建)、全栈开发工程师、核心系统研发工程署。且据招聘者表述,校招、社招、实习均开放,另有产品、设计、数据百晓生等岗位开放。

值得一提的是,根据此前梁文锋署名的论文作者名单,整个DeepSeek的人员稳定性极高,证明此次招聘主要是扩招需求。另据表述,大部分岗位都可以驻扎在北京或杭州。和此前多数岗位需要去杭州已有不同。早在2025年11月,DeepSeek还开放过行政招聘,据相关人士表述“是因为团队大了,需要更多的行政伙伴”。

现在,弹药已备好,或许真的该梁文锋上场了。


梁文锋已提前开启“春节档”

DeepSeek的这个“春节档”已提前开启。就在全行业都在盘点 2025 年应用层得失的时候,DeepSeek把目光锁在了架构层。

最新发布的Engram研究是与北京大学合作完成的。这项研究直指当前Transformer 架构的一个痛点:大模型虽然通过 MoE 实现了“条件计算”,但缺乏原生的“条件记忆”。现在的模型记东西太笨,只能靠计算来模拟检索。DeepSeek提出的 Engram 模块,要给大模型装上一个外挂式的“硬盘”,让它能像查字典一样,以 O(1) 的时间复杂度调取知识,而不是靠算力硬抗。

在元旦发布的《mHC:流形约束超连接》中,梁文锋和他的团队解决的是另一个问题——超大规模模型的训练稳定性。随着模型越来越大,传统的残差连接开始失效,训练容易崩溃。DeepSeek 用一套数学方法,把神经网络的连接方式约束在特定的流形空间里,恢复了信息传递的稳定性。

实验表明,在 27B 参数的混合专家模型上,mHC 展现出稳定的训练曲线,最终损失相比基线有降低。


DeepSeek 团队还为 mHC 架构开发了一系列基础设施优化。他们使用 TileLang 框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数。针对 Sinkhorn-Knopp 算法,他们设计了专门的前向和反向内核,在芯片上重新计算中间结果以避免存储开销。在流水线并行方面,团队扩展了 DualPipe 调度策略,通过将 MLP 层的特定内核放在高优先级计算流上执行,实现了计算与通信的重叠。这些优化让 mHC 在保持性能优势的同时,减少了额外开销。

回看过去一年,DeepSeek 究竟在做什么?如果说 V2 和 V3 是证明了“团队能把 MoE 做得很好”,那么 DeepSeek 的这一年,则是在试图回答“除了 MoE,大模型还需要什么”。

首先是记忆机制的重构。在 Engram 的设计中,DeepSeek 发现了一个惊人的 U 型扩展规律。他们通过实验证明,纯粹的 MoE 并不是最优解。在同等参数量和计算量(Iso-FLOPs)的限制下,如果把 20%-25% 的资源分给静态记忆(Engram),剩下的分给神经计算(MoE),模型的效果才是最好的。这是一个反直觉的发现:有时候,少算一点,多记一点,反而更聪明。

数据支撑了这一理论。DeepSeek 将 Engram 扩展到了 270 亿参数规模。结果显示,这个外挂记忆模块不仅让模型背书能力变强了(MMLU 提升 3.4),更意外的是,它让模型变聪明了,BBH 推理能力提升 5.0,数学能力提升 2.4。甚至在“大海捞针”这种长文本测试中,准确率直接从 84.2% 飙升到了 97.0%。这说明,当模型不需要耗费脑力去死记硬背时,它就能腾出更多的注意力去处理复杂的逻辑推理。

其次是底层连接的修补。在 mHC 的研究中,DeepSeek 团队展现了极强的工程与数学结合能力。他们不只是提出了理论,还针对硬件做了一系列“变态”级的优化:扩展 DualPipe 调度策略,重新设计 Sinkhorn-Knopp 算法的内核,甚至为了减少显存访问,把分散的操作强行融合。这些优化让 mHC 架构在 27B 规模的模型上,训练损失比基线降低了 0.021,推理能力提升 2.1%。

这一年,DeepSeek 并没有在应用层的红海里恋战,而是退回到了那个最枯燥、最硬核的角落,试图把 Transformer 这座大厦的地基再夯实一点。Engram 解决了“记不住”和“推理慢”的问题,mHC 解决了“长不大”和“练不稳”的问题。

这让一年时间过去,DeepSeek还在神坛之上。用一位行业人士的话说,“DeepSeek这家公司始终在创新”。


V4真的要来了?

现在高潮或许快来了,所有的线索都指向了同一个方向:DeepSeek V4。

如果我们把这两篇论文叠加在一起看,V4的轮廓已经呼之欲出。它极大概率不会是一个单纯堆砌参数的庞然大物,而是一个架构极其精巧的“缝合怪”:它将拥有MoE带来的极致计算效率,同时集成了Engram带来的海量低成本记忆,底层则由 mHC架构支撑其在超大规模下的训练稳定性。

Engram的论文中提到了一个细节:这种架构支持“预取-重叠”策略,可以利用CPU内存来存知识,GPU专心算逻辑。这意味着,V4极有可能在保持推理成本低廉的同时,拥有远超当前一代模型的知识容量和长上下文处理能力。这对于目前受困于显存成本的行业来说,可能又是一次降维打击。


此外,mHC的成功验证意味着DeepSeek已经掌握了训练更大规模多模态模型、甚至万亿参数模型的“稳定器”。对于算力资源本就不富裕的国内 AI 圈,这种算法层面的效率提升,比单纯购买几千张英伟达芯片更有战略意义。

技术拼图已经凑齐,基础设施的优化代码也已上传GitHub。梁文锋在这个时间点连续抛出硬核研究,显然不仅仅是为了学术交流。这更像是一场发布会前的“技术路演”。

春节将至,万物闭藏,但这往往也是惊雷孕育的时刻。DeepSeek V4的发令枪,或许已经握在了梁文锋的手中,只等那最后一声枪响。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
埃弗顿2-1逆转富勒姆,霍尔建功,米科连科、莱诺乌龙

埃弗顿2-1逆转富勒姆,霍尔建功,米科连科、莱诺乌龙

懂球帝
2026-02-08 01:05:56
《太平年》和真实历史差距大?孙太真人设直接拧成麻花!

《太平年》和真实历史差距大?孙太真人设直接拧成麻花!

专揪川普那只好耳
2026-02-07 14:30:44
“胖成了35岁大叔” 苏翊鸣回应被教练称飘了:好空虚 休息了1年半

“胖成了35岁大叔” 苏翊鸣回应被教练称飘了:好空虚 休息了1年半

风过乡
2026-02-07 16:27:01
利马此役精准传球103次,本赛季队内英超单场传球次数最多

利马此役精准传球103次,本赛季队内英超单场传球次数最多

懂球帝
2026-02-07 23:50:39
当年为什么查办褚时健?

当年为什么查办褚时健?

蜉蝣说
2026-02-03 14:47:37
霍去病二十四岁病逝,武帝哭三日,第四日却杀尽其十七名贴身侍卫

霍去病二十四岁病逝,武帝哭三日,第四日却杀尽其十七名贴身侍卫

掠影后有感
2025-12-25 12:38:58
让普京措不及防,一台机器人灭一整队俄军,乌军地雷新战法

让普京措不及防,一台机器人灭一整队俄军,乌军地雷新战法

说宇宙
2026-02-06 14:46:27
微博之夜第一排:比C位还靠前、和资方同起同坐的她,到底凭啥?

微博之夜第一排:比C位还靠前、和资方同起同坐的她,到底凭啥?

暖心萌阿菇凉
2026-02-06 18:20:22
中国抗美援朝时,头脑最为清醒的美国高层就是美国防长马歇尔了

中国抗美援朝时,头脑最为清醒的美国高层就是美国防长马歇尔了

安安说
2026-02-06 12:07:55
别再买错了!网购时“旗舰店”和“官方店”差2字,背后差别不小

别再买错了!网购时“旗舰店”和“官方店”差2字,背后差别不小

复转这些年
2026-01-20 08:10:05
0-3到2-0!U16神奇逆转,国足四线告捷,冲世少赛有戏了

0-3到2-0!U16神奇逆转,国足四线告捷,冲世少赛有戏了

林子说事
2026-02-07 10:55:40
冬奥会正式开幕:中国红闪耀米兰,郎朗时隔18年再登奥运舞台

冬奥会正式开幕:中国红闪耀米兰,郎朗时隔18年再登奥运舞台

封面新闻
2026-02-07 10:59:03
2月7日俄乌:美施压乌尽快公投并大选,特朗普时间不多了

2月7日俄乌:美施压乌尽快公投并大选,特朗普时间不多了

山河路口
2026-02-07 18:05:12
俄方警告日本“再军事化”,日本会成第二个乌克兰吗?

俄方警告日本“再军事化”,日本会成第二个乌克兰吗?

毛开云
2026-02-03 10:43:17
海航HU492航班风挡破裂紧急返航,全机人员平安

海航HU492航班风挡破裂紧急返航,全机人员平安

界面新闻
2026-02-07 12:43:05
“换手率”是A股唯一不骗人的指标,一旦大于20%就是主力叫你进场

“换手率”是A股唯一不骗人的指标,一旦大于20%就是主力叫你进场

股经纵横谈
2025-11-01 21:02:39
WC!封神了!绿军牛逼大交易...

WC!封神了!绿军牛逼大交易...

技巧君侃球
2026-02-07 22:39:31
某高校博导、特聘研究员被联合举报的大瓜

某高校博导、特聘研究员被联合举报的大瓜

穿透
2026-02-07 23:29:01
都想击沉中国军舰?美西方集体许愿,解放军回应一针见血:想得美

都想击沉中国军舰?美西方集体许愿,解放军回应一针见血:想得美

东方点兵
2026-02-07 16:33:37
白嫖月子中心后续: 13天白吃白住还借钱 深夜抱孩子跑路 警方介入

白嫖月子中心后续: 13天白吃白住还借钱 深夜抱孩子跑路 警方介入

离离言几许
2026-02-06 22:01:56
2026-02-08 01:36:49
凤凰网科技
凤凰网科技
直击真相的媒体!
1337文章数 32关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

头条要闻

印度飞饼师傅被认定"外籍专家"领千元慰问费 多方发声

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

金晨处罚结果曝光!肇事逃逸被罚款

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

艺术
手机
数码
公开课
军事航空

艺术要闻

这些女性在俄罗斯摄影师镜头下,魅力四射!

手机要闻

华为苹果领衔 TOP5厂商入场,阔折叠方向对了吗?

数码要闻

冠捷推出26.5英寸AOC G4白色显示器:LGD四代WOLED,2919元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

重大转变 特朗普签令调整军售排序

无障碍浏览 进入关怀版