网易首页 > 网易号 > 正文 申请入驻

DeepSeek核心人才真的在流失吗?27篇论文里藏着答案

0
分享至



外界传闻很难站住脚跟,与此相反,它正在成为一个核心稳定、持续扩张、长期协作的中国本土前沿AI研究团队

文|《财经》研究员 吴俊宇

编辑 | 谢丽容

DeepSeek的融资消息再度传出(报道详见)。

5月7日有消息称,“国家队”背景相关基金将领投它的首轮融资,DeepSeek投后估值或将达到450亿美元。不过,这一消息目前尚未证实,DeepSeek也没有进行公开回应。

由于尚未大规模商业化,DeepSeek目前很难用营收、利润进行估值。它现阶段真正价值在于高人才密度团队,以及这个团队持续迭代全球领先模型的能力。

过去一年,市场上流传着大量关于DeepSeek人才流失的传言——被高薪挖角,核心研究员陆续离开。这支团队的真实情况是影响它估值的核心前提之一。

DeepSeek几乎是中国最特殊的基础模型公司。它的研究员几乎从不公开露面。DeepSeek创始人梁文锋2024年7月接受36氪暗涌Waves采访后,近两年没再公开发声。

但与此同时,DeepSeek持续以稳定的频率发布基础模型和技术论文(报道详见)。

2024年1月25日至2026年4月26日的27个月,DeepSeek至少公开发布了27篇技术论文,迭代出DeepSeek LLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4等6款具备里程碑意义的基础模型。

过去一年,围绕DeepSeek的讨论很多。这包括但不限于:团队规模究竟有多大?研究能力是否可持续?是否被大厂高薪持续挖角?核心人才是否流失?

这些问题,DeepSeek几乎从未正面回应。DeepSeek仅在DeepSeek-V4发布时,在官方推文中用“不诱于誉,不恐于诽,率道而行,端然正己”这段文字侧面回应了外界疑问。

《财经》试图从另一条路径观察这家沉默的公司——梳理DeepSeek 2024年1月25日至2026年4月26日公开发布的27篇论文(AI开源社区Hugging Face上公布的26篇论文,以及近期发布的DeepSeek-V4论文)的作者/贡献者名单,对其研究团队规模、核心成员稳定性与人才流动情况进行交叉统计与分析。

《财经》基于27篇论文作者/贡献者以及用“*”标注的离职信息,并借助Codex(OpenAI旗下的AI代码工具)进行数据统计、交叉去重和反复校验(仅严格保留DeepSeek内部作者/贡献者的名单,剔除论文中外部高校/机构作者,剔除致谢名单的作者)发现:

其一,DeepSeek研究团队这两年多在持续扩张。2024年1月DeepSeek LLM发布时至少有86人,2025年1月DeepSeek-R1发布时至少有194人,2026年4月末DeepSeek-V4发布时至少有317人(含研究和工程、商业和合规团队名单,剔除致谢名单)。

其二,DeepSeek的核心研究团队保持着高稳定性。DeepSeek 27篇论文中出现频率最高的15个人,仅有2人离职。DeepSeek LLM发布时的86人,仍有71位出现在DeepSeek-V4论文的名单中。DeepSeek-R1发布时的194人,仍有143位出现在DeepSeek-V4论文名单中。

其三,DeepSeek人才流失率并不高。27篇论文累计出现的391位作者,明确标注“*”的离职人数仅25人,占比6.4%。离职的代表性人物仍活跃在中国大模型一线。罗福莉是小米Mimo团队负责人,郭达雅加入字节跳动Seed实验室,阮翀成为元戎启行首席科学家,王炳宣加入了腾讯混元团队。

27个月,27篇论文,391位研究员,25人离职。这是DeepSeek留给外界最清晰的数字。



DeepSeek团队仍在不断扩张

在基础模型领域,人才甚至是比算力、数据更稀缺的资源。真正决定模型能力上限的,往往不只是芯片数量或数据规模,更是一支能够长期稳定协作的研究团队。

包括字节跳动、阿里、腾讯等公司正在从OpenAI、Anthropic、谷歌Gemini等国际知名模型团队高价挖人。在国际市场,Meta甚至开出4年2亿-3亿美元的天价合同包挖角其他公司的顶尖研究员,总包薪酬甚至高过全球身价最高的足球明星姆巴佩、亚马尔。

因为,大模型研发并非是清晰的、按部就班的工程任务,更像是在无人区中探索。这高度依赖创造力。在这个过程中,组建高人才密度的团队才是关键。

《财经》了解到,以中国市场为例,各公司大模型研发团队通常由预训练、后训练、数据等团队组成。其中最核心的预训练、后训练团队规模通常仅为200人左右。模型训练团队甚至还会分成语言、代码、视觉、视频等不同研究方向,每个方向都有一个小团队。

一位中国基础模型明星创业公司人士对《财经》表示,大模型团队常见的组织模式是,由一两个顶尖AI科学家带领二三十个有活力、有想法的年轻研究员探索一个技术方向。公司要为他们提供充足的算力、宽松的环境,让他们验证各种新想法。

一位算法工程师对《财经》表示,大模型领域的知识迭代以月甚至周为单位。年轻的研究员不会受到旧知识体系的束缚,他们的学习研究一开始就基于最新的范式。最年轻的头脑往往最有创造力,这和足球运动员在20岁、30岁出头时体能、爆发力达到巅峰类似。

DeepSeek的主要人才来自北京大学、清华大学、浙江大学等中国本土知名高校的计算机系。那么,它的团队是如何逐渐扩张的?


《财经》选取了6款里程碑意义基础模型的论文名单,观察DeepSeek研究团队的扩张节奏——DeepSeek在27个月内,从不到100人扩张到了300多人。

2024年1月25日DeepSeek-LLM发布时有86位作者,2024年5月7日DeepSeek-V2发布时有156位作者,2024年12月26日DeepSeek-V3发布时有197位作者,2025年1月22日DeepSeek-R1发布时有194位作者,2025年12月1日DeepSeek-V3.2发布时有262位作者。2026年4月26日DeepSeek-V4发布时一共有317位作者。

DeepSeek的团队规模在国内甚至已经不算小了。DeepSeek 27篇论文的累计作者总数(跨论文去重且剔除外部机构)达到了391人。横向对比字节跳动Seed、阿里Qwen、月之暗面在Hugging Face主页上所有论文的累计作者总数会发现,字节跳动Seed是967人、阿里Qwen是352人、月之暗面是387人。

从论文累计作者人数可以侧面看到,它虽然人数远比字节跳动Seed团队要少,但对比其他模型公司仍然略多。


一支模型研究团队的价值,最终不仅体现为模型性能和论文数量,还体现在模型是否真正形成持续的开发者使用习惯与市场影响力。上述算法工程师对《财经》表示,论文数量、团队人数也许可以反映研发投入强度,但却不一定能完全代表研发水平。

DeepSeek的研究团队在开发者群体中的影响力甚至不逊色于其他公司。Token调用规模可以侧面反映这个问题。

和其他模型往往靠发布后一个月的热度短期冲榜不同,DeepSeek形成了稳定的开发者使用习惯与真实推理需求。全球模型聚合平台OpenRouter数据显示,近一年(2025年5月4日-2026年5月4日)DeepSeek在只有四款旗舰模型(DeepSeek-V3、R1、V3.2、V4)的情况下,Token调用量占比一直在5%-20%之间,调用量排名长期位居全球前六。

过去一年,虽然阿里Qwen、腾讯混元、小米Mimo、月之暗面Kimi、智谱GLM、MiniMax等国内模型都曾在一段时间内进入OpenRouter调用量前列,但多数模型的调用占比往往会随着市场热点变化快速波动。相比之下,DeepSeek的模型更新虽然慢,但生命周期更长。


核心研究团队仍然稳定

2026年,基础模型的竞争变得比过去三年还要激烈。

据《财经》不完全统计,2025年12月1日-2026年4月24日,美国市场(OpenAI、Anthropic、谷歌Gemini)和中国(包括阿里千问、字节跳动豆包、腾讯混元、小米MiMo、DeepSeek、月之暗面、智谱、MiniMax)的11家主流模型公司,在144天内至少发布或迭代了53款模型,几乎每2.7天就会有一款模型发布或迭代。

随着市场竞争烈度上升,人才的流动速度也在变快,巨头频频开出高薪挖角竞争对手的研究员。研究团队能否长期稳定协作,已经成为影响模型研发的重要变量。

梁文锋接受36氪暗涌Waves团队采访时提到过DeepSeek选人的标准——一直都是热爱和好奇心,所以很多人会有一些奇特的经历。很多人对做研究的渴望,远超对钱的在意。

在面对巨头高薪挖角的情况下,市场关心的一个问题是:DeepSeek这支研究团队,是否真的像外界传闻中那样频繁流失?答案是否定的。

《财经》采取了计算DeepSeek作者名单留存率的方式来进行观察。结果是,DeepSeek-LLM到DeepSeek-V3.2,DeepSeek不同时期模型团队的核心成员(剔除DeepSeek之外的其他高校或机构作者)作者名单留存率长期维持在70%-80%之间。

作者名单留存率的计算方式是,DeepSeek某一模型研发时期的论文作者中,后续仍持续出现在DeepSeek-V4作者名单且未被“*”标注为离职的人数占比。

需要强调的是,这种估算方式会低于真实在职率。因为,未被匹配到DeepSeek-V4作者的人,不一定已经离职,也可能转到其他岗位不再参与论文署名。以下留存率数据,应理解为可观测到的下限,而非精确在职率。

2024年1月25日DeepSeek-LLM的86位作者,71位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek的初始团队,作者留存率是82.6%。

2024年5月7日DeepSeek-V2的156位作者,有106位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V2团队,作者留存率是67.1%。

2024年12月26日DeepSeek-V3的197位作者,有148位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V3团队,作者留存率至少是75.1%。

2025年1月22日DeepSeek-R1的194位作者,有143位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-R1团队,作者留存率至少是73.7%。

2025年12月1日DeepSeek-V3.2的262位作者,有212出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V3.2团队,作者留存率至少是80.9%。

根据上述数据来看,DeepSeek-LLM时期的早期团队作者留存率依旧很高,但在DeepSeek-V3和DeepSeek-R1之后的团队,作者留存率的确有所下滑。


上述中国基础模型明星创业公司人士对《财经》表示,DeepSeek的这一人才留存率数据在中国市场是较高水平。他所在的公司人才留存率略低于DeepSeek。

事实上,他所在的这家明星公司已经是一个理想主义气质很强的模型公司。在他看来,在巨头高薪挖角的环境下,现在愿意留在DeepSeek的研究员,往往是有追求的人。他所在的公司,也有被技术理想感召而去DeepSeek的研究员,但没有一个从DeepSeek过来的人。

美国风险投资公司SignalFire在2025年5月根据全球职业社交平台LinkedIn上的跳槽记录统计了全球顶尖AI实验室的员工2023年-2024年的两年留存率。其中,Anthropic是80%,谷歌DeepMind是78%,OpenAI是67%,Cohere是64%。

如果侧面参考SignalFire这一数据对比,DeepSeek的员工留存率和全球顶尖AI实验室相比,也属于正常甚至偏高的水平。

《财经》统计发现,DeepSeek的核心研究团队不仅始终保持了较高稳定性,同一批核心研究员长期还交叉参与了DeepSeek多个关键模型与研究方向的研发。

DeepSeek 27篇论文中,出现频率最高的15个人,有13人目前仍然在职。且这些核心成员参与了DeepSeek LLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4等六款关键基础模型的研发。


研究团队稳定,这让DeepSeek很多技术研究是有延续性的。每一代模型,都是站在前一代的工程和研究积累上出发进行创新。

比如,DeepSeek-V2中验证的MLA(Multi-head Latent Attention,多头潜在注意力)推理架构和MoE设计,被V3和R1直接沿用;DeepSeekMath中提出的GRPO(群体相对策略优化)强化学习算法,先被R1用于推理能力训练,后又被V4的数学方向训练直接采纳。

除此之外,DeepSeek的核心研究团队长期在不同模型与研究方向之间交叉协作。他们并不像很多大型科技公司那样,将不同技术方向完全拆分为独立的研发体系。

论文名单显示,同时参与了Coder(代码生成)、VL(视觉理解)、MoE(混合专家架构)、Math(数学计算)、OCR(光学字符识别)等至少三个不同技术方向的在职研究员至少有24人。这24个人全部都是DeepSeek-LLM阶段就已经加入了DeepSeek。

一位基础模型工程师曾对《财经》表示,基础模型训练过程中,很多真正关键的能力,并不会完全写进论文。它们会逐渐沉淀为研究团队内部的工程经验、训练直觉与跨方向协同能力。这些东西,往往需要一支长期稳定协作的研究团队,才能慢慢形成。

这也是DeepSeek研究团队和其他公司不同的地方。


DeepSeek离职的人去哪儿了

市场上长期关注的一个问题是,DeepSeek的离职员工到底去了哪儿?

DeepSeek论文中明确用“*”号标注离职的人有25人。他们出现在DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4这四篇论文中。

离开DeepSeek的研究员大部分并未离开基础模型行业。他们中的不少人,已经加入字节跳动、小米、腾讯等公司的模型核心团队,甚至开始独立负责新的研究方向。DeepSeek甚至为中国的大模型研究培养了一批具备带队能力的人才。


《财经》通过他们的个人学术主页、领英以及X(前Twitter)等公开渠道验证了12个研究员的动向。其中至少有4位进入了字节跳动、腾讯、小米等公司担任核心负责人。

Fuli Luo(罗福莉)2025年加入小米担任小米Mimo实验室负责人。她主导研究的MiMo-V2系列模型Token消耗量一度在OpenRouter平台今年3月的周榜中位列第一。

Bingxuan Wang(王炳宣)2025年末加入腾讯混元团队。

Daya Guo(郭达雅)2026年加入字节跳动Seed实验室担任Agent(智能体)负责人之一。

Chong Ruan(阮翀)2026年加入智能驾驶公司元戎启行任首席科学家,主导基座模型开发。

其他离开DeepSeek的7位研究员仍然活跃在大模型研究的一线,他们正在就读更高学位,同时还在其他大型科技公司继续担任学生研究员。目前主流的模型公司都会设置学生研究员岗位。

他们之中至少有3位目前或曾经在字节跳动Seed团队担任学生研究员,其中包括Haocheng Wang(王浩丞)、Huajian Xin (辛华剑)、Jiawei Wang(王家伟)。

Wanjia Zhao(赵万佳)2024年离开DeepSeek后,先后进入微软研究院雷德蒙德实验室与谷歌DeepMind担任学生研究员,目前仍在斯坦福大学攻读计算机科学博士。

综上来看,DeepSeek人才流失的说法至少目前不能成立,尚属于正常流动范围。

它仍然是一个核心团队稳定、规模持续扩张、能够稳定产出领先模型的中国本土研究团队。它甚至还在不断为其他中国模型公司输送有带队能力的人才。

DeepSeek创造的研究环境是中国市场稀缺的,这是它具备竞争力的关键因素。DeepSeek真正特殊的地方,不只是训练出了DeepSeek-R1、DeepSeek-V4这些模型。它还正在证明——中国本土AI研究团队,可以通过团队长期稳定协作的方式,持续参与全球前沿基础模型竞争。

27个月,27篇论文,391位研究员,25人离职。这是DeepSeek留给外界最清晰的一份答卷。


责编 | 张生婷

题图来源 | 由ChatGPT生成


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刚刚,利好来了!四部门,重磅发布!

刚刚,利好来了!四部门,重磅发布!

数据宝
2026-05-08 21:47:02
老头能留住她,肯定有两把刷子。

老头能留住她,肯定有两把刷子。

新时代的两性情感
2026-05-08 19:56:07
扎哈罗娃怒斥亚美尼亚,敦促其站在“历史正确的一边”

扎哈罗娃怒斥亚美尼亚,敦促其站在“历史正确的一边”

山河路口
2026-05-08 11:01:39
突发!王暖暖深夜被送往医院抢救,护士反复喊其名字,疑原因曝光

突发!王暖暖深夜被送往医院抢救,护士反复喊其名字,疑原因曝光

裕丰娱间说
2026-05-08 07:14:12
注意!中老年男性有性生活和没性生活,差别居然这么大?

注意!中老年男性有性生活和没性生活,差别居然这么大?

皓皓情感说
2026-04-22 08:20:32
小米手机大跌!出货量下滑19%,汽车业务是「罪魁祸首」?

小米手机大跌!出货量下滑19%,汽车业务是「罪魁祸首」?

雷科技
2026-05-06 21:29:31
从林彪到彭德怀:十大元帅谁真能指挥全军?答案只有一个

从林彪到彭德怀:十大元帅谁真能指挥全军?答案只有一个

小豫讲故事
2026-05-08 06:00:11
这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

这就是公开辱华的后果!取消冠军头衔只是开始,职业生涯也全毁了

阿凫爱吐槽
2025-12-17 17:24:39
1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

1998年数万华人遭屠杀,中国为何没出兵?26年后答案让人沉默

哄动一时啊
2026-02-17 22:21:25
闪充狂飙76℃,视频被下架,比亚迪这次有点「烫手」?

闪充狂飙76℃,视频被下架,比亚迪这次有点「烫手」?

沙雕小琳琳
2026-05-08 12:56:39
2000年,陈冠希和张柏芝的合影,注意看冠希哥的眼神,含情脉脉

2000年,陈冠希和张柏芝的合影,注意看冠希哥的眼神,含情脉脉

喜文多见01
2026-05-07 11:21:44
封杀5年之后,49岁赵薇的最新动态曝光,离婚无事业只剩这张底牌

封杀5年之后,49岁赵薇的最新动态曝光,离婚无事业只剩这张底牌

林轻吟
2026-05-07 19:32:47
今年,很多公司,已经发不下来工资了

今年,很多公司,已经发不下来工资了

细说职场
2026-04-25 18:12:10
梁靖崑15-13艰难取胜,球迷感动落泪

梁靖崑15-13艰难取胜,球迷感动落泪

陈锌特色美食
2026-05-08 23:20:49
女环卫工被殴再升级!警方出手,施暴者老底被扒,势力大也得坐牢

女环卫工被殴再升级!警方出手,施暴者老底被扒,势力大也得坐牢

阿凫爱吐槽
2026-05-08 16:06:49
消息人士称3艘美军驱逐舰在霍尔木兹海峡附近遭袭

消息人士称3艘美军驱逐舰在霍尔木兹海峡附近遭袭

财联社
2026-05-08 05:07:05
黄金白银集体上涨

黄金白银集体上涨

鲁中晨报
2026-05-08 21:50:10
光地皮就值2个亿的美国驻华大使馆,为何修成一座封闭式碉堡?

光地皮就值2个亿的美国驻华大使馆,为何修成一座封闭式碉堡?

贱议你读史
2026-05-07 14:58:39
圆明园地下大反转,大火烧掉的仅是圆明园的表皮

圆明园地下大反转,大火烧掉的仅是圆明园的表皮

混沌录
2026-04-24 21:02:11
外交部:坚决反对任何对中方的无端指责和恶意抹黑,相信挪威方面将切实保障中国公民合法权益

外交部:坚决反对任何对中方的无端指责和恶意抹黑,相信挪威方面将切实保障中国公民合法权益

环球网资讯
2026-05-08 15:50:22
2026-05-09 02:48:49
财经杂志 incentive-icons
财经杂志
独立、独家、独到
2489文章数 144514关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

头条要闻

美公布首批UFO文件 视频公开:阿联酋现水母状物体

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

估值3000亿 DeepSeek寻求500亿元融资

汽车要闻

MG 4X实车亮相 将于5月11日开启盲订

态度原创

教育
时尚
健康
本地
游戏

教育要闻

摒弃打压式教育,皮格马利翁效应

衣服其实没有必要买很贵,准备这三件基础款,百搭实用又不挑人

干细胞能让人“返老还童”吗

本地新闻

用苏绣的方式,打开江西婺源

PS未发售重磅独占要完!同类项目崩盘 新作悬了

无障碍浏览 进入关怀版