![]()
![]()
文 | Sleepy
有些年代,聪明人都往外走。
学校待不住,研究院待不住,大公司更待不住。外面有钱,有新牌桌,有一张几个人围着坐到半夜的白板,外卖盒子摞在旁边,谁都觉得自己马上要改变世界了。
十九世纪的淘金者往西走,二十世纪的硅谷工程师离开仙童,移动互联网那几年,产品经理从大厂辞职,发的朋友圈总要配一句类似「重新出发」的话。
也有些年代,聪明人往回走。
往外走听起来像冒险,往回走听起来像认输。可这回不能这么看。往回走的人,不是认了输,是他们要做的那件事忽然变重了。重到几个人、一间办公室、一笔融资、一腔热血,全都不太够用。
二十世纪中后期,物理学也经历过这么一回。它本来是一间实验室里的黑板、粉笔、仪器和几个天才。后来它长成了对撞机、国家预算、巨型工程和上千人的协作。有人把它叫作「大科学」。
有些问题要解决,你得有机器,有电,有制度,有预算,有一群人长期把钱往一个看不见底的洞里砸。
现在轮到 AI 了。
2023 年,最体面的野心是往外走。大公司是用来离开的,留下的人显得不够勇敢,好像没赶上时代的冲锋号。
2026 年,风向掉头了。
几个最受关注的年轻 AI 人才,开始走进大厂。
罗福莉,四川宜宾乡村出身,北大硕士,DeepSeek-V2 作者之一。被雷军点名后,「天才少女」四个字在热搜上挂了很久。她去了小米,负责大模型 MiMo。
孙天祥,1997 年生,复旦博士。他主导的 MOSS,是国内最早向公众开放的类 ChatGPT 模型之一。自己创办过日行迹,后来加入百度,出任基础模型研发部负责人,进入模型委员会。
姚顺雨,清华姚班出身,普林斯顿博士,长期研究语言模型推理和智能体。他参与推动的 ReAct 和 Tree of Thoughts,让很多人第一次看见,模型不只是会聊天,还可以调用工具、观察反馈、继续行动。他二十七岁就成了腾讯首席 AI 科学家。
这几个人其实坐在同一张牌桌上,桌上就一个问题。当模型变成生意,论文变成岗位,理想变成组织目标,一个人到底要把自己放进多大的机器里,才不算糟蹋了自己的聪明。
![]()
凤毛麟角
去年 12 月,小米发布会上,罗福莉第一次公开亮相。
有记者写,她稍显紧张,讲的主要是技术解读。台下很多人认识她,并不是从技术开始的。雷军点名,千万年薪传闻,「天才少女」,热搜,短视频切片。一个人被这些东西包裹起来,最容易找不着的,反而是这个人自己。
她其实说过自己想要什么。
全网刷屏那阵子,她发过一条朋友圈,大意是请互联网还她一片安安静静做事的氛围。她说自己不是天才少女,只想安安静静做难而正确的事情。
难而正确,难在哪里。很多人以为难在技术,可到了大模型,技术只是第一层。
第二层是钱,第三层是组织,第四层是时间。第五层最难办,是一个人怎么在这些东西中间,保住自己一开始的信仰。
罗福莉七年前就知道这事不简单。硕士毕业时,她拿过多家大厂的顶级校招 offer。别人挑 offer,看钱,看职级,看食堂和健身房,看哪家 HR 更会说话。
她写过自己的标准。
国内绝大多数 AI 团队做不到研究和业务的平衡,要么只让你干活,要么让你做和高校没差别的研究。两样都占的地方,凤毛麟角。
她要找的,就是那个凤毛麟角。
那时 ChatGPT 还没出现,她先去了阿里达摩院,后来去了 DeepSeek,再后来到了小米。从表面看,大厂研究院,创业公司,大厂业务部门,像一个人在几种阵营之间来回站队。
可把她七年前写的标准翻出来,就都对上了。
这也解释了孙天祥后来为什么会走进百度。
2023 年 2 月,复旦发布 MOSS。那不是国内最强的模型,却是国内最早把类 ChatGPT 模型推到公众面前的项目之一。发布当天,访问的人多到把服务器挤崩了。
一个学术实验室突然被全社会看见,像一间教室的门被撞开。外面站满了投资人、媒体、大厂和看热闹的人。大家都很兴奋。兴奋到不太管这间教室原来是干什么的。
![]()
孙天祥那时还在读博士,他年轻、锋利,站在一个突然变大的问题前面。
他的导师邱锡鹏后来说,一个学术实验室做不出能力和 ChatGPT 相近的模型。
MOSS 的意义从来不是追平 OpenAI。它的意义是把门打开,让很多人第一次意识到,大模型不是论文里的远方,它马上就要变成产业里的现实。
门一开,风就灌进来了。王慧文发英雄帖,自己掏五千万美元,说要做中国的 OpenAI。王小川办百川智能,杨植麟做月之暗面。大厂高管看完 ChatGPT,很快离职创业。这类故事成了那一年的标准开头。投资人见创业者,常常先不问你要做什么,先问你还能叫来谁。到那年年中,国内已发布的十亿参数以上大模型有七十九个。许多公司刚成立没多久,估值已经被抬到了几十亿美元。
几位有名的大模型创业者,都来邀请过孙天祥。他没去,理由是博士还没读完。
他不是没有野心。恰恰相反,一个人如果真的很有野心,他会对时机特别小心。不是每一班看上去很快的车,都该跳上去。
后来孙天祥毕业,自己开了公司,叫日行迹。
你每天在同一时刻给太阳拍一张照,拍满一年,把所有位置连起来,天上会出现一个闭合的八字,这就是天文学里的日行迹。太阳看起来每天都在换地方,可一年下来走的是同一条轨迹。
孙天祥没有立刻进大厂,也没有立刻去最热的那几张牌桌。他在上海创智学院当助理教授,一边做科研智能体,一边创业。按照 2023 年的剧本,下一步他应该把公司做成独角兽,在某场发布会上和百度、阿里、腾讯同台竞技。
剧本没这么走。
![]()
旷野
创业叙事最漂亮的时候,总让人忘记成本。2023 年的大模型创业潮,像一场新淘金热。每个人都知道远处有金子,很少有人先问这一路要吃多少粮。那时候,离开大厂是一种姿态。大公司慢,流程多,层级厚。出来的人显得更接近未来。大厂像旧城,创业公司像旷野。
这话好听,可问题是基础模型不是移动互联网。
移动互联网时代,一个小团队拿到一笔钱,可以先做产品,先抢用户,先跑增长。页面上线了,增长起来了,故事就能接着讲。
基础模型时代不一样。
第一张账单就能把人拍醒。几万张卡,稳定电力,数据工程,训练框架,推理成本,长期现金流。模型不是一间办公室里几个人熬夜就能熬出来的东西。它更像一座矿,金子还没挖出来,铁路就得先铺上。
最响的那声枪,最先哑了。王慧文半年后因健康原因退场,光年之外被美团收购,港交所公告里的总对价约二十点六五亿元人民币。
那时很多人把这看成一个人的意外。现在回头看,它更像一部预告片。后来,据媒体报道,百川把重心转向医疗,零一万物不再硬冲万亿参数以上超大基模预训练。李开复说,现阶段超大基模预训练对创业公司 ROI 极低,意思就是账算不过来。
MiniMax 的招股书里写,预期每月现金消耗约 2790 万美元。这个数字放在移动互联网时代,够一家公司烧很久。放在基础模型时代,只够烧一个月。
智谱和 MiniMax 冲向资本市场,最重要的意义是给它们带来了补给。模型公司要活下去,需要源源不断的粮草。
有人可能会拿 DeepSeek 反驳。它不是传统大厂,不也做出了基础模型。可 DeepSeek 背后站着幻方,一家早早建起万卡 A100 集群的量化基金。它穿着创业公司的衣服,怀里抱着大厂尺寸的家底。罗福莉在 DeepSeek-V2 作者名单里出现的时候,她脚下踩着的,也是这份家底。
到这里,孙天祥走进百度,就不再突然了。
MOSS 上线,他证明的是一件事可以发生。日行迹时期,他试着把科研智能体做成公司。到了基础模型时代,问题就不再只是一个聪明团队能不能把 demo 做出来,模型还得长期训练下去,要能稳定跑起来,接进产品里,承受每天真实用户和真实业务的反复敲打。
百度不是一张白纸。它有搜索,有云,有文心一言,有自动驾驶,有长期 AI 积累。不过旧积累有时是地基,有时也是包袱。
![]()
这和罗福莉面对的小米很像。小米要的不是一个放在实验室里好看的模型。它有手机,有汽车,有 IoT,有供应链,有用户每天要摸到的东西。MiMo 如果只是论文里的名字,意义很有限。它要变成设备里的回答、车机里的判断、家庭场景里的联动。业务就不再只是一个抽象词。
所以罗福莉那句「安安静静做难而正确的事情」,到了小米反而更难。因为越靠近真实用户,越难安静。
姚顺雨二十七岁出任腾讯首席 AI 科学家。清华姚班,普林斯顿,OpenAI 那样的地方练出来,研究语言模型推理和智能体。ReAct 让模型不只回答问题,还能调用工具、观察反馈、继续行动。Tree of Thoughts 让推理从一条链变成一棵树。一个年轻人推动了大模型从「会聊天」往「会做事」走的那一步。
腾讯把他放到这个位置上,不是为了给年轻人颁奖。腾讯有微信,有腾讯会议,有游戏,有办公协同,有中国互联网最密集的使用场景之一。
它不缺入口,也不缺用户。
它缺的是把模型能力组织成产品能力的人。
一个方法在论文里成立,不代表它能在微信里成立。在论文里,同行看的是创新性。而在大厂里,组织还要问成本、稳定性、风险等各种问题。
姚顺雨坐上了那把椅子,这串问题就归他了。
过去,一个研究者可以慢慢成长。先发论文,再做项目,再带小组,再让组织把复杂问题交给他。可现在行业等不及,公司等不及,媒体也等不及。
一个人只要在关键的这两三年里做出过东西,就会被推到聚光灯下,顶上热搜。
热搜喜欢结果,不喜欢过程。可人的命运,通常都藏在过程里。
同一盏聚光灯,也照到了另一些人脸上,只是他们没有往灯最亮的地方走。
罗福莉站到了小米发布会的台上,孙天祥走进百度的基础模型部门,姚顺雨被腾讯推到首席科学家的位置。另一边,有人听见同样的风声,反而把门关小了一点。
同一代人,在同一个路口分开。
![]()
另一条岔路
曾国洋没有走向聚光灯下。他 1998 年出生,成都人,八岁学编程,高二拿信息学竞赛金牌,后来保送清华。2022 年,他和导师刘知远一起创办面壁智能,当技术一号位。面壁押的是端侧小模型,二十亿参数量级,圈子里叫「小钢炮」。
去年有传闻说,曾国洋要带八人核心小组去腾讯混元。公司出来辟谣,说他本人对此「一脸懵逼」。
传闻也染上了时代的气味。几年前,谣言最爱编的是某某大厂高管离职创业。现在,谣言里的年轻技术一号位总要被安排一个大厂归宿。
曾国洋的小团队没有厚垫子,钱少,窗口短。可端侧小模型这件事,本来就不是和基础模型正面碰撞。
基础模型像修水库。水库壮观,要山谷,要堤坝,要工程队,要很多年不见回报的投入。端侧小模型更像打井。
它磨的是另一件事。模型能不能更小,更快,更便宜,能不能跑在手机、电脑、车和机器人上,能不能离用户近一点,近到不用每一次请求都绕回云端。
水库能改地貌。井能救一个村子。
这就是分叉的路口。
同一代年轻人,被同一个时代推到模型面前。有人发现,自己要做的事必须进大厂,因为问题已经大到个人扛不住。有人发现,自己要做的事反而不能进太大的机器,因为机器太大,手感就没了。
![]()
几种忍耐的方式
回大厂不是种被收编,留在墙外也不是种坚守。
很多事情没有那么好归类。成年人的世界不像学生时代做选择题,A 是理想,B 是现实,C 是妥协,D 是以上皆非。真实世界里,四个选项经常混在一起,还不让你重选。
2023 年出走是合理的,钱在外面。2026 年走进去也是合理的,机器在里面。
太想把事做成的人,才会对条件特别敏感。一个真正在乎问题的人,不会为了名片上印着创业者,就假装几万张卡可以从天上掉下来。也不会为了名片上印着首席科学家,就相信组织天然理解科学。
所以这批人不是分成了进大厂的人和没进大厂的人,他们分成了几种不同的忍耐方式。
进大厂的人忍耐组织,留在墙外的人忍耐资源,做基础模型的人忍耐账单,做窄方向的人忍耐天花板。
这是这一轮 AI 人才回流里最动人的地方。不是谁拿了多少钱,也不是谁坐到多高的位置。是一些年轻的天才,第一次撞上了比个人才华更大的东西。
他们没有资格像上一代互联网创业者那样,把世界想象成一张可以凭胆子掀翻的桌子。模型时代的桌子太沉了。掀不动的时候,一个人只好先坐下来,看看自己能不能把手里的那颗钉子钉进去。
不过同在曹营,有人活成了郭嘉,有人活成了孔融。郭嘉在官渡前能改曹操的主意,孔融只是许都名士榜上一个好看的名字。
今天这些年轻人进大厂,真正要看的是权力。路线能不能由他改,卡归不归他调,人是不是他自己挑的,模型最后有没有进产品。如果只是拿一份高薪,坐一个虚职,在发布会海报上当年轻科学家,那用不了几年就会被耗干。反过来,要是这几样他真的说了算,那就不是普通的入职,大厂真的把一部分权力让了出来。
![]()
悉达多在河边
黑塞在《悉达多》里写过一个这样的人。
婆罗门之子,全城最有前途的年轻人,人人以为他会接父亲的班。后来他跟着苦行僧走了,几年后又离开苦行僧。他遇见佛陀,敬佩得五体投地,还是拒绝留下当弟子。他进城做了富商,后来又把这些全扔下,去河边摆渡。
站在任何一次离开的现场看,他都是个背叛者。父亲眼里他背叛了家族,苦行僧眼里他背叛了修行,富商世界眼里他背叛了财富。可这几次离开摆在一起看,是同一件事,他一路扔下的不是家族、修行和财富,是别人递过来的现成答案。单看哪一次,都像变节,连起来看,才是一条路。
直到晚年,他在河边听懂了水。河在源头,也同时在入海口。一条河,不能只按眼前流过的这一段来理解。
我们总喜欢替别人划阵营。罗福莉去了阿里,又去了 DeepSeek,又去了小米。孙天祥拒绝过创业者邀请,自己开过公司,又走进百度。姚顺雨从学术前沿走进腾讯。曾国洋留在墙外,被传闻推着往墙里走,又站住了。
从地上看,他们一会儿偏北,一会儿偏南,像天天在改主意。可是人的一生不能按某一天的影子来判断。
![]()
日行迹之所以迷人,就在这里。每天同一时刻看太阳,它的位置都不一样。看一天,会觉得它飘忽。看一年,才知道那些偏移连起来,是一个闭合的八字。
罗福莉七年前写下的标准没变。孙天祥从 MOSS 到日行迹再到百度,做的还是让模型进入现实的那件事。姚顺雨从推理方法走向智能体落地,面对的仍然是模型如何从会聊天变成会做事。曾国洋们留在墙外,也不是站着不动,他们只是把问题缩到手还能摸到边的地方。
他们不是为公司而来,是为事情而来。哪天条件再变,他们还会再走。到时候他们不会觉得背叛了谁,大厂也不该觉得意外。一个真正被问题牵引的人,不会永远忠于某个组织。
他忠于的,是那条自己也未必能完全说清的路。
夜里,几个地方的屏幕都还亮着。北京、上海、深圳、杭州,有人在大厂会议室里改路线图,有人在小团队里盯推理延迟,有人在发布会前一遍遍过技术稿,有人在没跑完的实验旁边写下下一次尝试。
屏幕的光照在脸上,看不出一个人是在墙内,还是墙外。
日行迹里,太阳每天都像换了位置,其实它从来没变过主意,变的是季节。
参考资料
[1] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model,arXiv
[2] ReAct: Synergizing Reasoning and Acting in Language Models,arXiv
[3] Tree of Thoughts: Deliberate Problem Solving with Large Language Models,arXiv
[4] Official Repo of Tree of Thoughts,GitHub / Princeton NLP
[5] 刚刚,MOSS孙天祥创业,直播AI4AI大规模科研,新浪财经
[6] MOSS孙天祥新公司要让AI自己写100篇论文,还要全网直播一个月,36氪
[7] 对话「日行迹」创始人孙天祥|当AI自动写出顶会论文,人类科研的尽头在哪,小宇宙
[8] MiniMax-01: Scaling Foundation Models with Lightning Attention,arXiv
[9] 王慧文发起光年之外,个人出资5000万美元组队打造中国OpenAI,36氪
[10] 美团20.65亿元收购光年之外,晚点 LatePost
![]()
动察 Beating 播客栏目正式上线。
这是一档关注 AI 与前沿技术如何改变社会、产业与生活的播客。从专访开始,和创业者、投资人、研究者、开发者、内容创作者,以及任何正在被技术改变工作与生活的人,聊一聊发生的一切。
欢迎订阅。
![]()
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.