来源:市场资讯
(来源:钛媒体APP)
2025年10月底,Meta AI部门宣布裁员600个职位,甚至核心部门的研究总监,同时掌管AI业务的高管纷纷离职、被边缘化,就连图灵奖得主Yann LeCun也被认为自身难保。
![]()
图片来源:CNBC
一方面扎克伯格在用上亿美元的年薪挖AI人才,但同时又如此决绝的裁员,这样割裂的行为背后是因为什么?
于是我们采访了Meta的前FAIR研究总监AI科学家田渊栋、参与了Llama 3后训练的前Meta员工Gavin Wang、硅谷资深HR专家以及一些匿名人士,试图还原一下Meta的Llama开源路线到底发生了什么:
为什么Llama 3还让众人惊艳,而仅一年之后的Llama 4就如此拉胯?中间发生了什么?Meta的开源路线从一开始就注定是个错误吗?AI大模型激烈对战的当下,一个乌托邦式的AI研究实验室还能够存在吗?
01 FAIR与GenAI的诞生:Meta的AI十年布局与架构搭建
首先来看看Meta对AI布局的整个公司架构。
2013年年底,扎克伯格开始搭建Meta的AI团队。当时,谷歌收购了Geoffrey Hinton的DNN团队,将Hinton招入麾下,同一时间,Meta将Yann Lecun请来坐镇AI的发展。至此,图灵奖三巨头的两位开始步入商业科技来主导AI研发。
![]()
在扎克伯格邀请Yann LeCun加入Meta的时候,后者提过三个条件:
1.不从纽约搬走;
2.不会辞去在纽约大学的工作;
3.必须开展开放的研究,公开发布所做的所有工作,并将代码开源。
所以,一开始Meta的路线就是开源的。Yann LeCun进入Meta之后,开始着手前沿的AI研发,组建了Fundamental AI Research实验室,也就是大名鼎鼎的FAIR实验室,主导人工智能的前沿研究。
![]()
![]()
但是对于Meta来说,最终还是要看到AI在自身产品上的进展。于是和FAIR组平行设置了一个组叫“Generative AI”,简称“GenAI”组。
这个组里面分别有不同的功能团队,包括了Llama开源模型的研发,将AI能力运用到产品上的Meta AI团队,还有AI算力基建的数据中心团队,其它的还有一些小部门,比如说Search(搜索),Enterprise(企业服务),Video-gen(文生视频)模型等等。
![]()
GenAI和FAIR是平行关系,这像是一个天平,一边是前沿科研,一边是产品化。理想情况下,前沿研究能带来更好的产品力,而产品赚钱了能让管理层有更大的动力拨款给FAIR去做研发。
![]()
但是,让这样的天平始终保持平衡,是一个很理想化的乌托邦状态。而这个乌托邦状态的前提是,Meta的AI模型水平一直是要保持最领先的,或者说,至少是在开源赛道最领先,且不落后闭源模型太多的。
![]()
图片来源:Meta AI
而Meta的AI天平是如何失衡的呢?我们可以从Llama的四代发布中,看到一些端倪和痕迹。
02 “开源之光”:Llama的昔日骄傲与滑铁卢?
之所以Meta给自家大语言模型取名“Llama”,据说是因为考虑到Large Language Model的缩写“LLM”不太好发音,所以就补上了元音字母。“Llama”朗朗上口也便于记忆传播。也正是这样,大语言模型命名自此才和“羊驼”扯上了关系。
Chapter 2.1 Llama 1:开源的“种子”
我们先来看看Llama 1,这也为Meta的大模型“开源”路线奠定了基础。
2023年2月24日,Meta发布Llama模型,主打“更小参数更好效果”(多规模:7B/13B/33B/65B),强调当时的13B模型可以在多项基准上超过175B参数的GPT-3。
而Llama在官宣之后的一周,权重在4chan上以种子形式被“泄露”,引发了AI社区对开源模型的广泛讨论,甚至还引发国会参议员致信质询Meta。
![]()
虽然有不少质疑的声音,但业界对Llama的“意外泄露”出人意料的支持,而这也被视为“大模型开源”的格局重塑,并且很快催生出了诸多的民间微调项目。
我们在这里稍微解释一下大模型的“开源”定义。其实Meta也不是完全的开源。Meta称之为“开放权重”(Open weights)。
在机器学习中,有三个部分:结构(architecture),权重(weights)和代码(code)。所谓“权重”,就是模型学习到的所有参数数值。模型训练完成后,所有参数会存成几个巨大的二进制文件。每个文件里保存着每一层神经网络的矩阵数值。而在推理时,模型代码会加载这些权重文件,用GPU进行矩阵运算生成文本。
![]()
所以“开放权重”就意味着向公众提供训练好的参数文件,外界可以本地加载、部署和微调,但还不是完全的“开源”,因为真正的开源意味着公开训练数据、代码和许可等等。但Meta并没有公开这些信息,甚至之后的Llama2、3、4代都仅仅是开放权重,只是在许可证的政策上有些松动。
![]()
虽然Llama属于“半开源”,但比起OpenAI,Anthropic和谷歌完全闭源、只通过API接口来提供模型能力服务的公司来说,已经算给开源社区带来非常旺盛的生命力了。
Chapter 2.2 Llama 2: 开放“可商用”
2023年7月28日,Meta联合微软发布了大模型Llama 2,包含7B、13B和70B参数的三种参数变体。
新一代模型的“开源”虽然也是“开放权重”,但对比Llama 1的不可商用、只能申请研究用途而言,Llama 2是一个免费可商用的版本,更放宽了许可证的权限,而Wired等杂志更是指出,Llama 2 让“开放路线”对抗封闭模型巨头成为现实。
![]()
而我们看到,Llama 2很快在开发者社区风靡起来,它的可得性显著放大了生态和AI开发。
之后,就到了2024年的Llama 3,这也是Llama系列最为辉煌的时刻。
Chapter 2.3 Llama 3系列: 逼近闭源阵营
步入Llama3的时代,Meta已经成为AI开源社区的顶流存在。2024年的4月到9月,Meta连发三个版本的模型迭代。
2024年4月18日,Meta发布8B、70B两个规格的Llama 3版本,称同等规模“显著超越Llama 2”,并将其作为Meta AI助手的底座之一。
之后的7月23日,Meta推出405B、70B、8B三档Llama 3.1模型,并宣称405B是“全球最强的开放可得基础模型”之一;同时登陆AWS Bedrock、IBM watsonx等平台。
仅两个月之后的2024年9月25日,Meta推出Llama 3.2,主打小而全的多模态,新增1B与3B轻量文本模型与1B与90B的视觉多模态模型,面向终端/边缘场景;AWS等平台同步接入,开源框架平台OLlama亦可本地运行。
![]()
我们采访到了Llama 3团队的Gavin Wang,他负责Llama 3的后训练工作,对我们表示当时整个Meta,GenAI团队是在以“光速”前进,真的有种“AI一天,人间一年”的感觉。
![]()
Llama 3的强势出击,特别是450B版本被认为是在模型能力上对闭源阵营的逼近,也被认为将快速推动AI应用的落地。而对于Meta内部员工来说,特别是在Llama组的AI工程师们,这是一件非常让他们值得骄傲的项目。
Meta乘着东风,期望Llama 4的发布,能进一步的扩大自身在AI开发社区的影响力,保持“顶尖大模型中的唯一开源存在”。
![]()
扎克伯格在2025年1月底财报会议后发帖说,“我们对Llama 3的目标是使开源与封闭模型具有竞争力,而我们对Llama 4的目标是领先。”
然而,三个月之后的Llama 4发布,却是一场彻底的灾难和滑铁卢。
Chapter 2.4 Llama 4: 滑铁卢
2025年4月5日,Meta推出Llama 4的两个版本(Scout与Maverick),宣称多模态与长上下文能力大幅跃进,并在宣传中高调引用LMArena排行榜上的领先成绩:Maverick版本仅次于Gemini 2.5 Pro,与ChatGPT 4o和Grok 3 Pro并列第二。
![]()
然而很快,开发者社区的反馈并不正面,认为Llama 4的效果不及预期。市面上开始有流言质疑Meta在LMArena上冲到第二名的版本有作弊嫌疑,怀疑Llama 4给LMArena排名的是经过了优化的变体,而这个变体经过了对话强化的训练,存在误导LMArena、导致过拟合的现象。
![]()
虽然Meta高层迅速否认了作弊,但影响迅速发酵,一方面,媒体纷纷将此视为“用特调版本刷榜”的“诱饵换包”(bait-and-switch),行业对基准公信力与可复现性的讨论升温;另一方面,Meta更高端的Behemoth版本推迟发布,公关与节奏严重受挫。
截至目前,Behemoth还没有发布,Meta应该是放弃了。
![]()
接下来就是大家所知道的,扎克伯格开始孤注一掷的大手笔收购Scale AI,把Alexander Wang挖过来领导新的AI架构,之后用上亿美元的支票开始挖人,疯狂搅局硅谷AI人才市场。
![]()
再之后就是最近的新闻,Alex开始重组整个Meta的AI架构,裁掉600人。
![]()
但大家看看这个时间线,是不是还是觉得很割裂,在Llama 3和Llama 4的这一年中,发生了什么?怎么Llama 4一下子就不行了?这是不是也太快了。
我们通过复盘,也许找到了一些答案。还记得我们在前文提到,Meta内部的AI架构是一架天平吗?Llama 4失败的原因就是:这架天平失衡了。
03 失衡天平:前沿研究与商业化的路线之争
在Meta的AI架构中,FAIR和GenAI是并行的两个组,Yann Lecun管FAIR,但Yann LeCun很多时候沉浸在自己的研发中,有时候还在网上跟人,比如说马斯克对战,还经常说不看好LLM路线,让Meta很头疼。
于是,2023年2月,Meta高层把Meta AI的研究负责人Joelle Pineau调到FAIR,担任FAIR的全球负责人,与Yann LeCun两人一起领导FAIR。
![]()
图片来源:Bussiness Insider
而GenAI的负责人是Ahmad Al-Dahle,这个哥们儿之前在苹果工作了快17年,而扎克伯格把他挖过来的原因,就是想把AI和Meta的各种产品结合起来,包括元宇宙,智能眼镜的AI整合,以及聊天工具meta.ai等等。
而就在经历了Llama 2的成功,公司开始研发Llama 3的过程中,Meta高层越来越强调“要将AI用于自家产品”的属性。
于是我们看到,2024年1月,Meta的AI团队进行了一次重组,FAIR的两名负责人开始直接汇报给Meta的CPO(首席产品官)Chris Cox。
![]()
在Llama 3成功推出,Meta高层开始制定Llama 4的路线之际,所有的注意力都放在了与产品结合上,也就是多模态能力,因此忽视了对模型推理能力上的重视。
![]()
而就在Llama 3到Llama 4的这一年研发过程中,2024年9月12日,OpenAI推出了基于思维链的o1系列模型,之后的2024年12月,中国的deepseek开源模型横空出世,用MOE混合专家架构在保证推理能力的情况下大幅度降低了模型成本。
![]()
图片来源:arxiv
其实FAIR组中,田渊栋等研究员已经在着手思维链的研究,但这样对推理能力的前沿探索并没有及时传达到Llama模型的工程上。
![]()
图片来源:DeepSeek
因为OpenAI的o1系列和DeepSeek的出现,让Meta在2025年年初乱了阵脚。于是,高层临时让FAIR的研究团队去支援Llama 4的研发,或者可以直接说是去“救火”,而这个“救火团队”就是田渊栋带队的。
![]()
图片来源:Meta
我们在这里基本上能有一些答案了,从Llama 3开始,“将AI产品化”这样的路线就已经制定,整个模型注重多模态和应用、忙于整合应用和业务,但却忽略了推理和更前沿的技术研发。这让天平另一边的FAIR团队不得不跨组来“救火”,就这样,天平失衡了。
而扎克伯格是如何修复这个失衡的天平呢?他直接空降了一个特种部队:由Alex Wang带队的TBD团队。
04 空降“新王”:28岁Alex Wang获“无限特权”
Meta的AI业务架构如今再一次重组之后,高层也经历了一系列的动荡。
Alex Wang带领几十位高薪聘请来的顶级研究员,单独成立了这个在Meta内部拥有无限特权和优先级别的特别小组TBD。TBD,FAIR和GenAI一起组成Meta Superintelligence Labs(MSL部门),直接汇报给Alex,而Alex直接汇报给扎克伯格。
这也意味着,FAIR的Yann LeCun如今也汇报给Alex,而Joelle Pineau此前被要求汇报给GenAI组的负责人Ahmad。
我们看到,Joelle已经在今年5月离职,去了Cohere做首席AI官;而Ahmad说实话已经很久没有什么声音了,也没有被任命负责任何重要的项目;而CPO Chris Cox也被Alex抢了风头,排除在了AI团队的直接领导者之外。
所以现在的架构就是,28岁的Alex一人独大的局面。
![]()
我们听到过Meta内部各种对Alex和他领导的这支极度有特权小组的不满,包括TBD团队里的人可以三年不用做绩效考评、可以不理不回其它任何VP的信息、Meta AI的所有paper都要给TBD里面的人去审核才能给发表。
要知道,TBD里面不少人比较年轻,这是让很多资深的研究员非常不满, 反正就是各种内部政治斗争感觉又要起来一波。
但不可否认的是,特权的等号后面是成绩。这个成绩对于扎克伯格来说,不仅仅是Make Llama Great Again(让Meta再次伟大),而是“Meta has to win”(Meta必须赢)。
在这场AI竞赛中,目前的这场重组,也许对于扎克伯格来说是最后的一次,也是最重要的机会。而Alex在团队内部邮件中就写到他将做出的三个改变:
1.集中TBD和FAIR团队的核心基础研究力量;
2.提升产品和应用研发的融合、且继续以产品为模型聚焦点;
3.成立一个核心基建团队来支持研究押注。
![]()
而Alex能否撑得起扎克伯格的押注呢,也许很快我们就会有答案。
![]()
图片来源:Bussiness Insider
总结一下,Meta在Llama前三代都还是领先的开源模型,引领着开源派去对抗OpenAI和谷歌Gemini这样的闭源派。
然而,在Llama 3大获成功之后,公司高层急于将AI结合产品化,在规划路线的时候用“产品驱动研发”的思维,将Llama 4的升级聚焦在多模态等工程性能上,但却错失了思维链(CoT)等推理上的前沿技术时间优势。
虽然当时田渊栋等FAIR的AI科学家已经在研究CoT了,等DeepSeek引发轰动之后,又将FAIR的田渊栋团队临时救火优化Llama 4上的MoE架构,反而又中断了CoT和推理上的研发,导致AI前沿技术研究和产品工程这架天平彻底失衡。
![]()
在采访过程中,我脑中不止一次闪过历史上那些闪耀一时的前沿实验室:贝尔实验室、IBM Watson Research、HP实验室等等,但基本都因为无法平衡前沿科研和商业化而日益衰落,十多年历史的FAIR,曾经是一群理想化AI科学家的乌托邦之地,而如今又成了另一个商业化的牺牲品。
你认为这场由Llama 4失败引发的大重组,是Meta AI的最后机会吗?欢迎在评论区留言告诉我们。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.