
整理|华卫
去年这个时候,外界普遍传言:图灵奖得主、Meta 前首席科学家 Yann LeCun 将主动离开 Meta,寻求新的研究机会。如今,LeCun 也已官宣离职开启创业之路。
而刚刚公开的一场对 LeCun 的专访,却呈现了另一番截然不同的故事。这场对话长达三小时,期间 LeCun 曝出了不少 Meta 的猛料,并勾勒出了这一残酷现状:组织运转失灵、基准测试结果造假,以及一位拒绝为自己认定存在科学缺陷的方案背书的研究员的出走。
1 篡改模型测试结果后,小扎边缘化所有参与员工
首先,LeCun 透露了一个 Meta 本不愿公之于众的惊人细节:Llama 4 的基准测试结果是人为操纵的。
“这些结果有几分掺假,”他解释道,工程师针对不同的基准测试采用了不同的模型变体,目的是优化分数,而非展示真实的能力。
这绝非一场单纯的产品失利。2022 年 11 月 ChatGPT 的问世打了 Meta 一个措手不及,公司领导层陷入慌乱。Meta 随即围绕生成式 AI 业务进行重组,相继推出了 Llama 2 和 Llama 3。Meta 将自身定位为开源领域的领军者,是对抗 OpenAI 封闭模式的一方。单看 Llama 3 的下载量和生态系统渗透率,Meta 的布局相当成功,这包含渠道分发、品牌塑造和生态引力所带来的效果。
这一系列势头最终促成了 2025 年 4 月 Llama 4 的发布。这款模型虽斩获亮眼的基准测试分数,却因实际表现问题饱受诟病。此前也有独立报道证实了 LeCun 所描述的“数据作弊”行为,针对不同测试,专门挑选对应的模型变体。
LeCun 在采访中表示,这一事件让 Mark Zuckerberg 对公司现有 AI 团队彻底失去了好感。
据称,这位首席执行官当时震怒不已,“基本上对所有参与此事的人都失去了信任”。“也正因为如此,整个生成式 AI 团队都被边缘化了。”LeCun 表示,“很多人已经离职,还有不少没走的人也即将离开。”
随后,Meta 针对 Llama 4 失利所做出的一系列应对举措,折射出其管理层当时的窘迫处境。据路透社报道,2025 年 6 月,该公司斥资约 150 亿美元收购了数据标注初创企业 Scale AI 的大量股份。与此同时,Meta 聘请了 Scale 年仅 28 岁的首席执行官 Alexandr Wang,牵头组建一个名为 TBD 实验室的全新研究部门,负责前沿 AI 模型的研发工作。
该公司还展开了声势浩大的挖人行动,据称向竞争对手旗下的顶尖研究员开出了 1 亿美元的签约奖金。
通常,健康的研究机构不会因为一次挫折就动辄斥资 150 亿美元收购初创企业的大量股份。这些举动,似乎亦在展露这家公司正面临战略押注摇摇欲坠的危机。
2 LeCun 锐评 Alexandr Wang:毫无经验、休想对我指手画脚
对 Wang 的任命,造成了公司架构上一次令人错愕的上下级反转。身为图灵奖得主、卷积神经网络发明者、深度学习革命联合发起人的 LeCun,如今竟要向一位主业为训练数据标注的人汇报工作。在任何一家研究机构,这样的身份倒置都堪称骇人。这位领域奠基人端坐会议桌前,听着一位年龄不及自己一半的后辈,为那些对方既未参与创造、也未完全理解的技术规划发展蓝图。
LeCun 在采访中直接表示,此人“毫无研究经验,既不懂研究该如何开展,也不知道研究该如何落地”。“他学得很快,也清楚自己的短板所在……但他毫无研究经验,既不懂研究该如何开展、如何落地,也不知道什么样的东西能吸引研究员,什么样的东西会让研究员反感。”LeCun 如此说道。
当就这一汇报层级向 LeCun 追问时,他的回应措辞谨慎却一针见血:“没人能对研究员指手画脚。尤其像我这样的研究员,更是绝无可能。”LeCun 表示,尽管在 Zuckerberg 主导的 AI 业务重组后,这位 28 岁的年轻人曾短暂担任自己的上司,但实际上并没有对他发号施令。
实际上,双方更深层的矛盾似乎并非源于层级,而是源于理念分歧。Wang 代表的是 Meta 押注语言模型规模化的战略方向,而 LeCun 则认为这一范式从根本上就误入了歧途。让奉行这一理念的人身居管理要职,让他的留任变得绝无可能。
“我敢肯定,Meta 内部有不少人,或许也包括 Alex,都巴不得我不要对外宣称,在通往超级智能的道路上,大语言模型本质上已是一条死胡同。”LeCun 强调,“但我不会因为某个家伙说我错了,就改变自己的想法。我没有错。作为一名科学家,我的职业操守不允许我做出这种违心之举。”
3 “语言模型已经达到瓶颈”
如今 Meta 的 AI 战略,核心是沿用 OpenAI 联合创始人声称已触及天花板的架构方案,与 OpenAI 展开竞争。
然而,作为这家公司最具声望的 AI 研究员,LeCun 认为,这种方案根本无法实现 Meta 宣称要追逐的智能目标。据其透露的内容,负责 Meta 旗舰模型的团队交出的成果可信度极低,致使管理层对整个团队都丧失了信任。
事实上,LeCun 对大型语言模型的批判,早已超越 Meta 此次的具体失利事件。LeCun 一直以来都在强调,大型语言模型的局限性过大,若要释放 AI 的真正潜力,必须另辟蹊径。
过去数年间,他在公开演讲与技术论文中阐释的核心论点,本质上是一个数学层面的结论:语言这一载体,对于培养真正的智能而言,存在着根本性的带宽不足问题。
参与 Lex Fridman 播客节目时,LeCun 曾测算过一组数据:若要通读互联网上的全部文本(体量约为 2×10¹³字节),人类需要耗费 17 万年的时间。而一个四岁孩童,单是通过视觉输入接收的信息体量就约达 10¹⁵字节。也就是说,在幼儿阶段,孩子吸收的信息量,就比大型语言模型从人类全部书面语料库中提取的内容多出 50 倍。
这一数据背后,潜藏着更为深刻的启示。训练大型语言模型,就如同试图通过阅读所有与木材相关的书籍来学习木工手艺:你自始至终都没有碰过一把锤子。诚然,你能掌握相关的专业词汇,但却无法真正理解背后的物理原理。LeCun 的判断很简单:要学好木工,你必须亲手挥起锤子。
这一点恰好解释了 AI 能力上长期存在的短板。青少年只需 20 小时就能学会开车,幼儿第一次尝试就能擦干净桌子,家猫能轻松穿梭于复杂的三维空间。然而,即便投入了数十亿美元的研究经费,在万亿级别的语料库上训练出来的 AI 系统,却在这些任务面前束手无策。
2025 年 11 月,OpenAI 前首席科学家、规模化范式的缔造者 Ilya Sutskever 在接受 Dwarkesh Patel 采访时也抛出了这样一个振聋发聩的观点。他表示,该领域正从“规模化时代”迈向“研究时代”,单纯依靠算力规模的扩张,只会产生边际效益递减的结果。
当这一范式的开创者都如此表态时,其分量不言而喻。ChatGPT 问世后形成的、围绕大语言模型规模化的行业共识正在瓦解。
4 新架构一年内有雏形?
在接受采访的午餐会上,LeCun 用一个具体的例子阐释了他提出的另一种技术路径。当他掐别人一下时,对方会感到疼痛,其心智模型随即发生更新,下次当他再抬手靠近时,对方会本能地退缩。这种基于预判产生的反应,以及随之触发的情绪,才构成了对因果关系的真正理解。而大型语言模型并不具备这样的机制。它们只是基于统计规律来预测语言符号,而非通过因果模型去判断行为会引发何种后果。
为此,LeCun 提出了一套名为联合嵌入预测架构(JEPA)的世界模型架构,以此弥补现有技术的缺陷。该架构通过对视频与空间数据进行训练,培养系统基于物理原理的认知能力。它让系统学习与行为相关的抽象表征,而非执着于符号层面的预测;同时,它还融入了能随经验不断进化的持久记忆,而非在每次对话时都重置记忆。
采访中,LeCun 给出了该架构的落地时间表:12 个月内推出雏形版本,数年内实现更大规模的部署应用。
据称,他创办的这家初创公司命名为“先进机器智能”,其技术路径正是他所主张的、比大型语言模型更具优势的方案。在这家新公司里,他将出任执行董事长,而非首席执行官。
“我是一名科学家,一个有远见的人。我能激励人们去做有趣的事情。我很擅长预测哪种技术会成功,哪种会失败。但我当不了 CEO。”LeCun 说,“我既太缺乏条理,也太老了!”
世界模型能否后来居上,目前尚无定论。LeCun 预测,具备动物级智能水平的 AI 将在五到七年内实现,而达到人类级智能则需要十年时间。
这位曾助力构建当前 AI 范式的领军人物,如今正孤注一掷地押注:要实现超越,必须依托截然不同的技术路径。绝非细枝末节的渐进式改良,而是彻底颠覆式的全新架构。
https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2
声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。
技术人的年度仪式感! 年度盘点与趋势洞察 启动!
《2025 年度盘点与趋势洞察》由 InfoQ 技术编辑组策划。覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。
力求以体系化视角帮助读者理解年度技术演化的底层逻辑、创新方向与落地价值,并为新一年决策提供参考。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.