
![]()
近日,图灵奖得主、深度学习教父杨立昆在宣布离开 Meta 核心管理层并创办新公司 AMI (Advanced Machine Intelligence) 后,接受了海外播客Information Bottleneck的深度专访。本次对话杨立昆透露了为何转型创业、深入探讨了大语言模型通往人类水平智能的根本性死胡同、联合嵌入预测架构(JEPA)对世界模型的重新定义、视频数据在 Scaling Law 中的统治级地位、目标驱动的 AI 本质安全架构,以及基于“智能放大器”逻辑对 AGI 伪命题的彻底解构。
杨立昆指出,AGI在数学和生物学意义上是一个“伪命题”。他指出,人类智能本质上是进化高度专业化的产物,所谓的“通用性”只是人类因认知边界限制而产生的错觉。他认为,当前行业对大语言模型的迷恋正处于“低本底钢”式的困境——仅仅依靠互联网上的文本 Token 堆叠,AI 永远无法习得婴儿在九个月大时就能掌握的“物理世界常识”,这种缺乏底层动力学理解的智能注定是脆弱且不可靠的。
针对世界模型的构建,他明确指出,试图在像素级别重现现实细节的想法不仅错误而且有害。真正的智能在于“抽象”:世界模型不应是重现每一帧视频的模拟器,而应是在抽象表示空间(Representation Space)中剔除不可预测细节(噪声)的预测引擎。他断言,AI 必须通过在表示层级进行非确定性的后果预测,才能真正实现从“背诵事实”向“具备直觉与规划”的质变。
在 AI 安全与未来演进上,杨立昆认为,智能与权力欲望并无逻辑关联。他将未来的超级智能比作 Linux 系统般的公共基础设施,强调其核心使命是增加全球的“智能总量”,作为人类智慧的放大器,而非人类的统治者。他预测,随着世界模型的成熟,AI 将以“自主智能代理”的形态彻底融入社会,开启一个由基础物理规律驱动的全新研究时代。
01 角色转换:从大型实验室到从零创业
祝贺你宣布在 Meta 工作 1
2 年后创办新公司 AMI。请问在当前 AI 投资热潮下,从掌舵大型企业实验室到重新开始初创研究,你的心态和角色经历了怎样的转变?
Yann LeCun:其实我以前也共同创办过公司,虽然当时不像这次参与得这么深,但我很清楚其中的运作机制。这次创业的独特之处在于一种新现象:投资者对 AI 的巨大潜力充满信心,因此愿意投入巨额资金。这意味着,你现在可以创办一家在前几年完全专注于研究的初创公司,这在以前是无法想象的。
过去,工业界唯一的科研净土只有那些不必为生存发愁的大公司。它们在市场中处于统治地位,眼光足够长远,才愿意资助那些长期的研究项目。回看历史,那些鼎鼎大名的实验室,比如贝尔实验室,隶属于当时垄断美国电信业的 AT&T。IBM 在大型机领域处于垄断地位,因此支撑得起优秀的研究室。施乐垄断了复印机,这让他们有能力资助帕罗奥多研究中心,虽然施乐没能从那些研究中直接获利,但 Apple 却从中受益匪浅。再到近期的 Microsoft 研究院、Google 研究院以及 Meta 的 FAIR。现在,行业格局正在再次发生转变。
02 科研理念:开放是创新的必经之路
FAIR 曾坚持高度开放、开源一切,但近年 OpenAI 和 Google 等实验室趋于封闭,Meta 似乎也在收缩。在这种环境下,AMI 计划如何保持研究透明度?
Yann LeCun:FAIR 曾对 AI 研究生态产生了深远影响,我们坚持高度开放,发表所有论文,开源一切。我们不仅提供了 PyTorch 这样的工具,还开源了许多被工业界广泛采用的研究原型。这促使 Google 等其他实验室也变得更加开放,发表成果也比以前更系统。但过去几年情况发生了变化,很多实验室开始收缩,变得越来越神秘。OpenAI 几年前就开始走向封闭,现在 Google 也是如此,甚至 Meta 也可能在往这个方向走。对于我感兴趣的研究课题,是时候在 Meta 之外去寻找更合适的土壤了。
(关于 AMI 的开放计划)是的,至少上游研究是公开的。在我看来,不发表成果就不能称之为真正的研究,否则你很容易自我陶醉。你可能发明了一个自认为开创性的重大突破,但如果不提交给社区同行评议,你可能只是在自嗨。我在很多工业研究实验室见过这种现象:内部对某个项目极度热捧,却没意识到其他人已经做出了更好的成果。如果你要求科学家发表论文,这首先会激励他们产出更高质量的成果,让方法论更严谨,结果更可靠,从而使研究本身更具公信力。
这对研究者本人也有好处。因为研究对产品产生影响往往需要数月、数年甚至数十年。你不能跟应聘者说,来我们这儿吧,但不能对外说你在做什么,也许五年后你的工作会影响某个产品。如果没有即时的正向反馈,他们很难保持动力。如果不让他们发表,他们往往会倾向于做那些能在短期内见效的项目。如果你真的追求突破,就必须允许公开发表。别无他法,这也是目前许多行业巨头正在遗忘的一点。
03 智能的核心是预测后果并进行规划,目前的 LLM 架构对此无能为力
AMI 的产品版图是什么?在目前大语言模型(LLM)如日中天的情况下,为什么你认为它在实现 AI Agent 方面还远远不够?
Yann LeCun:不,不止于研究,我们会开发实际的产品。这些产品将围绕世界模型和规划展开。我们的雄心是成为未来智能系统的主要供应商之一。我们认为目前的架构,无论是大语言模型还是基于大语言模型的 AI Agent 系统,处理语言还可以。但即便是 AI Agent 系统,目前运行得也并不理想。它们依赖大量数据来克隆人类行为,且极其不可靠。
我认为解决这个问题的正确路径,也是我坚持了快十年的观点,是构建能够预测自身行动后果的世界模型。AI 通过优化来确定一系列行动或输出,即找出哪种行动序列能最有效地完成设定的任务。这就是规划。我认为智能的核心特征就是能够预测行动的后果,并利用这种预测进行规划。这是我多年来的研究重心,通过在纽约大学和 Meta 的一系列项目,我们已经取得了快速进展,现在是时候把它转化为现实了。
(关于技术缺失环节)它和大语言模型根本不是一回事。它旨在处理高维、连续且包含大量噪声的模态,而大语言模型在这些方面完全无能为力。如果你尝试用大语言模型去学习图像或视频的优质表示,效果会非常糟糕。目前 AI 的视觉能力通常是独立训练的,并不包含在大语言模型架构中。
处理高维、连续且有噪声的数据时,生成模型是行不通的。你绝对不能使用那种将数据 Token 化为离散符号的生成模型。大量经验证据表明其效果不佳。真正有效的方法是学习一个抽象表示空间,过滤掉所有不可预测的细节和噪声,并在该空间中进行预测。这就是联合嵌入预测架构(Joint Embedding Predictive Architecture,简称 JEPA)的核心理念。你对它也很熟悉,也参与过相关工作。Randall 之前在节目里可能也详细聊过,目前围绕这个理念已经衍生出很多想法。
04 深度学习历史突破:从自动编码器到 JEPA
回顾过去 20 年,您如何看待无监督学习路径的演变?从早期的自动编码器到现在的联合嵌入预测架构(JEPA),我们学到了哪些关于“信息瓶颈”和表示学习的核心教训?
Yann LeCun:我来回顾一下这方面的研究历史。过去 20 年的大部分时间里,我一直深信构建智能系统的必由之路是某种形式无监督学习。我在 2000 年代初期就开始研究这个方向,并将其作为取得突破的基础。
当时的主流思想是训练自动编码器来学习表示:输入数据通过编码器提取表示,再通过解码器还原。当时认为必须保证表示包含了输入的全部信息,但后来发现这种直觉是错误的。强求表示包含所有输入信息其实是个坏主意,但我当时并没意识到。那时我们尝试了多种方法:Geoff Hinton 在研究受限玻尔兹曼机(Restricted Boltzmann Machines),Yoshua Bengio 在研究去噪自动编码器。这些方法在不同背景下都取得了成功,比如在自然语言处理中。而我当时在研究稀疏自动编码器。简而言之,训练自动编码器时必须对表示进行正则化,防止它简单地变成一个恒等函数。这就是你们播客讨论的核心概念:信息瓶颈。
你需要通过一个信息瓶颈来限制表示的信息含量。我曾认为高维稀疏表示是最佳方案。我的几位博士生以此为题完成了论文,比如 Koray Kavukcuoglu,他现在是 Alphabet 旗下 DeepMind 的首席 AI 架构师兼 CTO,当年就是跟我做的这个课题。我们当时研究这个是为了给深层神经网络做预训练,认为这是必经之路。但后来我们开始尝试归一化、将激活函数换成 ReLU 等技术,发现这让我们能够直接进行全监督训练来处理非常深的网络。与此同时,数据集也开始爆发式增长。事实证明监督学习的效果非常好,因此自监督学习的想法就被暂时搁置了。随后 ResNet 在 2015 年问世,彻底解决了超深架构的训练难题。但在 2015 年,我开始重新思考:我们该如何向人类水平的 AI 迈进?这既是 FAIR 创立的初衷,也是我的终身使命。我意识到,强化学习等方法在本质上是无法扩展的。强化学习的样本效率极低,因此走不通。于是我回到了世界模型的想法:一个能够预测后果并进行规划的 AI。
2016 年我在 NIPS 上的主题演讲就是关于世界模型的。我当时认为这是我们应该研究的核心方向,即由动作调节的世界模型。随后我的一些学生开始在视频预测等方向进行探索。虽然我们发表了几篇论文,但我犯了和以前一样的错误,也是现在大家都在犯的错误:试图在像素级别进行预测。这根本行不通。你无法在视频帧空间上构建有效的概率分布。我非常清楚,由于预测具有非确定性,模型必须引入隐变量来代表那些你无法预知的变数。我们在这个方向探索了很多年,我这里的一位学生 Michael Mathieu 开发了一个带隐变量的视频预测系统,稍微缓解了问题。目前业界流行的扩散模型本质上也是训练非确定性函数的一种方式。还有我倡导了几十年的基于能量的模型,也是另一种路径。但最终我意识到,解决无法在像素级预测的关键,就是干脆放弃像素级预测,转而在表示层级进行预测,并剔除掉所有无法预测的干扰细节。我早期没考虑这个方法,主要是担心会出现模型崩溃的问题。
(关于孪生网络演进)最近人们甚至还在使用这些网络中的术语。这个概念依然不过时。假设有两个变量 X 和 Y,你可以将 X 看作是 Y 经过退化、变换或损坏后的版本。将 X 和 Y 同时通过编码器处理,并告知 AI 系统 X 和 Y 实际上是同一事物的两个视角,那么计算出的表示应当一致。如果只是简单地训练两个共享权重的神经网络,试图为同一对象的不同视角产生相同的表示,系统会发生坍缩,无法产生任何有价值的信息。因此,必须找到一种方法,确保 AI 系统能从输入中提取尽可能多的信息。
我们在 1993 年关于孪生网络的论文中提出了对比项的概念。通过已知不同的样本对,训练系统产生不同的表示。我们设计了代价函数,当输入两个相同或相似的样本时,函数会吸引两个表示相互靠近,而当输入两个不相似的样本时则会将它们排斥。这个想法源于一个实际需求,当时有人希望我们将签名编码在 80 字节以内,以便存储在信用卡的磁条上进行验证。虽然我提出了训练神经网络产生 80 个变量并将每个变量量化为一个字节的方案,且效果很好,但业务部门最终决定让用户直接输入 PIN 码。这让我们学到了如何整合技术的教训。当时欧洲有些国家已经在使用更先进的智能卡,但由于某些原因,他们并不想采用。
2000 年代中期,我和两名学生修改了这个想法,提出了新的目标函数。这就是现在人们所说的对比方法,也是对比方法的一个特例。我们利用正负样本进行训练,对于正样本,训练系统具有低能量,对于负样本则具有高能量。这里的能量是指表示之间的距离。Raia Hadsell 和 Sumit Chopra 在 2005 年和 2006 年的 CVPR 上发表了相关论文。Raia Hadsell 现在负责 DeepMind 的基础研究部门,Sumit Chopra 现任纽约大学教职。虽然这引起了社区的兴趣,但效果依然有限,产生的图像表示维度较低。即使在 ImageNet 上进行数据增强训练,表示协方差矩阵的特征值谱也只能填满 200 个维度。
DeepMind 的 SimCLR 证明了对比训练在孪生网络上的潜力。大约五年前,我在 Meta 的博士后 Stephane Deny 尝试了一个我起初认为行不通的想法,即衡量编码器输出的信息量并将其最大化。我不看好是因为 Geoffrey Hinton 在 80 年代做过类似实验,当时由于缺乏有效的信息内容度量作为下界,最大化信息量几乎是不可能的。然而,Stephane 借鉴理论神经科学家 Barlow 的思想提出了 Barlow Twins 技术,效果惊人。随后我和学生 Adrien Bardes 提出了 VICReg,即方差-不变性-协方差正则化,这种技术更简单且效果更好。最近 Randall 提出了 SigReg 方案并整合进 V-JEPA 系统。SigReg 旨在确保编码器输出的向量分布符合各向同性高斯(Isotropic Gaussian)分布。我认为这套学习抽象表示的技术非常有前景,这是实现 AI 的关键。
05 数据冗余与 Scaling Law
关于 Scaling Law 的讨论中,有人担心互联网数据已耗尽或被 AI 内容污染。您如何看待文本数据与视频数据在构建 AI 认知能力上的本质区别?
Yann LeCun:目前 AI 领域缺失的部分,究竟是算力还是算法?对于 Scaling Law 的讨论,以及 2022 年后互联网数据质量问题,有人将大语言模型出现前的数据比作低本底钢,指的是未受 AI 生成内容污染的原始 Token 数据。训练一个性能出众的大语言模型,基本上需要互联网上所有的公开文本、合成数据及授权数据。一两年前的模型通常在 30 万亿 Token 上训练,每个 Token 约占 3 字节,预训练总数据量达 字节。为了让大语言模型能够真正利用这些数据,需要庞大的内存存储。由于文本中大多是孤立的事实,冗余度较低,AI 系统需要巨大的网络来存储并反刍这些事实。
字节的视频数据大约对应 15,000 小时的视频。这仅相当于 YouTube 30 分钟的上传量,或者一个 4 岁孩子清醒时的视觉信息总量。我们去年发布的 V-JEPA 2 已经在相当于一个世纪的视频数据上进行了训练。虽然视频字节数多,但冗余度更高,而在自监督学习中,冗余恰恰是学习结构的关键。现实世界数据如视频蕴含的结构远比文本丰富,因此我断言,仅靠文本训练永远无法实现人类水平的 AI。AI 必须根植于现实,而不能仅仅停留在符号操作层面。
06 世界模型的本质:模拟还是抽象?
视频生成模型的视觉效果非常震撼,但这是否意味着它们已经掌握了世界模型?真正的世界模型应该如何处理现实世界中极度复杂且不可预测的细节?
Yann LeCun:谈到世界模型,人们常误以为它是能重现所有细节的模拟器。受深度学习热潮影响,很多人专注于视频生成,虽然视频效果震撼,但并不保证 AI 系统掌握了世界底层的动力学,也不代表它学到了抽象知识。试图重现现实每一个细节的想法不仅错误而且有害。
以计算流体力学(CFD)为例,人们使用超级计算机模拟飞机周围的气流。虽然将空间划分为微小立方体并求解纳维-斯托克斯方程能模拟气流,但这本身就是一种抽象。真实的物理现象是空气分子相互碰撞,但没人会去模拟分子级别的运动,那需要的计算量是天文数字,且极度依赖初始条件。如果再往下探究,可能需要模拟量子级别的粒子路径。最底层可能是量子场论,但那也只是现实的一种抽象。理论上,我们此刻的互动可以用量子场论描述,但这需要测量宇宙波函数,根本无法实现。因此我们发明了抽象,如粒子、原子、分子,在生物界则是蛋白质、细胞、器官、社会和生态系统。每一层抽象都忽略了下一层的细节,从而让我们能做出更长期、更可靠的预测。我们可以用心理学来描述彼此的互动,这比粒子物理学的抽象层级高得多。科学的每一个分支,本质上都是由你做出预测时的抽象级别定义的。
在极高的抽象层面上,我们可以利用物理学的理想气体状态方程 。在全局浮现的现象学层面,如果你增加压力,温度就会升高;增加温度,压力也会升高;或者释放一些粒子,压力就会下降。我们始终在为复杂事物构建这种现象学模型,并忽略物理学家称之为熵的各类细节。这是一种非常系统化的方法,也是我们理解世界的方式。我们不会死记硬背所感知的每一个细节,更不会试图去重建它,因此世界模型根本不需要是模拟器。或者说,它们确实是模拟器,但存在于抽象的表征空间中,它们只模拟现实中相关的部分。举个例子,如果我问你 100 年后木星的位置在哪里,尽管我们拥有海量的木星信息,但要做出这个预测,你只需要木星的三个位置坐标和三个速度矢量这六个数字,其余的信息完全不重要。
(关于游戏与合成数据)我认为它非常有用。来自游戏的数据能让你学到很多知识,就像孩子们通过玩耍学到大量知识一样。这本质上也是对世界的一种模拟,只不过是在不会产生致命后果的安全条件下进行的。但我担心视频游戏的局限性,比如为了追求视觉效果和酷炫感而设计的动画,往往与物理现实不符。如果一个 AI 完全通过这类世界模型辅助训练,短期内可能会带上类似的怪癖。
这取决于在什么层级训练它们。如果你使用非常精确的机器人模拟器,它确实能精确模拟手臂的动力学。当你施加扭矩时,它会按特定的轨迹移动。但这部分的动力学模拟没问题,真正困难的是模拟操纵物体时的摩擦力。摩擦力极其难以精准模拟,因此目前的模拟器在处理精细操纵时并不特别准确。不过它们已经足够让 AI 学会基本技能,再通过一点适应性调整,就能实现从模拟到现实的迁移。
更重要的一点是,关于物理世界有很多极度基础的规律,我们视为理所当然,并能从抽象层面习得,但这些与语言完全无关。例如桌子上放着这些物体,当我推桌子时,物体会随之移动。这是我们后天习得的,而非与生俱来。再比如,当你放手时,大多数物体会因重力而坠落,婴儿大约在九个月大时学会这一点。很多人质疑我,是因为我说大语言模型不懂这些,直到今天它们也确实不懂。虽然你可以通过微调让它们在面对提问时给出正确答案,但那仅仅是某种背诵反刍,而非对底层动力学的真实理解。
目前一些前沿的视频生成模型实际上是在表征空间中进行预测,利用 Diffusion Transformers 来计算视频片段。这种计算是在抽象的表征空间完成的,并不总是自回归生成的,有时是并行处理。然后由第二个扩散模型将这些抽象表征转化为画面精美的视频。这其中可能存在模式崩塌(Mode collapse),因为我们目前无法真正衡量这类 AI 对现实世界的覆盖精度。这里还有另一个对我们显而易见、以至于不觉得需要学习的概念,但我们确实学过,即一个人不能同时出现在两个地方。这是因为我们很早就掌握了客体永久性,意识到物体消失后依然存在。
要训练 AI 学习这一概念,你只需要给它看大量视频。当物体移动到屏障后又从另一侧出现,或者屏障移开后物体仍在原处,这些都是正常的。当你给四个月大的婴儿展示违反这些规律的场景时,他们会瞪大眼睛表现得极度惊讶,因为现实违反了他们的内部模型。同理,如果你让一个小车从平台上滑落却漂浮在空中,九到十个月大的婴儿会非常惊讶,而六个月大的婴儿则几乎没反应,因为他们还没习得重力的概念。这种学习才是真正关键的。
07 AI 安全应通过世界模型在架构层面实现约束
关于 AI 风险,以 Yoshua Bengio 为代表的末日论观点引发了广泛讨论,你如何定位自己的立场?当智能达到犬类甚至人类临界点时,危险性是否会失控?目前通过微调或限制输出空间的策略是否足以应对安全挑战?
Yann LeCun: 首先,我认为通用智能的概念完全站不住脚,这一概念的设计初衷是为了指代人类水平智能,但人类智能本质上是高度专业化的。人类擅长在现实世界中导航或进行社交互动,这是长期进化的结果,但在国际象棋等逻辑任务上,我们的原始天赋其实很弱。事实上,许多动物在特定领域的表现都远超人类。我们之所以产生“通用智能”的幻觉,是因为我们只能感知到自己思维所能触及的问题。我们在自己能想象到的问题领域表现得看似通用,但实际上存在大量我们无法想象的认知边界。由于存在数学层面的论证支持,通用智能这一说法更像是某种伪命题。我们真正应该讨论的是,机器是否能在所有人类擅长的领域达到甚至超越人类水平。答案是肯定的,且在翻译、棋类等特定领域,AI 已经实现了超越。
(关于实现时间线)实现人类水平智能并非一蹴而就的突发事件,而是一个渐进的过程。未来几年,我们可能会基于 JEPA 世界模型和规划技术取得突破。如果路径顺畅且没有不可预见的障碍,这或许是通往人类水平 AI 的理想路径。乐观估计,如果我们能在构建高效模型、处理连续噪声信号及复杂规划方面取得进展,可能在 5 到 10 年内实现接近犬类甚至人类水平的智能。但历史经验表明,AI 领域总会遇到未知的障碍,若需发明全新的底层概念,这一过程可能需要 20 年甚至更久。最难的部分其实是达到犬类智能,一旦实现了这一步,大部分核心要素就已具备。从灵长类到人类的跨越,除了大脑容量的增加,关键在于语言。在大脑中,语言主要由韦尼克区和布罗卡区处理,这些区域在进化史上出现得较晚,结构也并非想象中那么复杂。目前 LLM 在语言编码与思想解码方面表现优异,未来 LLM 或许可以充当 AI 系统的语言处理模块,而我们目前研究的重点是前额叶皮层,这才是世界模型的核心所在地。
(关于风险管理)这种现象确实存在。几个月前,我在纽约大学遇到过一名因受 AI 言论影响而情绪不稳定的男子。此外,我还收到过一些高中生的邮件,他们因深信末日论者关于 AI 毁灭世界或导致失业的言论而陷入重度抑郁。我告诉他们,人类依然会掌握主动权。技术进步史证明,任何强大的技术都伴随着副作用,关键在于权衡与修正。以喷气发动机为例,其可靠性完全建立在工程与材料学的进步之上。我们将先制造出具有代理能力的、拥有世界模型的系统,即便其智力仅相当于猫脑水平,我们也会为其设置护栏。Stuart Russell 曾举过“机器人为了拿咖啡而伤害阻挡者”的例子,这其实是很容易解决的工程问题,只需在底层逻辑中加入避开人类的硬性约束即可。
(关于安全手段)我不赞成通过简单的微调来解决 LLM 的安全问题,因为这种方式很容易被越狱。我们应该采用目标驱动的 AI 架构。在这种架构中,系统通过世界模型预测后果,并通过优化算法寻找最优动作序列,同时必须满足所有安全约束。这种本质安全性是由架构逻辑决定的,而非后期修补。目前一些限制 LLM 输出空间的技术有用,但成本高得离谱。目前的做法是让系统生成大量候选输出,再通过过滤器进行毒性评级和筛选,这种方式极其低效。除非我们能开发出目标驱动的价值函数,从源头上驱动系统产生高质量、符合安全标准的输出。
08 Meta 的 AI 布局与组织架构深度解析
目前 Meta 内部的组织架构和研发方向正在经历哪些重要调整?在 Alex Wang 监督下的四大部门如何分工?FAIR 的定位发生了怎样的改变?
Yann LeCun: 高得分、低毒性的 AI 系统输出往往伴随着高昂的成本。在 Meta 内部,目前 Alex Wang 负责监督所有与 AI 相关的研发和产品工作,他管理着整个运营体系。在他的组织架构下,Meta 超智能实验室分为四个主要部门。首先是 FAIR,专注于长期基础研究。其次是 TBD 实验室,主要致力于构建前沿模型,且研发重点几乎完全集中在大语言模型(LLM)上。第三个部门是 AI 基础设施,负责软件基础设施的开发。最后一个是产品部门,负责将前沿模型转化为用户可用的聊天机器人,例如将 AI 功能整合进 WhatsApp 等应用。
(关于 FAIR 的变化)目前 FAIR 的研发导向正在发生变化,开始转向一些周期较短的项目。与以往重视论文发表的传统相比,FAIR 现在更加强调对 TBD 实验室在 LLM 和前沿模型开发方面的支持。这种转变意味着 Meta 的技术生态正在变得更加封闭,发表的研究成果也在减少。在具体的团队划分上,TBD 实验室设有专门研究 LLM 的首席科学家,而其他部门则更偏向基础设施和产品。以开发“分割一切模型”的团队为例,他们最初隶属于 FAIR,但由于其工作更偏向面向外部的实际应用,目前已被划归至产品部门。
09 Scaling Law 不是通往超智能的唯一路径,AI 必须处理连续高维的现实数据
硅谷目前是否存在技术路径的单一化倾向?除了主流的 LLM 路径,有哪些团队在尝试不同的路径?为什么你认为 JEPA 是处理工业应用数据的关键?
Yann LeCun: 当前硅谷工业界存在一种明显的“羊群效应”,由于竞争极度白热化,各大主流 AI 巨头往往倾向于采用相同的技术路径。这种趋势导致了技术的单一化。所谓的“LLM 执念”开始盛行,这种观点认为实现超智能的唯一路径就是通过 Scaling Law 不断扩展 LLM。但我认为这种思路无法真正通往超智能。目前流行的推理技术,本质上是产生超长的思维链,让系统生成海量的 Token 输出,再通过评估函数筛选结果,这种方法并不能解决根本问题。
(关于非 LLM 路径)我们需要一种完全正交的技术方案。在硅谷,虽然许多公司都在涌向 LLM 领域,但也有一些团队在尝试不同的路径。例如 Physical Intelligence 专注于生成几何结构正确的视频。在世界模型领域,Wayve 展现出了更具潜力的路径,他们在抽象的表示空间中训练预测器,以实现时间维度的序列预测。此外,Nvidia 以及 Sandbox AQ 等公司也在关注定量模型。这些模型旨在处理连续、高维且嘈杂的预测任务。联合嵌入预测架构(JEPA)和世界模型的初衷,就是为了处理那些 LLM 无法胜任的数据类型。为了打破这种技术垄断和思维定式,必须逃离这种单一文化。我正在招揽那些不迷信 LLM 路径的人才,共同开发能够真正辅助人类的智能系统。
10 个人使命与生涯建议:增加世界的智能总量
对于想要开启 AI 生涯的年轻人,你应该学习哪些知识?如何看待 AI 对编程的影响?AI 最终是否会产生统治人类的欲望?
Yann LeCun: 我始终认为,通过机器辅助来提升人类的智慧,增加世界上的智能总量,是一件本质上正确的事情。回顾我的整个职业生涯,其核心目标都是一致的:让人们变得更聪明。AI 并不因为具备智能就必然产生统治或接管的欲望,人类之所以有统治欲望,是因为我们作为社会物种,这种驱动力是由进化预设的。但在我们构建的智能中,完全没有理由加入这种驱动力,它们也不会自发产生这种欲望。
(关于思想演进)思想的诞生极其复杂,很少有人能完全孤立地提出一个主意。反向传播就是一个典型案例,虽然我理清了全部逻辑,但在他人发表成果前未能正式成文。世界模型的概念可以追溯到 60 年代的最优控制理论,而卷积网络利用局部连接提取特征的概念在 60 年代就已存在。所谓的抄袭指控毫无意义,这完全是对思想演进过程的误解。
(关于学习建议)如果你今天开启 AI 生涯,你应该学习那些具有长期价值的知识。这种能力源于对基础学科的掌握。你要专注于经得起时间考验的学科,这些知识往往不在计算机科学课程里。我本科是学电气工程的,你应该学习数学和建模中的基础知识,尤其是概率论、线性代数、控制理论或信号处理。此外,物理学也是极好的选择,物理学的核心在于如何通过表示现实来构建预测模型,而这正是智能的本质。
(关于编程未来)未来大部分代码可能都是一次性的。编写代码的成本会变得极其廉价,你只需吩咐 AI 助手,AI 会瞬间生成一段小程序,你用完即弃。那种认为不再需要程序员的观点是错误的,计算机不仅不会变得没用,反而会变得更有用。
(关于 Linux 式目标)Linux 创始人曾说他的目标是“全面统治”,他居然真的做到了,现在全世界几乎每一台计算机都在运行 Linux。我们要构建的 AI 也应在日常生活中为全人类提供帮助。AI 将始终是放大人类智能的工具,而不是人类的老板,它们不会统治我们,我对未来非常乐观。
11 神经科学与 AI:灵感来源与反哺
您如何看待神经科学与机器学习之间的互动关系?在卷积网络的设计中,您是如何借鉴生物视觉皮层架构的?未来是否会有更多借鉴大脑模块化(如海马体)的新型架构出现?
Yann LeCun:我确实深受神经科学经典研究的影响。比如视觉皮层架构的研究,这正是卷积网络的灵感来源。我并不是第一个将这些想法引入人工神经网络的人。早期的研究者尝试构建多层局部连接网络,但缺乏反向传播这种有效的训练手段。例如福島邦彦(Kunihiko Fukushima)开发的 Neocognitron 具备了现代卷积网络的很多要素,只是缺少合适的学习算法。
Neocognitron 试图复刻每一个生物学细节,比如大脑中并没有正负权重,而是存在正向和负向神经元。抑制性神经元的突触具有负权重,而非抑制性神经元则具有正权重。他还模拟了神经元的脉冲发放,虽然没有精确的脉冲神经元模型,但他意识到脉冲数不可能是负的,所以他使用了带饱和点的整流函数。这种机制后来被证实与视觉皮层理论模型高度吻合。
所以,神经科学一直是重要的灵感来源。最近,人们开始关注大脑的宏观架构,比如世界模型和规划模块。为什么大脑会有专门处理事实记忆的海马体?现在在某些神经网络架构中,我们也看到了独立的存储模块。我认为未来会出现更多新型的 AI 架构,而我们往往会在事后发现,这些特征其实在大脑中早有对应。事实上,现在的趋势是 AI 正在反哺神经科学,目前解释人类感知的最佳模型其实就是卷积网络。
12 专家系统与 AGI 的轮回
当前社会对 AI 导致的失业风险和 AGI 的实现时间极其焦虑。作为行业先行者,您为何建议我们要审慎选择听信的对象?历史上的“专家系统”和“通用问题求解器”带给我们哪些关于复杂性理论的教训?
Yann LeCun:我想提醒大家,要审慎选择你听信的对象。千万不要听 AI 科学家谈论经济学。当某些 AI 专家甚至商业巨头宣称 AI 会导致所有人失业时,去请教一下真正的经济学家。你会发现几乎没有职业经济学家认同这种极端观点。技术革命对劳动力市场的影响是一个非常专业的领域,在那些毕生研究该领域的学者中,没有人预测会出现大规模失业,也没有人认为放射科医生会集体下岗。此外,我们要意识到,将 AI 部署到实际应用中并使其达到足够的可靠性,是一件极其困难且昂贵的事情。
在之前的 AI 浪潮中,很多曾被寄予厚望的技术最终都因过于笨重和昂贵而难以落地。比如 80 年代的专家系统热潮,当时日本启动了宏大的第五代计算机项目,试图开发运行 Lisp 语言和推理引擎的专用 CPU。当时最炙手可热的职业是知识工程师,工作就是把专家的知识转化为逻辑规则。这其实就是早期的手动行为编码。虽然它在某些领域发挥了作用,但并不是通向人类水平智能的道路。
今天人们产生了一种幻觉,认为当前的 AI 主流路径能直接带我们走向人类智能,这种幻觉在历史上已经出现过多次。看看当年人们对感知机的评价,甚至有预言称十年内就能实现超级智能。玛文·明斯基在 60 年代也预言过十年内计算机将击败世界顶尖棋手,结果花了几十年才实现。这种循环一再上演。比如 1956 年的通用问题求解器,制作者认为所有问题都能转化为目标搜索过程。但他们当时并不了解复杂性理论,实际上大部分有趣的问题在计算上都是指数级的或是 NP 完全的。于是他们只好转向启发式编程,为每个问题设计专门的启发式方法。最终证明,通用问题求解器一点也不通用。所以,那种认为最新的一项技术就能带我们实现 AGI 或者 Scaling Law 的想法是非常危险的。在过去的七十年里,无数聪明人都掉进过这个陷阱。
13 攻克持续学习难题:自监督学习的技术闭环
“灾难性遗忘”一直是深度学习的顽疾。您认为 AI 领域能彻底解决持续学习或增量学习的难题吗?在您的研究中,有哪些具体的案例证明了动态调整模型顶层可以应对环境变化?
Yann LeCun:当然可以,这在技术上并不是死胡同。关于灾难性遗忘,你可以只训练模型的一小部分。事实上,我们已经在自监督学习(Self-Supervised Learning,简称 SSL)中这样做。比如我们训练 VJAT 2 这种视频模型,它能产生非常优秀的视频表征。如果你想让它完成特定任务,只需在顶层训练一个轻量级的头部即可。这个头部可以持续学习,甚至你的世界模型也可以实现持续训练。
我不认为这算是一个巨大的挑战。早在 2005 年,我和同事就为移动机器人构建过基于视觉的导航系统,那个系统使用了卷积网络进行语义分割,网络的顶层会根据当前环境进行实时动态调整。只要有多模态数据,这就是可以实现的。
| 文章来源:数字开物
【AI技术与应用交流群|仅限受邀加入】
AI算力领域TOP级从业者专属圈层
√ 与头部算力企业深度对话
√ 与AI上下游企业深度对话
√ 获取一手全球AI与算力产业信息
√ 获取AI热点及前沿产业独家信息
√ 随时了解全球AI领域高管最新观点及实录全文
√ 有机会参与AI主题产业交流活动
扫码验证身份(需备注姓名/公司/职务
不止有 DeepSeek,更有 AI产业的未来!
• END •
【专栏】精品再读
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.