图灵奖得主LeCun最新预言：大模型正在逼近它的天花板|模态|智能体|神经网络|lecun

分享至

来源：星云创联AI智库

你可能还在用AI写报告，惊叹于它的无所不知。

但图灵奖得主、深度学习三巨头之一的Yann LeCun，却在各种场合不断给这股狂热泼冷水。

他的观点散落在无数推文和访谈中，常常被断章取义。

这一次，我们把他的所有判断系统地连成一条线。

大模型这条路，到底能走多远？

01 那个被捧上神坛的预测游戏，其实根本没有学会理解世界

LeCun的态度非常务实。

他自己每天也在用大语言模型，承认它们是极具价值的基础设施。

但他坚信，这绝不是通往通用智能的正确路径。

这与OpenAI和Google那些坚信“只要规模足够大就能通关”的研究者，有着根本性的分歧。

大模型表现得再好，和真正的智能之间，也存在着一道无法逾越的裂缝。

想象一个简单的场景。

你问AI：“我需要洗车，洗车店离我家100米，我应该走路去吗？”

之前测试，有AI会头头是道地建议你走路去，理由是100米很近、省油、环保。

它甚至把“车必须被开到现场”这个最基本的物理前提，降格为无关紧要的例外。

它在解决一个根本不存在的问题。

你不需要思考就知道必须开车去，因为你要洗的是车。

但模型只抓住了“100米很近”的表层线索，在符号的统计规律里寻找下一个词。

它根本没有理解“洗车”这一行为在物理世界中的真实约束。

这并不是我们常说的“幻觉”，而是更深层的结构性盲区。

它缺少现实世界运行规律的内部表征。

现在的各种改进，比如调用工具、优化提示词，都只是在给汽车换更好的轮胎。

汽车原本的工作原理没有变，它学到的依然是语言符号的统计学，而不是现实。

有人试图通过多模态训练来打破这个限制，让模型同时看视频、听声音。

但在LeCun看来，如果训练目标仍然只是预测观测数据本身，多模态也救不了它。

大模型的成功，恰恰建立在语言是离散符号这一前提上。

因为目标具体，词表固定，损失函数明确，所以它极其擅长规则明确、可客观验证的数学和代码。

但知道怎么做，不等于理解为什么。

它更像是一个做了十万道例题的学生，习得了模式，却不懂规律。

预训练就像是在空地上建了一座藏书海量的图书馆。

后训练的对齐，则只是培训了一个知道该怎么说话的图书馆员。

书的内容没变，改变的只是服务态度。

即使引入链式推理或蒙特卡洛树搜索，它也无法复刻AlphaGo Zero的奇迹。

因为围棋有明确规则和即时反馈，而现实任务根本没有这种清晰的转移状态。

更现实的危机是，高质量的人类文本数据快要枯竭了。

Epoch AI估算，全球高质量公开文本大约在300万亿Token左右。

而像Llama 3-70B训练就已经消耗了7000亿Token。

按照目前的消耗速度，数据瓶颈将在2025到2030年之间轰然降临。

为了自救，AI公司开始转向版权数据和合成数据。

但这会引发可怕的“模型崩塌”。

当AI开始大量吃进AI自己生成的、未经筛选的数据，偏差就会像雪崩一样累积。

最终，模型会丢失那些稀有但重要的真实信息，变得越来越单调、失真。

数据墙只是外部约束，真正的死穴在它的内部架构。

02 为什么我们不能指望一个没有后果反馈的系统去规划未来

真正的智能，不仅要能描述世界，还必须能预测自己的行动会带来什么后果。

你在过马路时，大脑会自动模拟：现在走会不会被撞？等几秒是不是更安全？

你不需要真的走过去试错，而是在脑海中用一个简化的世界模型完成了预演。

大模型没有这个内部模拟器。

对它来说，输出每一个词就是它的“行动”。

它只是在用文字模仿对世界的描述，而不是在内部模拟世界的运行。

这就是第一个致命缺口：缺少对行动后果的预测能力。

不仅如此，智能还需要规划。

你要去巴黎，会在脑海中比较直飞、转机、高铁的代价与收益。

大模型则是逐个词顺序输出的，它无法在脑子里构想多个未来，再挑出最优的一条。

它的多路径搜索，只是在语言空间里换一种“说法”。

而真正的规划，是在物理状态空间里换一种“走法”。

《自然·神经科学》的一篇论文指出，大脑本质上是一台预测机器，感知只是为了校正预测。

因为处理感官信号需要时间，大脑必须提前下注，用预测跑在现实前面。

大模型不需要承受任何后果，它的上一个词和下一个词之间，没有物理世界的反馈。

为了解决这个问题，LeCun提出了JEPA架构。

它以配置器为核心，统筹感知、世界模型、成本模块、短期记忆和执行器，在行动前先在内部进行模拟。

没有预测，搜索就会变成盲目的穷举。

围棋有 $10^{170}$ 种可能，AlphaGo能赢是因为有价值网络这个“世界模型”来剪枝。

大模型的搜索依然在语言空间，它比较的是“哪段话听起来更像好计划”。

而JEPA直接在世界模型构建的状态空间里推演，让执行器提出行动，世界模型预测状态，成本模块评估，滚动多步。

这些缺口，是无法通过打补丁来修复的。

无论是检索增强、工具调用还是反思链路，都只是在外部叠加能力。

它们面临着无法绕过的墙：

规划依然在语言空间，与真实状态空间存在无法填补的鸿沟。

泛化极度依赖示范数据。

17岁孩子20小时就能学会开车，而自动驾驶采集了数百万公里依然在复杂场景下不稳定。

因为人类有物理世界模型能举一反三，而数据驱动只是在死记硬背。

安全约束是后训练硬贴上去的，不仅有损，还极易被越狱。

通过人类反馈强化学习做对齐，会让模型变得保守，且文言文或罕见语言提示词轻易就能绕过过滤。

它只是让输出看起来合规，并没有让模型理解为什么有害。

常识缺失无法靠数据堆砌解决。

冬天要不要放掉室外水管的水，这种因果判断对人是常识，对大模型却是盲区。

03 那个被寄予厚望的具身智能大脑，为什么在现实中碰了壁

既然纯语言不行，那加上身体和感知呢？

这就是曾经让二级市场疯狂的VLA（视觉-语言-动作）模型。

RT-2的发布曾让人以为具身智能商业化提前了三年。

但当它走进真实场景，可靠性不足、数据依赖重、泛化脆弱的毛病暴露无遗。

LeCun在访谈中给出了最直接的判词：“VLA现在基本上被视为失败。”

VLA尝试把视觉、语言和动作塞进一个端到端的统一系统。

看见环境，理解指令，联合推理，然后直接生成机器人的控制指令。

这看似合理，实则是路线的错配。

语言是离散的，物理世界是连续且复杂的。

2025年软件工程顶会FSE发表的《VLATest》对七个代表性VLA模型进行了模糊测试。

结论非常残酷：稍微改变相机视角、光照条件、物体遮挡，模型的鲁棒性就会崩溃。

随后的《LIBERO-Plus》研究更发现，适度的扰动能让VLA的成功率从95%骤降到30%以下。

更讽刺的是，实验表明，VLA模型在相当程度上忽略了语言指令，只依赖视觉线索。

它本质上是在做视觉模式匹配，而不是理解因果。

在软件里错可以重试，但在物理世界，机器人的错误动作往往不可逆，代价极其高昂。

而且，VLA的数据成本高得吓人。

大模型的数据有通用迁移性，但VLA的模仿学习数据没有。

每个新任务、新环境，都要重新收集演示数据，成本呈线性甚至超线性增长。

2026年ICLR的论文《From Seeing to Doing》指出，由于具身数据的稀缺，VLA无法实现鲁棒的零样本性能，最佳模型的成功率仅为72%。

它无法进行显式的多步规划，只能自回归地问“下一个动作是什么”。

理想汽车基座模型负责人在2026年GTC大会上痛陈：3D空间理解对齐效率低、决策延迟长、长尾场景无法突破。

北大王勇涛团队也指出其三大缺陷：隐式规则导致罕见场景泛化差、模态推理割裂、价值对齐缺失。

既然如此，为什么Google、NVIDIA、Figure等巨头还在疯狂押注VLA？

因为工业界和LeCun的视角不同。

LeCun看重的是通往AGI的终极路径，而巨头们需要解决未来三到五年的商业落地。

首先，VLA拥有目前最成熟的工程技术栈，不需要等待理论突破。

其次，仓库分拣、工厂装配等任务，并不需要完美的“世界模型”，只要在固定环境里达到95%的成功率就有商业价值。

最后，VLA也在不断吸收世界模型的思想，引入状态预测和强化学习。

未来，或许不是谁取代谁，而是分工协作。

但要实现通用具身智能，我们必须寻找新的方向。

世界模型并不是新概念。

从卡尔曼滤波、Dyna架构，到Ha的深度世界模型、PlaNet、Dreamer，再到MuZero，研究者一直在探索。

而JEPA的独特价值，在于完全抛弃了像素重建，在潜在空间中学习“可预测的表征”。

04 别再试图让AI画出世界，它只需要在脑海里预判倒下的水瓶

LeCun对世界模型的定义非常精炼：让智能体预测自身行动后果的事物。

它存在的意义是服务于规划，而不是画出精美的画面。

他用一个水瓶做类比。

一个装满水没有盖子的水瓶，你推它底部它会滑动，推顶部它会翻倒。

但你无法精确预测它倒下的具体方向，更不可能在像素级别预判每一个水滴的飞溅。

这说明，人类对世界的预测是在抽象表征层进行的。

试图在像素空间做预测，会遭遇不可约的不确定性和维度的诅咒。

一张256x256的图片有近20万个维度，而语义表征可能只有192维。

像素预测会把宝贵的算力浪费在重建纹理、光照、阴影等对决策毫无意义的细节上。

在信息论中，像素空间的条件熵极高，而语义空间的条件熵低且结构化。

人类大脑不会进行“像素级心理渲染”，JEPA正是对这一生物直觉的模拟。

这里存在一个关键的分叉：生成式世界模型（如Sora、Genie） vs JEPA。

生成式路线试图重建所有观测细节，训练目标包含大量不可预测的噪声。

LeCun认为这会导致浪费容量、因果混淆，且无法在潜在空间做动作优化。

他在FAIR主导的掩码自编码器（MAE）项目，结果就非常令人失望。

而JEPA完全在语义表征空间中运行。

它使用联合编码器将两个不同视角的观测映射到潜在空间，用预测器在潜在空间推演，通过梯度截断防止偷懒。

最近，LeCun唯一推荐的论文《LeWorldModel》（2026年3月发表）验证了这一路线。

它的编码器采用ViT-Tiny架构，使用Batch Normalization而非LayerNorm，以释放方差。

预测器是一个10M参数的Transformer，动作条件通过自适应层归一化注入。

它的训练目标极其干净：预测损失加上防止坍缩的SIGReg正则化。

在Push-T任务中，LeWorldModel取得了96%的成功率，比PLDM提升了18%。

同等算力下，它的token数量减少了200倍，规划速度比DINO-WM快了近50倍。

虽然它在视觉丰富的3D环境（如OGBench-Cube）中因缺乏大规模预训练先验而略逊于DINO-WM，但它证明了端到端隐世界模型的工程可行性。

当然，它目前仍有局限：自回归误差会随规划长度累积，难以进行长程推理；且高度依赖高交互覆盖度的离线数据，在简单场景下SIGReg强制匹配高斯分布会导致表征学习困难。

但它在工业领域的短期价值已经显现。

喷气发动机、化工厂、发电厂等复杂系统，无法用方程建模，却可以通过世界模型来预测控制变量改变后的后果。

这是比机器人更近的落地场景，也是AMI Labs的优先方向。

05 解决自监督学习最棘手的作弊，需要一场数学上的降维打击

神经网络在训练时有一个天然的惰性：如果可以，它会选择最省力的方法。

在自监督学习中，这个惰性会导致致命的“表征坍缩”。

模型会把所有不同的输入，都映射成同一个向量。

这样预测器每次都“猜对了”，损失函数一路走低，表面成功，实则成了毫无用处的白痴。

为了对付这个“作弊解”，学术界尝试了三条路线。

第一条是对比学习。

它的逻辑很直观：把相似的拉近，把不同的推开。

但在高维潜在空间里，空间极度稀疏，随机采样的负样本大多天然就很远，对训练毫无贡献。

而真正有价值的困难负样本又极度稀缺。

这就陷入了欠采样导致坍缩，或过度采样破坏语义的两难境地。

第二条是蒸馏方法，比如BYOL和DINO。

它让学生网络去追一个通过指数移动平均缓慢移动的老师网络。

LeCun对这种方法的评价很微妙：“我们不喜欢它，但它确实有效。”

因为它的目标一直在移动，你监控的损失函数根本不等于真实的优化目标。

损失下降不代表表征变好，训练过程就像一个无法解释的黑箱。

第三条是显式正则化，这是LeCun最看好的方向。

VICReg通过三项损失来强制表征携带信息：不变性、方差（强迫各维度在样本间展开）和协方差（防止维度之间“串供”）。

这很有效，但超参数太多，系统过于复杂。

而LeWorldModel采用的SIGReg则完成了进一步的数学精化。

2026年5月的理论工作证明，在特定世界中，只有潜在分布为高斯时，模型才能线性恢复世界的真实潜在变量。

SIGReg利用数学定理，将高维表征随机投影到一维，然后用统计学方法检验它是否符合高斯分布。

如果不符合，就施加惩罚。

这把复杂的防坍缩问题，变成了一个数学上极度干净的分布匹配问题。

它让LeWorldModel把超参压缩到只有一个，在单张GPU上几小时就能完成稳定训练。

这不仅是一个技术细节，它决定了世界模型能否真正走向工程规模化。

06 当对齐只是事后贴上的补丁，安全就成了一场概率性的赌博

解决了技术可行性，我们必须面对那个最核心的拷问：我们能保证AI是安全的吗？

LeCun给出了一个可能让整个行业不适的结论：“大语言模型本质上是不安全的，它们无法变得可靠和安全。”

这不是工程细节的缺陷，而是自回归架构的宿命。

因为你无法阻止幻觉，模型在任何时刻都只是在预测概率，没有内置的验证机制。

当它被赋予智能体权限去调用工具、执行代码时，你无法保证它不会采取未预测到后果的行动。

编码智能体抹掉用户硬盘的惨剧，早已不是科幻小说。

现有的RLHF、安全微调，本质上都是在训练数据上压低危险输出的概率。

它们是概率性的软约束，而不是确定性的硬保证。

训练误差和测试误差之间永远存在缝隙，总有分布外的提示词能完成“越狱”。

中科大的研究发现，在具身智能中，指令里稍微加入一些无关的上下文，VLA模型就会受到严重干扰。

因果理解层面的研究更揭示，VLA的注意力往往过度激活在背景等无关区域。

即使完全遮盖视觉输入，它的输出动作依然遵循类似趋势。

它根本不知道自己在做什么，只是在机械地匹配统计关联。

对此，LeCun给出的出路是：目标驱动AI（Objective-Driven AI）。

它的核心逻辑是，AI的行为不是由“预测下一个词”驱动的，而是由“寻找能满足目标的行动序列”驱动的。

你给系统一个目标，世界模型在内部模拟各种行动的后果。

如果模拟的结果不满足代价函数 and 安全约束，系统就绝不执行。

安全约束（比如“不要伤害任何人”）被直接写进目标函数，成为系统从构造上就无法违反的硬约束。

它与现有对齐方案有着本质的区别。

现有方案是事后约束，在推理时容易逃逸。

目标驱动则是事前规划，在行动前就已经用世界模型排除了所有危险选项。

如果找不到安全的路径，系统宁可选择不行动或呼叫人类。

CVPR 2026最佳论文提名工作《See, Plan, Rewind》就演示了这种“异常检测与回溯”的事前规划理念。

当然，目标驱动AI也有失败模式，比如代价函数设计错误，或者世界模型预测不准。

但它是可调试、可验证的，这与大模型那种无法定位、无法承诺的安全有着天壤之别。

07 硅谷巨头买不走的私域数据，正在开源联邦里筑起新的长城

除了技术层面的不安全，还有一类风险正在悄然逼近：认知主权。

未来，人们的信息摄入将极度依赖AI助手和智能眼镜。

这意味着，你眼中的世界，是由少数几个掌握了AI技术的国家或巨头过滤后呈现的。

这会带来语言、文化和政治价值上的严重失衡。

许多国家不希望自己的公民被外部开发的模型“洗脑”，主权AI的呼声因此高涨。

LeCun给出的工程回应，是一个名为Tapestry的联邦式全球训练方案。

它允许全球的贡献者共同训练一个模型，但各方保留对数据的控制权，不需要共享原始数据。

大家在本地训练，只在云端交换和平均参数向量。

这让不共享数据从一种妥协，变成了一种优势。

回顾历史，1996年互联网基础设施的霸主是Sun Microsystems和HP，但它们最终都被开源的Linux彻底淘汰。

今天的OpenAI和Anthropic，就是昨天的Sun。

当AI走向基础设施层，可定制、可审计、低成本的开源生态将展现出结构性优势。

尤其是在公开文本枯竭的当下，闭源巨头不得不花巨资购买版权或使用有毒的合成数据。

而Tapestry则能将大量未被公开的私域数据——比如地方语言、学术文献、政务文档——通过联邦机制安全地纳入训练。

这些数据，是闭源巨头用钱也买不到的。

开源生态，正在用一种全新的机制实现反超。

08 语言归语言，物理归物理，未来的智能大脑终将迎来分工

大模型不会消失，但它正在从神坛上退下来，回到它最适合的位置。

它将作为“语言与知识接口层”长期存在，扮演智能系统的“语言皮层”。

在写作、翻译、代码等“语言即推理基底”的领域，它依然是无可替代的利器。

但它不再承担核心的决策与规划任务。

未来的AI系统，更可能是一个清晰的三层分工架构。

最上层是LLM层，负责听懂人话、检索知识、自然交互。

中间层是世界模型层，基于JEPA架构，在抽象潜在空间里预测后果、规划路径。

最底层是统一决策层，维护全局目标和安全约束。

这就像人类大脑的分工：语言皮层负责沟通，前额叶负责思考规划，运动系统负责执行。

这对应着认知科学中的双系统理论。

系统一快速、本能，由LLM负责，处理日常的模式匹配。

系统二缓慢、深思，由世界模型负责，在未知和复杂场景中进行后果模拟。

行业对“需要范式转变”的认识，在2027年初将变得不言而喻。

这不意味着届时我们就能拥有完美的解决方案，但认知的转变将不可逆转。

我们可以通过两个信号来观测这个进程：一是大模型在物理域的规模化是否持续撞墙，二是JEPA在受限工业场景中的规划能否被成功复现。

智能的本质，从来不是预测下一个词，而是预测行动的后果。

狂热退去后，真正的变革才刚刚开始。

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是 “21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.