![]()
来源:星云创联AI智库
你可能还在用AI写报告,惊叹于它的无所不知。
但图灵奖得主、深度学习三巨头之一的Yann LeCun,却在各种场合不断给这股狂热泼冷水。
他的观点散落在无数推文和访谈中,常常被断章取义。
这一次,我们把他的所有判断系统地连成一条线。
大模型这条路,到底能走多远?
![]()
01 那个被捧上神坛的预测游戏,其实根本没有学会理解世界
LeCun的态度非常务实。
他自己每天也在用大语言模型,承认它们是极具价值的基础设施。
但他坚信,这绝不是通往通用智能的正确路径。
这与OpenAI和Google那些坚信“只要规模足够大就能通关”的研究者,有着根本性的分歧。
大模型表现得再好,和真正的智能之间,也存在着一道无法逾越的裂缝。
想象一个简单的场景。
你问AI:“我需要洗车,洗车店离我家100米,我应该走路去吗?”
之前测试,有AI会头头是道地建议你走路去,理由是100米很近、省油、环保。
它甚至把“车必须被开到现场”这个最基本的物理前提,降格为无关紧要的例外。
它在解决一个根本不存在的问题。
![]()
你不需要思考就知道必须开车去,因为你要洗的是车。
但模型只抓住了“100米很近”的表层线索,在符号的统计规律里寻找下一个词。
它根本没有理解“洗车”这一行为在物理世界中的真实约束。
这并不是我们常说的“幻觉”,而是更深层的结构性盲区。
它缺少现实世界运行规律的内部表征。
现在的各种改进,比如调用工具、优化提示词,都只是在给汽车换更好的轮胎。
汽车原本的工作原理没有变,它学到的依然是语言符号的统计学,而不是现实。
有人试图通过多模态训练来打破这个限制,让模型同时看视频、听声音。
但在LeCun看来,如果训练目标仍然只是预测观测数据本身,多模态也救不了它。
大模型的成功,恰恰建立在语言是离散符号这一前提上。
因为目标具体,词表固定,损失函数明确,所以它极其擅长规则明确、可客观验证的数学和代码。
但知道怎么做,不等于理解为什么。
它更像是一个做了十万道例题的学生,习得了模式,却不懂规律。
预训练就像是在空地上建了一座藏书海量的图书馆。
后训练的对齐,则只是培训了一个知道该怎么说话的图书馆员。
书的内容没变,改变的只是服务态度。
即使引入链式推理或蒙特卡洛树搜索,它也无法复刻AlphaGo Zero的奇迹。
因为围棋有明确规则和即时反馈,而现实任务根本没有这种清晰的转移状态。
更现实的危机是,高质量的人类文本数据快要枯竭了。
Epoch AI估算,全球高质量公开文本大约在300万亿Token左右。
而像Llama 3-70B训练就已经消耗了7000亿Token。
按照目前的消耗速度,数据瓶颈将在2025到2030年之间轰然降临。
为了自救,AI公司开始转向版权数据和合成数据。
但这会引发可怕的“模型崩塌”。
当AI开始大量吃进AI自己生成的、未经筛选的数据,偏差就会像雪崩一样累积。
最终,模型会丢失那些稀有但重要的真实信息,变得越来越单调、失真。
数据墙只是外部约束,真正的死穴在它的内部架构。
02 为什么我们不能指望一个没有后果反馈的系统去规划未来
真正的智能,不仅要能描述世界,还必须能预测自己的行动会带来什么后果。
你在过马路时,大脑会自动模拟:现在走会不会被撞?等几秒是不是更安全?
你不需要真的走过去试错,而是在脑海中用一个简化的世界模型完成了预演。
大模型没有这个内部模拟器。
对它来说,输出每一个词就是它的“行动”。
它只是在用文字模仿对世界的描述,而不是在内部模拟世界的运行。
这就是第一个致命缺口:缺少对行动后果的预测能力。
不仅如此,智能还需要规划。
你要去巴黎,会在脑海中比较直飞、转机、高铁的代价与收益。
大模型则是逐个词顺序输出的,它无法在脑子里构想多个未来,再挑出最优的一条。
它的多路径搜索,只是在语言空间里换一种“说法”。
而真正的规划,是在物理状态空间里换一种“走法”。
《自然·神经科学》的一篇论文指出,大脑本质上是一台预测机器,感知只是为了校正预测。
因为处理感官信号需要时间,大脑必须提前下注,用预测跑在现实前面。
大模型不需要承受任何后果,它的上一个词和下一个词之间,没有物理世界的反馈。
为了解决这个问题,LeCun提出了JEPA架构。
它以配置器为核心,统筹感知、世界模型、成本模块、短期记忆和执行器,在行动前先在内部进行模拟。
没有预测,搜索就会变成盲目的穷举。
围棋有 $10^{170}$ 种可能,AlphaGo能赢是因为有价值网络这个“世界模型”来剪枝。
大模型的搜索依然在语言空间,它比较的是“哪段话听起来更像好计划”。
而JEPA直接在世界模型构建的状态空间里推演,让执行器提出行动,世界模型预测状态,成本模块评估,滚动多步。
这些缺口,是无法通过打补丁来修复的。
无论是检索增强、工具调用还是反思链路,都只是在外部叠加能力。
它们面临着无法绕过的墙:
规划依然在语言空间,与真实状态空间存在无法填补的鸿沟。
泛化极度依赖示范数据。
17岁孩子20小时就能学会开车,而自动驾驶采集了数百万公里依然在复杂场景下不稳定。
因为人类有物理世界模型能举一反三,而数据驱动只是在死记硬背。
安全约束是后训练硬贴上去的,不仅有损,还极易被越狱。
通过人类反馈强化学习做对齐,会让模型变得保守,且文言文或罕见语言提示词轻易就能绕过过滤。
它只是让输出看起来合规,并没有让模型理解为什么有害。
常识缺失无法靠数据堆砌解决。
冬天要不要放掉室外水管的水,这种因果判断对人是常识,对大模型却是盲区。
03 那个被寄予厚望的具身智能大脑,为什么在现实中碰了壁
既然纯语言不行,那加上身体和感知呢?
这就是曾经让二级市场疯狂的VLA(视觉-语言-动作)模型。
RT-2的发布曾让人以为具身智能商业化提前了三年。
但当它走进真实场景,可靠性不足、数据依赖重、泛化脆弱的毛病暴露无遗。
LeCun在访谈中给出了最直接的判词:“VLA现在基本上被视为失败。”
VLA尝试把视觉、语言和动作塞进一个端到端的统一系统。
看见环境,理解指令,联合推理,然后直接生成机器人的控制指令。
这看似合理,实则是路线的错配。
语言是离散的,物理世界是连续且复杂的。
2025年软件工程顶会FSE发表的《VLATest》对七个代表性VLA模型进行了模糊测试。
结论非常残酷:稍微改变相机视角、光照条件、物体遮挡,模型的鲁棒性就会崩溃。
随后的《LIBERO-Plus》研究更发现,适度的扰动能让VLA的成功率从95%骤降到30%以下。
更讽刺的是,实验表明,VLA模型在相当程度上忽略了语言指令,只依赖视觉线索。
它本质上是在做视觉模式匹配,而不是理解因果。
在软件里错可以重试,但在物理世界,机器人的错误动作往往不可逆,代价极其高昂。
而且,VLA的数据成本高得吓人。
大模型的数据有通用迁移性,但VLA的模仿学习数据没有。
每个新任务、新环境,都要重新收集演示数据,成本呈线性甚至超线性增长。
2026年ICLR的论文《From Seeing to Doing》指出,由于具身数据的稀缺,VLA无法实现鲁棒的零样本性能,最佳模型的成功率仅为72%。
它无法进行显式的多步规划,只能自回归地问“下一个动作是什么”。
理想汽车基座模型负责人在2026年GTC大会上痛陈:3D空间理解对齐效率低、决策延迟长、长尾场景无法突破。
北大王勇涛团队也指出其三大缺陷:隐式规则导致罕见场景泛化差、模态推理割裂、价值对齐缺失。
既然如此,为什么Google、NVIDIA、Figure等巨头还在疯狂押注VLA?
因为工业界和LeCun的视角不同。
LeCun看重的是通往AGI的终极路径,而巨头们需要解决未来三到五年的商业落地。
首先,VLA拥有目前最成熟的工程技术栈,不需要等待理论突破。
其次,仓库分拣、工厂装配等任务,并不需要完美的“世界模型”,只要在固定环境里达到95%的成功率就有商业价值。
最后,VLA也在不断吸收世界模型的思想,引入状态预测和强化学习。
未来,或许不是谁取代谁,而是分工协作。
但要实现通用具身智能,我们必须寻找新的方向。
世界模型并不是新概念。
从卡尔曼滤波、Dyna架构,到Ha的深度世界模型、PlaNet、Dreamer,再到MuZero,研究者一直在探索。
而JEPA的独特价值,在于完全抛弃了像素重建,在潜在空间中学习“可预测的表征”。
04 别再试图让AI画出世界,它只需要在脑海里预判倒下的水瓶
LeCun对世界模型的定义非常精炼:让智能体预测自身行动后果的事物。
它存在的意义是服务于规划,而不是画出精美的画面。
他用一个水瓶做类比。
一个装满水没有盖子的水瓶,你推它底部它会滑动,推顶部它会翻倒。
但你无法精确预测它倒下的具体方向,更不可能在像素级别预判每一个水滴的飞溅。
这说明,人类对世界的预测是在抽象表征层进行的。
试图在像素空间做预测,会遭遇不可约的不确定性和维度的诅咒。
一张256x256的图片有近20万个维度,而语义表征可能只有192维。
像素预测会把宝贵的算力浪费在重建纹理、光照、阴影等对决策毫无意义的细节上。
在信息论中,像素空间的条件熵极高,而语义空间的条件熵低且结构化。
人类大脑不会进行“像素级心理渲染”,JEPA正是对这一生物直觉的模拟。
这里存在一个关键的分叉:生成式世界模型(如Sora、Genie) vs JEPA。
生成式路线试图重建所有观测细节,训练目标包含大量不可预测的噪声。
LeCun认为这会导致浪费容量、因果混淆,且无法在潜在空间做动作优化。
他在FAIR主导的掩码自编码器(MAE)项目,结果就非常令人失望。
而JEPA完全在语义表征空间中运行。
它使用联合编码器将两个不同视角的观测映射到潜在空间,用预测器在潜在空间推演,通过梯度截断防止偷懒。
最近,LeCun唯一推荐的论文《LeWorldModel》(2026年3月发表)验证了这一路线。
它的编码器采用ViT-Tiny架构,使用Batch Normalization而非LayerNorm,以释放方差。
预测器是一个10M参数的Transformer,动作条件通过自适应层归一化注入。
它的训练目标极其干净:预测损失加上防止坍缩的SIGReg正则化。
在Push-T任务中,LeWorldModel取得了96%的成功率,比PLDM提升了18%。
同等算力下,它的token数量减少了200倍,规划速度比DINO-WM快了近50倍。
虽然它在视觉丰富的3D环境(如OGBench-Cube)中因缺乏大规模预训练先验而略逊于DINO-WM,但它证明了端到端隐世界模型的工程可行性。
当然,它目前仍有局限:自回归误差会随规划长度累积,难以进行长程推理;且高度依赖高交互覆盖度的离线数据,在简单场景下SIGReg强制匹配高斯分布会导致表征学习困难。
但它在工业领域的短期价值已经显现。
喷气发动机、化工厂、发电厂等复杂系统,无法用方程建模,却可以通过世界模型来预测控制变量改变后的后果。
这是比机器人更近的落地场景,也是AMI Labs的优先方向。
05 解决自监督学习最棘手的作弊,需要一场数学上的降维打击
神经网络在训练时有一个天然的惰性:如果可以,它会选择最省力的方法。
在自监督学习中,这个惰性会导致致命的“表征坍缩”。
模型会把所有不同的输入,都映射成同一个向量。
这样预测器每次都“猜对了”,损失函数一路走低,表面成功,实则成了毫无用处的白痴。
为了对付这个“作弊解”,学术界尝试了三条路线。
第一条是对比学习。
它的逻辑很直观:把相似的拉近,把不同的推开。
但在高维潜在空间里,空间极度稀疏,随机采样的负样本大多天然就很远,对训练毫无贡献。
而真正有价值的困难负样本又极度稀缺。
这就陷入了欠采样导致坍缩,或过度采样破坏语义的两难境地。
第二条是蒸馏方法,比如BYOL和DINO。
它让学生网络去追一个通过指数移动平均缓慢移动的老师网络。
LeCun对这种方法的评价很微妙:“我们不喜欢它,但它确实有效。”
因为它的目标一直在移动,你监控的损失函数根本不等于真实的优化目标。
损失下降不代表表征变好,训练过程就像一个无法解释的黑箱。
第三条是显式正则化,这是LeCun最看好的方向。
VICReg通过三项损失来强制表征携带信息:不变性、方差(强迫各维度在样本间展开)和协方差(防止维度之间“串供”)。
这很有效,但超参数太多,系统过于复杂。
而LeWorldModel采用的SIGReg则完成了进一步的数学精化。
2026年5月的理论工作证明,在特定世界中,只有潜在分布为高斯时,模型才能线性恢复世界的真实潜在变量。
SIGReg利用数学定理,将高维表征随机投影到一维,然后用统计学方法检验它是否符合高斯分布。
如果不符合,就施加惩罚。
这把复杂的防坍缩问题,变成了一个数学上极度干净的分布匹配问题。
它让LeWorldModel把超参压缩到只有一个,在单张GPU上几小时就能完成稳定训练。
这不仅是一个技术细节,它决定了世界模型能否真正走向工程规模化。
06 当对齐只是事后贴上的补丁,安全就成了一场概率性的赌博
解决了技术可行性,我们必须面对那个最核心的拷问:我们能保证AI是安全的吗?
LeCun给出了一个可能让整个行业不适的结论:“大语言模型本质上是不安全的,它们无法变得可靠和安全。”
这不是工程细节的缺陷,而是自回归架构的宿命。
因为你无法阻止幻觉,模型在任何时刻都只是在预测概率,没有内置的验证机制。
当它被赋予智能体权限去调用工具、执行代码时,你无法保证它不会采取未预测到后果的行动。
编码智能体抹掉用户硬盘的惨剧,早已不是科幻小说。
现有的RLHF、安全微调,本质上都是在训练数据上压低危险输出的概率。
它们是概率性的软约束,而不是确定性的硬保证。
训练误差和测试误差之间永远存在缝隙,总有分布外的提示词能完成“越狱”。
中科大的研究发现,在具身智能中,指令里稍微加入一些无关的上下文,VLA模型就会受到严重干扰。
因果理解层面的研究更揭示,VLA的注意力往往过度激活在背景等无关区域。
即使完全遮盖视觉输入,它的输出动作依然遵循类似趋势。
它根本不知道自己在做什么,只是在机械地匹配统计关联。
对此,LeCun给出的出路是:目标驱动AI(Objective-Driven AI)。
它的核心逻辑是,AI的行为不是由“预测下一个词”驱动的,而是由“寻找能满足目标的行动序列”驱动的。
你给系统一个目标,世界模型在内部模拟各种行动的后果。
如果模拟的结果不满足代价函数 and 安全约束,系统就绝不执行。
安全约束(比如“不要伤害任何人”)被直接写进目标函数,成为系统从构造上就无法违反的硬约束。
它与现有对齐方案有着本质的区别。
现有方案是事后约束,在推理时容易逃逸。
目标驱动则是事前规划,在行动前就已经用世界模型排除了所有危险选项。
如果找不到安全的路径,系统宁可选择不行动或呼叫人类。
CVPR 2026最佳论文提名工作《See, Plan, Rewind》就演示了这种“异常检测与回溯”的事前规划理念。
当然,目标驱动AI也有失败模式,比如代价函数设计错误,或者世界模型预测不准。
但它是可调试、可验证的,这与大模型那种无法定位、无法承诺的安全有着天壤之别。
07 硅谷巨头买不走的私域数据,正在开源联邦里筑起新的长城
除了技术层面的不安全,还有一类风险正在悄然逼近:认知主权。
未来,人们的信息摄入将极度依赖AI助手和智能眼镜。
这意味着,你眼中的世界,是由少数几个掌握了AI技术的国家或巨头过滤后呈现的。
这会带来语言、文化和政治价值上的严重失衡。
许多国家不希望自己的公民被外部开发的模型“洗脑”,主权AI的呼声因此高涨。
LeCun给出的工程回应,是一个名为Tapestry的联邦式全球训练方案。
它允许全球的贡献者共同训练一个模型,但各方保留对数据的控制权,不需要共享原始数据。
大家在本地训练,只在云端交换和平均参数向量。
这让不共享数据从一种妥协,变成了一种优势。
回顾历史,1996年互联网基础设施的霸主是Sun Microsystems和HP,但它们最终都被开源的Linux彻底淘汰。
今天的OpenAI和Anthropic,就是昨天的Sun。
当AI走向基础设施层,可定制、可审计、低成本的开源生态将展现出结构性优势。
尤其是在公开文本枯竭的当下,闭源巨头不得不花巨资购买版权或使用有毒的合成数据。
而Tapestry则能将大量未被公开的私域数据——比如地方语言、学术文献、政务文档——通过联邦机制安全地纳入训练。
这些数据,是闭源巨头用钱也买不到的。
开源生态,正在用一种全新的机制实现反超。
08 语言归语言,物理归物理,未来的智能大脑终将迎来分工
大模型不会消失,但它正在从神坛上退下来,回到它最适合的位置。
它将作为“语言与知识接口层”长期存在,扮演智能系统的“语言皮层”。
在写作、翻译、代码等“语言即推理基底”的领域,它依然是无可替代的利器。
但它不再承担核心的决策与规划任务。
未来的AI系统,更可能是一个清晰的三层分工架构。
最上层是LLM层,负责听懂人话、检索知识、自然交互。
中间层是世界模型层,基于JEPA架构,在抽象潜在空间里预测后果、规划路径。
最底层是统一决策层,维护全局目标和安全约束。
这就像人类大脑的分工:语言皮层负责沟通,前额叶负责思考规划,运动系统负责执行。
这对应着认知科学中的双系统理论。
系统一快速、本能,由LLM负责,处理日常的模式匹配。
系统二缓慢、深思,由世界模型负责,在未知和复杂场景中进行后果模拟。
行业对“需要范式转变”的认识,在2027年初将变得不言而喻。
这不意味着届时我们就能拥有完美的解决方案,但认知的转变将不可逆转。
我们可以通过两个信号来观测这个进程:一是大模型在物理域的规模化是否持续撞墙,二是JEPA在受限工业场景中的规划能否被成功复现。
智能的本质,从来不是预测下一个词,而是预测行动的后果。
狂热退去后,真正的变革才刚刚开始。
阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”
![]()
未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
![]()
截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.