人类大脑中未被破译的进化密码,AI的未来或许正系于此。
近日,图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun)被曝将离职创业,将以“世界模型”(World Models)为技术核心,延续其深耕多年的探索方向,这一动作迅速引发全球AI圈的关注。
“AI教母”李飞飞在自己的社交平台发布万字长文,直指当下大语言模型(LLM)的算力穹顶与认知局限。她提出,AI 的未来不在于模型参数的无限扩容,而在于植入 “空间智能”(Spatial Intelligence)—— 这种人类先天具备、婴儿阶段即觉醒的基础认知能力,才是通往通用人工智能(AGI)的必经之路。
与此同时,李飞飞创立的 World Labs于11月13日推出首款产品Marble,以多模态世界模型为核心引擎,可从单张图像、视频片段或文本描述中,生成具备持久性的三维数字孪生空间,为空间智能搭建起关键的三维认知基座。
当AI从纯虚拟语境切入物理现实维度,现实世界的复杂约束与动态交互,正呼唤一套颠覆性的认知模型破局。
![]()
一场关于AI本质的路线分歧
Yann LeCun在Meta任职12年,其技术愿景与扎克伯格主导的大语言模型路径存在分歧已不是秘密。
他曾公开表示:“大语言模型永远无法实现人类推理能力。”这句话直指AI发展的核心矛盾:究竟该用文本数据训练出更会聊天的机器,还是让AI像婴儿一样通过视觉观察学习物理规律?
一直以来,大语言模型受制于数据质量和数据规模,其认知边界始终被训练数据的“无形围墙”所束缚。
数据偏见会固化模型的认知偏差,噪声数据直接稀释推理精度,而时效性滞后则让模型困于“信息时差”,难以捕捉现实世界的动态演进。即便持续扩容数据规模,参数堆砌也逐渐陷入“规模魔咒”,算力消耗与效果增益呈现非线性失衡,边际效益持续递减。
更核心的桎梏在于,大语言模型的认知局限于文本符号的线性关联,缺乏对物理世界的三维空间建模能力与动态因果推理能力。它无法精准映射现实世界的空间拓扑、物体属性与运动规律,也难以理解“行动-反馈”的实时交互逻辑,导致在跨场景落地时频繁出现认知断层。
Yann LeCun比如无法通过文本描述精准还原立体场景,亦不能基于现实约束做出符合物理常识的决策。
这种依赖文本数据喂养的模式,终究难以突破“符号牢笼”,无法复刻人类从具象体验中提炼抽象知识的认知路径。
当AI需要从虚拟交互走向物理世界的实际应用,从单一任务响应升级为复杂场景的自主决策,纯文本驱动的模型架构已难以承载通用人工智能的进化需求,唯有跳出数据规模竞赛,转向对世界本质的结构化理解,才能开启下一段技术跃迁。
“世界模型派”普遍认为,大语言模型存在根本局限。李飞飞强调,语言是人类为交流创造的抽象信号,自然界本无文字,AI若仅依赖文本,无法真正理解物理世界规律,易沦为“黑暗中的文字大师”。
Yann LeCun多次批评大语言模型仅为强大文本数据库,缺乏对现实世界的理解能力。世界模型则致力于通过高维感知数据直接建模,绕开语言转换,在潜空间内推演物理规律,并输出行动指令,实现对环境的内在理解与主动推理。
就像人类婴儿不需要阅读百科全书就能理解重力——他们通过眼睛观察杯子坠落,用手触摸桌面来建立物理世界的认知。这正是LeCun推崇世界模型的关键:动态视频数据包含的时空信息,远比抽象文本更接近智能的本质。
比如球撞倒积木的瞬间,既包含材质硬度信息,也隐藏着力学规律。而大语言模型从维基百科学到的“牛顿定律”,不过是符号的统计关联。MIT的研究更证明,大脑处理空间认知时会激活特定神经网络——这种生物本能,正是当前纯文本AI缺失的底层能力。
“Word Models”一词最早出现在2018年Jurgen在机器学习顶会NeurPS上发表的一篇名为《Recurrent World Models Facilitate Policy Evolution》的文章中,文章以认知科学中人脑的心智模型(Mental Model)来类比世界模型,认为心智模型参与了人类的认知,推理、决策过程,其中最核心的能力在于反事实推理。
该模型使AI具备预测与规划能力,如理解物体破碎原理、预判车辆转向轨迹,为具身智能、自动驾驶及人机协作机器人提供基础支撑。李飞飞将其概括为让“看见”升级为“推理”,“感知”转化为“行动”,“想象”落地为“创造”。
![]()
近年来,随着深度学习技术的不断发展和计算资源的增加,世界模型的研究取得了显著的进展。
例如,2019年DeepMind发表的MuZero算法、2022年Yann LeCun提出的JEPA表征模型、2024年的视频生成模型Sora和城市环境生成模型UrbanWord等,都推动了世界模型在不同领域的应用探索。
![]()
整体来看,世界模型是一种能够对现实世界环境进行仿真,并基于文本、图像、视频和运动等输入数据来生成视频、预测未来状态的生成式Al模型。它整合了多种语义信息,如视觉、听觉、语言等,通过机器学习、深度学习和其他数学模型来理解和预测现实世界中的现象、行为和因果关系。
简单来说,世界模型就像是A1系统对现实世界的“内在理解”和“心理模拟”。它不仅能够处理输入的数据,还能估计未直接感知的状态,并预测未来状态的变化。
这种模型使AI具备了类似人类的认知和推理能力,能够在一个虚拟的“脑海”中进行模拟和规划,从而更好地应对现实世界的复杂性。
区别于宽泛意义上的大语言模型,世界模型并非通过可获取的语言、图像及视频来理解现实场景,而是通过大量数据学习现实世界的物理规则,实施因果推理,从而预测、生成合乎现实规律的未来。其终极目的在于,通过训练让人工智能适应现实世界而非理论世界,让AI进化为物理AI。
世界模型具有三大核心特点:
其一,内在表征与预测。世界模型可以将高维的原始观测数据(如图像、声音、文本等)编码为低维的潜在状态,形成对世界的简洁而有效的表征。在此基础上,它能够预测在给定当前状态和动作的情况下,下一个时刻的状态分布,从而实现对未来事件的前瞻性预测。
其二,物理认知与因果关系。世界模型具备基本的物理认知能力,能够理解和模拟物理世界的规律,如重力、摩擦力、运动轨迹等。这使得它在处理与物理世界相关的问题时,能够提供更准确、更符合现实的预测和决策支持。
其三,反事实推理能力。世界模型不仅能够基于已有的数据进行预测,还能够进行假设性思考,即反事实推理。例如,它可以回答“如果环境条件改变,结果会怎样”这类问题,从而为复杂问题的解决提供更多的可能性和思路。
通常,一个完整的世界模型由状态表征模型、动态模型、决策模型三大组件构成。
状态表征模型的作用是将原始观测数据(如高维图像、传感器数据等)压缩为低维的潜在状态,保留关键信息,过滤噪声。常见的实现方法是使用变分自动编码器(VAE)等技术。这种压缩和表示方式使得模型能够更高效地处理和理解复杂的数据输入。
动态模型是世界模型的核心部分,用于预测给定当前潜在状态和动作时,环境的下一个状态分布。循环神经网络(RNN)、长短期记忆网络(LSTM)或随机状态空间模型(SSM)等通常被用来学习状态转移规律,从而构建对世界物理规律的隐式理解。
动态模型为智能体提供了一个虚拟的“沙盘”,使其能够在其中进行模拟和试验,而无需在真实环境中进行昂贵的试错。
基于状态预测,决策模型使用模型预测控制(MPC)或深度强化学习等方法,规划最优的动作序列以达成目标。它根据预测的未来状态来评估不同动作的价值或奖励信号,从而指导智能体在环境中采取合理的行动。
AI下一轮飞跃的引爆点
过去十年,AI的每一次跃迁都源自输入方式的变革:文字带来了语言智能,图像催生了视觉智能。而如今,世界模型正在让AI理解现实世界,一个有时间、有空间、有因果的动态系统。
不仅人工智能的先驱们几乎一致认为,世界模型对打造下一代人工智能正至关重要,科技巨头们也将世界模型视为人工智能发展节点上的关键。
近几个月,多家科技公司相继发布了在世界模型领域的进展,凸显了这一赛道的升温。
谷歌DeepMind的Genie系列模型在一年半内从2D升级至Genie 3,该模型可实时生成交互式3D环境。输入一句话,即可在720p分辨率下创建用户可自由探索的动态世界,场景细节能在长达一分钟的记忆中保持连贯。Genie 3项目联席负责人Shlomi Fruchter表示,通过构建模拟真实世界的环境,可以用更具扩展性的方式训练AI,且“无需承担在现实世界中犯错的后果”。
Meta发布代码世界模型(Code World Model),探索如何使用世界模型改进AI代码生成性能。该模型不只会写代码,而是能像程序员一样思考。CWM通过5T tokens的执行轨迹数据训练,能逐行模拟代码运行过程,从变量初始化到循环迭代,从函数调用到异常抛出,每一步状态变化都能精准预测,直接将AI编程从静态文本生成推向动态执行推理的新纪元。
与此同时,芯片巨头英伟达的首席执行官黄仁勋断言,公司的下一个主要增长阶段将来自“物理AI”,这些新模型将彻底改变机器人领域。英伟达正利用其Omniverse平台创建和运行此类仿真,以支持其向机器人领域的扩张。
特斯拉CEO马斯克可以说是最早抛出“世界模型”这一说法的人士之一。特斯拉为了实现全球范围内所有路况的自动驾驶,在感知跟决策中间,嵌入了一个AI模型,主要是构建一个虚拟环境,以便进行自动驾驶能力的学习和验证。
这种世界模型方法,其实已经对现实世界产生了潜在的巨大影响。风险投资公司Lightspeed的合伙人兼投资者Moritz Baier-Lentz表示,无人机战争、新型机器人和比人类更安全的自动驾驶车辆都正从中受益。
![]()
优步前AI业务负责人Gary Marcus指出,无论当今生成式人工智能接受多少数据训练,它们只能建立世界运作的概率模型。本质上,当前人工智能学习的是输入数据间的关联性——无论是文字图像,还是分子及其功能。这种对世界模糊的近似认知,似乎被混杂地编码在AI“大脑”中,既包含数据本身,又包含大量关于数据处理的庞杂规则,而这些规则又往往残缺不全或自相矛盾。
一个很好的例子是:一台运行1979年程序的雅达利2600游戏机,可以在国际象棋比赛中击败最先进的聊天机器人。这些聊天机器人往往会尝试非法走法,并很快忘记棋子的位置。本质上,当今基于Transformer架构的人工智能是在进行预测,而不是逻辑推理。尽管它们已经通过无数规则手册的训练,但仍然如此。
尽管世界模型展现出了巨大的潜力,但也面临许多挑战。
首先,是技术和生态层面的挑战。构建世界模型需要大量的多模态数据,包括视频、音频、传感器数据等,而这些数据的收集、标注和整理往往成本高昂且耗时费力。同时,数据的质量和多样性也会直接影响模型的性能和泛化能力。
同时,世界模型也缺乏跨平台协同的工程体系配套。目前而言,世界模型没有标准,缺乏统一的训练语料、可比的评价指标与公共实验平台,企业往往各自为战。如果无法实现跨模型的可验证性与可复用性,世界模型的生态就很难真正形成规模化创新。
其次,是认知层面的挑战。世界模型的强大之处,在于它可以在内部推演与预测,但这也让它的决策过程愈发难以被人类理解。试想一下,当一个模型能在潜在空间中模拟成千上万种结果时,我们还能否追踪它的决策逻辑?
从自动驾驶的责任归属,到自主智能之间,有没有可能产生目标漂移(Goal Drift),进而延伸出AI的目标是否仍与人类一致的问题。一旦AI从被动执行转为主动学习,安全与伦理的议题,也随之从技术层面上升到价值层面。
第三,是产业和伦理层面的挑战。世界模型的进一步发展,势必重新定义产业边界。AI不仅可能重构交通、制造、医疗、金融等领域的决策体系,也将催动算法主权、智能监管等制度议题。
中美虽然在路径上各有偏重,美国凭借资本与开放生态快速试错,中国依托产业链协同推进落地,但双方都面临同一问题,当世界模型真正嵌入社会运行系统,它将以何种规则参与人类世界?
就目前而言,世界模型所依托的世界,仍然建立在人类提供的语料、规则与经验上。但AI的持续进化,有赖于人类持续地在技术、伦理与治理层面为智能设定边界,这会是一项长期的考验。
必须承认,目前世界模型的研究仍处于早期阶段。相较于适合快速迭代、短期内易于落地的VLA路线,世界模型代表了更底层的认知方式,强调物理规律和空间理解力,适合长期演进。
尽管挑战显著,但全球已在这一赛道展开竞争。但在这条平行赛道上,一场定义AI下一个十年的角逐已经鸣枪起跑,AI正在努力超越文本边界,尝试理解并重塑我们所在的物理世界。
可以肯定的是,世界模型的意义,绝对不是让AI更像人,而是让人类在AI的协同下,走向更远的未来。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.