![]()
AI界的"视觉教母"李飞飞在其个人Substack发布重磅长文《From Words to Worlds: Spatial Intelligence is AI's Next Frontier》,迅速引发学术界和科技圈热议。
![]()
作为构建ImageNet、开启现代AI视觉革命的领军人物,李飞飞这次给出了一个明确判断:空间智能是AI的下一个前沿。她指出,当前大语言模型虽然能写能聊,但本质上是"黑暗中的雄辩家"——对真实三维世界、物理规律、空间关系几乎一无所知。
为此,她创立的World Labs正在构建"世界模型"(World Models),并首次公开了首个产品Marble——全球首个能生成一致3D环境的世界模型。这将是继大语言模型之后,AI的下一次范式革命。
以下是对这篇文章的完整编译:
核心要点速览(TLDR)
•当前AI的本质缺陷:大语言模型就像"坐在黑屋子里的文学家"——能说会道、知识丰富,但对真实世界一无所知。它们连最基本的空间任务都做不好:判断距离、旋转物体、预测物理运动的准确率接近瞎猜。
•空间智能才是智能的根基:人类和动物的智能不是从语言开始的,而是从5亿年前最原始的"感知-行动"循环进化而来。我们停车、接钥匙、在人群中穿行,都依赖空间智能——这是比语言更底层的能力。
•世界模型是解决方案:李飞飞提出需要构建全新的AI架构——不是改进LLM,而是开发能理解3D空间、物理规律和动态变化的"世界模型"。这比语言模型复杂得多,因为世界不是一维序列,而是多维的、受物理定律约束的。
•世界模型的三项核心能力:
能把现实或想象的场景转化为精确的3D空间表示
能生成符合物理规律、几何一致、时间连贯的虚拟世界
能预测"如果我这样做,世界会变成什么样"
•技术挑战极其艰巨:需要解决三个难题——找到类似"预测下一个词"那样简单优雅的训练方法;从海量图像视频中提取3D信息;设计能处理4维时空数据的全新神经网络架构。
•Marble是第一个吃螃蟹的产品:World Labs推出了全球首个能用文字、图片等多种方式"召唤"出可探索3D世界的AI系统。电影人、游戏设计师、建筑师可以像指挥一样创造场景,而不需要学复杂的3D建模软件。
•应用前景分三步走:
马上能用:创意工具革命,普通人也能做大片级别的场景
五年左右:机器人学习大爆发,通过虚拟世界训练解决数据不足问题
十年以上:科学研究加速器,在虚拟世界里做药物实验、材料测试、气候模拟
•李飞飞的AI哲学:“AI必须增强人类,而非取代人类。” 她反复强调,空间智能不是为了让机器抢走人类的工作,而是让创作者更有创造力、让科学家更高效、让老人和病人得到更好的照顾。
•历史意义的类比:这次革命就像埃拉托色尼用影子测地球、沃森用铁丝模型发现DNA一样——都是用空间思维突破人类认知边界。现在轮到我们把这种能力给机器了。
•为什么现在是关键节点:ImageNet催生了视觉AI,Transformer催生了语言AI,而世界模型将开启"空间AI"时代。李飞飞认为这是未来十年最重要的技术方向,基础架构还在摸索阶段,正是布局的最佳时机。
•World Labs的研究方向:他们正在攻克实时生成技术(最新成果RTFM模型用"空间记忆帧"保持世界一致性)、合成数据生成、3D/4D感知架构——目标是让AI像人类一样"看一眼就知道空间关系"。
•最打动人的一句话:爱因斯坦说"创造力是智力在玩耍"。李飞飞说,空间智能就是要让AI也能"玩耍"——不是机械地执行任务,而是真正理解、想象和创造世界。
•对创作者的承诺:未来你不需要几百万预算和专业团队,一个人就能创造出《阿凡达》级别的虚拟世界。AI处理技术细节,你专注于讲故事和创意本身。
•呼吁整个行业参与:这不是一家公司能完成的任务,需要全球研究者、工程师、企业、政策制定者一起努力。李飞飞把这称为她的"北极星" ——邀请所有人加入这场探索。
从语言到世界:空间智能是AI的下一个前沿
1950年,当计算仅仅是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍回响不绝的问题:机器能思考吗?能看到他所见的未来,需要非凡的想象力:智能或许有朝一日可以被构建,而非仅能天生。这一洞见后来开启了一场名为"人工智能"(AI)的不懈科学探索。进入AI领域25年后,我仍然深受图灵愿景的鼓舞。但我们离目标有多近?答案并不简单。
今天,大语言模型(LLM)等领先AI技术已经开始改变我们获取和处理抽象知识的方式。然而,它们仍是黑暗中的文字匠人——雄辩却缺乏经验,博学却不接地气。空间智能将彻底改变我们创造和互动真实及虚拟世界的方式——革新叙事、创意、机器人、科学发现等诸多领域。这,正是AI的下一个前沿。
对视觉和空间智能的追求,一直是我进入这个领域以来的北极星。这就是为什么我花费多年构建ImageNet——首个大规模视觉学习和基准测试数据集,也是催生现代AI的三大关键要素之一(另外两个是神经网络算法和GPU等现代算力)。这就是为什么我在斯坦福的学术实验室过去十年一直在将计算机视觉与机器人学习结合。也正因如此,我和联合创始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前创立了World Labs:首次全面实现这一可能性。
在这篇文章中,我将解释什么是空间智能、为何它重要,以及我们如何构建能够解锁它的世界模型——这些模型的影响将重塑创造力、具身智能和人类进步。
AI的激动时刻与未竟之梦
AI从未如此令人兴奋。生成式AI模型如LLM已从研究实验室走入日常生活,成为数十亿人创造、生产和交流的工具。它们展现了曾被认为不可能的能力——生成连贯的文本、海量代码、逼真的图像,甚至是短视频片段。AI是否会改变世界已不再是问题。按任何合理定义,它已经做到了。
然而,太多事物仍遥不可及。自主机器人的愿景依然引人遐想但仍属推测,远未成为未来学家长期承诺的日常家居设备。大幅加速疾病治疗、新材料发现、粒子物理等领域研究的梦想基本未能实现。而那个真正理解并赋能人类创造者的AI承诺——无论是学习分子化学复杂概念的学生、可视化空间的建筑师、构建世界的电影制作人,还是任何寻求全沉浸式虚拟体验的人——仍然遥不可及。
要理解为何这些能力仍然难以企及,我们需要审视空间智能是如何进化的,以及它如何塑造我们对世界的理解。
空间智能的进化起源
视觉长期以来一直是人类智能的基石,但其力量源于更根本的东西。早在动物能筑巢、照顾幼崽、用语言交流或建立文明之前,简单的感知行为就已悄然开启了一段通往智能的进化旅程。
这种看似孤立的从外部世界获取信息的能力——无论是一缕光线还是质感的触觉——在感知与生存之间架起了一座桥梁,这座桥梁随着世代演进变得愈发坚固和精细。一层层神经元从这座桥梁生长出来,形成了解释世界并协调有机体与环境互动的神经系统。因此,许多科学家推测,感知与行动成为驱动智能进化的核心循环,也是自然创造我们这个物种的基础——感知、学习、思考和行动的终极体现。
空间智能在定义我们如何与物理世界互动中扮演着根本性角色。每一天,我们都依靠它完成最普通的行为:通过想象保险杠与路缘之间逐渐缩小的间隙来停车;接住扔过房间的钥匙;在拥挤的人行道上穿行而不碰撞;或是睡眼惺忪地把咖啡倒进杯子而不用看。在更极端的情况下,消防员在浮动的烟雾中穿越坍塌的建筑,对稳定性和生存做出瞬间判断,通过手势、肢体语言和没有语言替代品的共享专业直觉进行交流。儿童在能说话之前的数月或数年里,通过与环境的玩耍互动来学习世界。所有这些都是直觉性、自动化的——而机器尚未达到的流畅性。
空间智能也是我们想象力和创造力的基础。讲故事的人在脑海中创造独特丰富的世界,并利用多种视觉媒介将它们带给他人——从古代洞穴壁画到现代电影再到沉浸式电子游戏。无论是孩子们在海滩上堆沙堡,还是在电脑上玩《我的世界》,基于空间的想象力构成了真实或虚拟世界中互动体验的基础。在许多工业应用中,对物体、场景和动态互动环境的模拟,为从工业设计到数字孪生再到机器人训练等无数关键商业用例提供支持。
历史上充满了空间智能扮演核心角色的文明定义时刻。在古希腊,埃拉托色尼将影子转化为几何——在亚历山大测量到7度角的同时,太阳在塞内恰恰好不投影——从而计算出地球周长。哈格里夫斯的"珍妮纺纱机"通过一个空间洞见革新了纺织制造:在单个框架中并排安排多个纺锤,让一个工人能同时纺多股线,生产率提高了八倍。沃森和克里克通过物理构建3D分子模型发现了DNA结构,操作金属板和金属线,直到碱基对的空间排列咔嗒一声到位。在每个案例中,当科学家和发明家必须操纵物体、可视化结构和推理物理空间时,空间智能推动了文明前进——而这些都无法仅用文本捕捉。
空间智能是我们认知构建的脚手架。无论我们是被动观察还是主动创造,它都在发挥作用。它驱动我们的推理和规划,即使是在最抽象的话题上。它对我们的互动方式至关重要——无论是口头还是物理上,与同伴还是与环境本身。虽然我们大多数人并非每天都在埃拉托色尼的层面上揭示新真理,但我们经常以同样的方式思考——通过感官感知复杂世界,然后利用对物理、空间运作方式的直觉理解来理解它。
不幸的是,今天的AI还不会这样思考。
当前AI的空间能力鸿沟
过去几年确实取得了巨大进步。除了文本数据外,还用海量多媒体数据训练的多模态LLM(MLLM)引入了一些空间意识的基础,当今AI可以分析图片、回答关于它们的问题,并生成超逼真的图像和短视频。通过传感器和触觉技术的突破,我们最先进的机器人可以开始在高度受限的环境中操纵物体和工具。
然而坦率地说,AI的空间能力仍远低于人类水平。而且局限很快就会显现。最先进的MLLM模型在估算距离、方向和大小方面的表现很少优于随机水平——或者"心理"旋转物体,从新角度重新生成它们。它们无法导航迷宫、识别捷径或预测基本物理。AI生成的视频——虽然新兴且确实很酷——通常在几秒钟后就失去连贯性。
虽然当前最先进的AI可以在阅读、写作、研究和数据模式识别方面表现出色,但这些模型在表示或与物理世界互动时存在根本性局限。我们对世界的看法是整体性的——不仅是我们正在看的东西,还包括一切在空间上如何关联、意味着什么以及为何重要。通过想象、推理、创造和互动来理解这一点——而不仅仅是描述——这就是空间智能的力量。没有它,AI就与它试图理解的物理现实脱节。它无法有效驾驶我们的汽车、引导机器人进入我们的家庭和医院、实现全新的沉浸式和互动式学习与娱乐体验,或加速材料科学和医学的发现。
哲学家维特根斯坦曾写道:"我的语言的界限意味着我的世界的界限。"我不是哲学家。但我至少知道对AI而言,不仅仅有文字。空间智能代表了语言之外的前沿——连接想象力、感知和行动的能力,为机器真正增强人类生活开辟了可能性,从医疗到创造力,从科学发现到日常协助。
构建空间智能AI:世界模型的三大核心能力
那么我们如何构建空间智能AI?通往能够以埃拉托色尼的视野进行推理、以工业设计师的精度进行工程设计、以讲故事者的想象力进行创造,并以急救人员的流畅性与环境互动的模型的路径是什么?
构建空间智能AI需要比LLM更雄心勃勃的东西:世界模型——一种新型生成式模型,其在理解、推理、生成和与语义、物理、几何和动态复杂的世界(虚拟或真实)互动的能力,远超当今LLM的能力范围。这个领域仍处于初期,当前方法从抽象推理模型到视频生成系统不等。World Labs成立于2024年初,基于这样一个信念:基础方法仍在建立中,这使其成为未来十年的决定性挑战。
在这个新兴领域,最重要的是建立指导发展的原则。对于空间智能,我通过三项基本能力来定义世界模型:
空间理解与推理
解锁空间智能的世界模型还必须生成自己的模拟世界。它们必须能够生成无限多样化的模拟世界,遵循语义或感知指令——同时保持几何、物理和动态一致性——无论表示真实还是虚拟空间。研究界正在积极探索这些世界应该在内在几何结构方面隐式还是显式表示。此外,除了强大的潜在表征外,我认为通用世界模型的输出还必须允许为许多不同用例生成明确、可观察的世界状态。特别是,它对现在的理解必须与过去连贯地联系起来;与导致当前状态的世界先前状态联系起来。多模态输入处理
正如动物和人类一样,世界模型应该能够处理多种形式的输入——在生成式AI领域被称为"提示"。给定部分信息——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型应该尽可能完整地预测或生成世界状态。这需要以真实视觉的保真度处理视觉输入,同时以同等能力解释语义指令。这使代理和人类都能通过多样化的输入与模型交流世界,并反过来接收多样化的输出。行动预测与目标导向生成
最后,如果动作和/或目标是世界模型提示的一部分,其输出必须包括世界的下一个状态,以隐式或显式表示。当仅给定一个动作(带或不带目标状态)作为输入时,世界模型应该产生与世界先前状态、预期目标状态(如有)及其语义含义、物理规律和动态行为一致的输出。随着空间智能世界模型在推理和生成能力方面变得更加强大和稳健,可以想象,在给定目标的情况下,世界模型本身将能够不仅预测世界的下一个状态,还能根据新状态预测下一个动作。
这一挑战的范围超过了AI面临的任何问题。
虽然语言是人类认知的纯粹生成现象,但世界遵循复杂得多的规则。例如在地球上,重力支配运动,原子结构决定光如何产生颜色和亮度,无数物理定律约束着每一次互动。即使是最奇幻、最有创意的世界,也是由遵循定义它们的物理规律和动态行为的空间物体和代理组成的。以一致的方式调和所有这些——语义的、几何的、动态的和物理的——需要全新的方法。表示世界的维度远比语言等一维序列信号复杂得多。实现提供我们人类享有的那种通用能力的世界模型,需要克服几个艰巨的技术障碍。在World Labs,我们的研究团队致力于朝这一目标取得根本性进展。
以下是我们当前研究课题的一些示例:
• 用于训练的新通用任务函数
定义一个像LLM中的下一词预测一样简单优雅的通用任务函数,长期以来一直是世界模型研究的核心目标。输入和输出空间的复杂性使这样一个函数本质上更难制定。但虽然还有很多需要探索,这个目标函数和相应的表征必须反映几何和物理规律,尊重世界模型作为想象和现实的基础表征的根本性质。
• 大规模训练数据
训练世界模型需要比文本整理复杂得多的数据。好消息是:海量数据源已经存在。互联网规模的图像和视频集合代表了丰富、可访问的训练材料——挑战在于开发能够从这些基于二维图像或视频帧的信号(即RGB)中提取更深层空间信息的算法。过去十年的研究已经显示了将数据量和模型大小联系起来的缩放定律在语言模型中的力量;世界模型的关键解锁是构建能够以可比规模利用现有视觉数据的架构。此外,我不会低估高质量合成数据和深度、触觉信息等额外模态的力量。它们在训练过程的关键步骤中补充互联网规模的数据。但前进的道路取决于更好的传感器系统、更强大的信号提取算法,以及更强大的神经模拟方法。
• 新模型架构和表征学习
世界模型研究将不可避免地推动模型架构和学习算法的进步,特别是超越当前MLLM和视频扩散范式。这两者通常将数据标记化为1D或2D序列,这使得简单的空间任务变得不必要地困难——比如计算短视频中独特椅子的数量,或记住一小时前房间的样子。替代架构可能有所帮助,例如用于标记化、上下文和内存的3D或4D感知方法。例如,在World Labs,我们最近在名为RTFM的实时生成基于帧的模型上的工作展示了这种转变,它使用空间基础帧作为空间记忆的一种形式,以实现高效的实时生成,同时在生成的世界中保持持久性。
显然,在我们能够通过世界建模完全解锁空间智能之前,我们仍面临着严峻的挑战。这项研究不仅仅是理论练习。它是新一类创意和生产力工具的核心引擎。World Labs内部的进展令人鼓舞。我们最近向有限数量的用户展示了Marble的一瞥——有史以来第一个世界模型,可以通过多模态输入提示生成并维护一致的3D环境,供用户和讲故事者探索、互动,并在他们的创意工作流程中进一步构建。我们正在努力尽快向公众开放!
Marble只是我们创建真正空间智能世界模型的第一步。随着进展加速,研究人员、工程师、用户和商业领袖都开始认识到其非凡潜力。下一代世界模型将使机器在全新水平上实现空间智能——这一成就将解锁今天AI系统中仍然基本缺失的关键能力。
以人为本的AI发展理念
AI开发的动机很重要。作为帮助开启现代AI时代的科学家之一,我的动机一直很明确:AI必须增强人类能力,而非取代它。多年来,我一直致力于将AI开发、部署和治理与人类需求对齐。极端的技术乌托邦和世界末日叙事如今比比皆是,但我继续持有更务实的观点:AI由人开发、由人使用、由人治理。它必须始终尊重人的能动性和尊严。它的魔力在于扩展我们的能力;使我们更有创造力、更有联系、更高效、更充实。空间智能代表了这一愿景——赋能人类创造者、护理者、科学家和梦想家实现曾经不可能的事情的AI。这一信念驱使我致力于将空间智能作为AI的下一个伟大前沿。
应用前景:从创意到科学的变革
空间智能的应用跨越不同时间线。创意工具正在出现——World Labs的Marble已经将这些能力交到创造者和讲故事者手中。机器人代表了一个雄心勃勃的中期愿景,随着我们完善感知与行动之间的循环。最具变革性的科学应用将需要更长时间,但承诺对人类繁荣产生深远影响。
在所有这些时间线上,有几个领域因其重塑人类能力的潜力而脱颖而出。这将需要巨大的集体努力,超过单个团队或公司所能实现的。它将需要整个AI生态系统的参与——研究人员、创新者、企业家、公司,甚至政策制定者——朝着共同愿景努力。但这个愿景值得追求。以下是未来的面貌:
创意革命
"创造力是智力在玩乐。"这是我个人英雄爱因斯坦最喜欢的名言之一。早在书面语言之前,人类就讲故事——把它们画在洞穴墙壁上,代代相传,在共享叙事上建立整个文化。故事是我们理解世界、跨越距离和时间连接、探索人之为人意味着什么的方式,最重要的是,在自己内心找到生活和爱的意义。今天,空间智能有潜力以尊重其根本重要性的方式改变我们创造和体验叙事的方式,并将其影响从娱乐扩展到教育,从设计到建筑。
World Labs的Marble平台将把前所未有的空间能力和编辑可控性交到电影制作人、游戏设计师、建筑师和各种讲故事者手中,让他们能够快速创建和迭代完全可探索的3D世界,而无需传统3D设计软件的开销。创造行为仍然像以往一样至关重要且人性化;AI工具只是放大和加速创造者所能实现的。这包括:
新维度的叙事体验:电影制作人和游戏设计师正在使用Marble召唤整个世界,不受预算或地理限制,探索在传统制作流程中难以处理的各种场景和视角。随着不同形式媒体和娱乐之间的界限模糊,我们正在接近融合艺术、模拟和游戏的全新互动体验——个性化的世界,任何人,而不仅仅是工作室,都可以创造和居住自己的故事。
通过设计的空间叙事:本质上每个制造的物体或建造的空间都必须在物理创建之前在虚拟3D中设计。这个过程在时间和金钱上都高度迭代且昂贵。有了空间智能模型,建筑师可以在投入数月设计之前快速可视化结构,走进尚不存在的空间——本质上讲述关于我们如何生活、工作和聚集的故事。
新的沉浸式和互动体验:体验本身是我们作为物种创造意义的最深刻方式之一。在整个人类历史中,只有一个单一的3D世界:我们都共享的物理世界。只有在最近几十年,通过游戏和早期虚拟现实(VR),我们才开始瞥见分享我们自己创造的替代世界意味着什么。现在,空间智能结合新的形态因素,如VR和扩展现实(XR)头显和沉浸式显示器,以前所未有的方式提升了这些体验。
从昆虫到人类的动物都依赖空间智能来理解、导航和与他们的世界互动。机器人也不例外。自该领域诞生以来,空间感知机器一直是梦想,包括我在斯坦福研究实验室与学生和合作者的工作。这也是为什么我对使用World Labs正在构建的这类模型实现它们的可能性感到如此兴奋。
通过世界模型扩展机器人学习:机器人学习的进展取决于可行训练数据的可扩展解决方案。鉴于机器人必须学习理解、推理、规划和互动的巨大状态空间可能性,许多人推测需要互联网数据、合成模拟和真实世界人类演示捕获的组合才能真正创建可泛化的机器人。但与语言模型不同,当今机器人研究的训练数据稀缺。世界模型将在其中发挥决定性作用。
伴侣和协作者:作为人类协作者的机器人,无论是在实验室工作台上协助科学家还是协助独居老人,都可以扩大急需更多劳动力和生产力的部分劳动力。但这样做需要感知、推理、规划和行动的空间智能,同时——这是最重要的——与人类目标和行为保持同理心对齐。
扩展的具身形式:类人机器人在我们为自己建造的世界中发挥作用。但创新的全部好处将来自更多样化的设计:输送药物的纳米机器人、导航狭窄空间的软机器人,以及为深海或外太空建造的机器。
科学突破与社会福祉
除了创意和机器人应用外,空间智能的深远影响还将扩展到AI能够以拯救生命和加速发现的方式增强人类能力的领域。我在下面重点介绍三个可以产生深刻变革的应用领域,尽管不用说,空间智能的用例确实跨越更多行业。
科学研究
在科学研究中,空间智能系统可以模拟实验,并行测试假设,并探索人类无法到达的环境——从深海到遥远的星球。这项技术可以改变气候科学和材料研究等领域的计算建模。
医疗保健
在医疗保健中,空间智能将重塑从实验室到床边的一切。在斯坦福,我的学生和合作者多年来一直与医院、老年护理机构和家中的患者合作。这一经验使我相信空间智能在这里的变革潜力。AI可以通过多维建模分子相互作用来加速药物发现,通过帮助放射科医生发现医学成像中的模式来增强诊断,并实现支持患者和护理人员的环境监测系统,而不会取代治愈所需的人际联系。
教育
在教育中,空间智能可以实现沉浸式学习,使抽象或复杂概念变得具象,并创造对我们大脑和身体如何在学习中连接至关重要的迭代体验。在AI时代,对学龄儿童和成年人来说,更快、更有效的学习和再培训的需求尤为重要。学生可以探索细胞机制或多维度地走过历史事件。
在所有这些领域,可能性是无限的,但目标保持不变:增强人类专业知识、加速人类发现、放大人类关怀的AI——而不是取代作为人类核心的判断力、创造力和同理心。
结语:我们的北极星
过去十年,AI已成为全球现象,也是技术、经济乃至地缘政治的拐点。但作为研究者、教育者,现在还是企业家,最激励我的仍然是图灵那个75年前问题背后的精神。我仍然分享他的惊奇感。这就是空间智能的挑战每天激励我的原因。
我们首次有机会构建与物理世界如此协调的机器,可以将它们作为我们面临的最大挑战中的真正伙伴。无论是加速我们在实验室中理解疾病的方式,革新我们讲故事的方式,还是在我们因疾病、伤害或年龄而最脆弱的时刻支持我们,我们正处于能够提升我们最关心的生活方面的技术的边缘。这是一个更深刻、更丰富、更有力量的生活愿景。
在自然在近5亿年前在祖先动物中释放空间智能的第一缕曙光后,我们有幸成为可能很快就能赋予机器同样能力的这一代技术人员——并有特权利用这些能力造福各地人民。没有空间智能,我们对真正智能机器的梦想将不完整。
这个追求是我的北极星。请与我一起追求它。
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
整理:周华香
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.