网易首页 > 网易号 > 正文 申请入驻

李飞飞最新万字访谈:未来五年,Transformer 可能被淘汰

0
分享至


编辑重点君

11月24日,斯坦福大学教授、World Labs创始人李飞飞参加播客访谈,详细阐述了她对空间智能(Spatial Intelligence)的构想,并讨论她与杨立昆在世界模型(World Models)上的不同观点流派问题。

在世界模型的构建上,李飞飞与前Meta首席科学家杨立昆(Yann LeCun)的理念常被外界视为两种流派。杨立昆倾向于让模型学习世界的抽象“隐式表征”,而不必还原每一帧像素;而李飞飞的Marble则力求从抽象的内部表征中产生显式表征,明确输出可视化的3D世界。

李飞飞并不认为两者是对立关系,她表示如果最终要构建一个通用的世界模型,隐式表征和显式表征最终都是必要的World Labs采用的是“刻意为之”的显式输出,因为其商业目标服务于游戏开发、视觉特效和建筑设计等领域的人类创作者,他们的日常工作需要一个可视化的、可交互的3D输出结果。但在模型内部,RTFM同样包含隐式表征。她认为,未来的架构将是两者的混合体。

作为World Labs的创始人,李飞飞在访谈中透露了公司的首个产品Marble,以及其背后的技术底座“实时帧模型”(RTFM)。与单纯生成视频的模型不同,Marble致力于生成具有一致性和持久性的3D空间,其模型不仅是多模态的,支持文本、图像、视频甚至粗略的3D布局作为输入,更重要的是它试图在推理过程中保持物体一致性。

她说,目前的LLM主要通过海量的文本数据学习,虽然语言模型令人惊叹,但人类大量的知识是无法仅通过语言捕捉的。为了构建真正的通用人工智能,AI必须走出文本的限制,通过视觉和行动去体验物理世界。人类的学习过程本质上是具身(Embodied)的,我们在没有语言的情况下与世界大量互动,感知光线、触觉、重力和空间关系。

当被问及目前的AI是否真正“理解”物理世界时,李飞飞认为,目前大多数生成式视频中展现的水流或树木摆动,并非基于牛顿力学计算,而是基于海量数据的统计学涌现虽然AI可能通过数据拟合出运动定律,但要达到爱因斯坦提出相对论那种层面的抽象,目前的Transformer架构尚未展现出足够的证据。

对于技术的演进速度,李飞飞认为在五年内,我们有望看到AI在理解物理世界方面取得重大进展。她描绘了一个基于“多重宇宙”(Multiverse)的未来图景:通过大幅降低3D内容生成的门槛,人类可以低成本地创造出无数个平行世界,这些数字平行世界将成为人类物理体验的无限延伸,重塑娱乐、教育、远程协作以及科学探索等多个领域场景。

李飞飞访谈内容划重点:

1. 空间智能是核心

仅靠语言不足以构建通用人工智能(AGI)。人类大量智能(如空间推理、急救反应)是非语言的。AI必须获得“空间智能”(Spatial Intelligence),要像生物一样,拥有深度感知的空间能力,建立起看、做和想象之间的完整闭环。

2.世界模型的新范式

World Labs 的核心产品 Marble 与普通视频生成模型的最大区别在于“物体恒常性”(Object Permanence)。在 Marble 生成的世界里,当你转身再转回来,背后的物体依然存在且保持原状,而不是像梦境一样随机变形。

李飞飞团队提出了“实时帧模型”(RTFM),其目标是在单张 H100 GPU 的算力约束下,实现高效的 3D 空间推理。这是为了构建一个在几何上一致、在时间上持久的“数字容器”,为未来能够理解物理法则的 AI 打下地基。

3. 与杨立昆和而不同

杨立昆主张世界模型要做抽象理解的“隐式表征”,李飞飞的Marble则力求从抽象的内部表征中产生显式表征。李飞飞认为隐式表征和显式表征最终必须融合,但目前 World Labs 刻意选择输出显式 3D 表征,目的是赋能人类。

未来的AI 不应只是一个黑盒,而应成为游戏开发者、建筑师和艺术家的“神经空间引擎”(Neural Spatial Engine)。它融合了传统物理引擎(如Unreal)的确定性规则和生成式 AI 的统计创造力,让普通人也能瞬间构建复杂的 3D 交互世界。

4. 视觉领域的“Next Token”难题

语言模型有完美的“预测下一个Token”作为目标函数。但在视觉领域,“预测下一帧”虽然强大但并不完美,因为它将三维世界压缩为二维,丢失了结构信息。寻找视觉领域的“通用任务函数”仍是未解之谜。

5. AI目前还不懂物理

AI生成的物理现象(如重力、碰撞)多源于统计规律的模仿,而非对物理定律的因果理解。现有的Transformer架构可能难以产生如“相对论”般的高级抽象,未来五年,行业需要寻找一种新的架构突破,让 AI 从统计相关性跨越到真正的因果逻辑和物理推理。


以下为李飞飞访谈实录:

主持人:欢迎收听本期播客。在这一集中,我很荣幸再次与人工智能先驱李飞飞博士对话。几年前我曾在播客上邀请过飞飞,我也推荐大家去听那一期节目。

在今天的对话中,我们将探讨她关于“世界模型”(World Models)的见解以及“空间智能”(Spatial Intelligence)的重要性——这些都是打造真正理解现实世界并能与之互动的 AI 的关键要素。虽然大型语言模型(LLMs)已经非常惊人,但大量(甚至大部分)人类知识并未被文字所捕捉。为了实现更广义的人工智能,模型需要亲身体验世界,或者至少通过视频来学习。我们还讨论了她的创业公司 World Labs 以及他们的第一个产品 Marble。Marble 可以从模型的内部表征生成令人难以置信的复杂 3D 空间。

1.从计算机视觉到空间智能的演进

主持人:我想先把话题从Marble 和你们那个能生成一致且持久的、供观众漫游的 3D 世界的新模型上移开,多谈谈你为什么把重点放在世界模型和空间智能上。为什么这是超越单纯语言学习的必要条件?

另外,你的方法与杨立昆的方法有何不同?你现在的世界模型工作,究竟是你过去在环境智能(Ambient Intelligence)工作的延伸,还是平行的另一条路线?

李飞飞:过去几年我一直思考的空间智能工作,实际上是我整个计算机视觉职业生涯重点的延续。

我之所以强调“空间智能”,是因为我们的技术已经发展到了这样一个阶段:其复杂程度和深层能力已经不再停留在仅仅“盯着”一张图像的层面,甚至不仅仅是简单的视频理解。现在的核心是深度感知的空间,这与机器人学、具身智能(Embodied AI)以及环境智能都紧密相连。从这个角度看,这确实是我在计算机视觉与 AI 领域职业生涯的自然延伸。

主持人:正如你和其他许多人所指出的,语言模型是从以文本编码的人类知识中学习的,但那只是人类知识的一个非常有限的子集。人类的学习是通过在没有语言的情况下与世界大量互动获得的。因此,如果我们要超越当前这些虽然了不起但仍有局限的大型语言模型,开发出能对世界有更直接体验、能更直接从世界中学习的模型就显得尤为重要。

谈到具体方法,以Marble 为例,你的做法是将模型学到的世界内部表征提取出来,并创建一个与之对应的外在视觉现实。而杨立昆的方法主要是建立内部表征,让模型能够学习运动物理定律之类的东西。这之间有平行关系吗?这两种方法是互补的,还是有重叠?

李飞飞:首先,我不会把自己和杨立昆对立起来。我认为我们在智力上处于同一个连续体中,只是对空间智能和世界建模采取了不同的切入点。

如果你读过我最近发表的那篇关于“空间智能”的长文(我称之为宣言),我在这一点上说得很清楚。我认为,如果最终要构建一个通用的、全能的世界模型,隐式表征(Implicit Representation)和某种程度的显式表征(Explicit Representation)最终可能都是必要的,尤其是在输出层。

例如,World Labs 目前的世界模型 Marble 确实会显式地输出 3D 表征,但在模型内部,它同时也包含隐式表征。老实说,我认为这两者最终都是不可或缺的。

在输入模态方面也是如此。是的,从视频中学习非常重要,毕竟整个世界可以看作是大量连续帧的输入。但真正的智能,无论是对于动物还是机器,不仅仅是被动观看。它还涉及到动作、互动的具身体验,以及触觉、声音、气味、物理力(Physical Forces)、温度等。因此,我认为这在本质上是深度多模态的(Deeply Multimodal)。

Marble 作为一个模型只是第一步。在我们几天前发布的那篇技术报告中,我们要表达得相当明确:多模态既是一种学习范式,也是一种输入范式。目前学术界对此有很多讨论,这也展示了该领域正处于早期且令人兴奋的阶段。可以说,我们在确切的模型架构和表征方式上的探索还远未结束。

2.超越文本:多模态输入与学习范式

主持人:在你那个世界模型中,输入主要是视频吗?

李飞飞:如果你体验过Marble,你会发现我们的世界模型输入是相当多模态的。你可以只使用纯文本,也可以使用一张或多张图像,可以处理视频,甚至可以输入粗略的 3D 布局(比如盒子或体素)。它是多模态的,而且我认为随着我们的推进,这方面的能力会进一步加深。

文本只是一种形式。是的,但这正是我们产生分歧的地方。大多数动物并不是通过复杂的语言来学习的,但人类是。不过,我们今天的AI 世界模型(World Models)将从大量的语言输入以及其他模态中学习,它并非仅仅通过语言来进行信息的压缩和传递。

主持人:这也是大型语言模型(LLMs)的一个限制,即模型在训练后参数就固定了。所以它们不会持续学习,尽管在测试时的推理阶段会有一定程度的学习。这是你在构建世界模型时试图解决的问题吗?因为我们可以推测,世界模型在遇到新环境时应当是不断学习的。

李飞飞:是的,持续学习(Continuous Learning)范式确实非常重要。对于生物来说就是如此,这也是我们人类学习的方式。即使在生物学习中,也存在在线学习与离线学习的区别。在我们目前的世界模型形式中,仍然更多地处于批量或离线学习模式。但我们绝对持开放态度,尤其是未来涉及到在线学习和多模态融合时。

主持人:那会是怎样的?会是一个完全不同的架构,还是仅仅是工程实现的问题?

李飞飞:我会保持开放的心态。我认为会是两者的混合。显然这需要优秀的工程实现,比如微调(Fine-tuning)和在线学习,但也可能会出现新的架构。

主持人:你能谈谈实时帧模型(Real-Time Frame Model)吗?以及你们在世界模型方面的工作?

李飞飞:你指的是我们几周前发布的一篇技术博客,那是专门深入探讨我们的实时帧模型的。World Labs 是一个以研究为主的组织,虽然我们也关心产品,但现阶段大量工作是以模型为先的。我们正着重研究如何推进空间智能(Spatial Intelligence)。这项特定的工作实际上是专注于如何实现基于帧的生成,并尽可能保持几何一致性和持久性。

在早期的基于帧的生成操作中,当你向前移动视角时,往往会失去那种物体持久性。在这个特定案例中,我们努力实现平衡,并在推理期间以计算高效的方式完成这一点,即在推理时仅使用单个H100 GPU。我们不太清楚其他基于帧的模型的情况,因为他们没透露推理时使用了多少芯片,但我们假设那是相当大的算力消耗。

3.寻找空间智能的“通用任务函数”

主持人:在你的那篇“宣言”里,你谈到了需要一个“通用任务函数”(General Task Function)。这类似于语言模型中的“下一个 Token 预测”(Next Token Prediction)。它是否带有预测元素?

李飞飞:生成式AI 最重大的突破之一,确实是发现了“下一个 Token 预测”这个目标函数。这是一个非常优美的表述,因为语言是以序列化方式存在的,你可以将语言 Token 化为这种序列表示。你用于下一个 Token 预测的学习函数,正是推理时所需要的。无论是人类还是计算机生成语言,实际上都是一个接一个地把标记向前推进。拥有一个与最终实际执行任务完全(100%)对齐的目标函数是极好的,因为它使优化可以完全针对目标进行。

但在计算机视觉或世界建模中,情况没那么简单。语言本质上是人类生成的,自然界中并不存在你盯着看的“语言”,哪怕你最终学会了阅读,那也是因为它已经被生成了。但我们与世界的关系要更加多模态:世界就在那里等着你去观察、解读、推理并与之交互。人类还有一种“心眼(Mind's Eye)”,能够构建不同版本的现实、想象并生成故事。这要复杂得多。

主持人:那么,定义这个通用任务的是什么?或者说,我们可以使用的通用目标函数是什么?有什么能像“下一个 Token 预测”一样强大吗?是 3D 重建吗?

李飞飞:这是一个非常深刻的问题有些人实际上会争辩说,世界建模的通用任务可能就是对世界进行3D 重建。如果这是目标函数并且我们达成了它,很多事情就会水到渠成。但我并不这么认为因为大多数动物的大脑并不一定会进行精确的三维重建,然而老虎或人类在空间上却是如此强大的视觉智能体。

“下一帧预测”确实有一定力量。首先有大量用于训练的数据;其次,为了预测下一帧,你必须学习世界的结构,因为世界不是白噪声,帧与帧之间存在大量结构连接。

但这也令人不满意,因为你把世界当作二维的,这种压缩方式非常糟糕。即使你做得完美,3D 结构也只是隐式的,这种基于帧的方式会丢失很多信息。所以在这方面仍有很多探索空间。

主持人:我得问你,你们把模型命名为RTFM(Real-Time Frame Model),这是个玩笑吗?

李飞飞:这确实是一次绝妙的“表演”。名字不是我起的,是我们的一位研究员,他在命名方面真的很有天赋。我们觉得用那个名字玩个梗很有趣。

主持人:但是RTFM 是在预测下一帧,并且具有三维一致性,对吧?

李飞飞:是的。

主持人:这就是模型所学内部表示有趣的地方。比如我看着电脑屏幕,即使看不见背面,我也知道它长什么样,因为我脑海中有它的内部表征。这就是为什么你可以在屏幕这个二维平面上移动物体,却能看到它的另一面。模型拥有三维物体的内部表征,即使它当前的视角看不见物体的背面。当你说到空间智能时,这是否包括自然的物理法则?比如理解你不能穿过一个固体物体?或者如果站在悬崖边,它知道那是边缘,如果走过去会掉下去而不是浮在空中?

李飞飞:你描述的既有物理层面也有语义层面。从悬崖掉下去很大程度上取决于重力定律,但穿墙而过则基于材质和语义(固体与非固体)。目前作为一个现有模型,RTFM 还没有把重点放在显式的物理学上。

大部分的“物理”实际上是从统计中涌现的。许多生成式视频模型展示的水流或树木移动,并不是基于牛顿力学定律和质量计算出来的,而是基于对大量统计模式的遵循。World Labs 目前仍然专注于生成和探索静态世界,但我们也将探索动态,其中很多将是统计学习。

我不认为今天的AI 有能力在不同层次上进行抽象并推导物理规律。另一方面,我们有像 Unreal 这样的空间物理引擎,其中有明确的物理定律在起作用。最终,这些游戏引擎/物理引擎将与世界生成模型融合成我称之为“神经空间引擎(Neural Spatial Engine)”的东西。我们正朝着那个方向前进,但现在还处于早期阶段。

4.显式表征的价值:赋能创作者与产业

主持人:我不是想让你和杨立昆对立。但你似乎关注的是从抽象的内部表征中产生显式表征,而杨立昆只是关注内部表征。

李飞飞:在我看来它们会完美结合。我们同时探索两者。输出显式表征其实是一种非常刻意的方法,因为我们希望这对人有用。

我们希望这对那些在创作、模拟和设计的人有用。如果你看看当今的行业,无论你是在制作视觉特效(VFX)、开发游戏、设计室内、还是为机器人或自动驾驶车辆进行仿真(数字孪生),这些行业的工作流程都非常依赖 3D。我们希望这些模型对个人和企业都绝对有用。

主持人:这就回到了持续学习的话题。比如一个机器人上的模型,通过摄像机在世界中移动获取数据,最终它不仅学习场景,还理解空间的物理性,然后与语言结合?这是否需要持续学习?

李飞飞:绝对如此。尤其是当接近某个用例时,持续学习至关重要。这可以通过多种方式实现:在语言模型中,将上下文本身作为输入就是一种持续学习(作为记忆);此外还有在线学习和微调。在空间智能领域,无论是个性化机器人还是具有特定风格的艺术家,最终都会推动这项技术在不同时间尺度上变得更具响应性,以满足具体用例的需求。

5.未来展望:AI模型的技术跨越

主持人:你现在的进展非常快,特别是想到你曾在新泽西经营过干洗店,虽然那是很短的一段时间,但这种跨越真是令人惊叹。你对这项技术五年后的发展程度有什么判断吗?比如模型内部是否会内置某种物理引擎,或者拥有更长时间尺度的学习能力,从而建立起更丰富的内部表征?也就是说,模型是否会开始真正理解物理世界?

李飞飞:实际上,作为一名科学家,很难给出一个精确的时间预测,因为有些技术的进展比我预期的快得多,而有些则慢得多。但我认为这是一个非常好的目标,而且五年确实是一个相当合理的估计。我不知道我们会不会更快实现,但在我看来,这比猜测五十年要靠谱得多,当然也比猜测五个月要靠谱。

主持人:你能否稍微谈谈,为什么你认为“空间智能”(Spatial Intelligence)是下一个前沿?正如我们所知,包含在文本中的人类知识只是全部人类知识的一个子集。虽然它非常丰富,但你不能指望一个 AI 模型仅通过文本就能理解世界。能具体谈谈为什么这很重要吗?以及 Marble 和 World Labs 是如何与这个更大的目标相关联的?

李飞飞:从根本上讲,技术应该帮助人类。与此同时,理解智能科学本身是我能想到的最迷人、最大胆、最有雄心的科学探索,这是属于21世纪的探索课题。

无论你是被科学的好奇心吸引,还是被用技术帮助人类的动机驱动,这都指向了一点:我们的大量智能,以及我们工作中的大量智能是超越语言的。我曾半开玩笑地说,你无法用语言去灭火。在我的宣言里,我举了几个例子:无论是空间推理、DNA 双螺旋结构的推导,还是一名急救人员在快速变化的情况中与团队协作灭火,很多内容都超越了语言。

所以,从应用角度来看这是显而易见的;作为一项科学探索,我们应该尽最大努力去破解如何发展空间智能技术,带我们进入下一个层次。从宏观角度来看,这就是驱动我的双重动机:科学发现以及为人类制造有用的工具。

我们可以更深入地探讨一下其实用性。无论是在谈论创造力、模拟、设计、沉浸式体验、教育还是医疗保健,甚至是制造业,利用空间智能可以做的事情实在太多了。实际上,我很兴奋,因为许多关心教育、沉浸式学习和体验的人告诉我,Marble(我们需要发布的首个模型)激发了他们思考如何将其用于沉浸式体验,使学习更具互动性和趣味性。这是如此自然,因为还不会说话的儿童完全就是通过沉浸式体验来学习的。即便作为成年人,我们的生活也大多沉浸在这个世界中,虽然包括听说读写,但也包括实践、互动和享受。

主持人:是的。Marble 让所有人都印象深刻的一点是,它不仅仅是生成下一帧画面,而是在一个空间中移动,而且它仅在一块 H100 GPU 上运行。我在你其他的演讲中听到你提到过“体验多重宇宙”(experiencing the multiverse)。大家一开始都很兴奋,直到意识到这需要巨大的计算量和昂贵的成本。你真的认为这是朝着为教育创建虚拟世界迈出的一步吗?因为看起来你们已经能够减少计算负担了。

李飞飞:首先,我真的相信在推理方面我们会加速,我们将变得更高效、更优秀、规模更大、质量更高。这是技术的趋势。我也相信多重宇宙的概念。就我们所知,整个人类历史的经验只存在于一个世界里,确切地说是地球这个物理实体。虽然有极少数人登上过月球,但也就仅此而已。我们在3D 空间中建设文明、生活、做所有事情。

但随着数字革命和数字爆炸,我们正把生活的一部分转移到数字世界中,这两者有很多交叉。我并不想描绘一种我们放弃了物理世界的反乌托邦图景,也不会描绘一种每个人都戴着头盔、永远无法欣赏真实世界的极端乌托邦式虚拟世界,那是生命最充实的部分,我会拒绝这两种极端观点。

但从实用角度以及对未来的设想来看,数字世界是无边无际的。它是无限的,它为我们提供了物理世界无法允许的更多维度和体验。例如,我们讨论过关于学习的问题。我真希望能以更互动、更沉浸的方式学习化学。我记得大学化学课有很多关于分子排列、理解对称性和分子结构不对称性的内容。我真希望能在沉浸式体验中亲自感受那些东西。

我遇到的许多创作者,我意识到在他们的脑海中,每一瞬间都有无数的想法,但他们受制于工具的限制。例如使用Unreal Engine(虚幻引擎),要把脑中的一个世界表达出来需要花费数周甚至数小时的工作时间。无论你是制作一部奇幻音乐剧,还是为新生儿设计卧室,如果我们允许人们像在物理世界中一样,充分利用数字宇宙去反复尝试、交流和创造,那将非常有趣。

此外,数字时代也在帮助我们打破物理边界和劳动的限制。比如远程操控机器人。我完全可以想象创作者通过具身化的化身(Avatar)在全球协作,通过机械臂或任何形态以及数字空间,使他们既能在物理世界中工作,也能在数字世界中工作。电影行业也将被彻底改变,现在的电影是被动体验,尽管很美好,但我们将改变获得娱乐的方式。所以这一切都需要多重世界。

主持人:还有关于瞬移或者遥操作机器人,比如有人在谈论在小行星上开采稀土。如果你不需要亲身到场,而是能远程操作机器人,那就在那些空间里实现了。你所谈论的是创建人们可以体验的3D 空间的显式表征。在你的模型中,这个模型自身在多大程度上“理解”它所处的空间?它是内化了这些信息,还是仅仅是将其显式地投射出来?

这是一个朝着真正理解世界的人工智能努力的过程。不仅仅是对三维空间有一个表示,而是真正理解物理定律,理解它所看到的东西,甚至包括这些东西的价值、有用性,以及如何操纵物理世界。你认为目前已经存在多少这样的理解?要让那些模型真正理解这个世界,还需要发生什么?

李飞飞:这是一个很棒的问题。“理解”是一个很深刻的词。AI “理解”某样东西时,它本质上与人类的理解不同。部分原因是我们是非常不同的存在。人类是具身的(embodied),是在一个有形的身体里存在的。例如,当我们真正理解“我的朋友很高兴”时,这不仅仅是抽象的理解。你能感受到你体内发生的化学反应,释放快乐激素,心跳加速,情绪改变那种理解层次与抽象的AI Agent非常不同。

AI Agent能够正确地分配意义并建立联系。例如,在 Marble 我们的产品中,你可以进入世界生成的高级模式进行编辑。你可以预览这个世界并说:“我不喜欢这张沙发是粉色的,把它换成蓝色。”然后它就把它改成蓝色。它是否理解“蓝色沙发”和“更改”这个词的含义?是的。因为没有这种理解,它就无法执行任务。

但它是否像你我一样理解关于沙发的一切?包括沙发的用途、甚至无用的信息?它有关于沙发的记忆吗?它会把“沙发”这个概念推广到许多其他事物上吗?不,它没有。作为一个模型,它的能力有限,只能根据要求创建一个包含蓝色沙发的空间。

所以我认为AI 确实能“理解”,但不要将这种理解误解为拟人化的、人类层面的理解。这种理解更多是语义层面的,而不是那种光线打在视网膜上产生感知体验的理解。

主持人:我看过你和Peter Diamandis 以及埃里克·施密特(Eric Schmidt)的讨论。其中有一点让我印象深刻,是关于 AI 可能具有创造力或用于辅助科学研究的讨论。当时给出的类比是:如果在爱因斯坦发现相对论之前就有人工智能,AI 能推理出那一发现吗?对于 AI 来说,要具有这种科学推理层面的创造力,还缺少什么?

李飞飞:我认为我们更接近于让AI 推导出双螺旋结构,而不是提出狭义相对论。部分原因是我们已经看到了很多出色的蛋白质折叠相关工作。推断双螺旋结构的表示更扎根于空间和几何。

而狭义相对论的表述是在抽象层面上。我们在物理中看到的所有事物,从牛顿定律到量子力学,都是将作用抽象到因果层面。比如质量、力这些概念,是被抽象到不再仅仅是纯粹统计模式生成的层次。语言可以是统计性的,3D 或 2D 世界的动力学可以是统计性的,但对力、质量、磁性以及因果关系的抽象,并非纯粹的统计性,而是非常深刻的因果性和抽象性。

我和Eric 在台上都在说,如果我们把所有关于天体观测的数据、卫星数据都聚合起来交给当今的 AI,它也许能通过数据推导并拟合出牛顿运动定律。

主持人:既然AI 如果给出数据就能推断出运动定律,那你为什么认为它无法推导出相对论那些定律呢?

李飞飞:当我们说那些定律被“推导”出来时,牛顿不得不推导、抽象出诸如“力”、“质量”、“加速度”以及那些基本常数的概念。那些概念处于一个我还没有在目前的AI 中见过的抽象层面。

如今的AI 可以利用大量数据,但在那个层面的抽象表示、变量或关系上,还没有太多证据表明它能做到。我并不了解 AI 中发生的一切,如果我被证明是错的,我很乐意接受。但我还没听说过有任何工作能在 Transformer 模型的架构中做到那种层次的抽象。我看不出那种抽象能从哪里来,这就是我对此表示怀疑的原因。这需要构建内部抽象的内部表征,以及应用逻辑知识的规则。这可能需要我们在基础架构和算法上取得更多进展。

主持人:这正是我想问的。你一直在和人们讨论后Transformer(post-transformer)架构。你是否预期会出现一种新的架构能解锁其中一些能力?

李飞飞:我同意,我确实认为我们会有架构上的突破。我不认为Transformer 是 AI 的最后一项发明。在宏观的时间尺度上,与宇宙历史相比,人类存在的时间并不长,但在我们简短的历史中,我们从未停止创新。所以我不认为Transformer 是 AI 的最终算法架构。

主持人:你曾提到,你曾设想如果你能让一个AI 系统为图像打标签或生成说明,那本该是你职业生涯的巅峰。当然你早就超越了这一点。那么现在,你想象中未来职业生涯的巅峰成就从今天开始会是什么?

李飞飞:我确实认为开启“空间智能”很重要。创建一个真正将感知与推理相连接的模型:从“看见”到“做”,包括规划和想象,并将想象转化为创造。那会非常了不起。一个能同时做到这三点的模型。




特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你祖上有啥很大的机缘转折点?网友:但凡发生一下改变,就没你了

你祖上有啥很大的机缘转折点?网友:但凡发生一下改变,就没你了

带你感受人间冷暖
2026-02-13 15:23:12
官媒点赞,38岁王思聪再创新高,让王健林和商界哑口无言

官媒点赞,38岁王思聪再创新高,让王健林和商界哑口无言

户外钓鱼哥阿旱
2026-02-19 10:53:56
“中产阶级”及格线诞生!全国只有3320万户,你达标了吗?

“中产阶级”及格线诞生!全国只有3320万户,你达标了吗?

李云飞Afey
2026-01-01 12:52:31
法布雷加斯:我的行为不符合体育道德,我要为此道歉并永远不再做

法布雷加斯:我的行为不符合体育道德,我要为此道歉并永远不再做

天光破云来
2026-02-19 08:38:06
1975年越南送来支奴干直升机,本是大礼,却成了最狠 “老师傅”

1975年越南送来支奴干直升机,本是大礼,却成了最狠 “老师傅”

z千年历史老号
2026-02-09 21:56:47
为什么中国革命,一会儿左一会儿右?讲讲课本不会告诉你的真相

为什么中国革命,一会儿左一会儿右?讲讲课本不会告诉你的真相

老达子
2026-02-18 06:50:03
古代太监是割蛋还是割鸡,他们说话的声音真的是娘娘腔吗?

古代太监是割蛋还是割鸡,他们说话的声音真的是娘娘腔吗?

孙缡北漂拍客
2026-02-03 12:55:11
美议员称外交军事都为推翻伊朗政权

美议员称外交军事都为推翻伊朗政权

界面新闻
2026-02-17 11:58:11
《身体疼痛对照表》很难得!(建议收藏)

《身体疼痛对照表》很难得!(建议收藏)

诗词天地
2026-02-12 01:37:57
印度人不明白,印菲都在南海强强联合了,中国人怎么还笑得出来?

印度人不明白,印菲都在南海强强联合了,中国人怎么还笑得出来?

阿諢体育
2026-02-19 08:15:34
哈梅内伊喊话特朗普:美国47年来未能推翻伊朗政权,你也做不到

哈梅内伊喊话特朗普:美国47年来未能推翻伊朗政权,你也做不到

米老鼠的世界
2026-02-19 15:07:27
重要赛事!2月19晚上21:00!中央5套CCTV5、CCTV5+直播节目表

重要赛事!2月19晚上21:00!中央5套CCTV5、CCTV5+直播节目表

生活新鲜市
2026-02-19 15:11:32
苏翊鸣夺冠颁奖!自信比“1”呐喊,唱国歌落泪,咬金牌展露自豪

苏翊鸣夺冠颁奖!自信比“1”呐喊,唱国歌落泪,咬金牌展露自豪

篮球资讯达人
2026-02-18 20:34:33
郭富城陪老婆回小县城过年,积极配合亲戚合照,岳父比他小2岁?

郭富城陪老婆回小县城过年,积极配合亲戚合照,岳父比他小2岁?

话娱论影
2026-02-18 08:01:19
初二回娘家,弟弟无缝衔接,把我的礼品搬上他后备箱,我抢过拆开

初二回娘家,弟弟无缝衔接,把我的礼品搬上他后备箱,我抢过拆开

半夏解语
2026-02-19 07:00:03
苏翊鸣夺冠后,日本网友第一句话让韩国媒体很尴尬

苏翊鸣夺冠后,日本网友第一句话让韩国媒体很尴尬

科学发掘
2026-02-19 01:39:28
俄媒爆料!美航母要打伊朗,真实目标竟是我们:决战武器即将亮相

俄媒爆料!美航母要打伊朗,真实目标竟是我们:决战武器即将亮相

健身狂人
2026-02-18 17:13:41
在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

在七千多的养老院住了一年才明白:再贵的养老院,也买不来这3样

小马达情感故事
2026-02-10 11:50:09
中国向全世界宣布!建成全球首条超音速铁路,最高速度可达1马赫

中国向全世界宣布!建成全球首条超音速铁路,最高速度可达1马赫

嫹笔牂牂
2026-02-19 11:28:50
猛料!名记曝独行侠抽状元签选弗拉格是内定 曾爆料小卡阴阳合同

猛料!名记曝独行侠抽状元签选弗拉格是内定 曾爆料小卡阴阳合同

醉卧浮生
2026-02-19 00:30:30
2026-02-19 16:27:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4541文章数 37408关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

日本挖到含稀土泥浆 高市称"下一代、下下代都用不完"

头条要闻

日本挖到含稀土泥浆 高市称"下一代、下下代都用不完"

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

旅游
本地
数码
亲子
公开课

旅游要闻

双廊目前已超最大承载量!出行提示→

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

数码要闻

内存价格崩了 国内最高降价20%:去华强北市场揭秘实情!

亲子要闻

韩国近半产后女性深陷身心双重压力 经济压力并非首位

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版