![]()
新智元报道
编辑:桃子 好困
【新智元导读】世界模型,着实有点火!今天,李飞飞重磅访谈放出,从AI革命兴起到下一个智能前沿——具备空间智能的世界模型。一场访谈,可以窥见AI教母关于AI未来的深刻洞察。
二十年前,李飞飞主导创建的ImageNet,像一束火种,彻底点燃了深度学习的革命。
如今,AI热潮席卷全球,她坚信「世界模型」才是未来十年AI的下一个前沿。
就在今天,李飞飞在Lenny Rachitsky的新一期播客中,回顾了AI从寒冬如何走到了今天这一步。
![]()
有趣的是,她揭秘了鲜为人知的AI发展的秘辛——
大概在九到十年前,自称AI公司的无异于「商业自杀」,因为没有人相信AI真正能用。
谁能想到,现如今每家公司都在争相自称是「AI公司」。
全程1小时20分钟访谈中,李飞飞还谈了自己对AI未来影响人类的看法,以及当前技术能走多远,为何对「世界模型」如此着迷,以及「世界模型」究竟是什么....
在这场深度访谈中,李飞飞搭建了一座通往未来的阶梯,让我们得以一窥AI的下一个十年。
·人工智能没有任何是「人为」的,无论AI现在/将来做什么,都取决于人类自身。
·大数据+神经网络+GPU构成了现代AI的「黄金三件套」。
·不仅仅是机器人,人类也是具身智能体,可以从空间智能+世界模型中收益。
·机器人困境,在于数据。它更像自动驾驶汽车,而不是大语言模型。
·每个人都在AI未来中扮演重要的角色。
ImageNet出世,引爆AI革命
要洞见未来,必先理解过去。
在21世纪初,AI领域正处于漫长的「寒冬」。当时,AI更通常的叫法是「机器学习」。
机器学习的开端,是计算机编程和统计学习的结合。
这场「联姻」让科学家们意识到,仅仅依靠纯规则的程序,是无法让计算机具备强大的认知能力。
2000年,正在加州理工学院攻读博士学位的李飞飞,正式进入了AI这一领域,成为机器学习最早一代的研究者。
那时,她在加州理工上的第一门课,就叫「神经网络」。对此,她表示,「当时还真的是挺痛苦的」。
![]()
那会儿还正是所谓「AI寒冬」的中间阶段:公众几乎不关注这块儿,资金投入少,不过学界里倒是有各种各样的想法在流动。
这里有两件事,让我的个人科研之路和现代AI的诞生走得特别近。
第一件事,就是「视角选择」,即从「视觉智能」来理解AI。
因为,人类本质上是高度依赖视觉的动物。我们很大一部的智能,其实是建立在视觉、感知、空间理解之上的,而不只是语言本身。
这正是李飞飞博士期间,与学生们锁定的「北极星」问题——物体识别。
另外一件事就是她发现了一大痛点:早年AI研究过于聚焦模型本身,但这些模型根本没有足够的数据来训练。
李飞飞突然意识到,人类学习和生物进化,本质上都是一个「大数据学习」的过程。
·人类是靠大量的经验在学习;
·动物也是在不断「体验世界」的过程中进化出来的。
于是,她和学生提出了一个大胆的猜想——要让AI真正「活」起来,一个被严重忽视、却极其关键的要素,就是「大数据」。
于是,2006-2007年,李飞飞和学生们开始了一项在当时看来近乎疯狂的「蛮力」工程——ImageNet。
![]()
他们从互联网上搜集了1500万张图像,打上横跨22000个类别的精准标签。
之后,ImageNet数据集开源,并启动了年度挑战赛。
2012年,被业界公认为深度学习,也就是现代AI起步的关键时刻。
这一年,来自多伦多大学一组研究者,在Geoffrey Hinton带领下参加了ImageNet挑战赛。
令世界震惊的是,他们仅用2块英伟达GPU+ImageNet数据,训练出首个在大规模视觉任务上表现出色的神经网络——AlexNet。
它没有彻底解决问题,但向「物体识别」迈出了一大步。
![]()
「大数据+神经网络+GPU」这三样技术,构成了现代AI的「黄金三件套」。
李飞飞称,那时候「AI」和「机器学习」这两个词是交替用的。
大概在2015年中到2016年中,硅谷大厂刻意避谈「AI」一词,他们并不确定,AI会不会是一个负面色彩的词。
一年后,再看到AI拐点之后,很多公司开始把自己定位成「AI公司」。
主持人问道,「我们离AGI大概还有多远?现有的技术路线能否抵达」?
李飞飞认为,在AI和AGI之间并没有清晰的科学界限,AGI更像是一个营销用语,而非严谨的科学术语。
对于AGI并没有统一定义,实现超级智能?还是赚足够的钱养活自己?
当初,李飞飞之所以进入这一领域,便是被一个问题打动:机器能不能像人一样去思考、去做事?
对于她来说,这才是AI的「北极星」目标。不论别人怎么称呼,她自己对「AI」这个名字已经很满意。
![]()
AI新前沿:世界模型
在创办World Labs之前,李飞飞不止一次,公开宣称空间智能、世界模型的理念。
几天前的一篇万字长文,她直言,AI未来十年下一个前沿就是「空间智能」。
![]()
李飞飞表示,「人类智能的核心,除了语言,还有空间智能」。
2020年底,GPT-2发布时,公众还未反应过来LLM有多么强大。
但在斯坦福,李飞飞和Percy Liang、Chris Batting等顶尖NLP研究者认为——这项技术会改变一切。
他们甚至成立了全球首个专门研究「基础模型」的研究中心,并发表了学术界第一篇系统性探讨基础性的论文。
因「视觉智能」出身,李飞飞当时就在想,除了语言,AI领域的发展还有很大的空间。
因为人类做成很多事,靠的并不只是语言,而是大量依赖的是自己的空间智能和对世界运作方式的理解。
她举了一个生动的「救火」例子,从侧面印证了,LLM再强也灭不了火、救不了人,设计不了大楼。
与此同时,李飞飞也在做大量的机器人研究。
后来她突然意识到:要把语言之外的那些智能、要把「具身AI」机器人、要把视觉智能全都串在一起,中间那个关键的「枢纽」(linchpin)便是「空间智能」。
从2022年起,李飞飞开始基于在机器人和计算机视觉领域的研究,开始将这一概念系统化。
2024年,她做了一场TED演讲,主题就是「空间智能」和「世界模型」。
![]()
随后,她又创办了World Labs,world一词就写在了公司名字里,因为她相信「世界模型」和「空间智能」的重要性。
那么什么是世界模型?
用李飞飞的话来说,当你输入一张图或一句话,就能生成一个无限探索的3D世界。
它是一个「基础层」,人们可以在这个基础之上进行推理、进行交互,也可以用它来创造各种世界。
除了机器人,她还认为,「人类本身也是具身的智能体」,能力可以被AI大幅增强。
人类作为具身智能体,其实同样可以从世界模型和空间智能模型中获益匪浅,而不仅仅是机器人。
李飞飞举例道,仅凭Rosalind Franklin拍摄的2D X射线衍射照片,James Watson和Francis Crick在脑海中构建3D模型,发现了DNA双螺旋结构。
也就是说,没有「空间智能」,就没有这个发现。
世界模型Marble开放,制作时间缩短40倍
截至目前,Marble这个平台,就是李飞飞「世界模型」的集大成者。
在行业应用中,Marble深入了各个领域,其中包括电影与虚拟制片、游戏与互动内容、机器人模拟与训练等等。
![]()
入口:https://marble.worldlabs.ai/
电影拍摄中,大量场景是虚拟的,需要先在电脑里搭一个3D世界。然而,传统的美术团队手工建模、摆灯光、调摄像机位,耗时又耗钱。
有了Marble,导演用几句描述,就生成一个可导航的世界。
不仅如此,虚拟摄像机可以自由走位,场景可以反复修改、扩展。
李飞飞提到,艺术家团队以及导演们称,「这让他们的制作时间缩短了40倍」。
在游戏与互动内容领域,开发者可以把Marble生成的世界导出到游戏引擎里,用作关卡原型、场景底稿,再在上面加逻辑、玩法、角色。
这让小团队也有机会做「大片级场景」,而不是被美术资源卡死。
当然,最重要的还是机器人模拟与训练。机器人要在现实世界工作,训练数据是个超级难题。
机器人是「物理系统」
苦涩的教训还需升级
苦涩的教训,为何在机器人身上行不通?
图灵奖得主Richard Sutton曾在Bitter Lesson一文中得出一个结论——
「更简单的模型+海量数据」会打败「更复杂的模型+少量数据」。
对于李飞飞来说,这不是苦涩,而是「甜蜜的教训」。
这也是我为什么要做ImageNet,因为我一直相信「大数据」在里面起着非常关键的作用。
她一针见血地指出,机器人的困境,始于数据。
一方面,在现实中,机器人数据极难搞到。
语言模型的数据,是现成的文本,输入也是文本,输出也是文本。
而机器人则不同,它要输出的是「动作」,在真实三维世界中运动、抓取、接触。
而人类大部分训练数据,只有视频,没有真实动作轨迹。由此,研究者需要通过远程遥操作、合成、模拟环境……等来收集数据。
另一方面,机器人是一个「物理系统」。它更像自动驾驶汽车,而不是大语言模型。
这意味着,要让机器人真正工作起来,不仅需要「脑子」(算法和模型),还需要「身体」(硬件本体),还需要合适的应用场景。
回顾自动驾驶汽车发展的历史,从2005年DARPA挑战赛到今天的Waymo,近20年过去了,还未完全搞定「不撞任何东西」的目标。
李飞飞称,「而自动驾驶汽车,其实还是一种相对简单的机器人」。
它本质上就是一个在2D路面上跑的金属盒子,它的目标「不要碰到任何东西」。
但机器人需要在3D世界里跑来跑去,目标恰恰是「要去触碰各种东西」。
所以,这条路肯定会很长,也会有很多不同的维度、不同的挑战,需要一起被一点一点解决。
她的态度不是「惨痛教训不成立」,而是机器人领域研究尚处早期阶段,数据问题、硬件问题、应用场景问题太多。
「多数据+大模型」一定很重要,但我们还远没到能「这条路必胜」的阶段。
在数据方面,研究者通过Marble用提示词生成各种房间、工厂、厨房、仓库场景,让机器人先在虚拟世界练习。
这正好呼应了李飞飞一开始的信念:
智能是大数据学来的,关键是如何给机器人足够多、足够多样的「世界经验」。
从研究者到创始人
开创「人生新战场」
在回顾自己一路的选择,李飞飞总结自己的判断标准,其实很朴素——
·从普林斯顿拿到终身教职轨道,仍然决心去斯坦福
·在学界风生水起,跑去谷歌云当首席科学家
·回斯坦福之后,又拉起HAI,做跨学科、政策、社会影响
·在大模型浪潮和世界模型机会出现时,又选择创业World Labs
李飞飞的个人经历,可以为AI行业里挑机会的年轻人提供一些借鉴。
好奇心和热情先行
不先问「哪里赚钱最多」,而是先问,「哪里的问题最让我睡不着觉?」
对「失败可能性」不过度放大
她当然知道创业有很多风险,但不会让这些风险压倒「使命感」。
非常看重人和团队
无论是去 SAIL、谷歌云,还是创立 World Labs,
她关注的都是:我会和谁一起做事?这群人是不是值得一起冲?
除了创业,李飞飞依然在推动另一个「慢而重要」的工程:斯坦福HAI(以人为本人工智能研究院)。
在AI这件事上,每个人都有角色。她说自己走到哪里,都会被问这些问题:
我是音乐家,AI会不会取代我?我是中学老师,AI会不会让我的工作没价值?
我是护士,AI会不会让我失业?我是农民,我还有什么角色?
而李飞飞回答非常坚定,是的,你在AI的未来里扮演着自己的角色。而且这个角色极其重要。
参考资料:
https://x.com/lennysan/status/1990121400578052423?s=20
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.