“转身,世界依然在那里。”
这听起来很哲学。
但它成了AI科学家,送给我们不可思议的礼物。
就在前几天,AI教母李飞飞教授的创业公司World Labs,完成名为RTFM(实时帧模型)的生成式世界模型。
它的核心魔力却非常简单。
![]()
给它一张静态图片,它能瞬间构筑一个完整的3D世界。
而你,还可以在这个世界里自由漫步。
当你转身离开,这个世界不会消失,它静静地、永恒地等待你的归来。
这一切,只需要一张H100 GPU来驱动。
过去,我们对元宇宙的所有想象,或许都错在了起点。
数字世界,不是用代码一砖一瓦堆砌的,而应该像这样“生长”出来。
![]()
“创世”体验
想象一下这个场景。
你手机里存着一张老家的书房照片,书桌、书架、窗外的树影,都定格在那一瞬。
现在,你把这张照片喂给RTFM。
![]()
下一秒,你不再是一个旁观者,你“走”进了这个书房。
你可以向前走,凑近书桌,看清上面摊开的书本字迹。
你可以向左转,端详书架上的每一本书的书脊。
你甚至可以抬头,看到天花板上的吊灯,以及它投下的柔和光影。
这不是简单的“360度全景图”,而是真正的三维空间。
你可以进行“推拉变焦”,感受镜头的真实感。
你甚至能模拟出鱼眼镜头的夸张失真效果,就像真的摄像机在拍摄。
关键在于,这个世界是“活”的。
它遵循物理规则,光滑的地板会映出倒影,阳光会投下动态的阴影。
镜头划过,光源会产生逼真的光晕。
所有这些复杂的效果,都不是程序员预设的。
![]()
而是RTFM通过观察海量视频数据后,自己“学会”的。
有网友体验后惊叹道:“或许我们身处的世界,也是运行在‘单张’H100 GPU上的。”
这虽是玩笑,却达出了那种震撼。
我们第一次拥有了在微观尺度上模仿“造物”的能力。
![]()
RTFM的选择充满智慧
创造世界,其实是吞噬算力的无底洞。
事实也的确如此。
李飞飞团队在博客中算了一笔账,这笔账让人倒吸一口凉气。
如果直接用现有AI视频技术,生成60帧的4K交互视频流。
每秒需要生成超过10万个token(文本单元)。
![]()
这是什么概念?
相当于每秒就要“写”出一本《哈利·波特与魔法石》的文本量!
而要维持一小时以上的持续交互,需要处理的上下文将超过1亿token。
用现在的技术硬刚,既不可行,也绝不经济。
就像在蒸汽机时代,非要造一架航天飞机,材料和技术都支撑不起这个蓝图。
但李飞飞和她的World Labs,走了一条更聪明、更智慧的路。
他们洞察到一个趋势,在AI领域,能随着计算能力提升而平滑扩展的简单方法,往往会成为主流。
![]()
换句话说,他们不追求在今天就造出“完全体”的终极模型。
而是设计一个能优雅地“骑”在摩尔定律肩膀上的模型。
他们的目标非常务实。
单张H100 GPU上,实现交互级的帧率和无限持久的世界。
它让高高在上的“世界模型”技术,在今天就能被触摸、被体验。
它不是一个实验室里的庞然大物,而是一个已经可以预览的未来。
![]()
三大原则铸就“永不消逝”
RTFM究竟是如何实现的呢?
它的设计围绕三个核心原则,这三大原则也是它成功的基石。
第一,效率。
这是硬指标,也是一切的起点。
单张H100就能跑,意味着极高的可部署性,它让实时交互成为可能。
![]()
第二,可扩展性。
这是RTFM最聪明的地方。
它彻底抛弃了传统3D图形学那套复杂,人工设计的“显式3D表征”。
比如三角网格、高斯泼溅。
相反,它采用了一种“端到端”的神经网络。
直接从视频数据里,学习世界的规律。
你可以把它理解成一个天生的“学习者”。
我们教孩子什么是猫,给他看无数张猫的图片。
![]()
而不是给他讲解猫的骨骼肌肉结构。
RTFM也是如此,它通过“观看”海量视频,自己总结出了光影、透视、材质的规律。
这意味着,给它更多、更好的数据,它的世界就会变得更逼真、更丰富。
第三,持久性。
这是最迷人的一点,也是“永不消逝”这个词的由来。
早期的类似模型有个致命问题。
你探索过的地方,生成的画面,如果你转身离开再回来,系统可能需要重新生成,而且很可能生成得不一样。
RTFM用了一个巧妙的办法,来解决这个问题。
“位姿帧”, 它为生成的每一帧画面,打上一个三维空间的坐标和朝向标签。
所有这些带位姿的帧,就构成了一个世界的“空间记忆系统”。
当你需要从一个新角度生成画面时,RTFM不会傻傻地去回忆全部的历史。
而是像我们人类一样,只“检索”你身边最近的、最相关的画面作为参考。
![]()
这个过程叫“上下文调度”。
正是这个机制,保证了这个世界拥有“永久记忆”。
你留下的每一个脚印,看过的每一处风景,都被妥善地安放在时空的某个坐标上,等待你的再次探访。
![]()
AI学会了“脑补”真实
RTFM的突破,还在于它模糊了一个传统界限,重建与生成。
过去,在计算机视觉里,“重建”是在已有视角间插值,填补空白,这相对精确。
然而“生成”却是无中生有,创造从未见过的内容,但也更容易“胡编乱造”。
RTFM把这两者融为了一体。
![]()
当输入的信息很充分,它就倾向于精确地“重建”,忠实还原。
当输入的信息很稀疏,它就会被“逼”着去进行合理的推测和“生成”。
像一个充满想象力的画家,帮你把画面补充完整。
它是更快的渲染器,更是“学习型的渲染器”。
反射、阴影这些让图形学程序员头疼不已的效果,RTFM不需任何人工指导。
仅通过观察学习,就能自主掌握。
它学会的,是世界的底层语法。
当人们理解了RTFM的技术内涵,再回头看它的创造者。
李飞飞教授的World Labs,其宏大的野心就清晰可见。
这家公司在今年4月成立,短短几个月内就融资约2.3亿美元。
![]()
估值突破10亿美元,吸引了a16z、英伟达、AMD等顶级资本。
李飞飞一直强调,AI领域真正难的问题是“空间智能”。
RTFM和它前身的模型Marble,正是攻克这一难题的利剑。
短期内,这项技术将颠覆内容创作行业。
游戏和电影的制作方式将被彻底改变。
![]()
如今,设计师提供一个概念图,一个完整的、可探索的虚拟场景就生成了。
这能节省的成本和时间是天文数字。
在游戏和电影之外,World Labs的规划非常明确。
![]()
构建理解空间、物理的模型;赋能增强现实(AR)和机器人技术。
AR是一个能理解真实世界三维几何,并能持久记忆的AI。
是数字信息稳定、逼真地融入现实的基础。
机器人需要在模拟世界中进行海量训练。
一个能够自动生成无限逼真、可交互训练环境的“世界模型”,是机器人普及的关键加速器。
RTFM的发布,像一个信号。
![]()
数字世界的基石,已经开始铺设。
它或许还不够完美,但已经在我们脚下展开。
在数字空间中,RTF创造一个永不消逝、遵守物理法则。
并能与我们实时交互的世界。
素材来源
1.《智东西》李飞飞造了个「永不消逝的世界」!单张GPU就能跑
2.《第一财经》“AI教母”李飞飞发布实时生成式世界模型!一张H100就能运行
3.《澎湃新闻》李飞飞发布全新世界模型,可在单张H100GPU上流畅运行
本文作者 | 柠檬雪
责任编辑 | 淡淡翠
策划 | 淡淡翠
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.