网易首页 > 网易号 > 正文 申请入驻

李飞飞造了个「永不消逝的世界」!单张GPU就能跑

0
分享至


智东西
编译 王涵
编辑 漠影

智东西10月17日报道,昨晚,李飞飞团队发布全新实时生成式世界模型RTFM(Real-Time Frame Model),只需单张H100 GPU就能运行!

该模型支持单图像生成3D场景,能处理多样化的场景类型、视觉风格及光影效果,包括镜面反射、光泽表面、动态阴影和镜头光晕。


▲李飞飞推文截图(来源:X)

RTFM能在用户交互时实时生成视频,可用于探索生成的3D世界真实场景定位,现已开放研究预览版。

DEMO体验地址:https://rtfm.worldlabs.ai/

除了前后左右移动以外,RTFM还可以进行推拉变焦、重现鱼眼失真等镜头效果,能够像在一间真正的房间中漫步一样,真实感拉满。

李飞飞团队在博客中透露,RTFM围绕三大核心原则设计:

1、高效性:仅需单张H100 GPU即可实现交互级帧率的推理运算;

2、可扩展性:采用不依赖显式3D表征的建模方式,通过通用端到端架构从大规模视频数据中学习,随算力数据增长持续进化;

3、持久性:支持无限时长交互,构建的3D世界具有永久记忆——即使转身离开,场景依然存在。

在李飞飞的推文下,很多网友都觉得这个模型的DEMO效果非常惊艳。


▲网友评论截图(来源:X)

也有比较专业的网友解释称,这个模型并不是直接生成3D世界,而是通过一张2D图片,补充这张图片场景下其他角度的2D图片。


▲网友评论截图(来源:X)

AI数据平台公司Manifolds AI联合创始人Ziyang Xie体验后称,RTFM的空间一致性令人印象深刻,但速度过快时仍然会崩溃。


▲Ziyang Xie评论截图(来源:X)

有网友体验完感叹道:“或许我们身处的世界也是运行在‘单张’H100 GPU上的。”


▲网友评论截图(来源:X)

一、单张H100 GPU就能运行,还能保持交互帧率和持久性

李飞飞团队发现,在技术发展过程中,生成式世界模型对算力的需求将远超当前大语言模型。

若直接套用现有视频架构,实现60帧4K交互视频流需每秒生成超10万token(相当于首部《哈利·波特》的文本量),维持一小时以上持久交互更需处理超1亿token的上下文。以当前算力基础,这既不可行也不经济。

他们从中吸取了“教训”:随着算力成本指数级下降,那些能适应算力增长的简洁方法终将主导AI发展,而生成式世界模型正处在享受未来算力红利的最佳位置。

这就带了一个关键的问题:生成式世界模型是否会被当前硬件条件束缚?是否存在技术路径让我们现在就能预览未来?

为此,李飞飞团队设定了一个简单目标,即设计一个足够高效、当下即可部署的生成式世界模型,并能随算力提升持续扩展。

他们的具体目标是构建可在单张H100 GPU上运行的模型,既保持交互级帧率,又能实现无限持久的世界交互。

这一目标贯穿了他们从任务设定到模型架构的整个系统设计。通过精心优化推理栈的每个环节,融合架构设计、模型蒸馏和推理优化的最新突破,李飞飞团队在当今硬件上实现了对下一代模型最高保真度的前瞻。


三、能自主掌握反射阴影的渲染,RTFM是“学习型渲染器”

传统3D图形管线通过显式3D表征(如三角网格、高斯泼溅)构建世界并渲染为2D图像。它们采用手工设计的数据结构与算法来建模3D几何、材质、光照、阴影和反射等。这些方法数十年来一直是计算机图形学的支柱,但难以随算力数据自然扩展。

RTFM另辟蹊径,他们基于生成式视频建模的最新进展,训练单一神经网络来输入场景的一张或多张2D图像,无需构建任何显式3D表征即可生成新视角的2D画面。该模型采用自回归扩散Transformer架构处理帧序列,通过大规模视频数据端到端训练实现帧间预测。

RTFM还可以被认为是“学习型渲染器”,输入帧可以被转化为隐含世界信息的神经网络激活值(KV缓存),生成新帧时,网络通过注意力机制读取该表征,创建与输入视角一致的新视图。

从输入视图到世界表征的转换机制,再到基于表征的新帧渲染,全程通过数据端到端学习获得,无需人工设计,RTFM仅需在训练中观察即可自主掌握反射、阴影等复杂效果的建模。

重建(在已有视角间插值)与生成(创造输入视角未可见内容)在计算机视觉领域向来被视为两个独立的课题,但RTFM模糊了这二者之间的界限。当输入多视角图像时,模型更倾向于重建;当输入视角稀缺时,模型则被迫进行外推生成。


四、以位姿帧作为空间记忆,RTFM拥有持久记忆

现实世界的核心特性在于其持久性,当你移开视线时,世界不会消失或彻底改变。无论相隔多久,你总能重返曾经到过的地方。

这对自回归帧模型来说可不太容易。由于世界仅通过2D图像帧隐式表征,要实现持久性,模型必须在用户探索过程中对持续增长的帧序列进行推理。这意味着生成每一帧的成本会递增,模型对世界的记忆实际上被算力预算所束缚。

为突破这一桎梏,RTFM为每帧画面都赋予三维空间中的位姿(位置与朝向)。通过输入目标帧的位姿生成新画面,模型对世界的记忆就会具备空间结构,因为这些带位姿的帧构成了空间记忆系统。

这为模型注入了弱先验,即其所建模的世界是三维欧几里得空间,同时无需强制模型显式预测该空间中物体的三维几何。

生成新帧时,系统会从位姿帧构成的空间记忆中检索邻近帧,构建定制化上下文。这种“上下文调度”技术使模型能在空间不同区域生成时调用不同的上下文帧,从而无需对持续增长的帧序列进行推理,即可在长期交互中维持世界的持久性。


结语:世界模型突破算力限制,可在多行业中落地

李飞飞团队认为,RTFM的推出实现了在当今硬件上部署世界模型的愿景,并确立了将世界模型视为端到端数据驱动渲染器的技术路径。

RTFM的架构具备天然可扩展性,未来将会有更多的发展空间,比如它可以扩展为动态世界建模,允许用户与生成世界实时交互。

世界模型能实时重建、生成并模拟具有物理精确性的持久交互世界,这类模型或许将彻底改变从媒体到机器人等众多行业。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
股票一旦出现"涨停天量阴",毫不犹豫满仓,不是涨停就是涨个不停

股票一旦出现"涨停天量阴",毫不犹豫满仓,不是涨停就是涨个不停

股经纵横谈
2026-01-19 10:42:15
骚乱造成3117人死亡!伊朗全歼一支美以雇佣军,导弹打击境外叛军

骚乱造成3117人死亡!伊朗全歼一支美以雇佣军,导弹打击境外叛军

兵国大事
2026-01-22 17:42:43
西安一道路车位紧俏,7辆无牌车却长期占位,十多辆车欠费:包括宝马奔驰奥迪等,最多者超2万元;收费员:不少“老赖”让人束手无策

西安一道路车位紧俏,7辆无牌车却长期占位,十多辆车欠费:包括宝马奔驰奥迪等,最多者超2万元;收费员:不少“老赖”让人束手无策

扬子晚报
2026-01-25 17:17:52
伊朗驻法大使承认:把平民当敌军射杀

伊朗驻法大使承认:把平民当敌军射杀

桂系007
2026-01-25 02:01:10
向太太敢说了!自曝向华强今年已经78了,但是她和向华强还有X生活!

向太太敢说了!自曝向华强今年已经78了,但是她和向华强还有X生活!

八星人
2026-01-25 09:38:04
连爆5场!对手害怕谢泼德,阿门赛后发出请求,而乌度卡也明牌了

连爆5场!对手害怕谢泼德,阿门赛后发出请求,而乌度卡也明牌了

巴叔GO聊体育
2026-01-25 16:00:42
连克曼城、枪手,曼联自去年10月以来首次取得英超连胜

连克曼城、枪手,曼联自去年10月以来首次取得英超连胜

懂球帝
2026-01-26 03:09:52
日媒评U23亚洲杯决赛:“功夫足球”还要持续多久?裁判执法不公

日媒评U23亚洲杯决赛:“功夫足球”还要持续多久?裁判执法不公

懂球帝
2026-01-25 10:51:06
顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

小陆搞笑日常
2026-01-25 14:35:14
“矮大紧”事后补料,“牢A”理论更扎实!

“矮大紧”事后补料,“牢A”理论更扎实!

达文西看世界
2026-01-22 10:52:23
中药立大功!多项研究:2个中成药可保护大脑功能,成抗衰利器

中药立大功!多项研究:2个中成药可保护大脑功能,成抗衰利器

垚垚分享健康
2026-01-21 10:45:40
连续2年输同一人!梅总吞蛋出局,20岁新星首进大满贯八强

连续2年输同一人!梅总吞蛋出局,20岁新星首进大满贯八强

全景体育V
2026-01-25 17:19:06
斩杀线讲清楚了!上海大学教授夫妻生养三子女留美,去世无人回国

斩杀线讲清楚了!上海大学教授夫妻生养三子女留美,去世无人回国

火山诗话
2026-01-24 14:58:28
突发!利物浦密洽世界级名帅!斯洛特帅位岌岌可危?

突发!利物浦密洽世界级名帅!斯洛特帅位岌岌可危?

澜归序
2026-01-26 02:56:23
5-2!皇马7200万巨星帽子戏法,阿隆索错放天才,能重返伯纳乌吗

5-2!皇马7200万巨星帽子戏法,阿隆索错放天才,能重返伯纳乌吗

小鬼头体育
2026-01-26 02:54:20
沪京浙领跑全国收入榜:上海人均收入首破9万,11个省份超4万

沪京浙领跑全国收入榜:上海人均收入首破9万,11个省份超4万

时代周报
2026-01-25 19:29:21
经济下行,2026年、2027年、2028年这三年,六大忠告要记牢!

经济下行,2026年、2027年、2028年这三年,六大忠告要记牢!

深度报
2026-01-20 22:16:48
阶层遗传:富人的孩子,大多从商从政;穷人的孩子,大多从工从农

阶层遗传:富人的孩子,大多从商从政;穷人的孩子,大多从工从农

诗词中国
2026-01-25 19:38:40
苹果重新上架翻新 iPhone 15 Pro 机型,但这价格有点离谱啊

苹果重新上架翻新 iPhone 15 Pro 机型,但这价格有点离谱啊

XCiOS俱乐部
2026-01-25 17:39:18
四川街头惊现外地救护车 引发群众猜疑和恐慌

四川街头惊现外地救护车 引发群众猜疑和恐慌

七彩云南简南俊
2026-01-25 17:56:40
2026-01-26 04:19:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11118文章数 116946关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

手机
健康
家居
时尚
军事航空

手机要闻

荣耀泡泡玛特联名手机开售,后续新机再曝

耳石脱落为何让人天旋地转+恶心?

家居要闻

在家度假 160平南洋混搭宅

看了鲁豫对章小蕙的采访,最大感触是这一点

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版