网易首页 > 网易号 > 正文 申请入驻

李飞飞造了个「永不消逝的世界」!单张GPU就能跑

0
分享至

智东西10月17日报道,昨晚,李飞飞团队发布全新实时生成式世界模型RTFM(Real-Time Frame Model),只需单张H100 GPU就能运行!

该模型支持单图像生成3D场景,能处理多样化的场景类型、视觉风格及光影效果,包括镜面反射、光泽表面、动态阴影和镜头光晕。

▲李飞飞推文截图(来源:X)

RTFM能在用户交互时实时生成视频,可用于探索生成的3D世界真实场景定位,现已开放研究预览版。

DEMO体验地址:https://rtfm.worldlabs.ai/

除了前后左右移动以外,RTFM还可以进行推拉变焦、重现鱼眼失真等镜头效果,能够像在一间真正的房间中漫步一样,真实感拉满。

李飞飞团队在博客中透露,RTFM围绕三大核心原则设计:

1、高效性:仅需单张H100 GPU即可实现交互级帧率的推理运算;

2、可扩展性:采用不依赖显式3D表征的建模方式,通过通用端到端架构从大规模视频数据中学习,随算力数据增长持续进化;

3、持久性:支持无限时长交互,构建的3D世界具有永久记忆——即使转身离开,场景依然存在。

在李飞飞的推文下,很多网友都觉得这个模型的DEMO效果非常惊艳。

▲网友评论截图(来源:X)

也有比较专业的网友解释称,这个模型并不是直接生成3D世界,而是通过一张2D图片,补充这张图片场景下其他角度的2D图片。

▲网友评论截图(来源:X)

AI数据平台公司Manifolds AI联合创始人Ziyang Xie体验后称,RTFM的空间一致性令人印象深刻,但速度过快时仍然会崩溃。

▲Ziyang Xie评论截图(来源:X)

有网友体验完感叹道:“或许我们身处的世界也是运行在‘单张’H100 GPU上的。”

▲网友评论截图(来源:X)

一、单张H100 GPU就能运行,还能保持交互帧率和持久性

李飞飞团队发现,在技术发展过程中,生成式世界模型对算力的需求将远超当前大语言模型。

若直接套用现有视频架构,实现60帧4K交互视频流需每秒生成超10万token(相当于首部《哈利·波特》的文本量),维持一小时以上持久交互更需处理超1亿token的上下文。以当前算力基础,这既不可行也不经济。

他们从中吸取了“教训”:随着算力成本指数级下降,那些能适应算力增长的简洁方法终将主导AI发展,而生成式世界模型正处在享受未来算力红利的最佳位置。

这就带了一个关键的问题:生成式世界模型是否会被当前硬件条件束缚?是否存在技术路径让我们现在就能预览未来?

为此,李飞飞团队设定了一个简单目标,即设计一个足够高效、当下即可部署的生成式世界模型,并能随算力提升持续扩展。

他们的具体目标是构建可在单张H100 GPU上运行的模型,既保持交互级帧率,又能实现无限持久的世界交互。

这一目标贯穿了他们从任务设定到模型架构的整个系统设计。通过精心优化推理栈的每个环节,融合架构设计、模型蒸馏和推理优化的最新突破,李飞飞团队在当今硬件上实现了对下一代模型最高保真度的前瞻。


三、能自主掌握反射阴影的渲染,RTFM是“学习型渲染器”

传统3D图形管线通过显式3D表征(如三角网格、高斯泼溅)构建世界并渲染为2D图像。它们采用手工设计的数据结构与算法来建模3D几何、材质、光照、阴影和反射等。这些方法数十年来一直是计算机图形学的支柱,但难以随算力数据自然扩展。

RTFM另辟蹊径,他们基于生成式视频建模的最新进展,训练单一神经网络来输入场景的一张或多张2D图像,无需构建任何显式3D表征即可生成新视角的2D画面。该模型采用自回归扩散Transformer架构处理帧序列,通过大规模视频数据端到端训练实现帧间预测。

RTFM还可以被认为是“学习型渲染器”,输入帧可以被转化为隐含世界信息的神经网络激活值(KV缓存),生成新帧时,网络通过注意力机制读取该表征,创建与输入视角一致的新视图。

从输入视图到世界表征的转换机制,再到基于表征的新帧渲染,全程通过数据端到端学习获得,无需人工设计,RTFM仅需在训练中观察即可自主掌握反射、阴影等复杂效果的建模。

重建(在已有视角间插值)与生成(创造输入视角未可见内容)在计算机视觉领域向来被视为两个独立的课题,但RTFM模糊了这二者之间的界限。当输入多视角图像时,模型更倾向于重建;当输入视角稀缺时,模型则被迫进行外推生成。


四、以位姿帧作为空间记忆,RTFM拥有持久记忆

现实世界的核心特性在于其持久性,当你移开视线时,世界不会消失或彻底改变。无论相隔多久,你总能重返曾经到过的地方。

这对自回归帧模型来说可不太容易。由于世界仅通过2D图像帧隐式表征,要实现持久性,模型必须在用户探索过程中对持续增长的帧序列进行推理。这意味着生成每一帧的成本会递增,模型对世界的记忆实际上被算力预算所束缚。

为突破这一桎梏,RTFM为每帧画面都赋予三维空间中的位姿(位置与朝向)。通过输入目标帧的位姿生成新画面,模型对世界的记忆就会具备空间结构,因为这些带位姿的帧构成了空间记忆系统。

这为模型注入了弱先验,即其所建模的世界是三维欧几里得空间,同时无需强制模型显式预测该空间中物体的三维几何。

生成新帧时,系统会从位姿帧构成的空间记忆中检索邻近帧,构建定制化上下文。这种“上下文调度”技术使模型能在空间不同区域生成时调用不同的上下文帧,从而无需对持续增长的帧序列进行推理,即可在长期交互中维持世界的持久性。


结语:世界模型突破算力限制,可在多行业中落地

李飞飞团队认为,RTFM的推出实现了在当今硬件上部署世界模型的愿景,并确立了将世界模型视为端到端数据驱动渲染器的技术路径。

RTFM的架构具备天然可扩展性,未来将会有更多的发展空间,比如它可以扩展为动态世界建模,允许用户与生成世界实时交互。

世界模型能实时重建、生成并模拟具有物理精确性的持久交互世界,这类模型或许将彻底改变从媒体到机器人等众多行业。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
东风导弹即将发射?七国反华军演刚开始,美媒:超级航母杀手出动

东风导弹即将发射?七国反华军演刚开始,美媒:超级航母杀手出动

拾破烂的天真
2026-04-30 11:10:44
这种荒诞的事情,为何又发生在浙江?

这种荒诞的事情,为何又发生在浙江?

奇葩游戏酱
2026-04-30 07:28:40
男人出轨同一个女人,超过五年还不腻,往往能说明这两个问题

男人出轨同一个女人,超过五年还不腻,往往能说明这两个问题

心理观察局
2026-04-30 10:22:04
“白骨精”扮演者杨春霞,一生拒谈西游记,至今不肯原谅导演杨洁

“白骨精”扮演者杨春霞,一生拒谈西游记,至今不肯原谅导演杨洁

历史龙元阁
2026-04-30 10:15:20
导弹瞄准上海?中方忍无可忍,禁空令落地,覆盖范围远超台岛两倍

导弹瞄准上海?中方忍无可忍,禁空令落地,覆盖范围远超台岛两倍

混沌录
2026-04-27 20:03:19
“奶葵”归来!“社恐”顶流诠释反差美学,十年归来仍是白月光!

“奶葵”归来!“社恐”顶流诠释反差美学,十年归来仍是白月光!

管鲍老四级
2026-04-28 15:55:44
天下苦“劳务派遣”久矣,废除劳务派遣制度迫在眉睫

天下苦“劳务派遣”久矣,废除劳务派遣制度迫在眉睫

呦呦鹿鸣
2026-04-18 21:50:44
迪马利亚:穆里尼奥在更衣室连C罗都敢喷,他是天才也是“疯子”

迪马利亚:穆里尼奥在更衣室连C罗都敢喷,他是天才也是“疯子”

夏侯看英超
2026-04-29 23:12:46
故事:产妇活蹦乱跳送进医院待产,晚上母婴双亡,通过录像得出真相

故事:产妇活蹦乱跳送进医院待产,晚上母婴双亡,通过录像得出真相

红豆讲堂
2024-12-19 10:54:00
第一夫人扛不住了!布丽吉特开口谈婚姻:9年没有正常夫妻生活

第一夫人扛不住了!布丽吉特开口谈婚姻:9年没有正常夫妻生活

白露文娱志
2026-04-29 14:05:20
24小时内挑衅中国3次,欧盟想当出头鸟,没料到这回中方重拳出击

24小时内挑衅中国3次,欧盟想当出头鸟,没料到这回中方重拳出击

古事寻踪记
2026-04-30 07:17:53
巴拿马运河成香饽饽,通行费涨到400万美元,企业排队送钱抢时间

巴拿马运河成香饽饽,通行费涨到400万美元,企业排队送钱抢时间

杰丝聊古今
2026-04-30 12:47:44
石破茂当众怒斥高市早苗:再跟美国瞎跑,日本就是下一个战场!

石破茂当众怒斥高市早苗:再跟美国瞎跑,日本就是下一个战场!

小影的娱乐
2026-04-29 20:50:16
美日菲军演后,055发射鹰击-20,中国反击或敌国捧杀

美日菲军演后,055发射鹰击-20,中国反击或敌国捧杀

阅尽天下精彩
2026-04-30 11:23:10
鲍威尔称卸任主席后将留任美联储理事 美财长谴责

鲍威尔称卸任主席后将留任美联储理事 美财长谴责

新京报
2026-04-30 07:19:04
马斯克天价薪酬方案曝光:若SpaceX市值达到7.5万亿美元且在火星建立至少100万人的人类永久定居点,马斯克将获授2亿股股票;国家数据局透露,全国已建...

马斯克天价薪酬方案曝光:若SpaceX市值达到7.5万亿美元且在火星建立至少100万人的人类永久定居点,马斯克将获授2亿股股票;国家数据局透露,全国已建...

每日经济新闻
2026-04-30 06:59:04
重大进展!我国新发现13个亿吨级油田

重大进展!我国新发现13个亿吨级油田

看看新闻Knews
2026-04-29 12:28:10
为什么加速扒万科?

为什么加速扒万科?

鲁八两
2026-04-28 15:18:51
日本高官称168小时可全歼中国海军,但中国禁用导弹

日本高官称168小时可全歼中国海军,但中国禁用导弹

明天后天大后天
2026-03-17 15:30:37
惊人一致!99%的女人“玩够”男人后,都会默契地做出这3种行为

惊人一致!99%的女人“玩够”男人后,都会默契地做出这3种行为

娱乐洞察点点
2026-04-30 12:09:24
2026-04-30 13:28:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11728文章数 117058关注度
往期回顾 全部

科技要闻

四巨头财报齐发:AI已经不只是风口

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

头条要闻

"上海最通透爸爸"去世 女儿:他退休20多年这辈子不亏

体育要闻

骑士天王山:哈登、莫布里和……施罗德?

娱乐要闻

孙杨妈妈被曝!过往言行被扒大开眼界

财经要闻

安世之乱,闻泰帝国近黄昏?

汽车要闻

上汽一季报出炉 在低增长周期里守住基本盘

态度原创

房产
亲子
手机
本地
公开课

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

亲子要闻

科学长高四件套,家长别错过!

手机要闻

外媒初探三星Galaxy Connect:设置繁琐、兼容性受限

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版