网易首页 > 网易号 > 正文 申请入驻

单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世

0
分享至




机器之心报道

机器之心编辑部

单 GPU 级世界模型来了。

斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果!

上个月,World Labs 发布了空间智能模型 Marble,「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼。」

就在今天,一个可以实时、持续运行并保持 3D 一致性的生成式世界模型 RTFM 问世了,并且该模型在单个 H100 GPU 上就能跑起来。



视频链接:https://mp.weixin.qq.com/s/heMBDj1zReeZkaF8n3Rnsg

RTFM 的全称为「Real-Time Frame Model」,即实时帧模型。



根据官方介绍,RTFM 并不会显式地构建世界的 3D 表示。相反,它以一张或多张 2D 图像作为输入,直接生成同一场景在不同视角下的全新 2D 图像。

在技术上,RTFM 可以被视为一种学习型渲染器:它是一种端到端训练的自回归扩散 Transformer,基于大规模视频数据进行训练,最终仅通过观察训练集中的样本就学会了建模 3D 几何、反射、阴影等特征。



另外,RTFM 还可以用于从稀疏拍摄的照片中重建真实世界的场景。



World Labs 团队认为,生成式世界模型必然会对计算能力提出要求,甚至可能扩展到超出当今 LLM 的需求。但他们相信,生成式世界模型是未来渲染和空间智能领域至关重要的研究方向。

评论区的大家直呼不可思议。



接下来看 RTFM 的技术细节。

世界模型需要巨大的算力

世界模型能够实时重建、生成并模拟持久的、可交互的、物理上准确的世界。

过去一年生成式视频建模的突破,正逐渐延伸到生成式世界建模的领域。

但随着技术的发展,有一点愈发清晰:生成式世界模型的计算需求将远超当今的大语言模型。

举例来说,生成一段 4K 分辨率、60 帧每秒的交互式视频流,就需要每秒输出超过 10 万个 token(相当于《弗兰肯斯坦》或《哈利・波特与魔法石》整本书的长度)。

而若要让这些生成内容在一小时以上的交互中保持一致性与持续性,模型需要处理超过一亿个 token 的上下文。

以今天的计算基础设施来看,这既不可行,也不具经济可行性。

图灵奖得主 Rich Sutton 所著《苦涩的教训(The Bitter Lesson)》中谈到:那些能随着算力提升而优雅扩展的简单方法,最终会在人工智能领域占据主导地位,因为它们能够持续受益于计算成本的指数级下降,而这种下降正是推动整个科技进步的核心力量。

生成式世界模型正好契合这一趋势:它们将在计算成本持续降低的未来中充分受益。

这引出了一个自然的问题:生成式世界模型是否被当今的硬件条件所限制?还是说,我们已经有办法在今天就提前预览这项技术的雏形?

为了回答这一问题,团队从一个简单的目标出发:设计出一个足够高效、今天就可以部署的生成式世界模型,并且能够随着算力的增长持续扩展。他们希望构建一个可以在单张 H100 GPU 上运行的模型,既能保持交互式的帧率,又能提供无论你与之互动多长时间都能持续存在的世界体验。

可扩展性:作为学习型渲染器的世界模型

传统的 3D 图形渲染使用显式的三维表示(例如三角网格、高斯点云等)来建模世界,并通过渲染生成二维图像。这类方法依赖人工设计的数据结构与算法,来模拟三维几何、材质、光照、阴影、反射等多个要素。几十年来,它们一直是计算机图形学的可靠主力技术,但在扩展数据量和算力方面却并不容易。

RTFM 采用了完全不同的方法。它基于最近在生成式视频建模方面的进展,训练了一个神经网络模型,该模型输入一个或多个场景的二维图像,无需构建任何显式的三维表示,就能从新的视角生成该场景的二维图像。RTFM 是一种自回归扩散式 Transformer 模型,作用于帧序列之上,端到端地在大规模视频数据上训练,以预测在已有帧条件下的下一帧。

如前所述,RTFM 可以被视为一个学习型渲染器。它的输入图像被转换为神经网络的激活(KV 缓存),这些激活以隐式方式表示整个世界;在生成新帧时,网络通过注意力机制从这种表示中读取信息,从而生成与输入视角一致的新视图。这一从输入视图转换为世界表示、再从表示中渲染新图像的机制,是通过数据端到端学习得到的,而非人工设计。RTFM 通过在训练中观察诸如反射、阴影等复杂视觉效果,从而学会了对它们进行建模。

通过将 RTFM 与 Marble 结合,可以从单幅图像创建 3D 世界。RTFM 可以渲染复杂的效果,例如光照和反射,这些效果是通过端到端的数据学习而来的。



RTFM 模糊了重建和生成之间的界限,在传统的计算机视觉领域,重建和生成是两个不同的任务。RTFM 这项技术 打破了这两者之间的界限。它不是分别处理重建和生成,而是用同一个模型同时处理这两种情况:

当输入视角很多时,RTFM 的任务变得容易 —— 因为大多数信息都已有,它就更像是在做重建。

当输入视角很少时,模型只能基于已有信息猜测出其他视角的内容,行为更像是生成。



另外,现实世界的一个关键特性是持久性:当你移开视线时,世界不会凭空消失或完全改变;无论你离开多长时间,总是可以返回到之前到过的位置。

但对于自回归帧生成模型来说,实现这一点是一大挑战。因为世界只通过一帧帧的二维图像隐式表示,要实现持久性,模型必须在用户探索过程中不断推理和记忆越来越多的帧。这意味着每生成一帧所需的计算成本会不断上升,最终模型所能记住的世界范围将受限于其计算资源。

RTFM 通过为每一帧建模其在三维空间中的姿态(即位置和朝向),巧妙地绕过了这个问题。

配合上下文调度(context juggling)机制,RTFM 能够在保持高效的同时,在大场景中保留住几何结构,实现真正意义上的世界持久性。



如果你还没有尝试过 RTFM,现在就去体验吧:https://rtfm.worldlabs.ai/

播客链接:https://www.worldlabs.ai/blog/rtfm

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
副部级高官任上落马,任职地多名前下属被查

副部级高官任上落马,任职地多名前下属被查

中国新闻周刊
2026-03-29 09:44:48
茶水是心梗“加速器”?医生:不想心脏出问题,这几种茶一定少喝

茶水是心梗“加速器”?医生:不想心脏出问题,这几种茶一定少喝

健康之光
2026-03-28 16:00:09
伊朗胜利的曙光来了,因为战事不利,以色列内部开始爆发激烈内讧

伊朗胜利的曙光来了,因为战事不利,以色列内部开始爆发激烈内讧

阿七说史
2026-03-28 15:22:52
刘亦菲这身肉,扇了谁的脸?

刘亦菲这身肉,扇了谁的脸?

喜欢历史的阿繁
2026-03-29 14:05:02
昨天,上海楼市最狂热最诡异的一天!!

昨天,上海楼市最狂热最诡异的一天!!

新浪财经
2026-03-29 13:28:22
争议!一男子选手长期跟跑张水华疑抢镜头 遭批:不破风+故意跑慢

争议!一男子选手长期跟跑张水华疑抢镜头 遭批:不破风+故意跑慢

风过乡
2026-03-29 09:33:10
网传张雪峰公司“峰学蔚来”换帅了?他叫武亮,家长终于放心了

网传张雪峰公司“峰学蔚来”换帅了?他叫武亮,家长终于放心了

谈史论天地
2026-03-29 07:53:45
美媒直言:特朗普下台也没用,他出现不是意外,而是美国命该如此

美媒直言:特朗普下台也没用,他出现不是意外,而是美国命该如此

安珈使者啊
2026-03-29 14:28:01
“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

“直接崩了,一天掉了一百多元!”有人疯狂抛售,国际巨头接连发布新技术……格局将被改变?

都市快报橙柿互动
2026-03-29 12:26:05
乌拉圭晒图:如何解释300万人的国家能培养出皇萨队长?

乌拉圭晒图:如何解释300万人的国家能培养出皇萨队长?

懂球帝
2026-03-29 11:01:15
4万股民懵了!002538突遭ST,明起停牌

4万股民懵了!002538突遭ST,明起停牌

大众证券报
2026-03-29 11:34:12
74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

74年李先念找到李德生,沉默半晌后说:要你辞职,是毛主席的建议

鹤羽说个事
2026-03-27 22:49:42
台湾民众党上凯道声援柯文哲,黄国昌:感谢国民党朋友的支持

台湾民众党上凯道声援柯文哲,黄国昌:感谢国民党朋友的支持

海峡导报社
2026-03-29 15:37:03
国务院正式纠偏!4亿人代步出行定心丸来了,上路不再提心吊胆

国务院正式纠偏!4亿人代步出行定心丸来了,上路不再提心吊胆

娱乐圈见解说
2026-03-29 02:44:25
“擦边”的世界冠军吴柳芳,终于还清了债

“擦边”的世界冠军吴柳芳,终于还清了债

冰川思想库
2026-03-27 11:33:25
一段夫妻离婚对话刷屏!丈夫坦诚变心、净身出户,妻子竟平静应允

一段夫妻离婚对话刷屏!丈夫坦诚变心、净身出户,妻子竟平静应允

火山詩话
2026-03-28 15:09:53
湖南省高院明确定性“错判”的刑案,长沙司法系统为何死扛到底?

湖南省高院明确定性“错判”的刑案,长沙司法系统为何死扛到底?

塔子山评说
2026-03-28 14:43:49
反转了! 刘晓庆妹妹录音曝光:她要是真把房子捐国家,我们签字配合

反转了! 刘晓庆妹妹录音曝光:她要是真把房子捐国家,我们签字配合

陈意小可爱
2026-03-28 15:49:01
快讯!卢拉公开喊话中国!

快讯!卢拉公开喊话中国!

达文西看世界
2026-03-29 11:28:31
X热议:女性喜欢的脸 vs 男性喜欢的脸

X热议:女性喜欢的脸 vs 男性喜欢的脸

东京新青年
2026-03-28 11:02:30
2026-03-29 16:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12620文章数 142599关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

美军地面战"数周速决"方案披露 欲复刻"42天灭伊"神话

头条要闻

美军地面战"数周速决"方案披露 欲复刻"42天灭伊"神话

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

家居
艺术
时尚
教育
公开课

家居要闻

曲线华尔兹 现代简约

艺术要闻

2025江南如画——中国油画作品展 | 入选作品选刊(二)

伊姐周六热推:电视剧《家事法庭》;电视剧《白日提灯》......

教育要闻

对于青春期的孩子,家长一定要进行严肃的防欺凌和隐私保护教育

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版