网易首页 > 网易号 > 正文 申请入驻

单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世

0
分享至




机器之心报道

机器之心编辑部

单 GPU 级世界模型来了。

斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果!

上个月,World Labs 发布了空间智能模型 Marble,「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼。」

就在今天,一个可以实时、持续运行并保持 3D 一致性的生成式世界模型 RTFM 问世了,并且该模型在单个 H100 GPU 上就能跑起来。



视频链接:https://mp.weixin.qq.com/s/heMBDj1zReeZkaF8n3Rnsg

RTFM 的全称为「Real-Time Frame Model」,即实时帧模型。



根据官方介绍,RTFM 并不会显式地构建世界的 3D 表示。相反,它以一张或多张 2D 图像作为输入,直接生成同一场景在不同视角下的全新 2D 图像。

在技术上,RTFM 可以被视为一种学习型渲染器:它是一种端到端训练的自回归扩散 Transformer,基于大规模视频数据进行训练,最终仅通过观察训练集中的样本就学会了建模 3D 几何、反射、阴影等特征。



另外,RTFM 还可以用于从稀疏拍摄的照片中重建真实世界的场景。



World Labs 团队认为,生成式世界模型必然会对计算能力提出要求,甚至可能扩展到超出当今 LLM 的需求。但他们相信,生成式世界模型是未来渲染和空间智能领域至关重要的研究方向。

评论区的大家直呼不可思议。



接下来看 RTFM 的技术细节。

世界模型需要巨大的算力

世界模型能够实时重建、生成并模拟持久的、可交互的、物理上准确的世界。

过去一年生成式视频建模的突破,正逐渐延伸到生成式世界建模的领域。

但随着技术的发展,有一点愈发清晰:生成式世界模型的计算需求将远超当今的大语言模型。

举例来说,生成一段 4K 分辨率、60 帧每秒的交互式视频流,就需要每秒输出超过 10 万个 token(相当于《弗兰肯斯坦》或《哈利・波特与魔法石》整本书的长度)。

而若要让这些生成内容在一小时以上的交互中保持一致性与持续性,模型需要处理超过一亿个 token 的上下文。

以今天的计算基础设施来看,这既不可行,也不具经济可行性。

图灵奖得主 Rich Sutton 所著《苦涩的教训(The Bitter Lesson)》中谈到:那些能随着算力提升而优雅扩展的简单方法,最终会在人工智能领域占据主导地位,因为它们能够持续受益于计算成本的指数级下降,而这种下降正是推动整个科技进步的核心力量。

生成式世界模型正好契合这一趋势:它们将在计算成本持续降低的未来中充分受益。

这引出了一个自然的问题:生成式世界模型是否被当今的硬件条件所限制?还是说,我们已经有办法在今天就提前预览这项技术的雏形?

为了回答这一问题,团队从一个简单的目标出发:设计出一个足够高效、今天就可以部署的生成式世界模型,并且能够随着算力的增长持续扩展。他们希望构建一个可以在单张 H100 GPU 上运行的模型,既能保持交互式的帧率,又能提供无论你与之互动多长时间都能持续存在的世界体验。

可扩展性:作为学习型渲染器的世界模型

传统的 3D 图形渲染使用显式的三维表示(例如三角网格、高斯点云等)来建模世界,并通过渲染生成二维图像。这类方法依赖人工设计的数据结构与算法,来模拟三维几何、材质、光照、阴影、反射等多个要素。几十年来,它们一直是计算机图形学的可靠主力技术,但在扩展数据量和算力方面却并不容易。

RTFM 采用了完全不同的方法。它基于最近在生成式视频建模方面的进展,训练了一个神经网络模型,该模型输入一个或多个场景的二维图像,无需构建任何显式的三维表示,就能从新的视角生成该场景的二维图像。RTFM 是一种自回归扩散式 Transformer 模型,作用于帧序列之上,端到端地在大规模视频数据上训练,以预测在已有帧条件下的下一帧。

如前所述,RTFM 可以被视为一个学习型渲染器。它的输入图像被转换为神经网络的激活(KV 缓存),这些激活以隐式方式表示整个世界;在生成新帧时,网络通过注意力机制从这种表示中读取信息,从而生成与输入视角一致的新视图。这一从输入视图转换为世界表示、再从表示中渲染新图像的机制,是通过数据端到端学习得到的,而非人工设计。RTFM 通过在训练中观察诸如反射、阴影等复杂视觉效果,从而学会了对它们进行建模。

通过将 RTFM 与 Marble 结合,可以从单幅图像创建 3D 世界。RTFM 可以渲染复杂的效果,例如光照和反射,这些效果是通过端到端的数据学习而来的。



RTFM 模糊了重建和生成之间的界限,在传统的计算机视觉领域,重建和生成是两个不同的任务。RTFM 这项技术 打破了这两者之间的界限。它不是分别处理重建和生成,而是用同一个模型同时处理这两种情况:

当输入视角很多时,RTFM 的任务变得容易 —— 因为大多数信息都已有,它就更像是在做重建。

当输入视角很少时,模型只能基于已有信息猜测出其他视角的内容,行为更像是生成。



另外,现实世界的一个关键特性是持久性:当你移开视线时,世界不会凭空消失或完全改变;无论你离开多长时间,总是可以返回到之前到过的位置。

但对于自回归帧生成模型来说,实现这一点是一大挑战。因为世界只通过一帧帧的二维图像隐式表示,要实现持久性,模型必须在用户探索过程中不断推理和记忆越来越多的帧。这意味着每生成一帧所需的计算成本会不断上升,最终模型所能记住的世界范围将受限于其计算资源。

RTFM 通过为每一帧建模其在三维空间中的姿态(即位置和朝向),巧妙地绕过了这个问题。

配合上下文调度(context juggling)机制,RTFM 能够在保持高效的同时,在大场景中保留住几何结构,实现真正意义上的世界持久性。



如果你还没有尝试过 RTFM,现在就去体验吧:https://rtfm.worldlabs.ai/

播客链接:https://www.worldlabs.ai/blog/rtfm

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开拓者老鹰达成3换1!杨瀚森添三分神射新队友 交易评级出炉

开拓者老鹰达成3换1!杨瀚森添三分神射新队友 交易评级出炉

罗说NBA
2026-02-02 04:03:35
中方接连“被做局”,美国真能“赢麻了”?

中方接连“被做局”,美国真能“赢麻了”?

头条爆料007
2026-02-02 06:25:51
一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

一天2.2万人爽约!灵隐寺这次算是被白嫖党,给结结实实上了一课

火山诗话
2026-02-02 08:41:43
史诗级闪崩!但历史不会简单重演

史诗级闪崩!但历史不会简单重演

新浪财经
2026-02-01 19:11:18
国际黄金价格创下40年来最大单日跌幅 专家:对前期过热情绪的快速修正

国际黄金价格创下40年来最大单日跌幅 专家:对前期过热情绪的快速修正

证券时报
2026-02-02 07:31:07
莱昂纳德100%递补入选全明星!首次世界队VS美国队就有BUG!

莱昂纳德100%递补入选全明星!首次世界队VS美国队就有BUG!

篮球大图
2026-02-02 08:27:55
狂胜43分!热巴20+9热火复仇公牛 河村勇辉6+6+6生涯新高

狂胜43分!热巴20+9热火复仇公牛 河村勇辉6+6+6生涯新高

醉卧浮生
2026-02-02 09:25:26
专家回应大年三十“消失”:正常历法现象

专家回应大年三十“消失”:正常历法现象

环球网资讯
2026-02-02 10:45:13
个人增值税起征点提高至1000元

个人增值税起征点提高至1000元

南方都市报
2026-02-02 07:05:17
浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

不写散文诗
2026-01-30 12:16:42
武契奇:我预计48小时内伊朗将遭袭

武契奇:我预计48小时内伊朗将遭袭

新京报政事儿
2026-02-02 11:39:00
一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

一个逻辑闭环:阿富汗女性只能上到小学,但女患者又必须看女医生

黄娜老师
2026-02-01 13:45:43
现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

现场画面:柬埔寨对一电诈园区展开最大规模行动,抓捕2044人;缅甸出动空军运输机押729人回国

扬子晚报
2026-02-01 15:59:57
再公布超三百万页文件仍难平息公众质疑,爱泼斯坦案爆出更多“大人物”丑行

再公布超三百万页文件仍难平息公众质疑,爱泼斯坦案爆出更多“大人物”丑行

环球网资讯
2026-02-02 06:57:29
创纪录暴跌后,今日金银价继续大跌!刚买的金饰能退吗?有商家提醒

创纪录暴跌后,今日金银价继续大跌!刚买的金饰能退吗?有商家提醒

每日经济新闻
2026-02-02 08:19:12
玩不到一起真尴尬,沈腾沙溢努力调节气氛,关晓彤张凯丽盛气凌人

玩不到一起真尴尬,沈腾沙溢努力调节气氛,关晓彤张凯丽盛气凌人

白面书誏
2026-02-01 18:39:22
谷爱凌爱上币圈诈骗犯孙宇晨?

谷爱凌爱上币圈诈骗犯孙宇晨?

爆角追踪
2026-02-01 17:28:46
唐末最强雇佣军,开创了三个王朝

唐末最强雇佣军,开创了三个王朝

《中国国家历史》
2026-02-01 21:38:11
“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻
2026-02-01 21:39:09
30岁男子如厕时猝死,妻子回忆事发前5天,那些被掩盖的生命求救信号

30岁男子如厕时猝死,妻子回忆事发前5天,那些被掩盖的生命求救信号

红星新闻
2026-02-01 23:06:17
2026-02-02 12:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12233文章数 142562关注度
往期回顾 全部

科技要闻

元宝发10亿红包,阿里千问:我跟30亿

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

头条要闻

30岁男子如厕时猝死 妻子回忆事发前5天丈夫疼痛细节

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

国六货车被迫"换头" 每次收费超200元

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

健康
家居
本地
数码
军事航空

耳石症分类型,症状大不同

家居要闻

现代几何彩拼 智焕童梦居

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

安卓小平板口碑王!新款联想拯救者Y700官宣3月见:支持实体SIM卡

军事要闻

委内瑞拉外长会见美外交使团团长

无障碍浏览 进入关怀版