网易首页 > 网易号 > 正文 申请入驻

单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世

0
分享至


机器之心报道

机器之心编辑部

单 GPU 级世界模型来了。

斯坦福大学教授李飞飞创业公司 World Labs 又推出了新成果!

上个月,World Labs 发布了空间智能模型 Marble,「只需一张图片,就能生成持久存在的 3D 世界,比以往更宏大、更震撼。」

就在今天,一个可以实时、持续运行并保持 3D 一致性的生成式世界模型 RTFM 问世了,并且该模型在单个 H100 GPU 上就能跑起来。

视频链接:https://mp.weixin.qq.com/s/heMBDj1zReeZkaF8n3Rnsg

RTFM 的全称为「Real-Time Frame Model」,即实时帧模型。

根据官方介绍,RTFM 并不会显式地构建世界的 3D 表示。相反,它以一张或多张 2D 图像作为输入,直接生成同一场景在不同视角下的全新 2D 图像。

在技术上,RTFM 可以被视为一种学习型渲染器:它是一种端到端训练的自回归扩散 Transformer,基于大规模视频数据进行训练,最终仅通过观察训练集中的样本就学会了建模 3D 几何、反射、阴影等特征。

另外,RTFM 还可以用于从稀疏拍摄的照片中重建真实世界的场景。

World Labs 团队认为,生成式世界模型必然会对计算能力提出要求,甚至可能扩展到超出当今 LLM 的需求。但他们相信,生成式世界模型是未来渲染和空间智能领域至关重要的研究方向。

评论区的大家直呼不可思议。

接下来看 RTFM 的技术细节。

世界模型需要巨大的算力

世界模型能够实时重建、生成并模拟持久的、可交互的、物理上准确的世界。

过去一年生成式视频建模的突破,正逐渐延伸到生成式世界建模的领域。

但随着技术的发展,有一点愈发清晰:生成式世界模型的计算需求将远超当今的大语言模型。

举例来说,生成一段 4K 分辨率、60 帧每秒的交互式视频流,就需要每秒输出超过 10 万个 token(相当于《弗兰肯斯坦》或《哈利・波特与魔法石》整本书的长度)。

而若要让这些生成内容在一小时以上的交互中保持一致性与持续性,模型需要处理超过一亿个 token 的上下文。

以今天的计算基础设施来看,这既不可行,也不具经济可行性。

图灵奖得主 Rich Sutton 所著《苦涩的教训(The Bitter Lesson)》中谈到:那些能随着算力提升而优雅扩展的简单方法,最终会在人工智能领域占据主导地位,因为它们能够持续受益于计算成本的指数级下降,而这种下降正是推动整个科技进步的核心力量。

生成式世界模型正好契合这一趋势:它们将在计算成本持续降低的未来中充分受益。

这引出了一个自然的问题:生成式世界模型是否被当今的硬件条件所限制?还是说,我们已经有办法在今天就提前预览这项技术的雏形?

为了回答这一问题,团队从一个简单的目标出发:设计出一个足够高效、今天就可以部署的生成式世界模型,并且能够随着算力的增长持续扩展。他们希望构建一个可以在单张 H100 GPU 上运行的模型,既能保持交互式的帧率,又能提供无论你与之互动多长时间都能持续存在的世界体验。

可扩展性:作为学习型渲染器的世界模型

传统的 3D 图形渲染使用显式的三维表示(例如三角网格、高斯点云等)来建模世界,并通过渲染生成二维图像。这类方法依赖人工设计的数据结构与算法,来模拟三维几何、材质、光照、阴影、反射等多个要素。几十年来,它们一直是计算机图形学的可靠主力技术,但在扩展数据量和算力方面却并不容易。

RTFM 采用了完全不同的方法。它基于最近在生成式视频建模方面的进展,训练了一个神经网络模型,该模型输入一个或多个场景的二维图像,无需构建任何显式的三维表示,就能从新的视角生成该场景的二维图像。RTFM 是一种自回归扩散式 Transformer 模型,作用于帧序列之上,端到端地在大规模视频数据上训练,以预测在已有帧条件下的下一帧。

如前所述,RTFM 可以被视为一个学习型渲染器。它的输入图像被转换为神经网络的激活(KV 缓存),这些激活以隐式方式表示整个世界;在生成新帧时,网络通过注意力机制从这种表示中读取信息,从而生成与输入视角一致的新视图。这一从输入视图转换为世界表示、再从表示中渲染新图像的机制,是通过数据端到端学习得到的,而非人工设计。RTFM 通过在训练中观察诸如反射、阴影等复杂视觉效果,从而学会了对它们进行建模。

通过将 RTFM 与 Marble 结合,可以从单幅图像创建 3D 世界。RTFM 可以渲染复杂的效果,例如光照和反射,这些效果是通过端到端的数据学习而来的。

RTFM 模糊了重建和生成之间的界限,在传统的计算机视觉领域,重建和生成是两个不同的任务。RTFM 这项技术 打破了这两者之间的界限。它不是分别处理重建和生成,而是用同一个模型同时处理这两种情况:

当输入视角很多时,RTFM 的任务变得容易 —— 因为大多数信息都已有,它就更像是在做重建。

当输入视角很少时,模型只能基于已有信息猜测出其他视角的内容,行为更像是生成。

另外,现实世界的一个关键特性是持久性:当你移开视线时,世界不会凭空消失或完全改变;无论你离开多长时间,总是可以返回到之前到过的位置。

但对于自回归帧生成模型来说,实现这一点是一大挑战。因为世界只通过一帧帧的二维图像隐式表示,要实现持久性,模型必须在用户探索过程中不断推理和记忆越来越多的帧。这意味着每生成一帧所需的计算成本会不断上升,最终模型所能记住的世界范围将受限于其计算资源。

RTFM 通过为每一帧建模其在三维空间中的姿态(即位置和朝向),巧妙地绕过了这个问题。

配合上下文调度(context juggling)机制,RTFM 能够在保持高效的同时,在大场景中保留住几何结构,实现真正意义上的世界持久性。

如果你还没有尝试过 RTFM,现在就去体验吧:https://rtfm.worldlabs.ai/

播客链接:https://www.worldlabs.ai/blog/rtfm

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
抓了16个乌军一审,俄军当场傻了:真正按发射键的根本不在乌克兰

抓了16个乌军一审,俄军当场傻了:真正按发射键的根本不在乌克兰

扬子的故事屋
2026-06-30 10:36:41
北京这一夜,黄晓明做法让人大跌眼镜,分手原因曝光,杨颖买了单

北京这一夜,黄晓明做法让人大跌眼镜,分手原因曝光,杨颖买了单

全球风情大揭秘
2026-07-02 03:29:24
曼联哭晕!头号水货世界杯现形!英格兰险些被他坑惨了

曼联哭晕!头号水货世界杯现形!英格兰险些被他坑惨了

奶盖熊本熊
2026-07-02 02:15:04
和知名导演同居3年,转身找普通人“接盘”,如今52岁就戴老花镜

和知名导演同居3年,转身找普通人“接盘”,如今52岁就戴老花镜

翰飞观事
2026-07-01 17:01:16
当年揭露“三鹿奶粉”的上海记者,4年后辞职,17年后变成这样了

当年揭露“三鹿奶粉”的上海记者,4年后辞职,17年后变成这样了

轩逸阿II
2026-07-02 00:18:01
金价真的是一夜变天,7月1日新报价,全国金价竟然差这么多?

金价真的是一夜变天,7月1日新报价,全国金价竟然差这么多?

次元君情感
2026-07-01 14:28:08
余承东硬刚马斯克:特斯拉FSD只是接近,我们是超越!

余承东硬刚马斯克:特斯拉FSD只是接近,我们是超越!

大厂财经社
2026-07-01 11:31:01
埃尔多安呼吁摧毁以色列,兵力相差26万,内塔尼亚胡不敢轻举妄动

埃尔多安呼吁摧毁以色列,兵力相差26万,内塔尼亚胡不敢轻举妄动

离离言几许
2026-07-02 02:20:00
特朗普持仓曝光!赚麻了。。

特朗普持仓曝光!赚麻了。。

格隆汇
2026-07-01 17:42:08
1-2!太火爆了!双响再次出现,2大历史纪录刷新,非洲又一队淘汰

1-2!太火爆了!双响再次出现,2大历史纪录刷新,非洲又一队淘汰

小徐讲八卦
2026-07-02 05:29:26
韩国球迷怒骂滚出去!洪明甫被护送出境,入境大厅仅停留 2 分钟

韩国球迷怒骂滚出去!洪明甫被护送出境,入境大厅仅停留 2 分钟

老黯谈娱
2026-07-02 01:53:08
《四渡》里3万红军对抗40万敌军,电影外人民群众对抗黑分子

《四渡》里3万红军对抗40万敌军,电影外人民群众对抗黑分子

光影新天地
2026-06-29 12:50:20
和王楚钦秘密结婚真相大白后,孙颖莎近况曝光,难怪被踢出大赛

和王楚钦秘密结婚真相大白后,孙颖莎近况曝光,难怪被踢出大赛

徐醇老表哥
2026-07-02 04:10:10
先进封装迈向玻璃基板时代,国内面板巨头跑步入场,谁有望成为赢家?

先进封装迈向玻璃基板时代,国内面板巨头跑步入场,谁有望成为赢家?

华尔街见闻官方
2026-07-01 15:19:49
湖人队昆廷·格莱姆斯与父亲的合影,仿佛注定他将成为湖人一员

湖人队昆廷·格莱姆斯与父亲的合影,仿佛注定他将成为湖人一员

好火子
2026-07-02 05:44:49
欠税39.5元!美妆博主程十安停更三年回归涨粉

欠税39.5元!美妆博主程十安停更三年回归涨粉

情感大头说说
2026-07-01 15:45:39
俄军继续推进,普京最新表态!打了4年多,双方伤亡近180万人,乌人口锐减900万!特朗普:与美国无关,“只是卖卖武器”

俄军继续推进,普京最新表态!打了4年多,双方伤亡近180万人,乌人口锐减900万!特朗普:与美国无关,“只是卖卖武器”

鲁中晨报
2026-06-29 14:39:03
镰田大地:除非足球成为日本的国球,否则很难拿下世界杯冠军

镰田大地:除非足球成为日本的国球,否则很难拿下世界杯冠军

懂球帝
2026-07-01 16:20:23
立刻删掉自选股蹭概念!长鑫10个拿实单硬核厂商

立刻删掉自选股蹭概念!长鑫10个拿实单硬核厂商

流苏晚晴
2026-07-01 18:08:14
历史第一人!哈兰德一己之力改写挪威28年世界杯空白,缔造传奇

历史第一人!哈兰德一己之力改写挪威28年世界杯空白,缔造传奇

夜白侃球
2026-07-01 11:29:58
2026-07-02 06:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13409文章数 142685关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

头条要闻

凯恩梅开二度 英格兰2-1逆转民主刚果将战墨西哥

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

教育
健康
亲子
艺术
公开课

教育要闻

2026年高考地理广东卷“十宗罪”

年糕汤圆别油炸,水煮清蒸更健康

亲子要闻

兰姐出差回北京,先去看小裙子!和小宝宝戴同款墨镜超开心!

艺术要闻

宋朝:生活品味,比权力和财富更重要!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版