网易首页 > 网易号 > 正文 申请入驻

单张显卡实时生成3D世界,李飞飞World Labs推出全新世界模型RTFM

0
分享至

当地时间 10 月 16 日,由知名学者李飞飞领衔的创业公司 World Labs 宣布推出 RTFM(Real-Time Frame Model,实时框架模型)。这是一款能够实时生成交互式三维世界的全新世界模型,据团队介绍,RTFM 仅需单块 H100 GPU,就能实时生成可交互的三维世界。

去年十二月,World Labs 推出了首个重磅产品,展示了从单张图片生成持久三维世界的能力。彼时,业界已经为这种“图生世界”的技术所震撼。而如今发布的 RTFM,则在效率和交互性上实现了新的突破。

按照 World Labs 官方的描述,RTFM 围绕三个核心设计原则展开。

首先是效率——这款模型能够在单张 H100 GPU 上以交互式帧率运行推理。在生成式人工智能领域,算力消耗一直是制约技术落地的瓶颈。若要实现四千分辨率、每秒六十帧的交互式视频流,传统视频架构需要每秒生成超过十万个 token,这相当于每秒输出一本《弗兰肯斯坦》或《哈利·波特》第一部的文本量。要让这样的生成持续一小时以上,系统需要处理超过一亿个 token 的上下文。这在当前的计算基础设施下既不可行,也不经济。李飞飞团队信奉所谓的“苦涩教训”(The Bitter Lesson):那些能够优雅地随计算资源扩展的简单方法,往往会在 AI 发展中胜出,因为它们能够受益于计算成本的指数级下降。

RTFM 的设计哲学正是建立在这一信念之上。他们在技术路线上做出了大胆的取舍,从任务设定到模型架构,再到推理堆栈的每个环节,都进行了精心优化。团队运用了最新的架构设计、模型蒸馏和推理优化技术,试图在今天的硬件上,提前展现未来模型的能力。

其次是可扩展性。RTFM 的架构设计从一开始就考虑到了随数据和算力增长而扩展的能力。不同于传统三维图形管线依赖显式三维表示——如三角网格或高斯斑点——的做法,RTFM 走了一条截然不同的路径。它建立在生成式视频建模的最新进展之上,训练一个单一的神经网络,输入一张或多张场景的二维图像,然后生成从新视角观察该场景的二维图像,整个过程无需构建任何显式的三维表示。

从技术架构上看,RTFM 是一个自回归扩散 Transformer(Diffusion Transformer),它在序列帧上进行操作,通过大规模视频数据的端到端训练,能够基于之前的帧预测下一帧。这里可以将 RTFM 理解为一种“习得的渲染器”(Learned Renderer)。输入的帧被转换成神经网络激活——也就是键值缓存(Key-Value Cache,KV Cache),这种缓存隐式地表征了世界。在生成新帧时,网络通过注意力机制读取这种表征,创造出与输入视角一致的新视角。将输入视角转换为世界表征、再从这些表征渲染新帧的机制,全部是从数据中端到端学习而来,而非人工设计。

因此,RTFM 能够学会模拟复杂的光影效果——反射、阴影、光泽表面、镜头眩光——只需要在训练过程中观察这些现象即可。团队展示的案例中,赛博朋克风格的潜艇厨房、玻璃结构、电视屏幕中的复杂反射,都由模型自然生成,效果相当不错。

与此同时,RTFM 模糊了“重建”和“生成”之间的界限,这两者在计算机视觉领域历来被当作不同问题处理。当输入视角较多时,模型倾向于执行重建任务,因为约束条件更强;当输入视角较少时,模型则被迫进行外推,创造输入中不可见的内容。这种连续性让 RTFM 既能处理真实世界场景的渲染——团队展示了从短视频重建现实场景的案例——也能从单张图片生成想象中的三维世界。结合 World Labs 此前发布的 Marble 技术,用户可以从一张图片出发,探索完整的三维环境。

第三个原则是持久性。真实世界有一个关键属性——当你转过身去,世界并不会消失或彻底改变,你总能回到之前访问过的地方,无论离开多久。但这对于自回归帧模型来说一直是个挑战。由于世界仅通过二维图像帧隐式表征,持久性要求模型在用户探索世界时,需要对不断增长的帧集合进行推理。这导致每生成一帧都比前一帧更加昂贵,模型对世界的记忆实际上受限于计算预算。

RTFM 用一种巧妙的方法绕过了这个问题,它为每一帧赋予了三维空间中的“位姿”——即位置和方向。生成新帧时,系统会以待生成帧的位姿作为查询条件。这样一来,模型对世界的记忆,也就是它所记录的帧,就具有了空间结构。这些带位姿的帧构成了一种空间记忆。这赋予了模型一个弱先验——它所建模的世界是一个三维欧几里得空间——而无需强制它去显式预测该世界中物体的三维几何形状。

在生成新帧时,RTFM 会从空间记忆中检索附近的帧,为模型形成定制化的“上下文”。团队将这种技术称为“上下文切换”(context juggling)——模型在空间的不同区域生成图像时,使用不同的上下文帧。这使得 RTFM 能够在长时间交互中维持大型世界,而无需对不断增长的帧集合进行推理。演示视频中,用户可以在一个带有光泽反射的大堂中自由移动,几何细节在整个场景中保持一致,即便离开又返回也不会出现崩塌。

World Labs 在博客中表示,RTFM 目前还只是个开始。团队接下来想增强对动态世界的建模,让用户能真正与生成的世界产生交互。现在的版本针对单张 H100 显卡做了优化,但他们预期更大的模型、更多的算力投入,会持续带来性能提升。

有兴趣的用户现在可以访问 World Labs 官网,在浏览器中体验 RTFM 的演示版本。

参考资料:

1.https://www.worldlabs.ai/blog/rtfm

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张怡宁变样了,快认不出来了

张怡宁变样了,快认不出来了

可乐谈情感
2025-10-20 07:24:53
辽宁铁人足球俱乐部冲超成功!老辽宁球员现场登台引泪目

辽宁铁人足球俱乐部冲超成功!老辽宁球员现场登台引泪目

辽沈音信
2025-11-10 00:03:11
郑主席反击得漂亮!3天内挖掉朱立伦埋的雷,侯友宜成最大刺头​

郑主席反击得漂亮!3天内挖掉朱立伦埋的雷,侯友宜成最大刺头​

boss外传
2025-11-08 18:00:02
独行侠总经理尼科·哈里森的职位岌岌可危,成为NBA热议话题

独行侠总经理尼科·哈里森的职位岌岌可危,成为NBA热议话题

好火子
2025-11-10 04:51:53
人民日报发声问责!廊坊“拦婚车事件”,当地官方岂能装聋作哑?

人民日报发声问责!廊坊“拦婚车事件”,当地官方岂能装聋作哑?

热风追逐者
2025-11-09 17:33:54
预制菜风波两个月,西贝“冰与火”:多个门店关闭,也有门店大排长龙

预制菜风波两个月,西贝“冰与火”:多个门店关闭,也有门店大排长龙

红星新闻
2025-11-09 20:10:17
心碎!虎鲸母子被困废弃海洋公园,无人机拍到濒死“起舞”引全球愤怒!

心碎!虎鲸母子被困废弃海洋公园,无人机拍到濒死“起舞”引全球愤怒!

英国报姐
2025-11-08 21:08:54
血管悄悄硬化、堵塞?不用去医院!在家2招自查,早发现早救命

血管悄悄硬化、堵塞?不用去医院!在家2招自查,早发现早救命

孟大夫之家1
2025-10-29 20:18:06
太阳二当家退赛!榜眼打1场又伤,火箭铁人变脆皮?其实早有迹象

太阳二当家退赛!榜眼打1场又伤,火箭铁人变脆皮?其实早有迹象

山河入画屏
2025-11-09 14:50:17
披露:刘道玉被免去武汉大学校长的真实原因!

披露:刘道玉被免去武汉大学校长的真实原因!

尚曦读史
2025-05-17 23:08:05
比特币,不行了!

比特币,不行了!

澳洲财经见闻
2025-11-10 03:34:13
为何说梅毒病是最脏的病?医生详细讲解,隔着屏幕都感到头皮发麻

为何说梅毒病是最脏的病?医生详细讲解,隔着屏幕都感到头皮发麻

小舟谈历史
2025-10-15 09:30:14
以为长虹凉了?2025年净利润爆增,它早不只是卖彩电的了!

以为长虹凉了?2025年净利润爆增,它早不只是卖彩电的了!

李砍柴
2025-11-09 21:44:56
抗战时徐向前为啥失去军事指挥权?原因是他政治上愚钝触及了底线

抗战时徐向前为啥失去军事指挥权?原因是他政治上愚钝触及了底线

狮拓一叶知秋
2025-05-01 23:55:55
李一诺:18岁保送清华,27岁博士毕业,4年生3娃,替世界首富花钱

李一诺:18岁保送清华,27岁博士毕业,4年生3娃,替世界首富花钱

毒sir财经
2025-10-08 21:36:11
破案了!终于知道为什么付辛博长的这么帅演技这么好却不火了!

破案了!终于知道为什么付辛博长的这么帅演技这么好却不火了!

小娱乐悠悠
2025-11-09 13:00:38
最阴险的水果,是它?

最阴险的水果,是它?

中国新闻周刊
2025-11-09 20:17:03
2025年末,即将逆袭的三个星座,从默默无闻到万众瞩目

2025年末,即将逆袭的三个星座,从默默无闻到万众瞩目

小晴星座说
2025-11-07 19:44:50
澳洲地产大亨之子重病赴华求治,老中医开口一句令男子彻底傻眼

澳洲地产大亨之子重病赴华求治,老中医开口一句令男子彻底傻眼

红豆讲堂
2025-10-14 09:30:03
4个老婆,全家移民,享受正师级待遇,潘长江身上哪个标签是真的

4个老婆,全家移民,享受正师级待遇,潘长江身上哪个标签是真的

往史过眼云烟
2025-10-11 11:56:09
2025-11-10 05:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15843文章数 514277关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

头条要闻

25岁女孩海岛求生赛吃老鼠蜈蚣 35天暴瘦28斤

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

时尚
健康
手机
本地
军事航空

伊姐周六热推:电视剧《四喜》;电视剧《唐朝诡事录之长安》......

超声探头会加重受伤情况吗?

手机要闻

愈演愈烈!iPhone半夜“偷拨号”持续发酵,疑似iOS26的锅?

本地新闻

这届干饭人,已经把博物馆吃成了食堂

军事要闻

俄媒:俄军即将攻占乌克兰"第三首都"

无障碍浏览 进入关怀版