网易首页 > 网易号 > 正文 申请入驻

单张显卡实时生成3D世界,李飞飞World Labs推出全新世界模型RTFM

0
分享至

当地时间 10 月 16 日,由知名学者李飞飞领衔的创业公司 World Labs 宣布推出 RTFM(Real-Time Frame Model,实时框架模型)。这是一款能够实时生成交互式三维世界的全新世界模型,据团队介绍,RTFM 仅需单块 H100 GPU,就能实时生成可交互的三维世界。

去年十二月,World Labs 推出了首个重磅产品,展示了从单张图片生成持久三维世界的能力。彼时,业界已经为这种“图生世界”的技术所震撼。而如今发布的 RTFM,则在效率和交互性上实现了新的突破。

按照 World Labs 官方的描述,RTFM 围绕三个核心设计原则展开。

首先是效率——这款模型能够在单张 H100 GPU 上以交互式帧率运行推理。在生成式人工智能领域,算力消耗一直是制约技术落地的瓶颈。若要实现四千分辨率、每秒六十帧的交互式视频流,传统视频架构需要每秒生成超过十万个 token,这相当于每秒输出一本《弗兰肯斯坦》或《哈利·波特》第一部的文本量。要让这样的生成持续一小时以上,系统需要处理超过一亿个 token 的上下文。这在当前的计算基础设施下既不可行,也不经济。李飞飞团队信奉所谓的“苦涩教训”(The Bitter Lesson):那些能够优雅地随计算资源扩展的简单方法,往往会在 AI 发展中胜出,因为它们能够受益于计算成本的指数级下降。

RTFM 的设计哲学正是建立在这一信念之上。他们在技术路线上做出了大胆的取舍,从任务设定到模型架构,再到推理堆栈的每个环节,都进行了精心优化。团队运用了最新的架构设计、模型蒸馏和推理优化技术,试图在今天的硬件上,提前展现未来模型的能力。

其次是可扩展性。RTFM 的架构设计从一开始就考虑到了随数据和算力增长而扩展的能力。不同于传统三维图形管线依赖显式三维表示——如三角网格或高斯斑点——的做法,RTFM 走了一条截然不同的路径。它建立在生成式视频建模的最新进展之上,训练一个单一的神经网络,输入一张或多张场景的二维图像,然后生成从新视角观察该场景的二维图像,整个过程无需构建任何显式的三维表示。

从技术架构上看,RTFM 是一个自回归扩散 Transformer(Diffusion Transformer),它在序列帧上进行操作,通过大规模视频数据的端到端训练,能够基于之前的帧预测下一帧。这里可以将 RTFM 理解为一种“习得的渲染器”(Learned Renderer)。输入的帧被转换成神经网络激活——也就是键值缓存(Key-Value Cache,KV Cache),这种缓存隐式地表征了世界。在生成新帧时,网络通过注意力机制读取这种表征,创造出与输入视角一致的新视角。将输入视角转换为世界表征、再从这些表征渲染新帧的机制,全部是从数据中端到端学习而来,而非人工设计。

因此,RTFM 能够学会模拟复杂的光影效果——反射、阴影、光泽表面、镜头眩光——只需要在训练过程中观察这些现象即可。团队展示的案例中,赛博朋克风格的潜艇厨房、玻璃结构、电视屏幕中的复杂反射,都由模型自然生成,效果相当不错。

与此同时,RTFM 模糊了“重建”和“生成”之间的界限,这两者在计算机视觉领域历来被当作不同问题处理。当输入视角较多时,模型倾向于执行重建任务,因为约束条件更强;当输入视角较少时,模型则被迫进行外推,创造输入中不可见的内容。这种连续性让 RTFM 既能处理真实世界场景的渲染——团队展示了从短视频重建现实场景的案例——也能从单张图片生成想象中的三维世界。结合 World Labs 此前发布的 Marble 技术,用户可以从一张图片出发,探索完整的三维环境。

第三个原则是持久性。真实世界有一个关键属性——当你转过身去,世界并不会消失或彻底改变,你总能回到之前访问过的地方,无论离开多久。但这对于自回归帧模型来说一直是个挑战。由于世界仅通过二维图像帧隐式表征,持久性要求模型在用户探索世界时,需要对不断增长的帧集合进行推理。这导致每生成一帧都比前一帧更加昂贵,模型对世界的记忆实际上受限于计算预算。

RTFM 用一种巧妙的方法绕过了这个问题,它为每一帧赋予了三维空间中的“位姿”——即位置和方向。生成新帧时,系统会以待生成帧的位姿作为查询条件。这样一来,模型对世界的记忆,也就是它所记录的帧,就具有了空间结构。这些带位姿的帧构成了一种空间记忆。这赋予了模型一个弱先验——它所建模的世界是一个三维欧几里得空间——而无需强制它去显式预测该世界中物体的三维几何形状。

在生成新帧时,RTFM 会从空间记忆中检索附近的帧,为模型形成定制化的“上下文”。团队将这种技术称为“上下文切换”(context juggling)——模型在空间的不同区域生成图像时,使用不同的上下文帧。这使得 RTFM 能够在长时间交互中维持大型世界,而无需对不断增长的帧集合进行推理。演示视频中,用户可以在一个带有光泽反射的大堂中自由移动,几何细节在整个场景中保持一致,即便离开又返回也不会出现崩塌。

World Labs 在博客中表示,RTFM 目前还只是个开始。团队接下来想增强对动态世界的建模,让用户能真正与生成的世界产生交互。现在的版本针对单张 H100 显卡做了优化,但他们预期更大的模型、更多的算力投入,会持续带来性能提升。

有兴趣的用户现在可以访问 World Labs 官网,在浏览器中体验 RTFM 的演示版本。

参考资料:

1.https://www.worldlabs.ai/blog/rtfm

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
股票一旦出现"涨停天量阴",毫不犹豫满仓,不是涨停就是涨个不停

股票一旦出现"涨停天量阴",毫不犹豫满仓,不是涨停就是涨个不停

股经纵横谈
2026-01-19 10:42:15
骚乱造成3117人死亡!伊朗全歼一支美以雇佣军,导弹打击境外叛军

骚乱造成3117人死亡!伊朗全歼一支美以雇佣军,导弹打击境外叛军

兵国大事
2026-01-22 17:42:43
西安一道路车位紧俏,7辆无牌车却长期占位,十多辆车欠费:包括宝马奔驰奥迪等,最多者超2万元;收费员:不少“老赖”让人束手无策

西安一道路车位紧俏,7辆无牌车却长期占位,十多辆车欠费:包括宝马奔驰奥迪等,最多者超2万元;收费员:不少“老赖”让人束手无策

扬子晚报
2026-01-25 17:17:52
伊朗驻法大使承认:把平民当敌军射杀

伊朗驻法大使承认:把平民当敌军射杀

桂系007
2026-01-25 02:01:10
向太太敢说了!自曝向华强今年已经78了,但是她和向华强还有X生活!

向太太敢说了!自曝向华强今年已经78了,但是她和向华强还有X生活!

八星人
2026-01-25 09:38:04
连爆5场!对手害怕谢泼德,阿门赛后发出请求,而乌度卡也明牌了

连爆5场!对手害怕谢泼德,阿门赛后发出请求,而乌度卡也明牌了

巴叔GO聊体育
2026-01-25 16:00:42
连克曼城、枪手,曼联自去年10月以来首次取得英超连胜

连克曼城、枪手,曼联自去年10月以来首次取得英超连胜

懂球帝
2026-01-26 03:09:52
日媒评U23亚洲杯决赛:“功夫足球”还要持续多久?裁判执法不公

日媒评U23亚洲杯决赛:“功夫足球”还要持续多久?裁判执法不公

懂球帝
2026-01-25 10:51:06
顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

顾念祖:上海市高级人民法院原院长,上海市人大常委会原副主任

小陆搞笑日常
2026-01-25 14:35:14
“矮大紧”事后补料,“牢A”理论更扎实!

“矮大紧”事后补料,“牢A”理论更扎实!

达文西看世界
2026-01-22 10:52:23
中药立大功!多项研究:2个中成药可保护大脑功能,成抗衰利器

中药立大功!多项研究:2个中成药可保护大脑功能,成抗衰利器

垚垚分享健康
2026-01-21 10:45:40
连续2年输同一人!梅总吞蛋出局,20岁新星首进大满贯八强

连续2年输同一人!梅总吞蛋出局,20岁新星首进大满贯八强

全景体育V
2026-01-25 17:19:06
斩杀线讲清楚了!上海大学教授夫妻生养三子女留美,去世无人回国

斩杀线讲清楚了!上海大学教授夫妻生养三子女留美,去世无人回国

火山诗话
2026-01-24 14:58:28
突发!利物浦密洽世界级名帅!斯洛特帅位岌岌可危?

突发!利物浦密洽世界级名帅!斯洛特帅位岌岌可危?

澜归序
2026-01-26 02:56:23
5-2!皇马7200万巨星帽子戏法,阿隆索错放天才,能重返伯纳乌吗

5-2!皇马7200万巨星帽子戏法,阿隆索错放天才,能重返伯纳乌吗

小鬼头体育
2026-01-26 02:54:20
沪京浙领跑全国收入榜:上海人均收入首破9万,11个省份超4万

沪京浙领跑全国收入榜:上海人均收入首破9万,11个省份超4万

时代周报
2026-01-25 19:29:21
经济下行,2026年、2027年、2028年这三年,六大忠告要记牢!

经济下行,2026年、2027年、2028年这三年,六大忠告要记牢!

深度报
2026-01-20 22:16:48
阶层遗传:富人的孩子,大多从商从政;穷人的孩子,大多从工从农

阶层遗传:富人的孩子,大多从商从政;穷人的孩子,大多从工从农

诗词中国
2026-01-25 19:38:40
苹果重新上架翻新 iPhone 15 Pro 机型,但这价格有点离谱啊

苹果重新上架翻新 iPhone 15 Pro 机型,但这价格有点离谱啊

XCiOS俱乐部
2026-01-25 17:39:18
四川街头惊现外地救护车 引发群众猜疑和恐慌

四川街头惊现外地救护车 引发群众猜疑和恐慌

七彩云南简南俊
2026-01-25 17:56:40
2026-01-26 04:19:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16174文章数 514539关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

旅游
游戏
教育
房产
公开课

旅游要闻

构建世界级长城大景区 加强文物资源活化利用

LCK春季赛:道心没有破碎,KT找回状态,三局战胜BRO

教育要闻

西藏考生必看!合肥工业大学招生计划揭秘

房产要闻

正式官宣!三亚又一所名校要来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版