网易首页 > 网易号 > 正文 申请入驻

老黄100%免费开源!老照片炸成可漫游3D宇宙

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:KingHZ

【新智元导读】谷歌还在闭源守宝,NVIDIA已把Lyra 2.0全开源:35步去噪变4步,2D图片直出3D高斯泼溅+网格。社交狂欢背后,是对具身AI仿真的巨大潜力——以后造世界,不用再去真实世界采数据了。

AI闭源时代,快要结束了!

你有没有过这样的幻想:盯着一张多年前的老照片——也许是你童年住过的老屋,也许是一次难忘旅行中的街角——

在心里默念:「如果能再走进去看一眼就好了。」

在过去,这叫《盗梦空间》。但在2026年的今天,它变成了现实。

就在刚刚,AI圈发生了一场「核爆」:NVIDIA正式发布并100%开源了Lyra 2.0。

你只需要上传一张普通的2D图片,鼠标一点,它就能瞬间将其「吹胀」成一个深邃的、可以四处走动、可以回头张望的3D交互世界。

当谷歌还在把类似的技术(Genie 3)像传家宝一样锁在闭源的保险箱里时,NVIDIA却把这把「造物主的画笔」免费扔到了大街上。


项目地址:https://research.nvidia.com/labs/sil/projects/lyra2/

开源代码:https://github.com/nv-tlabs/lyra

预印本:https://arxiv.org/abs/2604.13036

这不仅让社交媒体陷入狂欢,更让无数开发者在Reddit上惊呼:「这是终结AI视频环境连续性问题的一大步!」


但这绝不仅仅是一个让老照片变立体的炫酷玩具。

在这场看似慷慨的「技术开源」背后,藏着NVIDIA对未来十年物理世界最冷酷的收割逻辑。

到底怎么做到的?

一场优雅的技术暴力

让我们从头捋一遍Lyra 2.0的核心逻辑。

输入:一张图片。输出:一个持久的、可探索的3D世界。

听起来像魔法,但NVIDIA的工程师们把这个过程拆解成了一条极其精密的流水线:


第一步:图片变视频。

Lyra 2.0以Wan 2.1-14B(一个140亿参数的扩散Transformer)作为视频生成的底座。

给它一张图片和一条摄像机轨迹,它就能生成一段「漫游视频」——就像你拿着摄像机在场景里走了一圈。

分辨率832×480,标准流程需要35步去噪,蒸馏版本只需4步就能出结果。

第二步:视频变3D。

生成的视频帧被送入前馈3D重建模型,直接输出3D高斯泼溅(3D Gaussian Splatting)和表面网格。

不需要多视角真实数据,不需要漫长的优化迭代——前馈一步到位,高斯点云直接可用。

第三步:3D可交互。

NVIDIA提供了一个交互式GUI,你可以在累积的点云中规划摄像机路径,重访已经探索过的区域,或者勇闯未知之地。

当你移动时,Lyra 2.0实时生成新的场景内容。

最终的3D高斯泼溅和网格模型可以直接导出到物理引擎——包括NVIDIA自家的Isaac Sim——用于机器人导航、物理仿真、具身AI训练。

一张照片到一个能跑机器人的仿真世界,就这么简单。

但真正让Lyra 2.0封神的,不是这条流水线本身——而是它解决了两个让所有前辈都头疼到秃顶的致命问题。

AI 3D世界的两大噩梦

「空间遗忘」和「时间漂移」

想象你在用AI生成一个大型3D场景。

你从客厅出发,穿过走廊,走进卧室,再回头看客厅——完蛋了。客厅变了。

沙发换了位置,墙上的画消失了,窗户的形状都不一样了。

AI「忘记」了它之前生成的东西。这就是空间遗忘(Spatial Forgetting)。

为什么会这样?因为当前的视频模型是自回归生成的,有一个有限的时间上下文窗口。

当摄像机走远了,早期的帧就从上下文中掉了出去。等你回头看,模型只能凭空「幻觉」出新的结构,和原来的完全对不上。

还有一个更阴险的问题:时间漂移(Temporal Drifting)。

每一帧的生成都会引入一点点微小的误差——颜色偏一点,几何歪一点。

一帧看不出来,十帧看不出来,但几百帧累积下来,整个场景就像被放进了哈哈镜,面目全非。


这两个问题是所有「长时程3D生成」方法的阿喀琉斯之踵。

之前的方法用3D几何做条件约束,但生成瑕疵会污染3D几何,3D几何又反过来带偏后续生成,恶性循环;用长上下文窗口硬扛,但摄像机一走远,锚定帧就失效了。

Lyra 2.0的解法,堪称教科书级别的工程智慧:


对付空间遗忘:几何只做「路由」,不做「渲染」。

Lyra 2.0维护了每一帧的3D几何信息,但关键在于——

这些几何信息只用来检索相关的历史帧并建立密集的空间对应关系,而不是直接拿去渲染或做像素级条件约束。

换句话说,几何负责「告诉模型应该参考哪些老画面,以及新画面和老画面在空间上怎么对应」,而实际的像素合成还是交给扩散模型的生成先验来完成。

这就像给模型装了一个「空间记忆GPS」,它永远知道自己走过哪里、看过什么,但不会被历史残留的渲染错误带偏。

对付时间漂移:让模型「吃自己的苦果」学会纠错。

NVIDIA提出了一种「自增强训练」策略。

在训练时,不总是给模型完美的真实帧作为历史条件,而是故意用模型自己一步去噪后的(带退化的)输出来替代。

这样在训练中,模型就已经见识过了「自己犯的错」,学会了「看到漂移就纠正」而不是「看到漂移就继续漂」。

这种以毒攻毒的策略,直接缩小了训练和推理之间的分布差距。

两招组合拳打下来,Lyra 2.0实现了远超前辈的长时程3D一致性——场景可以无限延展、自由回访,而且不会「转身就忘」。


实测数据:全面碾压

说得再好听不如看数据。

在DL3DV和Tanks and Temples两个经典基准上,Lyra 2.0的表现用「降维打击」来形容毫不过分。

更关键的是和基线方法的对比。

Lyra 2.0的两个变体——搭配DAv3重建模型和完整版——在LPIPS-G、FID和主观质量评分上全面超越所有基线方法。


和Lyra 1.0相比,2.0的进化是质的飞跃:

消融实验进一步验证了每项技术的贡献:

去掉抗遗忘机制,回访区域出现严重幻觉;

去掉自增强训练,长轨迹上的漂移肉眼可见;

两项联合使用才能得到最佳结果。


高维视角

3D世界模型的「智能困境」

我们也需要冷静地看到,无论是Lyra 2.0还是Genie 3,AI生成3D世界这件事目前都还面临一个深层困境——前沿智能的天花板。

什么意思?

当前的3D世界生成,本质上是在「视觉保真度」这个维度上疯狂内卷。

场景越来越逼真,几何越来越精确,一致性越来越好。

但这些生成出来的世界,本质上还是「死」的——它们没有物理规律的深层理解,没有因果推理,没有对「这个世界为什么是这样」的认知。

Genie 3号称有「涌现物理」,但它的物理一致性只能维持几分钟,复杂场景下很快就会出现违反常识的行为。

Lyra 2.0生成的3D资产非常精美,但它本质上是「记忆+补全」——用空间记忆防止遗忘,用自增强防止漂移,但并不真正「理解」场景的物理结构。

真正的3D世界模型,应该能够:

这需要的不仅仅是更大的模型、更多的训练数据,而是AI在世界建模能力上的根本性突破——从「统计模式匹配」走向「因果世界理解」。

目前来看,视频扩散模型作为3D世界生成的底座,已经展现出了惊人的视觉想象力和局部3D一致性。

但要从「好看的3D场景」跨越到「真正可信的世界模拟」,还有一段很长的路要走。

这可能也是为什么NVIDIA选择开源的原因之一——单打独斗到不了那个未来,但全世界的开发者一起搞,也许可以。

最后,NVIDIA还展示了交互式GUI、Isaac Sim仿真导出、表面网格提取等一系列实用功能。


翻译成人话就是:以后AI造世界,人不用去世界里采数据了。

AI不再只是画画、写诗、编代码的工具。它正在成为一个世界建造者。

而NVIDIA刚刚把造世界的钥匙,交给了所有人。

参考资料:

https://research.nvidia.com/labs/sil/projects/lyra2/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

为什么先救万斯?枪击发生后,万斯比特朗普先撤离引质疑

新京报
2026-04-26 15:41:36
南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,一审获刑5年

南京一派出所副所长为完成查处任务,“设计”让6名未成年人吸毒再查获,一审获刑5年

封面新闻
2026-04-26 17:18:07
孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

医脉圈
2026-04-25 20:04:06
华晨宇哭了损失大了,在云南投资上亿拿下地皮,如今紧急叫停

华晨宇哭了损失大了,在云南投资上亿拿下地皮,如今紧急叫停

以茶带书
2026-04-25 16:22:06
网友调侃陈都灵是搓衣板身材,胸前没有二两肉,瘦的离谱

网友调侃陈都灵是搓衣板身材,胸前没有二两肉,瘦的离谱

TVB的四小花
2026-04-25 18:47:36
泡泡玛特推出Labubu冰箱,售价5999元,上千人预约

泡泡玛特推出Labubu冰箱,售价5999元,上千人预约

大象新闻
2026-04-26 13:01:02
结束了!再见爱德华兹!NBA最惨季后赛球队

结束了!再见爱德华兹!NBA最惨季后赛球队

篮球实战宝典
2026-04-26 19:48:57
切尔诺贝利被遗忘的60万人:拿铲子对抗核辐射,没人告诉他们真相

切尔诺贝利被遗忘的60万人:拿铲子对抗核辐射,没人告诉他们真相

网易新闻出品
2026-04-26 08:51:02
1992年,陆定一问秦川:如果党的一把手腐败了,那么该由谁来管?

1992年,陆定一问秦川:如果党的一把手腐败了,那么该由谁来管?

阿器谈史
2026-04-26 14:13:38
八部门重磅新规落地!禁止支付与信贷捆绑,白条、月付等面临重大调整,用户终于不用担心“被动开通贷款”

八部门重磅新规落地!禁止支付与信贷捆绑,白条、月付等面临重大调整,用户终于不用担心“被动开通贷款”

每日经济新闻
2026-04-26 16:29:02
5月1日起严查!吸烟、买烟、卖烟都有新规矩,速看

5月1日起严查!吸烟、买烟、卖烟都有新规矩,速看

李博世财经
2026-04-26 09:23:34
教育部中考新政落地!5月31日正式实施,初中生升学压力直接减负

教育部中考新政落地!5月31日正式实施,初中生升学压力直接减负

芳姐侃社会
2026-04-26 20:22:43
日本政府图谋出口二手武器,不断突破“红线”引担忧

日本政府图谋出口二手武器,不断突破“红线”引担忧

参考消息
2026-04-26 20:00:08
外媒炸锅了!当着日本航母的面,055竟然发射鹰击-20?

外媒炸锅了!当着日本航母的面,055竟然发射鹰击-20?

凡知
2026-04-26 21:00:16
天助川普,伊朗要遭殃了

天助川普,伊朗要遭殃了

西楼饮月
2026-04-26 23:14:22
特朗普:枪击案嫌疑人留下呼吁袭击政府官员的字条

特朗普:枪击案嫌疑人留下呼吁袭击政府官员的字条

新华社
2026-04-26 23:58:02
华为余承东:尊界新车价格在200万左右

华为余承东:尊界新车价格在200万左右

界面新闻
2026-04-26 13:08:56
CBA官方:贺希宁首次当选常规赛MVP+入选一阵 成深圳队史首人

CBA官方:贺希宁首次当选常规赛MVP+入选一阵 成深圳队史首人

醉卧浮生
2026-04-26 20:25:45
血亏8亿!华晨宇直播崩溃大哭,云南拿地建乐园,临门一脚被强拆

血亏8亿!华晨宇直播崩溃大哭,云南拿地建乐园,临门一脚被强拆

奇怪的鲨鱼们
2026-04-26 16:32:25
白宫枪击案枪手身份成迷,又有消息称枪手是加州理工码农

白宫枪击案枪手身份成迷,又有消息称枪手是加州理工码农

爆角追踪
2026-04-26 12:53:28
2026-04-27 02:00:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3014439文章数 6944关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

本地
数码
手机
公开课
军事航空

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

数码要闻

三星Tab S12系列进入固件测试阶段 或配10500mAh大电池

手机要闻

vivo Y600 Pro配备 6.83 英寸 1.5K 护眼屏,新机明天见!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗总统:不会在压力、威胁下进行谈判

无障碍浏览 进入关怀版