网易首页 > 网易号 > 正文 申请入驻

老黄100%免费开源!老照片炸成可漫游3D宇宙

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】谷歌还在闭源守宝,NVIDIA已把Lyra 2.0全开源:35步去噪变4步,2D图片直出3D高斯泼溅+网格。社交狂欢背后,是对具身AI仿真的巨大潜力——以后造世界,不用再去真实世界采数据了。

AI闭源时代,快要结束了!

你有没有过这样的幻想:盯着一张多年前的老照片——也许是你童年住过的老屋,也许是一次难忘旅行中的街角——

在心里默念:「如果能再走进去看一眼就好了。」

在过去,这叫《盗梦空间》。但在2026年的今天,它变成了现实。

就在刚刚,AI圈发生了一场「核爆」:NVIDIA正式发布并100%开源了Lyra 2.0。

你只需要上传一张普通的2D图片,鼠标一点,它就能瞬间将其「吹胀」成一个深邃的、可以四处走动、可以回头张望的3D交互世界。

当谷歌还在把类似的技术(Genie 3)像传家宝一样锁在闭源的保险箱里时,NVIDIA却把这把「造物主的画笔」免费扔到了大街上。


项目地址:https://research.nvidia.com/labs/sil/projects/lyra2/

开源代码:https://github.com/nv-tlabs/lyra

预印本:https://arxiv.org/abs/2604.13036

这不仅让社交媒体陷入狂欢,更让无数开发者在Reddit上惊呼:「这是终结AI视频环境连续性问题的一大步!」


但这绝不仅仅是一个让老照片变立体的炫酷玩具。

在这场看似慷慨的「技术开源」背后,藏着NVIDIA对未来十年物理世界最冷酷的收割逻辑。

到底怎么做到的?

一场优雅的技术暴力

让我们从头捋一遍Lyra 2.0的核心逻辑。

输入:一张图片。输出:一个持久的、可探索的3D世界。

听起来像魔法,但NVIDIA的工程师们把这个过程拆解成了一条极其精密的流水线:


第一步:图片变视频。

Lyra 2.0以Wan 2.1-14B(一个140亿参数的扩散Transformer)作为视频生成的底座。

给它一张图片和一条摄像机轨迹,它就能生成一段「漫游视频」——就像你拿着摄像机在场景里走了一圈。

分辨率832×480,标准流程需要35步去噪,蒸馏版本只需4步就能出结果。

第二步:视频变3D。

生成的视频帧被送入前馈3D重建模型,直接输出3D高斯泼溅(3D Gaussian Splatting)和表面网格。

不需要多视角真实数据,不需要漫长的优化迭代——前馈一步到位,高斯点云直接可用。

第三步:3D可交互。

NVIDIA提供了一个交互式GUI,你可以在累积的点云中规划摄像机路径,重访已经探索过的区域,或者勇闯未知之地。

当你移动时,Lyra 2.0实时生成新的场景内容。

最终的3D高斯泼溅和网格模型可以直接导出到物理引擎——包括NVIDIA自家的Isaac Sim——用于机器人导航、物理仿真、具身AI训练

一张照片到一个能跑机器人的仿真世界,就这么简单。

但真正让Lyra 2.0封神的,不是这条流水线本身——而是它解决了两个让所有前辈都头疼到秃顶的致命问题。

AI 3D世界的两大噩梦

「空间遗忘」和「时间漂移」

想象你在用AI生成一个大型3D场景。

你从客厅出发,穿过走廊,走进卧室,再回头看客厅——完蛋了。客厅变了。

沙发换了位置,墙上的画消失了,窗户的形状都不一样了。

AI「忘记」了它之前生成的东西。这就是空间遗忘(Spatial Forgetting)

为什么会这样?因为当前的视频模型是自回归生成的,有一个有限的时间上下文窗口。

当摄像机走远了,早期的帧就从上下文中掉了出去。等你回头看,模型只能凭空「幻觉」出新的结构,和原来的完全对不上。

还有一个更阴险的问题:时间漂移(Temporal Drifting)

每一帧的生成都会引入一点点微小的误差——颜色偏一点,几何歪一点。

一帧看不出来,十帧看不出来,但几百帧累积下来,整个场景就像被放进了哈哈镜,面目全非。


这两个问题是所有「长时程3D生成」方法的阿喀琉斯之踵。

之前的方法用3D几何做条件约束,但生成瑕疵会污染3D几何,3D几何又反过来带偏后续生成,恶性循环;用长上下文窗口硬扛,但摄像机一走远,锚定帧就失效了。

Lyra 2.0的解法,堪称教科书级别的工程智慧:


对付空间遗忘:几何只做「路由」,不做「渲染」。

Lyra 2.0维护了每一帧的3D几何信息,但关键在于——

这些几何信息只用来检索相关的历史帧并建立密集的空间对应关系,而不是直接拿去渲染或做像素级条件约束。

换句话说,几何负责「告诉模型应该参考哪些老画面,以及新画面和老画面在空间上怎么对应」,而实际的像素合成还是交给扩散模型的生成先验来完成。

这就像给模型装了一个「空间记忆GPS」,它永远知道自己走过哪里、看过什么,但不会被历史残留的渲染错误带偏。

对付时间漂移:让模型「吃自己的苦果」学会纠错。

NVIDIA提出了一种「自增强训练」策略。

在训练时,不总是给模型完美的真实帧作为历史条件,而是故意用模型自己一步去噪后的(带退化的)输出来替代。

这样在训练中,模型就已经见识过了「自己犯的错」,学会了「看到漂移就纠正」而不是「看到漂移就继续漂」。

这种以毒攻毒的策略,直接缩小了训练和推理之间的分布差距。

两招组合拳打下来,Lyra 2.0实现了远超前辈的长时程3D一致性——场景可以无限延展、自由回访,而且不会「转身就忘」。


实测数据:全面碾压

说得再好听不如看数据。

在DL3DV和Tanks and Temples两个经典基准上,Lyra 2.0的表现用「降维打击」来形容毫不过分。

更关键的是和基线方法的对比。

Lyra 2.0的两个变体——搭配DAv3重建模型和完整版——在LPIPS-G、FID和主观质量评分上全面超越所有基线方法


和Lyra 1.0相比,2.0的进化是质的飞跃:

  • 1.0的局限2025年9月发布的Lyra 1.0已经很强了——它首创了「视频扩散模型自蒸馏」的范式,用单张图片生成3D高斯场景,发表在ICLR 2026上。但它只能处理短视频、小范围场景,做不了长时程探索

  • 2.0的突破从「短视频3D重建」跃升到「大规模持久世界生成」。抗遗忘、抗漂移两大机制,让它能处理包含大幅视角变化和位置重访的长摄像机轨迹——这在1.0时代是不可能的任务。

  • 底座升级视频生成底座从1.0的Cosmos换到了2.0的Wan 2.1-14B,视觉保真度和生成能力都上了一个台阶。重建模型也做了针对生成数据的微调,对AI生成内容中常见的小型几何不一致具有更强的鲁棒性。

消融实验进一步验证了每项技术的贡献:

去掉抗遗忘机制,回访区域出现严重幻觉;

去掉自增强训练,长轨迹上的漂移肉眼可见;

两项联合使用才能得到最佳结果。


高维视角

3D世界模型的「智能困境」

我们也需要冷静地看到,无论是Lyra 2.0还是Genie 3,AI生成3D世界这件事目前都还面临一个深层困境——前沿智能的天花板

什么意思?

当前的3D世界生成,本质上是在「视觉保真度」这个维度上疯狂内卷。

场景越来越逼真,几何越来越精确,一致性越来越好。

但这些生成出来的世界,本质上还是「死」的——它们没有物理规律的深层理解,没有因果推理,没有对「这个世界为什么是这样」的认知。

Genie 3号称有「涌现物理」,但它的物理一致性只能维持几分钟,复杂场景下很快就会出现违反常识的行为。

Lyra 2.0生成的3D资产非常精美,但它本质上是「记忆+补全」——用空间记忆防止遗忘,用自增强防止漂移,但并不真正「理解」场景的物理结构。

真正的3D世界模型,应该能够:

  • 理解因果关系:推倒一面墙,隔壁房间会暴露出来;

  • 遵循物理定律:水往低处流,球会弹跳;

  • 保持语义一致性:厨房里不会突然冒出一架钢琴。

这需要的不仅仅是更大的模型、更多的训练数据,而是AI在世界建模能力上的根本性突破——从「统计模式匹配」走向「因果世界理解」。

目前来看,视频扩散模型作为3D世界生成的底座,已经展现出了惊人的视觉想象力和局部3D一致性。

但要从「好看的3D场景」跨越到「真正可信的世界模拟」,还有一段很长的路要走。

这可能也是为什么NVIDIA选择开源的原因之一——单打独斗到不了那个未来,但全世界的开发者一起搞,也许可以。

最后,NVIDIA还展示了交互式GUI、Isaac Sim仿真导出、表面网格提取等一系列实用功能。


翻译成人话就是:以后AI造世界,人不用去世界里采数据了

AI不再只是画画、写诗、编代码的工具。它正在成为一个世界建造者。

而NVIDIA刚刚把造世界的钥匙,交给了所有人。

参考资料:

https://research.nvidia.com/labs/sil/projects/lyra2/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗高官:通过霍尔木兹海峡的船只必须缴费

伊朗高官:通过霍尔木兹海峡的船只必须缴费

界面新闻
2026-04-26 21:09:45
伟大的13-9!赵心童淘汰丁俊晖晋级:创造2大纪录,PK墨菲冲4强!

伟大的13-9!赵心童淘汰丁俊晖晋级:创造2大纪录,PK墨菲冲4强!

刘姚尧的文字城堡
2026-04-26 19:49:57
67岁李幼斌坦言:父亲98岁,母亲95岁,每次去养老院看他们,我都非常痛苦

67岁李幼斌坦言:父亲98岁,母亲95岁,每次去养老院看他们,我都非常痛苦

手工制作阿歼
2026-04-26 18:00:42
真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

真相大白!那台拉缸的张雪820RR返厂,经拆解后本人公布故障原因

一盅情怀
2026-04-26 15:32:03
特朗普紧急撤离始末披露:男子持枪冲过安检关卡,“跑得非常快”;现场响起5至8声枪响;副总统万斯比特朗普先撤;特朗普撤离时一度踉跄

特朗普紧急撤离始末披露:男子持枪冲过安检关卡,“跑得非常快”;现场响起5至8声枪响;副总统万斯比特朗普先撤;特朗普撤离时一度踉跄

极目新闻
2026-04-26 20:58:29
白宫记协晚宴安全事件嫌疑人将于27日被起诉

白宫记协晚宴安全事件嫌疑人将于27日被起诉

界面新闻
2026-04-26 20:40:26
血亏8亿!华晨宇直播崩溃大哭,云南拿地建乐园,临门一脚被强拆

血亏8亿!华晨宇直播崩溃大哭,云南拿地建乐园,临门一脚被强拆

奇怪的鲨鱼们
2026-04-26 16:32:25
《大航海时代》粉丝必看:两款情怀续作,两种截然不同的海路!

《大航海时代》粉丝必看:两款情怀续作,两种截然不同的海路!

碎碎念工坊
2026-04-24 14:00:46
华晨宇哭了损失大了,在云南投资上亿拿下地皮,如今紧急叫停

华晨宇哭了损失大了,在云南投资上亿拿下地皮,如今紧急叫停

以茶带书
2026-04-25 16:22:06
森林狼3比1掘金:逆境中杀出了多孙穆?!

森林狼3比1掘金:逆境中杀出了多孙穆?!

张佳玮写字的地方
2026-04-26 12:02:17
伟大传承!赵心童赢球后主动握手致敬丁俊晖 央媒:意义超越胜负

伟大传承!赵心童赢球后主动握手致敬丁俊晖 央媒:意义超越胜负

念洲
2026-04-26 20:15:54
华为余承东:尊界新车价格在200万左右

华为余承东:尊界新车价格在200万左右

界面新闻
2026-04-26 13:08:56
在舞台上气冲霄汉的上海管乐名家左翼伟去世,他曾说只想把音乐留给观众

在舞台上气冲霄汉的上海管乐名家左翼伟去世,他曾说只想把音乐留给观众

上观新闻
2026-04-26 17:19:10
蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

小武侃风云
2026-04-26 18:52:45
月入过万!“崩老头”登上热搜,80后90后男性,成为年轻女性目标

月入过万!“崩老头”登上热搜,80后90后男性,成为年轻女性目标

火山詩话
2026-04-26 15:18:10
对美元的重大误判,正在深度误导我们

对美元的重大误判,正在深度误导我们

世界灵敏度赵灵敏
2026-04-26 18:36:10
两男子应聘浦发银行销售代表,通过3轮面试,做了497元体检,工资卡都办好了,银行却以学历不符为由拒绝入职

两男子应聘浦发银行销售代表,通过3轮面试,做了497元体检,工资卡都办好了,银行却以学历不符为由拒绝入职

大象新闻
2026-04-24 16:49:09
4月26日俄乌:40年后的灾难边缘

4月26日俄乌:40年后的灾难边缘

山河路口
2026-04-26 19:05:46
欧尔班宣布退出匈牙利国会

欧尔班宣布退出匈牙利国会

参考消息
2026-04-26 13:18:23
从1-4惨败到主帅瘫坐教练席!泰山换帅选谁?答案就在这几个人里

从1-4惨败到主帅瘫坐教练席!泰山换帅选谁?答案就在这几个人里

曹老师评球
2026-04-26 20:05:54
2026-04-26 21:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15071文章数 66807关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

头条要闻

特朗普内阁又一女部长落马:强迫男下属为其提供性服务

体育要闻

森林狼3比1掘金:逆境中杀出了多孙穆?!

娱乐要闻

仅次《指环王》的美剧,有第二季

财经要闻

事关新就业群体,中办、国办发文

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

健康
教育
游戏
艺术
数码

干细胞如何让烧烫伤皮肤"再生"?

教育要闻

为了学生能躺睡,这所学校“借”来了180张床……

曝PS5.Xbox或重返独占赛道!分析师锐评:这招早不灵了

艺术要闻

18幅 列宾美院教师Artem Tikhonov风景写生

数码要闻

MOREFINE上架G2外置显卡,内置RTX 5060 Ti

无障碍浏览 进入关怀版