你刚给机器人拍了张仓库门口的照片,两小时后它就在里面跑了90米——全程靠AI脑补出来的3D环境训练。这不是科幻,是英伟达昨天放出的Lyra 2.0。
痛点很真实:AI"失忆"和"近视"
![]()
现在的视频生成模型有个毛病:镜头一拉远,画面就开始扭曲变形;转个圈回到原地,它能把刚才的墙重新画一遍,颜色结构全变了。这叫"离开视野即遗忘",机器人仿真训练根本没法用。
英伟达团队盯上了这个场景:机器人需要在虚拟环境里反复试错,但采集真实3D数据贵得要死。Lyra 2.0的解法是从单张照片出发,生成可实时漫游的连贯空间。
技术拆解:两招治"失忆"
第一招是空间记忆库。系统存储每一帧的3D几何数据,摄像机重返旧地时直接调取历史信息,不再重新生成。相当于给AI装了个"坐标回查"功能。
第二招更狠——让模型"吃自己的垃圾"。训练时故意喂它自己生成的缺陷输出,逼它学会识别质量下滑并纠正,而不是把错误一路传递下去。这招叫"自暴露训练",专门对付长距离生成中的误差累积。
基准测试结果:Lyra 2.0在图像质量、风格一致性、摄像机控制等几乎所有指标上,干掉了GEN3C、Yume-1.5、CaM等6个竞品。Fast版本质量不降,速度提升约13倍。
商业闭环:从照片到机器人
生成的场景支持交互式探索,还能导出网格格式直接进Nvidia Isaac Sim物理引擎。这意味着什么?机器人厂商不用再扛着激光雷达扫遍每个角落,拍张照片就能开工。
英伟达的研究团队提到,这套系统目标很明确:提高机器人仿真训练质量。结合Isaac Sim的生态位,Lyra 2.0很可能成为机器人训练的基础设施——从数据采集成本里抠出利润空间。
一个值得追问的点
单张照片的视角局限怎么破?原文没提,但90米的连贯生成必然涉及大量"脑补"区域。这些未观测部分的物理合理性,在机器人碰撞检测、抓取训练中会不会埋雷?这可能是从"好看"走向"好用"的关键门槛。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.