decart正式发布 MirageLSD — 全球首个“实时流式扩散”(Live-Stream Diffusion, LSD)AI 视频模型,它能够将你的想象力实时注入任意视频流中,实现从“观看魔法”到“亲手施展魔法”的飞跃式体验。同步上线了由 MirageLSD 驱动的平台 Mirage 的演示版本(现已开放网页版,iOS 和 Android 客户端将于下周发布)。与其他存在十秒以上延迟、仅能生成短片段的 AI 视频模型不同,Mirage 可在小于 40 毫秒的响应时间内无限实时生成视频。
它是继 Oasis(爆火的“AI 我的世界”)之后的第二款模型,研发周期为半年,期间攻克了多项数学难题,并手工编写了高效的 GPU 汇编代码。Mirage 只是起点,即将推出更多视频模型,并拓展到音频、情绪、音乐等多维度感官体验,致力于构建一个将所有感知变为通向想象世界的入口的平台。从今天开始,你就可以通过 Mirage,在任意设备上,将现实场景、游戏内容、甚至影视画面,实时“变身”为拥有奇幻物理法则与魔法设定的新世界。(体验链接在文章底部,体验下来还有很大优化空间,继续期待)
01 技术原理
MirageLSD 是首个实现无限时长、实时生成且无延迟的视频模型系统。它基于LSD模型,采用逐帧生成方式,同时保持时间一致性,使得视频内容可以连续生成且实时响应用户输入。与传统视频生成模型相比,LSD 避免了每段视频需整体生成或分块生成所带来的延迟问题,使互动性大大增强。
![]()
过去的视频生成系统无法持续生成长视频,是因为每一帧的误差会传递并积累,导致质量迅速下降。LSD 通过引入“Diffusion Forcing”进行逐帧去噪,并加入“历史增强”策略,即在训练中故意引入带有错误的历史帧,并训练模型识别并纠正这些错误。这使得 LSD 成为首个能够无限生成且不崩溃的视频模型。
要实现真正的 24FPS 实时生成,模型每帧必须在 40ms 内完成生成。为此,MirageLSD 使用三大优化手段:① Hopper 架构优化的 CUDA Mega Kernels,减少每层的启动和通信开销;② 结合架构剪枝,充分利用 GPU 特性减少计算量;③ Shortcut Distillation,用精简模型复刻大模型的去噪路径,从而减少推理步骤。这些优化共同将延迟压缩至可实时交互的程度。
LSD 采用了一种不同的方法。它以因果、自回归的结构逐帧生成视频,每一帧都依赖于先前生成的帧以及用户的提示。这种方式实现了即时反馈、零延迟交互,并能够持续生成视频而无需预设终点。
![]()
在每一个时间步,模型会接收一组过去生成的帧 、当前输入帧 ,以及用户定义的提示 ,然后预测下一个输出帧 ,并将其立即用于下一步的生成过程。
这种因果反馈循环让 LSD 在保持时间一致性的同时,能够持续适应运动和内容变化,实现无限时长的视频生成;同时,通过“Diffusion Forcing”预训练方法,模型学会独立去噪单帧图像,无需完整视频上下文,从而实现了对文本提示或视频变化的零延迟即时响应,支持实时编辑与变换。
相比其他模型(如 MovieGen、WAN、Veo、CausVid 等),MirageLSD 是唯一同时具备无限时长、实时速度、零延迟互动、时序稳定性的系统。其他系统要么是固定时长、要么响应延迟严重,或无法持续互动,LSD 则整合多项关键技术打破了这些限制。
https://mirage.decart.ai/欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.