网易首页 > 网易号 > 正文 申请入驻

世界首个「实时、无限」扩散视频生成模型,Karpathy投资站台

0
分享至

机器之心报道

编辑:冷猫

一觉起来世界已经进化成这样了?

每个人都能懂点魔法,能够随意穿梭在各个平行时空和幻想世界里。

读者朋友们看到这说不定撇撇嘴,「这不就是 AI 视频吗?」

但如果加上两个关键词,这将成为 AI 视频生成领域革命性的突破!

就在昨天,Decart 发布了世界上首个「实时的」「无时长限制的」并且支持「任意视频流」的扩散视频模型 MirageLSD!

输入任何视频流,无论是相机或视频聊天、电脑屏幕还是游戏,MirageLSD 都能在40 毫秒延迟以内将其转化为你想要的任何世界。

这一切都看上去不可思议,AI 视频已经能够实现和滤镜一样的应用方式,实时智能调整画面风格和画面内容,并且能够通过文本提示任意地进行控制。

实时视频魔法

解锁全新应用可能

前特斯拉 AI 总监,OpenAI 的创始团队成员 Andrej Karpathy 为此技术展开了广泛的想象:

  1. 摄像头画面变为 “另一个世界”。
  2. 自导自演实时电影:拿起道具、演绎场景,AI 负责实时布景和风格化,秒看回放,边演边剪。
  3. 游戏开发轻松起步:用简单的球体 / 方块编码游戏机制,再用实时扩散模型为游戏生成精美贴图。
  4. 任意视频流的风格迁移:例如:只需一句提示词就能让《上古卷轴》看起来 “更史诗”,让《毁灭战士 2》拥有现代虚幻引擎画质。
  5. 视频会议背景和实时虚拟试衣。
  6. AR 眼镜升级:实时将现实世界卡通化。
  7. 哈利波特的「厄里斯魔镜」:现实中看似普通的镜子,实际上会显示出 AI 根据你 “深层欲望” 生成的理想自己或世界。

Karpathy 表示自己已经成为了这个 MirageLSD 项目的天使投资人,在他看来这项技术通用且强大。

也许这些都只是开始,真正的 “杀手级应用” 还没被发现 —— 这个领域值得无限想象!

这一切让我想起了「刀剑神域」,似乎覆盖现实世界的幻想画面真的要实现了?

Decart 也展示了一些构想的演示,充分满足了各种可能:

比如在沙漠里滑雪?

比如可以花上 30 分钟写个游戏代码,然后让 Mirage 处理图形?

Decart 推文中笑称,使用 Mirage「从提示词制作 GTA VII,比 GTA VI 发售还快。」

目前 Mirage 已正式上线,与其观看屏幕上的魔法,不如亲手创造魔法。

Decart 将持续发布模型升级和新功能,包括面部一致性、语音控制和精确物体操控等。与此同时,平台还将上线一系列新特性 —— 如流媒体支持(以任意角色进行直播)、游戏集成、视频通话等功能。

  • 体验链接:https://mirage.decart.ai/

魔法背后

MirageLSD技术原理

MirageLSD 主要在视频生成的时长和延迟两大角度产生了突破,基于定制的模型 ——实时流扩散(Live Stream Diffusion,LSD),该模型能够逐帧生成并保持时间连贯性。

在视频时长方面,先前的视频模型在生成 20-30 秒后就会因错误累积而严重降低质量。

在生成延时方面,它们往往需要几分钟的处理时间才能输出几秒钟的视频。即使是今天最接近实时速度的系统,通常也是分块生成视频,从而引入不可避免的延迟,完全无法实现交互应用。

无限长视频生成

MirageLSD 是第一个能够生成无限长视频的视频生成模型。

由于模型的自回归特性,会导致误差逐步累积,从而限制输出的长度。

为了实现无限自回归生成:

  • MirageLSD 基于 Diffusion Forcing 技术,实现逐帧去噪
  • 我们引入历史增强方法,在训练中对输入历史帧进行扰动,使模型学会预判并纠正输入中的伪影,从而增强其对自回归生成中常见偏移的鲁棒性;

这两者结合,使 LSD 成为第一个能够无限生成视频而不会崩溃的模型 —— 稳定、可提示,并始终与场景和用户输入保持一致。

零延时视频生成

响应性是指最坏情况下的响应延迟,即使是之前的自回归模型响应速度也比 MirageLSD 慢 16 倍以上,导致实时交互无法实现。

实时生成要求每帧的生成时间控制在40 毫秒以内,以避免被人眼察觉。我们通过以下方式实现这一目标:

  • 设计定制的CUDA mega kernels,以最小化开销并最大化吞吐;
  • 基于shortcut distillation模型剪枝技术,减少每帧所需的计算量;
  • 优化模型架构,使其与 GPU 硬件高度对齐,实现效率最大化。

通过上述技术,我们在响应速度上相较于以往模型提升了 16 倍,实现了以 24 帧 / 秒的速率实时生成视频。

扩散模型与 LSD

扩散模型通过一系列逐步去噪操作,将随机噪声逐渐还原为图像或视频。在视频生成中,这通常意味着一次性生成固定长度的视频片段,这有助于保持时间一致性,但会带来延迟。一些系统尝试通过所谓的 “自回归生成” 方式,逐段顺序生成帧片段,以提高灵活性。然而,这种方式仍需在每一段帧生成完毕后才能响应新的输入,限制了交互性和实时应用的能力。

LSD 采用了不同的方法。它一次生成一帧,使用因果性的自回归结构,每一帧都依赖于此前生成的帧以及用户提示。这种方式支持即时反馈、零延迟交互,并且可以持续生成视频,无需预先设定终点。

在每一个时间步,模型会接收一组过去生成的帧、当前输入帧以及用户定义的提示词,然后预测下一帧输出,该帧会立即作为输入传递到下一轮生成中。

这种因果反馈机制使 LSD 能够保持时间上的一致性,持续适应画面中的动作与内容变化,并在实时遵循用户提示的同时,生成无限长度的视频序列。

此外,它还使 LSD 能够对输入作出即时响应 —— 无论是文本提示还是视频内容的变化 —— 实现真正的零延迟。这正是实时编辑与转换成为可能的关键。

技术缺陷与改进方向

首先,当前系统依赖于有限的历史帧窗口。引入更长期的记忆机制有望提升长序列中的连贯性,从而在角色身份、场景布局和长期动作等方面实现更一致的表现。

此外,尽管 MirageLSD 支持基于文本的风格变换,但对于特定物体、空间区域或动作的精细控制仍较为有限。若能整合关键点或场景标注等结构化控制信号,将有助于在实时环境中实现更细粒度、用户可控的编辑操作。

在语义一致性和几何稳定性方面,特别是在面对极端风格变换时,仍需进一步优化。MirageLSD 在极端风格变化下,可能会出现物体结构或布局被扭曲的情况。

更多相关技术信息,请参阅 Decart 的技术介绍:

  • 文章链接:https://about.decart.ai/publications/mirage

‌文中视频链接:https://mp.weixin.qq.com/s/yeWZCjtEBXmJaHsa8mf54w

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大爆冷!悄悄升至联盟第一!整个NBA看不起你们,你们却要夺冠了

大爆冷!悄悄升至联盟第一!整个NBA看不起你们,你们却要夺冠了

篮球扫地僧
2026-02-27 22:52:50
夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

夜间气温达零下30℃!泽连斯基:乌面临几十年来最难冬天,下轮会谈或在阿布扎比

红星新闻
2026-02-27 17:33:09
反转!中国男篮赢球后,FIBA改口,执法裁判身份曝光,或遭重罚

反转!中国男篮赢球后,FIBA改口,执法裁判身份曝光,或遭重罚

何老师呀
2026-02-27 11:31:58
南博通报里“张某”身份的大瓜:被网友爆料系“徐湖平干女儿”?

南博通报里“张某”身份的大瓜:被网友爆料系“徐湖平干女儿”?

穿透
2026-02-27 11:40:39
冤家!曼城皇马连续五年欧冠淘汰赛相遇,将迎第16、17次交锋

冤家!曼城皇马连续五年欧冠淘汰赛相遇,将迎第16、17次交锋

懂球帝
2026-02-27 19:20:47
美伊谈判基本告吹、攻击随时可能开始;另,巴基斯坦或攻入阿富汗

美伊谈判基本告吹、攻击随时可能开始;另,巴基斯坦或攻入阿富汗

邵旭峰域
2026-02-27 10:54:56
26岁林妙可逛庙会,仍是娃娃脸,本是童星出道,长大后却无戏可拍

26岁林妙可逛庙会,仍是娃娃脸,本是童星出道,长大后却无戏可拍

她时尚丫
2026-02-27 23:06:05
新加坡大满贯赛:女单大爆冷!世界第4被淘汰,陈幸同3:0日本名将

新加坡大满贯赛:女单大爆冷!世界第4被淘汰,陈幸同3:0日本名将

国乒二三事
2026-02-27 10:14:54
2026年春晚,释放了3个信号,普通人要清醒

2026年春晚,释放了3个信号,普通人要清醒

老特有话说
2026-02-25 22:03:08
突然被扣费,连续数月不知情! 上海已有多人遭遇! 快查, 你的钱有没有"消失"?

突然被扣费,连续数月不知情! 上海已有多人遭遇! 快查, 你的钱有没有"消失"?

新浪财经
2026-02-27 17:11:04
“凌晨3点被它嚎醒!”最近,不少深圳人被吵到!网友:又开始了

“凌晨3点被它嚎醒!”最近,不少深圳人被吵到!网友:又开始了

南方都市报
2026-02-27 14:29:30
忍无可忍,直捣黄龙!巴基斯坦空袭阿富汗首都

忍无可忍,直捣黄龙!巴基斯坦空袭阿富汗首都

武器纵论
2026-02-27 13:34:35
3000万打工人逃离北上广,却不知道县城已被161个家族瓜分

3000万打工人逃离北上广,却不知道县城已被161个家族瓜分

流苏晚晴
2026-02-27 18:06:43
美国推动“谷爱凌法案”,没收全部收入:背叛美国,必须付出代价

美国推动“谷爱凌法案”,没收全部收入:背叛美国,必须付出代价

十点街球体育
2026-02-27 11:42:31
为什么交通部约谈高德?业务全踩红线,五天被约谈三次

为什么交通部约谈高德?业务全踩红线,五天被约谈三次

小蜜情感说
2026-02-27 06:43:29
16:00,中国男篮vs中国台北!赢10分=升小组前二,首发面临调整

16:00,中国男篮vs中国台北!赢10分=升小组前二,首发面临调整

侃球熊弟
2026-02-28 00:05:03
春节长假结束了,他们开始掩饰高速排队充电,但事实不容否认

春节长假结束了,他们开始掩饰高速排队充电,但事实不容否认

柏铭锐谈
2026-02-27 09:20:08
7.4到6.84,人民币升值"核爆"!国内通胀、资产价格要全面起飞?

7.4到6.84,人民币升值"核爆"!国内通胀、资产价格要全面起飞?

阿讯说天下
2026-02-27 13:51:52
捡红包事件陷入僵局!车主不承认,金额难确认,失主做法惹争议!

捡红包事件陷入僵局!车主不承认,金额难确认,失主做法惹争议!

离离言几许
2026-02-27 14:24:43
少妇当众猥亵年轻男子:脱裤裸露下体,正面照流出,私密细节披露

少妇当众猥亵年轻男子:脱裤裸露下体,正面照流出,私密细节披露

博士观察
2026-02-27 14:51:00
2026-02-28 06:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12374文章数 142572关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普警告伊朗:“有时候不得不打”

头条要闻

特朗普警告伊朗:“有时候不得不打”

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

健康
时尚
手机
亲子
公开课

转头就晕的耳石症,能开车上班吗?

舒淇最爱穿的裙子搭配,真的很适合春天!

手机要闻

澎湃OS 3 Beta新版本,涵盖5款机型,堆叠排布+超级小爱全落地

亲子要闻

今年过年和父母闹别扭了吗?希望小女孩能找到和父母相处最舒服的方式

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版