网易首页 > 网易号 > 正文 申请入驻

马斯克AI女友直播「一秒变身」,Karpathy看完立刻投钱

0
分享至


新智元报道

编辑:定慧

【新智元导读】世界首个实时AI扩散视频模型炸场,Karpathy亲自站台,颠覆AI视频交互,0延迟+无限时长,每秒24帧不卡顿,MirageLSD首次实现AI直播级生成。

刚刚,世界上首个支持直播推流的「实时」扩散AI视频诞生

大神Karpathy亲自站台宣传这个最新技术MirageLSD


最火的「马斯克AI女友」可以直接秒变哥特风格、卡哇伊风格——注意是实时,而不是后期生成。


这就是DecartAI最新推出的MirageLSD:首个支持直播推流的实时扩散AI视频模型。

大神Karpathy说他是这个项目的天使投资人,看到团队能取得突破非常激动。

Karpathy还简单讲解了下什么是「实时扩散AI视频模型」。


比如我们熟悉的滤镜,就是一种实时视频效果。


简单的滤镜效果虽然是「实时」的,但也只能进行基本的重新着色和样式设置,本质上滤镜是「无法理解」视频内容的。

现在AI生成视频常用的扩散模型,比如谷歌的Veo3,已经很神奇了,它是能够「理解」想要生成的视频内容的。

但是唯一的缺点是生成过程比较慢需要好几分钟,效果好的视频需要时间更多。


MirageLSD则是一种完全不同的模型,它不是简单的叠加滤镜,而是理解真实视频后同步生成无限想象力的AI视频。

比如可以给你的狗穿上蜘蛛侠的衣服,或者将打斗场面直接变成星球大战。


也可以把厨房的风格变换为卡通,或者直接将手里的笔变成光剑。


这些画面都可以任意通过提示进行操控。

这给未来的视频娱乐、直播互动带来了丰富的想象力。

Karpathy本人就想了几个点子:

  • 科幻片导演现场拍摄时,就可以直接测试成片的效果;

  • 实时虚拟替换不同风格、不同背景下的衣服,比如直接穿着婚纱出现在礼堂;

  • 例如情侣间通话时,将对话直接卡通化;

  • 游戏画面直接切换,比如直接将黑神话悟空切换到老头环的交界地。

DecartAI给出几个官方演示视频,可以感受下这个「魔法般」的效果。

由于MirageLSD是实时运行,可以将游戏画面实时设置为你最喜欢的场景。

另外一个最有趣的应用就是,不用再担心直播设备不好,你可以直接将直播画面转化为全新场景,即使你的设备再差,也可以进行「完美直播」。

同时,Decart还提供了一个官方的体验网站,不过现在估计热度太高了,服务器一直无法连接。

毕竟是Karpathy亲自宣传,粉丝太多啦!


本周上线的是网页版,下周将上线iOS和安卓版本。


AI实时想象画面

MirageLSD是首个实现无限、实时视频生成且零延迟的系统。

它基于Decart自研的模型Live Stream Diffusion(LSD),能够在保持时间连贯性的同时逐帧生成视频。

与之前的方法不同,LSD支持完全交互式的视频合成——在视频生成的同时实现持续提示、变换和编辑。

当前的视频模型在生成超过20-30秒的视频时,会因误差累积而出现严重质量下降。

它们往往需要数分钟的处理时间才能生成短短几秒钟的输出内容。

即便是当下接近实时性能的最快系统,通常也只能分块生成视频,这会引入不可避免的延迟,从而无法满足交互式使用的需求。


误差积累导致质量迅速下降,从而有效限制了先前自回归视频模型的输出长度。

为了实时生成视频,LSD必须以「因果方式」运行——每一帧的生成仅基于之前已有的帧。

这种自回归结构虽然保证了连续性,却也引入了一个严重缺陷:误差累积。

每一帧都会继承前一帧的瑕疵,微小的误差不断积累,导致质量迅速下降,直至帧内容变得不连贯。

以往的视频模型要么生成固定且较短长度的视频,要么采用自回归生成,但会损失质量,因此仅限于生成较短的输出。

想要实时生成,LSD需要解决两个此前在单一系统中尚未被共同解决的挑战。

无限生成

MirageLSD是首个能够生成无限长度视频的视频生成模型。

模型的自回归特性使其容易累积误差,从而限制了输出的长度。为了实现无限自回归生成:

  • 基于DiffusionForcing技术进行构建,该技术支持逐帧去噪。

  • 引入了历史增强技术,其中模型在经过损坏的历史帧输入上进行微调。这使其能够预测并修正输入中的伪影,从而增强其对自回归生成中常见漂移的鲁棒性。

这些特点使LSD成为首个能够无限生成视频。


实现「实时」性能

实时生成要求每一帧的生成时间不超过40毫秒,以避免被肉眼察觉。通过以下方式实现这一目标:

  • 设计自定义的CUDA超大内核,以最大限度地减少开销并提高吞吐量。

  • 在快捷蒸馏和模型剪枝的基础上,减少了每帧所需的计算量。

  • 优化模型架构以与GPU硬件对齐,实现最高效率。

这些技术共同作用,使响应速度比之前的模型提高了16倍,从而实现了每秒24帧的实时视频生成。


AI视频仍然缺少交互性

像MovieGen、WAN和Veo这样的定长模型可以生成高质量的视频片段,但它们的非因果设计和全片段推理会引入延迟,并且无法实现实时交互或超出预定义长度的扩展。

这意味着AI视频缺少交互性。

诸如CausVid、LTX和Seeweed-APT之类的自回归模型通过将每个块的生成依赖于先前的输出来生成更长的序列。

虽然这种方法提高了可扩展性,但分块推理仍然限制了响应速度,并存在误差累积的问题,限制了生成长度,排除了真正的交互可能性。

可控生成方法,包括ControlNet和基于LoRA的适配器,能够实现目标编辑和风格迁移,但需要离线微调,不适合实时逐帧提示。

Decart之前的系统Oasis展示了在受限领域内首个实时因果生成。

实时扩散模型MirageLSD将其扩展到开放领域、可提示的视频,实现零延迟、实时速度和无限稳定性——这是之前的工作未能同时实现的组合。

MirageLSD可以将现实世界中的实物转化为流媒体中的神话物品——将棍棒打斗变成光剑表演。


扩散模型通过逐步去除随机噪声来生成图像或视频。

在视频生成过程中,这通常意味着一次性生成固定长度的片段,这种方法有助于保持时间一致性,但会引入延迟。

一些系统试图通过按顺序生成帧块来提高灵活性,这种技术被称为自回归生成。

然而,每个帧块仍需完全生成后,模型才能响应新的输入,从而限制了交互性和实时应用。


LSD采用了一种不同的方法。

它一次生成一帧画面,使用因果关系的自回归结构,其中每一帧都依赖于先前生成的帧和用户提示。

这种方式实现了即时反馈、零延迟交互,并且视频生成可以持续进行而无需预定义终点。


这种因果反馈循环使LSD能够保持时间一致性,持续适应运动和内容,并在实时响应用户提示的同时生成无限视频序列。

此外,它还能让LSD即时响应输入内容——无论是文本提示还是视频内容的变化——且实现零延迟。

这使得实时编辑和转换成为可能。

为了实现这一点,Decart使用了扩散强制(Diffusion Forcing)——一种预训练方法,其中训练视频的每一帧都独立添加噪声。

这教会了模型在不依赖完整视频上下文的情况下对单帧进行去噪,从而实现了逐帧生成。

打开LSD的「发动机舱盖」

LSD的神奇之处在于:能够在严格的延迟预算(低于40毫秒)内独立生成每一帧,以支持持续的24FPS生成。

这在模型设计和系统执行方面都带来了重大挑战。

首先,高质量的扩散模型在计算上非常密集。

它们通常需要大量的参数数量,以及每帧需要多次迭代的去噪步骤。

每一步都需要通过模型进行一次完整的前向传播,从而导致每帧产生大量的浮点运算(FLOPs)。

其次,与离线生成流水线不同,LSD必须满足严格的每帧延迟约束。

这些约束与现代GPU的架构方式根本相悖:它们优先考虑高吞吐量和大规模批处理执行,而非低延迟的单样本推理。

挑战包括内核启动开销、在连续层之间重叠计算的机会有限,以及对内存传输延迟的敏感性增加,尤其是在多设备设置中。

为了解决这些问题,Decart采用了一个三管齐下的优化策略:

Hopper优化的超大内核:通过利用类似于MegaKernels的若干新兴技术,针对NVIDIA Hopper GPU架构优化了模型执行,以在小批量尺寸限制下最小化每层模型的延迟。进一步在这些内核中集成了GPU-GPU通信,以保证设备之间无缝通信,并通过计算操作进行掩蔽。

架构感知剪枝:将模型架构与系统级优化紧密集成,可以在每次模型执行时减少所需的FLOPs数量,同时通过高级技术更好地利用张量核心。这些技术将参数大小调整为特定GPU常量,并使用专用硬件支持进一步挖掘模型权重中的稀疏性。这些剪枝方法旨在根据底层GPU架构调整模型架构,以最大化GPU的利用率,同时通过微调模型使其对移除各种参数具有鲁棒性,从而减少整体所需的FLOPs数量。

快捷蒸馏:为了减少生成所需的扩散步骤数量,应用了快捷蒸馏方法,训练较小的模型以匹配较大教师模型的去噪轨迹。该方法显著减少了每帧所需的模型评估次数,同时保持了输出质量与时间一致性。更重要的是,它避免了在长序列中引入新的伪影或漂移。

这些技术共同使LSD能够将高保真视频扩散的延迟从每个片段几秒降低到每帧不到40毫秒,从而实现真正实时、可交互的生成。

参考资料:

https://about.decart.ai/publications/mirage

https://x.com/karpathy/status/1945979830740435186


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

主谋竟是泽连斯基密友,美欧担忧援助去向,乌克兰腐败丑闻震动西方

环球网资讯
2025-11-14 06:45:32
李连杰返老还童越扒越有!好友证实王宁也做了大血净,官媒早披露

李连杰返老还童越扒越有!好友证实王宁也做了大血净,官媒早披露

古希腊掌管月桂的神
2025-11-13 15:23:54
狗咬邻居被摔死后主人上门打砸遭反杀,该案一审未当庭宣判,检方认为被告人系防卫过当

狗咬邻居被摔死后主人上门打砸遭反杀,该案一审未当庭宣判,检方认为被告人系防卫过当

扬子晚报
2025-11-13 22:32:07
影子调查|连云港一公司女职员陪酒之死:赴宴5名镇干部被处理,家属起诉追问死因

影子调查|连云港一公司女职员陪酒之死:赴宴5名镇干部被处理,家属起诉追问死因

澎湃新闻
2025-11-14 12:42:28
超700台光刻机!荷兰ASML公司可能要全部回购?外媒:事情闹大了

超700台光刻机!荷兰ASML公司可能要全部回购?外媒:事情闹大了

大卫聊科技
2025-11-13 13:44:04
全运会乒乓球男团:上海3-0战胜江苏,许昕两战全胜

全运会乒乓球男团:上海3-0战胜江苏,许昕两战全胜

懂球帝
2025-11-14 12:16:38
高市早苗发表涉台错误言论,中方密集发声!

高市早苗发表涉台错误言论,中方密集发声!

上游新闻
2025-11-14 15:11:04
突然爆雷!总部解散,曾宣称“国资背景”,5000名投资者近10亿被套,大多来自亲戚朋友相互推荐

突然爆雷!总部解散,曾宣称“国资背景”,5000名投资者近10亿被套,大多来自亲戚朋友相互推荐

鲁中晨报
2025-11-14 10:55:26
百度AI:熬过“起大早”的孤独,等来时代的奖励

百度AI:熬过“起大早”的孤独,等来时代的奖励

定焦One
2025-11-13 20:07:12
贝克汉姆家陷僵局?大布提出和解条件:除非爸妈给老婆道歉!这...可能吗?

贝克汉姆家陷僵局?大布提出和解条件:除非爸妈给老婆道歉!这...可能吗?

英国那些事儿
2025-11-13 23:27:08
神舟二十号为什么被撞了?权威解读——

神舟二十号为什么被撞了?权威解读——

BRTV新闻
2025-11-06 16:21:50
这里正在发生真正的种族灭绝,他们却开启了休假模式

这里正在发生真正的种族灭绝,他们却开启了休假模式

以色列计划Pro
2025-11-13 21:42:59
母亲称女儿被骗柬埔寨 已怀孕6个月 欲卖房凑20万赎金

母亲称女儿被骗柬埔寨 已怀孕6个月 欲卖房凑20万赎金

大象新闻
2025-11-14 11:22:03
马筱梅直播大方承认:玥儿霖霖被大S教很好!比有的大人还尊重人

马筱梅直播大方承认:玥儿霖霖被大S教很好!比有的大人还尊重人

小娱乐悠悠
2025-11-14 14:49:41
这是真饿了,太阳报:哈兰德赛后买了近70个芝士汉堡请全队吃

这是真饿了,太阳报:哈兰德赛后买了近70个芝士汉堡请全队吃

懂球帝
2025-11-14 12:03:09
49中26!火箭第一神射手!和亚当斯爆发冲突

49中26!火箭第一神射手!和亚当斯爆发冲突

篮球实战宝典
2025-11-14 14:02:07
“狗咬人致命案”新进展:9人砸窗破门误伤自己人,导致妹夫重伤

“狗咬人致命案”新进展:9人砸窗破门误伤自己人,导致妹夫重伤

汉史趣闻
2025-11-13 21:05:13
越南军方内部报告曝光:中国军力强大到让邻国彻底清醒

越南军方内部报告曝光:中国军力强大到让邻国彻底清醒

Hi秒懂科普
2025-11-14 13:06:11
医生被护士骂的理由能有离谱?网友:我一直以为护士是医生的佣人

医生被护士骂的理由能有离谱?网友:我一直以为护士是医生的佣人

解读热点事件
2025-11-13 00:15:03
资金用完!全国多地已暂停汽车报废更新补贴

资金用完!全国多地已暂停汽车报废更新补贴

极目新闻
2025-11-12 22:48:27
2025-11-14 17:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13864文章数 66246关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

29岁程序员疑被骗至东南亚 出租屋内留下一张神秘纸条

头条要闻

29岁程序员疑被骗至东南亚 出租屋内留下一张神秘纸条

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

时尚
房产
旅游
艺术
本地

秋天穿衣真的一点都不难!从这些穿搭中收获灵感,舒适又耐看

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

旅游要闻

观赏期约一个月 成都发布公园城市银杏观叶指南

艺术要闻

伟人写给宋庆龄的信:狂草艺术的巅峰之作

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

无障碍浏览 进入关怀版