网易首页 > 网易号 > 正文 申请入驻

AI大神卡帕西投钱!全球首个直播生成模型发布,实时生成无时长限制

0
分享至


智东西
编译 李水青
编辑 漠影

智东西7月19日报道,昨日,以色列AI创企Decart推出首个直播扩散AI视频模型——MirageLSD。不同于Veo等市面上时长有限、存在延时的视频生成模型,Mirage可以实时转换无限长的视频流,响应时间小于40毫秒

前特斯拉AI总监、OpenAI创始团队成员Andrej Karpathy在社交平台X上称:“Veo等视频扩散模型很神奇,但它们需要花费数秒/数分钟才能生成,MirageLSD是实时的魔法。”他认为这将是一项通用和强大的技术,有望改变游戏、直播、视频通话、影视、会议、AR/VR等多种领域。


Decart创立于2023年,由Andrej Karpathy参与投资,Mirage是Decart继“AI版我的世界” Oasis之后推出的第二个模型。目前,由MirageLSD模型驱动的Mirage平台已上线,iOS、Android版本预计下周上线。

体验地址:https://mirage.decart.ai/

一、Andrej Karpathy强推:实时的魔法,改变游戏直播行业

在社交平台X中,AI大神Andrej Karpathy激动地称:”扩散视频模型现在支持实时生成了!“

Andrej Karpathy谈道,此前,简单的视频滤镜支持实时生成,但大多只能进行基本的重新着色和样式设置。市面上已有的Veo等视频扩散模型很神奇,但它们需要花费数秒甚至数分钟才能生成。MirageLSD就是实时魔法。与简单的视频滤镜不同,扩散模型实际上理解它们正在查看的内容,因此它们可以智能地设置视频源所有部分的样式,例如将帽子戴在头上,或将光剑戴在手上等。


Andrej Karpathy还称,该模型可以任意操控,例如通过文本提示来进行操控。可定制的智能视频滤镜会随着时间的推移解锁许多酷炫的想法:

-将摄像头画面转化为虚拟实景;


▲摄像机拍摄画面实时生成视频(源自:Decart官网)

-执导并拍摄自己的电影,使用道具演绎场景,实时拍摄且即时回看;


▲实景道具演绎视频实时变3D卡通动画(源自:Decart官网)

-围绕简单的球体或方块生成有氛围的代码游戏,然后借助实时扩散模型为游戏添加纹理,使其变得精美;


▲生成游戏画面(源自:Decart官网)

-对任意视频流进行风格化处理和自定义:游戏、视频…… 比如,《上古卷轴 5:天际》想更 “史诗感爆棚”?《毁灭战士 2》仅用一个提示词就能达到现代虚幻引擎的画质?恐怖片想变成 “只有可爱元素、粉色调与小兔子” 的风格?这谁知道呢!


▲生成游戏画面(源自:Decart官网)

-Zoom通话背景实时虚拟更换。

-眼镜:例如,实时卡通化你的视觉?

-现在我们可以打造哈利·波特的厄里斯魔镜,在镜子里展现你的“原始画面”,但会增强你内心最深处的渴望(由AI推断)。

Andrej Karpathy称,可以设想的应用场景太多了,他可能错过了最重要的一点。并且声明:“我是Decart的小额天使投资人,我很兴奋,因为在我看来,这项技术会很快变得非常好,感觉它很通用、很强大,但技术难度也很高。祝贺团队发布成功!”

二、破解视频生成“30秒瓶颈”,生成速度提升16倍

MirageLSD是首个实现无限实时零延迟视频生成的系统。它基于名为“实时流扩散 (LSD)”的定制模型构建,该模型能够逐帧生成视频,同时保持时间连贯性。

与以往的方法不同,LSD支持完全交互式的视频合成——允许在视频生成过程中持续进行提示、转换和编辑。

当前的视频模型无法生成超过30秒的视频生成,否则会因错误累积而导致质量严重下降。它们通常需要几分钟的处理时间才能输出几分钟的视频。即使是当今最快的实时系统,通常也会分块生成视频,从而带来不可避免的延迟,影响交互使用。

为了实时生成视频,LSD必须以因果关系的方式运行——仅基于前一帧生成每一帧。这种自回归结构确保了连续性,但也带来了一个严重的缺陷:误差累积。每一帧都会继承上一帧的缺陷。微小的误差累积起来,会导致质量迅速下降,直到帧变得不连贯。


启用LSD需要解决两个以前从未在单个系统中同时解决的挑战。

1、基于扩散强制技术,实现无限生成

为了实现无限的自回归生成,Mirage研究人员以扩散强制技术为基础,进行逐帧去噪;引入了历史增强功能,使模型能够针对损坏的输入历史帧进行微调。这教会模型预测并纠正输入伪影,使其能够抵御自回归生成中常见的漂移。

这些操作使得MirageLSD成为第一个能够无限生成视频而不会崩溃的模型——稳定、可提示,并且与场景和用户输入保持一致。


2、速度提高16倍,实时生成视频

响应度被定义为最坏情况的响应延迟,即使是以前的自回归模型的响应速度也比MirageLSD慢16倍以上,从而无法实现实时交互。

实时生成要求每帧生成时间不超过40毫秒,以免人眼察觉。Mirage研究人员通过以下方式实现这一目标:

设计定制的CUDA巨型内核,以最小化开销并最大化吞吐量;基于快捷蒸馏和模型修剪,减少每帧所需的计算量;优化模型架构以与GPU硬件保持一致,从而实现峰值效率。

总之,这些技术使响应速度比之前的模型提高了16倍,能够以24 FPS的速度生成实时视频。


三、与Veo走差异化路线,首个实时无限视频生成模型

当下,AI视频生成方面模型已提高了生成视觉质量和时长,但大多数系统仍然缺少交互性、低延迟和时间稳定性。

MovieGen、WAN和Veo等固定长度模型可以生成高质量的视频片段,但它们的非因果设计和全片段推理会引入延迟,并阻止实时交互或超出预定义长度的扩展。

CausVid、LTX和Seeweed-APT等自回归模型通过对先前的输出进行条件化来生成更长的序列,虽然这提高了可扩展性,但分块推理仍然限制了响应速度,并容易出现错误累积,限制了生成长度,并最终导致无法进行真正的交互。

可控生成方法,包括ControlNet和基于LoRA的适配器,可以实现有针对性的编辑和风格转换,但需要离线微调,不适合实时逐帧提示。

Mirage自身之前的系统Oasis首次在受限域内实现了实时因果生成。MirageLSD则将其扩展到开放域、可提示的视频,具有零延迟、实时速度和无限稳定性——这是先前研究无法实现的组合。

结语:实时无限生成视频,精确控制仍然有限

MirageLSD虽然实现了实时、可提示且稳定的视频生成,但仍面临一些挑战。首先,该系统目前依赖于有限的过去帧窗口。引入长期记忆机制可以提高扩展序列的连贯性,从而实现更一致的角色身份、场景布局和长期动作。

此外,虽然MirageLSD支持文本引导的转换,但对特定对象、空间区域或运动的精确控制仍然有限。集成结构化控制信号(例如关键点或场景注释)或许可以在实时场景中实现更精细的用户控制编辑。

Mirage提出,团队需要进一步研究来提升语义和几何一致性,尤其是在极端风格转换的情况下的表现。解决这个问题需要在提示驱动的指导下建立更强大的内容保存机制。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
爆冷!曼联火速接触切尔西前主帅,7 大名帅疯抢帅位

爆冷!曼联火速接触切尔西前主帅,7 大名帅疯抢帅位

奶盖熊本熊
2026-01-06 01:19:03
停牌!000670,重大资产重组

停牌!000670,重大资产重组

中国基金报
2026-01-05 23:12:55
釉光之下:一场关于车模完美的耐力赛

釉光之下:一场关于车模完美的耐力赛

疾跑的小蜗牛
2026-01-05 16:31:46
林豆豆没钱治病的艰难时刻,一个意想不到的人伸出了援手,对此林立衡直言:太不可思议了

林豆豆没钱治病的艰难时刻,一个意想不到的人伸出了援手,对此林立衡直言:太不可思议了

桃烟读史
2026-01-05 22:15:15
金价,爆了!

金价,爆了!

商丘交通广播
2026-01-05 19:36:03
60岁最美李莫愁近照曝光,全网心酸:老到我不敢认

60岁最美李莫愁近照曝光,全网心酸:老到我不敢认

草莓解说体育
2026-01-04 13:44:05
执政13年投入240亿美元军费,马杜罗为何轻易被擒?

执政13年投入240亿美元军费,马杜罗为何轻易被擒?

高博新视野
2026-01-04 17:22:18
快住手!经常捅这个器官的人,癌细胞可能悄悄繁殖

快住手!经常捅这个器官的人,癌细胞可能悄悄繁殖

奇妙的本草
2026-01-02 12:00:45
上海30岁美女博士,因无法接受丈夫身份,从16楼一跃而下

上海30岁美女博士,因无法接受丈夫身份,从16楼一跃而下

星宇共鸣
2025-05-20 18:28:56
美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

美女白色露脐T恤配蓝色瑜伽裤,性感值拉满,简直是行走的 荷尔蒙

小乔古装汉服
2025-09-24 07:20:03
32岁未婚独生女重度抑郁了!父母双亡,只留下一套房和160万存款

32岁未婚独生女重度抑郁了!父母双亡,只留下一套房和160万存款

火山詩话
2026-01-05 08:57:12
工资从19万涨到66万多!一财会人员称,几乎考完了财务相关的证书

工资从19万涨到66万多!一财会人员称,几乎考完了财务相关的证书

火山詩话
2026-01-05 12:43:55
河南平顶山一老人报警称楼上邻居制毒,大批警察“全副武装”上门,结果一查:有精神病

河南平顶山一老人报警称楼上邻居制毒,大批警察“全副武装”上门,结果一查:有精神病

潇湘晨报
2026-01-05 15:33:10
司晓迪事件再升级!司晓迪爆合照、聊天记录,称鹿晗是最好的哥哥

司晓迪事件再升级!司晓迪爆合照、聊天记录,称鹿晗是最好的哥哥

娱乐圈笔娱君
2026-01-03 17:09:20
上海大胜浙江广厦,明明是两支顶尖球队的较量,我却看到菜鸡互啄

上海大胜浙江广厦,明明是两支顶尖球队的较量,我却看到菜鸡互啄

姜大叔侃球
2026-01-05 22:50:41
美股三大指数集体收涨 道指再创历史新高

美股三大指数集体收涨 道指再创历史新高

财联社
2026-01-06 05:02:07
58岁TVB演员成单亲爸爸,名声坏了无戏可拍,靠卖豪宅卖饭为生

58岁TVB演员成单亲爸爸,名声坏了无戏可拍,靠卖豪宅卖饭为生

白面书誏
2025-11-07 11:29:07
元宝AI骂人:当大厂为了抢跑开始喂AI吃“垃圾”,翻车就是必然

元宝AI骂人:当大厂为了抢跑开始喂AI吃“垃圾”,翻车就是必然

我不叫阿哏
2026-01-05 14:27:50
ASML股价创新高,日内涨幅超5%,总市值达4750万亿美元

ASML股价创新高,日内涨幅超5%,总市值达4750万亿美元

每日经济新闻
2026-01-05 22:40:11
樊振东夺冠首度回应去留问题,一席话感动教练+队友,球迷听懂了

樊振东夺冠首度回应去留问题,一席话感动教练+队友,球迷听懂了

篮球看比赛
2026-01-05 10:50:10
2026-01-06 07:35:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11014文章数 116936关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

房产
亲子
艺术
数码
健康

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

亲子要闻

氨溴索和氨溴特罗,有何区别?哪个更好?

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

数码要闻

三星发布全球首款130英寸Micro RGB电视

这些新疗法,让化疗不再那么痛苦

无障碍浏览 进入关怀版