网易首页 > 网易号 > 正文 申请入驻

首个自回归视频生成模型MAGI-1发布:开源、无限长度续写,更懂物理规律,免费测试中

0
分享至

文章转载自「量子位」。
新国产AI视频生成模型横空出世,一夜间全网刷屏。

Magi-1,首个实现顶级画质输出的自回归视频生成模型模型权重、代码100%开源

整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。

Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球。

其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事:

二是能将生成时长控制精确到每一“秒”:

另外,Magi-1对物理规律也有更深度的理解,Physics-IQ基准测试56.02%,大幅领先一众顶流。

现在看这张图,Sora的时代是真的过去了。

这匹“黑马”来自中国团队Sand.ai,中文名听着有点萌叫三呆科技,实力却不容小觑。

创始人曹越,清华特奖得主、光年之外联合创始人。

目前大伙儿可在官网免费试玩Magi-1。GitHub更是一晚过后狂揽500+Star。

此次开源了从24B到4.5B参数的一系列模型,最低配置一块4090就能跑。

网友们激动转发测试,评价也是相当高,看一下这个feel:

这绝对是令人惊叹的工作。将自回归扩散应用于视频领域不仅是研究上的一大步,更是为现实世界的创意领域开辟了新可能。Magi-1在生成质量和精度上树立了新标杆。

开源特性+令人瞩目的基准测试表现=游戏规则改变者。

Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~

进群之后,你有机会得到:

  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。

01无限长度扩展,控制精确到每“秒”

还有更多官方效果展示,先来欣赏一波~

比如漂在水面上的猫,水面自然晃动,波光粼粼:

抽着雪茄的海盗船长,颇有大片的感jio:

光影等细节满满:

网友们也都陆陆续续晒出了自己的实测效果:

画质超清晰,VR头显上的细微反光以及狗的胡须和毛发细节都栩栩如生。

还有网友生成了正在跳舞的小动物,belike:

量子位自然不能错过,第一时间上手实测了一波。

玩法上,打开Magi-1,主打图生成视频,且是以一个“项目”为单位:

上传好图片之后,Magi-1像一张画布一样,呈现节点式的交互界面,点击图片侧边加号按钮就能创建一个“视频块”。

开始设置prompt,支持精确调整时长,一次最长10s,也可设置Variations一次性生成多个视频:

稍等片刻,一只活蹦乱跳的吉卜力小狗就生成好了。

我们第一次尝试就得到了下面酱婶儿的效果,小狗的动作姿态整体比较符合物理规律,没有离谱的扭曲以及突然出现的第五条腿(doge)。

视频左边还有自动改写增强后的prompt。

接着,对这段视频进行扩展,小狗摇头晃脑活蹦乱跳在表达什么呢?

原来是在讲述它今天在河里游泳玩耍的事情。

把这一个个镜头“组装”起来,分分钟就能打造出一部连贯的叙事短片。

另外Magi-1中还有“资产管理”板块,可基于生成的视频再创建一个新项目,进行二次加工创作。

02完整模型架构,推理基础设施公开

Magi-1公布的技术论文足足有61页之多。

Magi-1整体架构基于Diffusion Transformer,采用Flow-Matching作为训练目标。

训练分为多阶段,第一阶段固定分辨率(256×256,16 帧),第二阶段引入可变分辨率和图像-视频联合训练,并在推理时使用滑动窗口方法来支持任意分辨率。

其最大的特点是不把视频当成一个整体去生成,而是通过自回归去噪方式预测固定长度的视频片段(chunk),每个片段固定为24帧。

当前一个片段达到一定去噪水平后,便开始生成下一个片段。这种流水线设计最多可同时处理四个片段,提高视频生成的效率。

同时,这种约束早期片段噪声水平低于后期片段的设计,确保了视频前后的因果性,避免片段的信息影响过去,导致时间一致性差(如物体突然消失或运动轨迹断裂)。

配合这种分片段自回归设计,Magi-1在Diffusion Transformer的基础上融入了多项改进。

光是在注意力机制上就有多项创新。

Block-Causal Attention

  • 片段内全注意力:每个视频片段内的所有帧间进行全注意力计算,捕捉片段内短时序依赖(如单片段内物体的快速运动)。

  • 片段间因果注意力:仅允许当前片段关注之前已生成的片段,禁止未来片段信息反向流入,确保因果性。

  • 3D RoPE 位置编码:结合空间和时间位置信息,学习可训练的基频参数,提升长时序建模能力。

Parallel Attention Block

传统DiT架构中自注意力(处理视觉特征)和交叉注意力(处理文本条件)串行执行,需两次TP通信(Tensor Parallel);并行块将两者的查询投影Q共享,仅需一次通信,减少GPU间同步开销

QK-NormGQA

QK-Norm是源自视觉Transformer的技术,通过归一化查询(Q)和键(K)的范数,稳定注意力权重计算,避免梯度爆炸/消失。Magi-1将其扩展到时空注意力和交叉注意力模块,提升训练稳定性,尤其在240亿参数规模下效果显著。

接下来的GQA、FFN 中的三明治归一化、SwiGLU大家就很熟悉了。

到了具体软硬协同层面,论文还提出了可扩展分布式注意力机制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3,将不规则注意力掩码分解为多个 AttnSlice,使各种常用注意力掩码可表示为多个AttnSlice的组合,从而支持灵活的注意力掩码类型。利用英伟达Hopper 架构的TMA 特征,引入Slice级并行和原子操作,在支持灵活掩码的同时,保持与FlashAttention-3相当的计算性能。

计算负载均衡

将整个掩码沿查询维度均匀划分为多个dispatch chunks,并分配到不同的上下文并行(CP)对应的bucket中,使每个bucket包含相同数量的dispatch chunks,避免因负载不均衡导致的计算资源闲置。

零冗余通信原语

针对现有环形点对点通信原语存在冗余通信的问题,引入group-cast和 group-reduce原语。根据注意力掩码的需求,精准地发送和收集关键值(KV)及梯度(dKV)信息,避免不必要的通信,实现零冗余通信。通过使用all-to-all-v原语进行原型实现,并借助内核融合减少预处理和后处理开销。

自适应多阶段重叠

为实现真正的线性扩展,引入多阶段计算-通信重叠策略,将每个rank的远程 KV/dKV 通信划分为多个阶段。

在正向传递中,先启动group-cast内核预取下一阶段的远程KV,然后异步执行Flex-Flash-Attention(FFA)内核进行部分注意力计算;

在反向传递中,除了预取 KV,还在启动 FFA 内核前,通过group-reduce内核减少上一阶段的dKV。通过引入可调节超参数num_stages,根据不同训练设置、微批次以及正向和反向传递的计算-通信比率,自适应地控制重叠粒度。

所有这些改动作为一个完整的MagiAttention项目,代码也在GitHub上开源。

推理基础设施方面,主要针对两种场景进行设计:实时流式视频生成和在 RTX 4090 GPU 上的经济高效部署,以满足不同应用需求。

在实时流式视频生成上采用异构服务架构,将T5(提取文本Embedding,为视频生成提供语义信息)和Magi-1部署在高性能GPU 上,VAE部分部署在经济高效的硬件上,实现Magi-1推理和VAE解码并发执行,并通过分析性能数据来分配资源,提升整体吞吐量。

针对RTX4090部署场景,借鉴语言模型将KV缓存存储在CPU内存中,根据需要动态加载回GPU。针对RTX4090的PCIe总线带宽限制,提出Context Shuffle Overlap(CSO)技术,优化通信与计算的重叠,提升计算资源利用率,使4.5B参数模型在单块RTX 4090 GPU上部署时,峰值内存占用控制在21.94GB;24B模型在8块RTX4090 GPU上部署时,峰值内存占用控制在19.29GB,且最大MFU(浮点运算数利用率)达到 58% 。

最后,评估结果分为内部人工评估、自动评估(VBench-I2V基准)、物理理解能力评估三部分。

人类评估中Magi-1与海螺、腾讯混元、通义万相Wan2.1相比,尤其是在指令跟随和运动质量方面有优势,与闭源模型可灵1.6在视觉质量上还有一些差距。

在VBench-I2V基准上:MAGI-1(2×解码器)以总分89.28排名第一,尤其在动态程度(Dynamic Degree)上有优势,平衡运动幅度与图像质量。

03曹越执掌的团队,已完成三轮融资

Sand.AI创始人曹越,博士毕业于清华大学软件学院,2018年获清华大学特等奖学金。

读博期间在微软MSRA实习,2021年以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖”。

2022年,曹越与王慧文等共同创办光年之外,后加入智源研究院领导多模态与视觉研究中心。

2023年曹越创办Sand.ai,在很长一段时间保持隐身模式。

2024年7月,其投资方今日资本“风投女王”徐新的一条传闻把Sand.ai炸出水面。

当时有人发帖称“今日资本撤离一级市场”,徐新发朋友圈辟谣时透露,2024年5月今日资本领投了Sand.AI的早期融资。

到现在据了解,Sand.AI已完成三轮融资,主要参与方包括今日资本、经纬创投等。

创新工场创始人李开复刚刚也发帖推荐了Sand.AI与Magi-1,称“很高兴看到继 DeepSeek 之后,又有一家AI公司开发出世界一流的开源模型”。

目前Sand.ai具体融资金额,团队规模等尚未可知,不过从MAGI-1论文附带的贡献者名单看,核心技术团队至少有36人。

其中很多成员与曹越在工作经历上有交集。

如创始成员方羽新,有微软MSRA、智源研究院实习经历,也是光年之外创始成员之一。

两人在智源研究院期间在大规模视觉表征预训练模型EVA系列上多次合作。

核心贡献者李凌志,也有MSRA实习经历,曾担任小红书算法主管和阿里巴巴集团达摩院算法专家。

多位团队成员在个人主页等处介绍自己现在为一家隐形初创公司工作。

现在答案已经明了,他们在Sand AI,做AI视频生成界的DeepSeek。

在线试玩:
https://sand.ai/

参考链接:
[1] https://github.com/SandAI-org/MAGI-1
[2]https://static.magi.world/static/files/MAGI_1.pdf
[3]https://x.com/kaifulee/status/1914528611429966315

转载原创文章请添加微信:founderparker

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
柯文哲怒呛卓荣泰:你若明着讲“陆配是外国人”,就直接让李贞秀下台

柯文哲怒呛卓荣泰:你若明着讲“陆配是外国人”,就直接让李贞秀下台

海峡导报社
2026-02-26 11:50:03
俄副总理亲口证实,中俄正在谈判,普京该明白:亲兄弟也得明算账

俄副总理亲口证实,中俄正在谈判,普京该明白:亲兄弟也得明算账

龙隐天下
2026-02-26 12:12:44
世界最大帝陵:修了107年,凿空1200米大山,面积是秦始皇陵的3倍

世界最大帝陵:修了107年,凿空1200米大山,面积是秦始皇陵的3倍

老谢谈史
2026-02-24 09:30:04
体制内情商高能带来啥意外惊喜?网友:别在地铁看,别问我为什么

体制内情商高能带来啥意外惊喜?网友:别在地铁看,别问我为什么

带你感受人间冷暖
2026-02-24 01:03:13
马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

马云无眠张纪中泪目!半个商圈大佬齐聚送别,这个男人啥来头?

老特有话说
2026-01-17 16:26:05
2026第一波大裁员来了,注意这5个危险行业

2026第一波大裁员来了,注意这5个危险行业

爱看剧的阿峰
2026-02-25 04:59:54
美债清零?游戏结束,中方不救美元了,特朗普决策错误,急求和谈

美债清零?游戏结束,中方不救美元了,特朗普决策错误,急求和谈

财经保探长
2026-02-25 16:46:08
爱泼斯坦专机腐烂曝光:婴儿油混着霉斑,这张大床曾藏多少罪恶?

爱泼斯坦专机腐烂曝光:婴儿油混着霉斑,这张大床曾藏多少罪恶?

眼界看视野
2026-02-25 20:55:30
短短2天,日本再次陷入死局,大米变奢侈品,高市早苗恐月底下台

短短2天,日本再次陷入死局,大米变奢侈品,高市早苗恐月底下台

策前论
2026-02-25 15:16:04
忍无可忍无需再忍!台海发生激烈对峙 中方出动军机 澳舰狼狈窜逃

忍无可忍无需再忍!台海发生激烈对峙 中方出动军机 澳舰狼狈窜逃

回京历史梦
2026-02-26 12:21:19
浙江队冤大头?花500万从北京国安买了一个替补,引发球迷热议!

浙江队冤大头?花500万从北京国安买了一个替补,引发球迷热议!

罗掌柜体育
2026-02-26 12:09:46
中国怎么突然之间,就变成一个超级大国!从外国人的视角看中国!

中国怎么突然之间,就变成一个超级大国!从外国人的视角看中国!

通鉴史智
2026-02-24 11:36:54
美军想不通:10几架F16悄摸起飞,连韩国都没说,解放军咋会知道

美军想不通:10几架F16悄摸起飞,连韩国都没说,解放军咋会知道

壹知眠羊
2026-02-23 11:30:46
省委批准:开除焦卫星党籍!升正厅不到5个月落马

省委批准:开除焦卫星党籍!升正厅不到5个月落马

上观新闻
2026-02-25 14:54:04
生前无人问津,死了大封特赏

生前无人问津,死了大封特赏

我是历史其实挺有趣
2026-02-25 14:00:27
2-1!巴尔韦德独造2球,熊皇破门制胜,皇马双杀晋级,或再战曼城

2-1!巴尔韦德独造2球,熊皇破门制胜,皇马双杀晋级,或再战曼城

我的护球最独特
2026-02-26 06:08:37
中美联合国激烈交锋,美逼中国买单,中方拒绝接受,对美反将三军

中美联合国激烈交锋,美逼中国买单,中方拒绝接受,对美反将三军

老塕是个手艺人
2026-02-26 10:56:20
“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

“小婉君”金铭45岁现状:个子太矮事业受挫,住北京豪宅不婚不育

削桐作琴
2026-01-29 00:03:53
米兰冬奥运动员收入排行,宁忠岩落榜,徐梦桃排不上号,第一是她

米兰冬奥运动员收入排行,宁忠岩落榜,徐梦桃排不上号,第一是她

削桐作琴
2026-02-25 19:06:19
他是富二代,接替杨尚昆职务担任广东省委书记,促使广东经济腾飞

他是富二代,接替杨尚昆职务担任广东省委书记,促使广东经济腾飞

芊芊子吟
2026-01-18 07:40:06
2026-02-26 13:32:49
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1145文章数 156关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

特朗普自诩开启美国"黄金时代" 遭美媒集体"打脸"

头条要闻

特朗普自诩开启美国"黄金时代" 遭美媒集体"打脸"

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

时尚
手机
教育
旅游
健康

伦敦时装周|2026秋冬流行趋势早知道

手机要闻

三星Galaxy S26 Ultra手机支持2400万像素直出

教育要闻

从“不能出教室”到“必须动起来”:学校真的做得到吗?

旅游要闻

一整年都有新惊喜!上海迪士尼十周年庆典即将启幕,三大娱乐演出焕新升级

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版