网易首页 > 网易号 > 正文 申请入驻

清华特奖团队,100%开源,视频生成AI一夜刷屏!

0
分享至


梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI

新国产AI视频生成模型横空出世,一夜间全网刷屏。

Magi-1,首个实现顶级画质输出的自回归视频生成模型,模型权重、代码100%开源。

整整61页的技术报告中还详细介绍了创新的注意力改进和推理基础设施设计,给人一种视频版DeepSeek的感觉。

Magi-1将视频生成卷到了新高度,大片级品质直接锁住大家的眼球,请看VCR:

其主打能力,一是无限长度扩展,实现跨时间的无缝连贯叙事:

二是能将生成时长控制精确到每一“秒

另外,Magi-1对物理规律也有更深度的理解,Physics-IQ基准测试56.02%,大幅领先一众顶流。

现在看这张图,Sora的时代是真的过去了。

这匹“黑马”来自中国团队Sand.ai,中文名听着有点萌叫三呆科技,实力却不容小觑。

创始人越,清华特奖得主、光年之外联合创始人。

目前大伙儿可在官网免费试玩Magi-1。GitHub更是一晚过后狂揽500+Star。

此次开源了从24B到4.5B参数的一系列模型,最低配置一块4090就能跑。

网友们激动转发测试,评价也是相当高,看一下这个feel:


这绝对是令人惊叹的工作。将自回归扩散应用于视频领域不仅是研究上的一大步,更是为现实世界的创意领域开辟了新可能。Magi-1在生成质量和精度上树立了新标杆。 开源特性+令人瞩目的基准测试表现=游戏规则改变者。

无限长度扩展,控制精确到每“秒”

还有更多官方效果展示,先来欣赏一波~

比如漂在水面上的猫,水面自然晃动,波光粼粼:

抽着雪茄的海盗船长,颇有大

片的感jio:

光影等细节满满:

网友们也都陆陆续续晒出了自己的实测效果:

画质超清晰,VR头显上的细微反光以及狗的胡须和毛发细节都栩栩如生。

还有网友生成了正在跳舞的小动物,belike:

量子位自然不能错过,第一时间上手实测了一波。

玩法上,打开Magi-1,主打图生成视频,且是以一个“项目”为单位:

上传好图片之后,Magi-1像一张画布一样,呈现节点式的交互界面,点击图片侧边加号按钮就能创建一个“视频块”。

开始设置prompt,支持精确调整时长,一次最长10s,也可设置Variations一次性生成多个视频:

稍等片刻,一只活蹦乱跳的吉卜力小狗就生成好了。

我们第一次尝试就得到了下面酱婶儿的效果,小狗的动作姿态整体比较符合物理规律,没有离谱的扭曲以及突然出现的第五条腿(doge)。

视频左边还有自动改写增强后的prompt。

接着,对这段视频进行扩展,小狗摇头晃脑活蹦乱跳在表达什么呢?

原来是在讲述它今天在河里游泳玩耍的事情。

把这一个个镜头“组装”起来,分分钟就能打造出一部连贯的叙事短片。

另外Magi-1中还有“资产管理”板块,可基于生成的视频再创建一个新项目,进行二次加工创作。

完整模型架构、推理基础设施公开

Magi-1公布的技术论文足足有61页之多。

Magi-1整体架构基于Diffusion Transformer,采用Flow-Matching作为训练目标。

训练分为多阶段,第一阶段固定分辨率(256×256,16 帧),第二阶段引入可变分辨率和图像-视频联合训练,并在推理时使用滑动窗口方法来支持任意分辨率。

其最大的特点是不把视频当成一个整体去生成,而是通过自回归去噪方式预测固定长度的视频片段(chunk),每个片段固定为24帧。

当前一个片段达到一定去噪水平后,便开始生成下一个片段。这种流水线设计最多可同时处理四个片段,提高视频生成的效率。

同时,这种约束早期片段噪声水平低于后期片段的设计,确保了视频前后的因果性,避免片段的信息影响过去,导致时间一致性差(如物体突然消失或运动轨迹断裂)。

配合这种分片段自回归设计,Magi-1在Diffusion Transformer的基础上融入了多项改进。

光是在注意力机制上就有多项创新。

Block-Causal Attention

  • 片段内全注意力:每个视频片段内的所有帧间进行全注意力计算,捕捉片段内短时序依赖(如单片段内物体的快速运动)。

  • 片段间因果注意力:仅允许当前片段关注之前已生成的片段,禁止未来片段信息反向流入,确保因果性。

  • 3D RoPE 位置编码:结合空间和时间位置信息,学习可训练的基频参数,提升长时序建模能力。

Parallel Attention Block

传统DiT架构中自注意力(处理视觉特征)和交叉注意力(处理文本条件)串行执行,需两次TP通信(Tensor Parallel);并行块将两者的查询投影Q共享,仅需一次通信,减少GPU间同步开销

QK-NormGQA

QK-Norm是源自视觉Transformer的技术,通过归一化查询(Q)和键(K)的范数,稳定注意力权重计算,避免梯度爆炸/消失。Magi-1将其扩展到时空注意力和交叉注意力模块,提升训练稳定性,尤其在240亿参数规模下效果显著。

接下来的GQA、FFN 中的三明治归一化、SwiGLU大家就很熟悉了。

到了具体软硬协同层面,论文还提出了可扩展分布式注意力机制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3,将不规则注意力掩码分解为多个 AttnSlice,使各种常用注意力掩码可表示为多个AttnSlice的组合,从而支持灵活的注意力掩码类型。利用英伟达Hopper 架构的TMA 特征,引入Slice级并行和原子操作,在支持灵活掩码的同时,保持与FlashAttention-3相当的计算性能。

计算负载均衡

将整个掩码沿查询维度均匀划分为多个dispatch chunks,并分配到不同的上下文并行(CP)对应的bucket中,使每个bucket包含相同数量的dispatch chunks,避免因负载不均衡导致的计算资源闲置。

零冗余通信原语

针对现有环形点对点通信原语存在冗余通信的问题,引入group-cast和 group-reduce原语。根据注意力掩码的需求,精准地发送和收集关键值(KV)及梯度(dKV)信息,避免不必要的通信,实现零冗余通信。通过使用all-to-all-v原语进行原型实现,并借助内核融合减少预处理和后处理开销。

自适应多阶段重叠

为实现真正的线性扩展,引入多阶段计算-通信重叠策略,将每个rank的远程 KV/dKV 通信划分为多个阶段。

在正向传递中,先启动group-cast内核预取下一阶段的远程KV,然后异步执行Flex-Flash-Attention(FFA)内核进行部分注意力计算;

在反向传递中,除了预取 KV,还在启动 FFA 内核前,通过group-reduce内核减少上一阶段的dKV。通过引入可调节超参数num_stages,根据不同训练设置、微批次以及正向和反向传递的计算-通信比率,自适应地控制重叠粒度。

所有这些改动作为一个完整的MagiAttention项目,代码也在GitHub上开源。

推理基础设施方面,主要针对两种场景进行设计:实时流式视频生成和在 RTX 4090 GPU 上的经济高效部署,以满足不同应用需求。

在实时流式视频生成上采用异构服务架构,将T5(提取文本Embedding,为视频生成提供语义信息)和Magi-1部署在高性能GPU 上,VAE部分部署在经济高效的硬件上,实现Magi-1推理和VAE解码并发执行,并通过分析性能数据来分配资源,提升整体吞吐量。

针对RTX4090部署场景,借鉴语言模型将KV缓存存储在CPU内存中,根据需要动态加载回GPU。针对RTX4090的PCIe总线带宽限制,提出Context Shuffle Overlap(CSO)技术,优化通信与计算的重叠,提升计算资源利用率,使4.5B参数模型在单块RTX 4090 GPU上部署时,峰值内存占用控制在21.94GB;24B模型在8块RTX4090 GPU上部署时,峰值内存占用控制在19.29GB,且最大MFU(浮点运算数利用率)达到 58% 。

最后,评估结果分为内部人工评估、自动评估(VBench-I2V基准)、物理理解能力评估三部分。

人类评估中Magi-1与海螺、腾讯混元、通义万相Wan2.1相比,尤其是在指令跟随和运动质量方面有优势,与闭源模型可灵1.6在视觉质量上还有一些差距。

在VBench-I2V基准上:MAGI-1(2×解码器)以总分89.28排名第一,尤其在动态程度(Dynamic Degree)上有优势,平衡运动幅度与图像质量。

曹越执掌的团队,已完成三轮融资

Sand.AI创始人曹越,博士毕业于清华大学软件学院,2018年获清华大学特等奖学金。

读博期间在微软MSRA实习,2021年以Swin Transformer共同一作身份获ICCV最佳论文“马尔奖”

2022年,曹越与王慧文等共同创办光年之外,后加入智源研究院领导多模态与视觉研究中心。

2023年曹越创办Sand.ai,在很长一段时间保持隐身模式。

2024年7月,其投资方今日资本“风投女王”徐新的一条传闻把Sand.ai炸出水面。

当时有人发帖称“今日资本撤离一级市场”,徐新发朋友圈辟谣时透露,2024年5月今日资本领投了Sand.AI的早期融资。

到现在据了解,Sand.AI已完成三轮融资,主要参与方包括今日资本、经纬创投等。

创新工厂创始人李开复刚刚也发帖推荐了Sand.AI与Magi-1,称“很高兴看到继 DeepSeek 之后,又有一家AI公司开发出世界一流的开源模型”。

目前Sand.ai具体融资金额,团队规模等尚未可知,不过从MAGI-1论文附带的贡献者名单看,核心技术团队至少有36人

其中很多成员与曹越在工作经历上有交集。

创始成员方羽新,有微软MSRA、智源研究院实习经历,也是光年之外创始成员之一。

两人在智源研究院期间在大规模视觉表征预训练模型EVA系列上多次合作。

核心贡献者李凌志,也有MSRA实习经历,曾担任小红书算法主管和阿里巴巴集团达摩院算法专家。

多位团队成员在个人主页等处介绍自己现在为一家隐形初创公司工作。

现在答案已经明了,他们在Sand AI,做AI视频生成界的DeepSeek。

在线试玩:
https://sand.ai/

参考链接:
[1] https://github.com/SandAI-org/MAGI-1
[2]https://static.magi.world/static/files/MAGI_1.pdf
[3]https://x.com/kaifulee/status/1914528611429966315

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你占过最大的便宜是啥?网友:我也是,捡漏一个老公

你占过最大的便宜是啥?网友:我也是,捡漏一个老公

带你感受人间冷暖
2026-02-25 00:17:46
痛心!广东英德1岁走失男童在报警人家附近鱼塘中被发现,已无生命体征

痛心!广东英德1岁走失男童在报警人家附近鱼塘中被发现,已无生命体征

封面新闻
2026-02-26 01:57:06
想取代方便面的“绿皮霸主”,没逃过时代“围剿”

想取代方便面的“绿皮霸主”,没逃过时代“围剿”

博客COVER
2026-02-25 23:38:35
德媒:克洛普可能与红牛集团分道扬镳,格拉斯纳是潜在接替者

德媒:克洛普可能与红牛集团分道扬镳,格拉斯纳是潜在接替者

懂球帝
2026-02-26 11:42:47
74岁陈凯歌三亚过年超豪气!5万皮鞋配大金表,脸上老年斑藏不住

74岁陈凯歌三亚过年超豪气!5万皮鞋配大金表,脸上老年斑藏不住

复转小能手
2026-02-25 23:46:10
1931年,周恩来带人处决叛徒顾顺章家人,放过仨小孩,却酿成祸患

1931年,周恩来带人处决叛徒顾顺章家人,放过仨小孩,却酿成祸患

阿胡
2024-07-31 11:50:32
45岁吉赛尔·邦辰素颜遛娃,状态依旧能打!

45岁吉赛尔·邦辰素颜遛娃,状态依旧能打!

述家娱记
2026-02-26 13:11:46
FIBA3x3女子系列赛首批办赛城市出炉,总决赛落户上海

FIBA3x3女子系列赛首批办赛城市出炉,总决赛落户上海

澎湃新闻
2026-02-26 11:42:28
特朗普访华在即美方却搞突袭,中方严正警告:别把中国承诺当软肋

特朗普访华在即美方却搞突袭,中方严正警告:别把中国承诺当软肋

至死不渝的爱情
2026-02-26 11:51:56
越南砸巨款在横店拍开国太祖,仔细一看,不就是我们家王爷嘛

越南砸巨款在横店拍开国太祖,仔细一看,不就是我们家王爷嘛

我心纵横天地间
2026-02-24 21:10:15
牟宗义被查

牟宗义被查

观察者网
2026-02-26 09:34:05
美媒:20岁华裔选手粉丝数远超谷爱凌 她拒绝中国招募 对美国忠诚

美媒:20岁华裔选手粉丝数远超谷爱凌 她拒绝中国招募 对美国忠诚

念洲
2026-02-25 11:46:11
不愧是心机卡!34岁的伦纳德在本赛季打出生涯巅峰表现

不愧是心机卡!34岁的伦纳德在本赛季打出生涯巅峰表现

大眼瞄世界
2026-02-25 23:33:30
阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

39健康网
2026-02-17 18:31:37
舍得酒:郭广昌的提款机?

舍得酒:郭广昌的提款机?

新浪财经
2026-02-26 10:09:14
皇太极的变态嗜好:把妻子赏给下人,坐月子、儿子为王皆不能幸免

皇太极的变态嗜好:把妻子赏给下人,坐月子、儿子为王皆不能幸免

老谢谈史
2026-02-26 02:06:26
“80后”厅官王正儒,被查!

“80后”厅官王正儒,被查!

阜阳发布
2026-02-25 20:18:18
勇士输球还爆内讧!两大球星比赛中直接吵起来

勇士输球还爆内讧!两大球星比赛中直接吵起来

体育妞世界
2026-02-25 20:08:38
村里红白事从不回,男子母亲离世,邻居等着看笑话,结果长了见识

村里红白事从不回,男子母亲离世,邻居等着看笑话,结果长了见识

子芫伴你成长
2026-02-23 12:21:40
沈腾大年初八在海南宴客,妻子王琦素颜出镜朴实,儿子已8岁了

沈腾大年初八在海南宴客,妻子王琦素颜出镜朴实,儿子已8岁了

做一个合格的吃瓜群众
2026-02-25 18:56:38
2026-02-26 13:51:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3248文章数 11088关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

头条要闻

赖清德改口称“大陆”被指释出善意 国民党发言人表态

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

家居
艺术
数码
健康
公开课

家居要闻

归隐于都市 慢享自由

艺术要闻

2025年百家金陵画展 | 油画作品选刊

数码要闻

华硕灵耀14双屏2026笔记本上市:Ultra X9 388H,14999元起

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版