网易首页 > 网易号 > 正文 申请入驻

Magi-1 开源&刷屏:首个高质量自回归视频模型,它的一切信息

0
分享至


Magi-1,开源于北京,五道口 于是,很多朋友发现了: 在视频圈子,Magi-1 映入了大家眼帘 不到两天,在 GitHub 上拿到了 1.7k Star 这全球首个高质量自回归视频模型 着实的,给中国开源,涨了波脸


国产 Magi-1,在物理真实性上,断层第一

在物理真实性测试中,比谷歌的 VideoPoet,还高出 3 个 Sora

相信我,这是一个划时代的发布

A sense of speed /Xixi

Meditation /Wild Pusa

Violinist /Xixi

TwitterInnocent /Eddy 干得漂亮

务实一点说,Magi-1 在画面稳定性上,还有所欠缺。

但在常见场景中,开源的 Magi,已经能跟可灵们掰掰手腕了。

令人敬佩的是,他们验证了自回归视频模型 这条路线,使模型可以遵循现实的因果律,在相关推理任务中,遥遥领先。

你没看错,包括 Sora 在内的各类视频生成 AI,是把整个片段同时画出来,不区分“先发生什么,后发生什么”,不存在时间,更无法遵从相关因果律

而 Magi-1 大胆革新,做到了,而且做的很不错。

益于自回归架构的天然优势,Magi 在预测物理行为方面,远超现有模型的精度

在指令遵循和运动质量方面,Magi 表现不错

然后,这个 Magi 开源了,从4.5B到24B:

https://huggingface.co/sand-ai/MAGI-1

再然后,他们还上线了一个可以开箱即用的产品:

https://sand.ai/magi

Magi-1 背后的团队,是 Sand.ai

创始人是曹越,「光年之外」联合创始人

之前,在他办公室里聊了半个下午,问了大量私货,有了这篇文章

本篇,应是对 Sand.ai 最全面的介绍了

创始人是曹越

清华特等奖学金,ICCV 马尔奖(Marr Prize),Swin Transformer 共同一作,博士毕业后加入微软亚洲研究院,后任智源研究院视觉中心负责人。

2023 年年初,他和王慧文、袁进辉共同创立了大模型公司「光年之外」,担任算法联创

之后,光年之外被收购。

袁进辉成立了「硅基流动」,而曹越则继续深耕视频生成方向,并2024 年正式创立 Sand.ai(三呆科技...这名字太抽象了),Magi-1 便是团队推出的首个模型产品。

我眼中的曹越

曹越非常敏锐,思维极为清晰,不讲玄虚,会把一个个概念拆成因果讲清楚。

有一天,在 Sand.ai 的办公室,我们就视频生成的未来,聊了整个下午。

主题很直接 视频能不能被真正「生成」? 如果能,路径应该是怎样的?

我们聊了视频生成的各类方法,比如 DiT。看起来高效、效果也不错,但它本质上是把几秒钟的视频,一次性生成。

生成视频的时候,过去和未来是同时出现,不存在时间

因此,在视频生成的 AI 中:控制“场景”容易,控制“发生”很难。

问题很直白 如果视频是时间的表达,那生成它的方式,就必须能处理时间。

这也是 Magi-1 的起点:如果想让视频更符合人的认知,就要有时间因果性,就不能假装时间是静态的。

于是,Magi-1 便开始了此路径上的探索:秒内 Dit,秒外自回归,每一段视频都是基于前面的内容,往下推进

这也便有了后面会看到的 chunk-by-chunk 结构,也是为什么它可以精确到每一秒发生什么、能接着拍下去,而不是只是“画出一段动图”。

团队不大,出身很硬

Sand.ai 的团队不大,三十人的团队,几乎都是技术人员,其中不乏科研出身的算法专家

联合创始人张拯,也是 Swin Transformer 的作者之一,ACM 亚洲金牌,MSRA 老同事。他和曹越在微软合作了五年,一起打磨过不少视觉模型。 Google Scholar 引用接近 5 万,算是这条路线里默默干活、极少抛头露面的那种人。

还有几位核心算法,背景都差不多——MSRA、智源、清华、华中科大。工程团队亦人才济济,清华、北大、南大、厦大。

这也决定了他们在技术选型上的很多不寻常。比如:

  • • 不做并发采样;

  • • 不用标准扩散路径,而是自回归扩散;

  • • 自写推理系统,从 attention 到 chunk cache 都是自己改的。

把整个结构从头写一遍。

三轮融资,一路没断

Sand.ai 自打创立,便在 VC 圈里到了很多关注:目前已经完成三轮、总计约六千万美金

几轮融资的主领投方分别是:源码资本、今日资本、经纬中国

跟投方也很强大:创新工场、IDG、襄禾、商汤、华业天成,再加上一些业内的个人投资者。

可见,Sand.ai 很早就被人看懂了方向、认了出来、下了重注

  • • 这是新的路线探索;

  • • 能打穿结构 +基础设施;

  • • 能 scale 的训练、推理体系。

不在追随谁,而在走自己的路

技术原理

上面浅提了过,比如 OpenAI 的 Sora 这样 DiT 模型的工作方式:一口气生成几秒视频,然后拼接起来播放。

这听上去没什么问题,甚至很高效。但本质上,它们是并发生成,没有时间顺序。你写一个 prompt,模型一次性把整个片段画出来,未来和过去是同时想象出来的:不区分先发生什么,后发生什么

这就会带来一个问题:生成的视频,未必遵循现实的因果律,缺乏真正的时间感

Magi-1 的解决思路

它采用的是一种叫做 chunk-by-chunk 的自回归生成 方法。

视频被划分为一个个时间片段(chunk),每段比如 24 帧,相当于 1 秒的视频。 每生成一段,才会进入下一段。下一段的内容,要基于上一段的内容来生成

这个结构天然地保留了因果性,时间在模型里是顺序展开的,而不是拼装进来的。

具体来说,它使用一种叫做 block-causal attention 的机制:

  • 块内是全连接 ,保留短时段的一致性;

  • 块与块之间是单向连接 ,只能“看前不看后”。

这种方式,保证了每一段的生成都带着“记忆”,并且不会被未来的信息干扰。

Magi-1 的训练方法

训练时,模型不是一次性还原整个视频,而是逐段对每个 chunk 进行去噪。每个 chunk 会被注入不同程度的噪声(前面的噪声少,后面的噪声多),模型的任务是学习如何根据时间顺序去还原这些 noisy chunk。

论文中这一机制叫作:时间上单调递增的噪声注入(temporally progressive noise levels)

生成时,Magi-1 会在 chunk 被“去噪到一定程度”时提前进入下一个 chunk 的生成。所以模型可以流式生成、边播边推,同时还能保持时间上的逻辑闭环。

通过这些,Magi-1 有了几个非常实际的能力:

  • 无限时长生成 :可以不断续写,一直“接着生成”,没有固定长度限制;

  • 每秒控制粒度 :可以对每个 chunk 加不同的 prompt,精确指定什么时候发生什么;

  • 推理成本固定 :每个 chunk 的计算开销是定值,长视频不爆显存;

连续叙事结构的示意分镜

全新的算法范式,带来了业界从未解决过的工程挑战。

在之前,业界没有解决方案可以同时满足:

  • 视频的超长序列

  • 自回归与 Chunk 结合带来的复杂 attention

  • 千卡集群训练

为了解决这个问题,Sand.ai 从底层通信元语到上层调度算法,都做了全栈创新,并把全套解决方案开源给技术社区。

能做视频续写

有意思的是,Magi-1 不止支持 T2V(文本生视频)和 I2V(图生视频),它的结构天然也能做 V2V(视频续写),而且效果远好于 I2V 模拟续写。

论文第16页的实验对比非常直接:

  • • 笔旋转的例子里,I2V 模型完全预测不了旋转的速度;

  • • Magi-1 的 V2V 模式则能把动作延续得很自然,因为它确实“看到了前面”。

V2V vs I2V 对比图(笔旋转和遮挡恢复) 推理效率下了功夫

它的推理过程是“并行去噪 + pipeline 式推进”,最多可以同时生成 4 个 chunk,每段都带有历史记忆,但不会因为长度变长而爆显存。得益于它的自回归结构和 KV 缓存机制,哪怕是分钟级视频,系统推理的峰值资源也不会变

在论文第2页有一句话说得很清楚:

“Magi-1 的推理峰值资源使用量,与视频长度无关。”

这一点对于部署来说意义非常大:它真的可以跑长内容、实时生成,不靠截断、不靠分段预处理。

再补充点细节

Magi-1 的结构不是从 Diffusion Transformer 拿过来直接用,而是在 attention、FFN、条件编码、位置编码上都做了大量改进。

包括:

  • • 3D 可学习 RoPE 位置编码;

  • • 平行 attention 结构(合并 self-attn 和 cross-attn);

  • • SwiGLU 激活 + sandwich norm 稳定训练;

  • • QK-Norm + GQA 以节省内存并提升收敛稳定性;

这些都藏在结构实现里,没有在首页图表里体现,但在训练大模型时非常关键。

Magi-1 做的是这样一件事:

它让视频生成这件事,从“像画图一样生成结果”, 变成了“像连续剧一样,一集一集生成”。

这或许是一个新的范式。而这一切,现在已经开源了。

开源了,而且是全套交付

是真的,全放了。

模型权重,从 4.5B 到 24B 的全尺寸都开了。推理脚本和训练代码也都在,支持文本生成视频、图像生成视频,以及视频续写。用的是标准 HuggingFace 接口,也有 CLI 和 Gradio 的完整推理链路。

部署也比较轻,不是那种只能跑在高性能集群里的模型。最小版本一张 4090 就能跑,开箱即用,推理成本也不会随着视频长度线性增长。

伴随代码开源的同时,也有一份完整技术报告(61页):从机制设计到训练策略、推理流程、基础设施都讲清楚了,把一整个系统的内部文档摊给你看,就像 DeepSeek 那种风格

除了开源,它还有个产品,已经能用了。

官网在这:

你开源上传一张图,写一句话,它就能生成视频。每次生成的时长由你控制,也可以开启“增强理解”“高质量”等选项。

最妙的是,它支持从任意时间点续写。你可以先生成一小段,然后从中间某一秒接着写下去,或者换个 prompt 接续新镜头。不是“生一个开头”,而是一个可以不断拓展、不断演化的生成工具。

开源和产品一起推出来,这在视频模型里并不常见。

最后

Magi-1 想做的事其实挺朴素的:让视频这件事,能被生成,符合规律。

它没有走当下最主流的路线,也没有追求最炸的效果,而是选了一条更难但更扎实的路径:从时间出发,构建更真实的物理世界模拟器

这件事的意义,在于它跑通了一个原本只有想象的可能

最后,用曹越的话来结尾

语言模型,偏向于虚拟世界; 视频模型,更偏向于现实世界。 目前的视频模型,还在一个比较早期的阶段,但长期所谓的“世界模型”,会在这个方向上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一台 iPhone同时登录3个区的Apple ID,是种什么样体验?  太爽啦

一台 iPhone同时登录3个区的Apple ID,是种什么样体验? 太爽啦

新浪财经
2026-06-27 11:41:23
中国已经成为全球第一个集体拒接电话的国家

中国已经成为全球第一个集体拒接电话的国家

黯泉
2026-06-26 10:44:35
阿三又作妖!张家界玻璃栈道堵死!印度游客霸占通道不肯走

阿三又作妖!张家界玻璃栈道堵死!印度游客霸占通道不肯走

行者聊官
2026-06-28 17:29:16
警告普京有兵变的俄军卢宁被捕!想做普里戈金第二?

警告普京有兵变的俄军卢宁被捕!想做普里戈金第二?

项鹏飞
2026-06-28 21:41:22
白玉兰典礼最失落的莫过于杨幂,全身高定加珠宝,结果只是陪跑

白玉兰典礼最失落的莫过于杨幂,全身高定加珠宝,结果只是陪跑

浪子阿邴聊体育
2026-06-28 10:19:01
特朗普闭门会上情绪失控,当众失态大声咆哮,中国议题成最后稻草

特朗普闭门会上情绪失控,当众失态大声咆哮,中国议题成最后稻草

舍子花
2026-06-28 10:52:23
德天空:迪奥曼德已决定立即加盟巴黎,双方签约至2031年

德天空:迪奥曼德已决定立即加盟巴黎,双方签约至2031年

懂球帝
2026-06-29 04:30:07
警钟:月嫂、月子中心托管,正在悄悄毁掉孩子,让安全感缺失!

警钟:月嫂、月子中心托管,正在悄悄毁掉孩子,让安全感缺失!

小武侃风云
2026-06-28 07:47:51
优雅告别,约旦赛后打扫更衣室并留下传统糖果

优雅告别,约旦赛后打扫更衣室并留下传统糖果

懂球帝
2026-06-29 08:13:14
解放军终于官宣六代机,一个镜头信息量极大,服役来得或比预期早

解放军终于官宣六代机,一个镜头信息量极大,服役来得或比预期早

罗富强说
2026-06-28 18:10:09
C罗0进球0助攻!5分!攻防都拉胯!被多个媒体差评!

C罗0进球0助攻!5分!攻防都拉胯!被多个媒体差评!

历史第一人梅西
2026-06-28 15:47:43
考上985的电子,意味着你有很小的概率可以去研发芯片

考上985的电子,意味着你有很小的概率可以去研发芯片

记忆承载
2026-06-29 07:20:44
小S夫妇香港被偶遇!陪女儿看演唱会状态松弛,这才是富养天花板?

小S夫妇香港被偶遇!陪女儿看演唱会状态松弛,这才是富养天花板?

今古深日报
2026-06-29 09:24:21
乌克兰踩过红线,与日本联合研制攻击无人机,中国给出明确回应

乌克兰踩过红线,与日本联合研制攻击无人机,中国给出明确回应

璀璨幻行者
2026-06-25 03:20:07
“抓特务” 现在变成了揪韩红,高管年薪 61万,摆拍作秀全被扒

“抓特务” 现在变成了揪韩红,高管年薪 61万,摆拍作秀全被扒

TVB的四小花
2026-06-28 15:15:21
不留退路!俄罗斯法院裁定:没收欧洲清算银行2490亿美元资产

不留退路!俄罗斯法院裁定:没收欧洲清算银行2490亿美元资产

小正说娱乐
2026-05-19 03:01:40
迎来第一波“失业潮”的不是教师,不是医生,而是这四个行业!

迎来第一波“失业潮”的不是教师,不是医生,而是这四个行业!

职场资深秘书
2026-06-28 14:27:05
山西沁源开展“五纠五强”纪律作风整顿,重塑良好政治生态

山西沁源开展“五纠五强”纪律作风整顿,重塑良好政治生态

澎湃新闻
2026-06-28 22:10:26
姆巴佩恋情正式曝光!1.8亿球王邂逅西班牙顶流,双向奔赴太好嗑

姆巴佩恋情正式曝光!1.8亿球王邂逅西班牙顶流,双向奔赴太好嗑

老特有话说
2026-06-28 20:01:22
WTT美国大满贯:王楚钦3-0完胜对手,晋级男单32强

WTT美国大满贯:王楚钦3-0完胜对手,晋级男单32强

侧身凌空斩
2026-06-29 10:08:12
2026-06-29 12:08:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
477文章数 53关注度
往期回顾 全部

科技要闻

OpenAI推迟上市,那“Kimi们”呢?

头条要闻

网约车司机与乘客相谈甚欢还转账15000元 结果被拉黑

头条要闻

网约车司机与乘客相谈甚欢还转账15000元 结果被拉黑

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

萧蔷宣布捐出参加“浪姐”所有收入

财经要闻

35岁职场人,又好找工作了?

汽车要闻

精致大气 尊界V800诠释顶级体验的新旗舰MPV

态度原创

健康
教育
数码
手机
时尚

“无糖汤圆”是否隐藏着健康陷阱?

教育要闻

教育部发布预警:保护个人信息,严防志愿被篡改

数码要闻

vivo X500系列首发LPDDR6内存:速率飙至10.7Gbps 顶配版独占

手机要闻

唯一没涨价的国产旗舰!魅族22又补货了:16+512G卖3199元

夏天裤子别总穿紧身的,试试这几款阔腿裤,百搭舒适又显瘦

无障碍浏览 进入关怀版