网易首页 > 网易号 > 正文 申请入驻

Open-Sora 2.0全面开源,20万复刻百万级大片!11B媲美闭源巨头,224张GPU创奇迹

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】潞晨科技正式推出 Open-Sora 2.0——一款全新开源的SOTA视频生成模型,仅20万美元(224张GPU)成功训练商业级11B参数视频生成大模型。开发高性能的视频生成模型通常耗资高昂:Meta的视频模型训练需要6000多张GPU卡片,投入数百万美元。在多项关键指标上,它与动辄百万美元训练成本的模型分庭抗礼,全面提升视频生成的可及性与可拓展性。

今天,视频生成领域迎来开源革命!

Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B参数视频生成大模型,性能直追HunyuanVideo和30B参数的Step-Video。

权威评测VBench及用户偏好测试均证实其卓越表现,在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。

此次发布全面开源模型权重、推理代码及分布式训练全流程,让高质量视频生成真正触手可及,进一步提升视频生成的可及性与可拓展性。

GitHub开源仓库:https://github.com/hpcaitech/Open-Sora

体验与指标双在线

震撼视觉:Open-Sora 2.0 Demo先行

观看宣传片,体验Open-Sora 2.0的强大生成能力:

动作幅度可控:可根据需求设定运动幅度,以更好地展现人物或场景的细腻动作。

画质与流畅度:提供720p高分辨率和24 FPS流畅视频,让最终视频拥有稳定帧率与细节表现。

丰富场景切换:从乡村景色到自然风光场景,Open-Sora 2.0生成的画面细节与过渡平滑度都有出色的表现。

11B参数规模媲美主流闭源大模型

· 媲美HunyuanVide和30B Step-Video

Open-Sora 2.0采用11B参数规模,训练后在VBench人工偏好(Human Preference)评测上都取得与用高昂成本开发的主流闭源大模型同等水平。

· 用户偏好评测

在视觉表现、文本一致性和动作表现三个评估维度上,Open Sora在至少两个指标上超越了开源SOTA HunyuanVideo,以及商业模型Runway Gen-3 Alpha等。以小成本获取了好性能。

· VBench 指标表现强势

根据视频生成权威榜单VBench的评测结果,Open-Sora模型的性能进步显著。

从Open-Sora 1.2升级到2.0版本后,与行业领先的OpenAI Sora闭源模型之间的性能差距大幅缩小,从之前的4.52%缩减至仅0.69%,几乎实现了性能的全面追平。

此外,Open-Sora 2.0在VBench评测中取得的分数已超过腾讯的HunyuanVideo,以更低的成本实现了更高的性能,为开源视频生成技术树立了全新标杆!

实现突破:低成本训练与高效能优化

Open Sora自开源以来,凭借其在视频生成领域的高效与优质表现,吸引了众多开发者的关注与参与。

然而,随着项目的深入推进,也面临着高质量视频生成成本居高不下的问题。

为解决这些挑战,Open Sora团队展开了一系列卓有成效的技术探索,显著降低了模型训练成本。

根据估算,市面上10B以上的开源视频模型,动辄需要上百万美元的单次训练成本,而Open Sora 2.0将该成本降低了5-10倍。

作为开源视频生成领域的领导者,Open-Sora不仅继续开源了模型代码和权重,更开源了全流程训练代码,成功打造了强大的开源生态圈。

据第三方技术平台统计,Open-Sora的学术论文引用量半年内获得近百引用,在全球开源影响力排名中稳居首位,领先所有开源的I2V/T2V视频生成项目,成为全球影响力最大的开源视频生成项目之一。

模型架构

Open-Sora 2.0延续Open-Sora 1.2的设计思路,继续采用3D自编码器Flow Matching训练框架,并通过多桶训练机制,实现对不同视频长度和分辨率的同时训练。

在模型架构上,引入3D全注意力机制,进一步提升视频生成质量。同时,采用最新的MMDiT架构,更精准地捕捉文本信息与视频内容的关系,并将模型规模从1B扩展至11B

此外,借助开源图生视频模型FLUX进行初始化,大幅降低训练成本,实现更高效的视频生成优化。

高效训练方法和并行方案全开源

为了追求极致的成本优化,Open-Sora 2.0从四个方面着手削减训练开销。

首先,通过严格的数据筛选,确保高质量数据输入,从源头提升模型训练效率。

采用多阶段多层次的筛选机制,结合多种过滤器,有效提升视频质量,为模型提供更精准、可靠的训练数据。

其次,高分辨率训练的成本远超低分辨率,达到相同数据量时,计算开销可能高达40倍

256px、5秒的视频为例,其tokens数量约8千,而768px的视频tokens数量接近8万,相差10倍,再加上注意力机制的平方级计算复杂度,高分辨率训练的代价极其昂贵。

因此,Open-Sora优先将算力投入到低分辨率训练以高效学习运动信息,在降低成本的同时确保模型能够捕捉关键的动态特征。

与此同时,Open-Sora优先训练图生视频任务,以加速模型收敛。

相比直接训练高分辨率视频,图生视频模型在提升分辨率时具备更快的收敛速,从而进一步降低训练成本。

在推理阶段,除了直接进行文本生视频(T2V),还可以结合开源图像模型,通过文本生图再生视频(T2I2V),以获得更精细的视觉效果。

最后,Open-Sora采用高效的并行训练方案,结合ColossalAI和系统级优化,大幅提升计算资源利用率,实现更高效的视频生成训练。为了最大化训练效率,我们引入了一系列关键技术,包括:

  1. 高效的序列并行和ZeroDP,优化大规模模型的分布式计算效率。

  2. 细粒度控制的Gradient Checkpointing,在降低显存占用的同时保持计算效率。

  3. 训练自动恢复机制,确保99%以上的有效训练时间,减少计算资源浪费。

  4. 高效数据加载与内存管理,优化I/O,防止训练阻塞,加速训练流程。

  5. 高效异步模型保存,减少模型存储对训练流程的干扰,提高GPU利用率。

  6. 算子优化,针对关键计算模块进行深度优化,加速训练过程。

这些优化措施协同作用,使Open-Sora 2.0在高性能与低成本之间取得最佳平衡,大大降低了高质量视频生成模型的训练。

高压缩比AE带来更高速度

在训练完成后,Open-Sora面向未来,进一步探索高压缩比视频自编码器的应用,以大幅降低推理成本。

目前,大多数视频模型仍采用4×8×8的自编码器,导致单卡生成768px、5秒视频耗时近30分钟

为解决这一瓶颈,Open-Sora训练了一款高压缩比(4×32×32)的视频自编码器,将推理时间缩短至单卡3分钟以内,推理速度提升10倍

要实现高压缩比编码器,需要解决两个核心挑战:如何训练高压缩但仍具备优秀重建效果的自编码器,以及如何利用该编码器训练视频生成模型

针对前者,Open-Sora团队在视频升降采样模块中引入残差连接,成功训练出一款重建质量媲美当前开源SoTA视频压缩模型,且具备更高压缩比的VAE,自此奠定了高效推理的基础。

高压缩自编码器在训练视频生成模型时面临更高的数据需求和收敛难度,通常需要更多训练数据才能达到理想效果。

为解决这一问题,Open-Sora 提出了基于蒸馏的优化策略,以提升AE(自编码器)特征空间的表达能力,并利用已经训练好的高质量模型作为初始化,减少训练所需的数据量和时间。

此外,Open-Sora还重点训练图生视频任务,利用图像特征引导视频生成,进一步提升高压缩自编码器的收敛速度,使其在更短时间内达到一定生成效果。

Open-Sora认为,高压缩比视频自编码器将成为未来降低视频生成成本的关键方向

目前的初步实验结果已展现出显著的推理加速效果,希望能进一步激发社区对这一技术的关注与探索,共同推动高效、低成本的视频生成发展。

加入Open-Sora 2.0,共同推动AI视频革命

今天,Open-Sora 2.0正式开源!

GitHub开源仓库:https://github.com/hpcaitech/Open-Sora
技术报告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

欢迎加入Open-Sora社区,探索AI视频的未来!

Open-Sora 2.0,未来已来。让我们用更少的资源、更开放的生态,创造属于下一代的数字影像世界!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仇英《江南春图》卷最新动态|公众号“古籍”先宣后删

仇英《江南春图》卷最新动态|公众号“古籍”先宣后删

祥和居主人
2026-01-06 13:56:01
哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

哈工大发现:喜欢睡午觉的人,寿命比不睡午觉的人长几年不止?

健康之光
2026-01-05 14:22:46
英超最新积分战报 诺丁汉森林逆转绝杀 阿森纳将在主场战利物浦

英超最新积分战报 诺丁汉森林逆转绝杀 阿森纳将在主场战利物浦

狂言体育
2026-01-07 09:11:15
美记:特雷杨没有指定任何下家,但已有3支球队表示不会参与报价

美记:特雷杨没有指定任何下家,但已有3支球队表示不会参与报价

移动挡拆
2026-01-07 01:47:03
罗塞尼尔自宣:无法拒绝切尔西!梦想执教豪门,已达成协议

罗塞尼尔自宣:无法拒绝切尔西!梦想执教豪门,已达成协议

奥拜尔
2026-01-06 16:53:33
美军飞机长驱直入,中国雷达“失声”?真相恰恰暴露更残酷的问题

美军飞机长驱直入,中国雷达“失声”?真相恰恰暴露更残酷的问题

南宫一二
2026-01-07 09:00:42
71岁成龙坦言不停拍戏的真实原因:家中冷清,儿子一年仅通话一次

71岁成龙坦言不停拍戏的真实原因:家中冷清,儿子一年仅通话一次

草莓解说体育
2026-01-04 01:27:35
中国最“闲”的3座机场:每天飞1趟航班,飞机一走员工就集体下班

中国最“闲”的3座机场:每天飞1趟航班,飞机一走员工就集体下班

寻途
2026-01-05 18:31:00
暗黑界李沁?这位逆生长的E杯女神,竟让粉丝和家人都为她疯狂!

暗黑界李沁?这位逆生长的E杯女神,竟让粉丝和家人都为她疯狂!

素然追光
2026-01-07 05:10:03
模仿印度奶茶后续!女员工被开 ,门店停业,账号被扒,长得很美

模仿印度奶茶后续!女员工被开 ,门店停业,账号被扒,长得很美

鋭娱之乐
2026-01-07 08:40:33
1975年,叶选宁为处于劳改中的母亲曾宪植奔走求情,毛主席收到相关情况后批示:把她接回北京

1975年,叶选宁为处于劳改中的母亲曾宪植奔走求情,毛主席收到相关情况后批示:把她接回北京

史海残云
2025-12-25 12:05:16
看哭了!夏洛特和戴安娜特别同框,超感人,小公主气场十足

看哭了!夏洛特和戴安娜特别同框,超感人,小公主气场十足

小鱼爱鱼乐
2026-01-07 08:21:54
叶剑英询问许世友:南京军区还听你调遣吗?许世友直言:军区司令就是我的贴身保镖

叶剑英询问许世友:南京军区还听你调遣吗?许世友直言:军区司令就是我的贴身保镖

清风鉴史
2025-12-24 15:02:13
马杜罗受审前,一架包机先飞中国;委代总统送重礼,美国恐遭报应

马杜罗受审前,一架包机先飞中国;委代总统送重礼,美国恐遭报应

时尚的弄潮
2026-01-06 19:27:40
6500万镑!曼城签下25岁攻击手:明天体检 本季19场造12球 崇拜瓜帅

6500万镑!曼城签下25岁攻击手:明天体检 本季19场造12球 崇拜瓜帅

风过乡
2026-01-07 06:59:46
马斯克脑机接口公司最新发布会:2026年实现盲人重获视觉;2028年完成全人类与AI的深度融合

马斯克脑机接口公司最新发布会:2026年实现盲人重获视觉;2028年完成全人类与AI的深度融合

宇量信息
2026-01-06 09:19:08
居然黄了!铁西万象汇也太“卷”了吧?

居然黄了!铁西万象汇也太“卷”了吧?

沈阳公交网小林
2026-01-07 00:10:14
场均27分10助,把鱼腩带成夺冠热门!本赛季MVP竞争,终于有悬念

场均27分10助,把鱼腩带成夺冠热门!本赛季MVP竞争,终于有悬念

老梁体育漫谈
2026-01-07 00:50:45
王石与田朴珺视频流出!她没了仰慕和爱意,他的眼睛透出一股寒意

王石与田朴珺视频流出!她没了仰慕和爱意,他的眼睛透出一股寒意

火山詩话
2026-01-07 06:53:05
1月6日俄乌最新:库皮扬斯克光复以来最大的胜利?

1月6日俄乌最新:库皮扬斯克光复以来最大的胜利?

西楼饮月
2026-01-06 16:11:48
2026-01-07 09:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14270文章数 66448关注度
往期回顾 全部

科技要闻

马斯克杀疯了!xAI官宣200亿美元融资

头条要闻

网友出游归来发现酒店正被拆迁:一堆空调放在走廊上

头条要闻

网友出游归来发现酒店正被拆迁:一堆空调放在走廊上

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

茅台为何要和分销商彻底说拜拜?

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

房产
家居
本地
旅游
公开课

房产要闻

海珠双冠王!中交天翠以强兑现力+生活温度,筑就长期主义产品

家居要闻

引光之宅 地下室也有生机

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

旅游要闻

阿勒泰海上魔鬼城:冰雪雕琢的奇幻世界

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版