网易首页 > 网易号 > 正文 申请入驻

别只关注马斯克的Grok了,Sora复刻版Open-Sora直接开源!

0
分享至

开源项目地址:https://github.com/hpcaitech/Open-Sora

中文文档:https://github.com/hpcaitech/Open-Sora/blob/main/docs/README_zh.md

不久前,OpenAI的Sora凭借其令人赞叹的视频生成效果迅速走红,成为众多文字到视频模型中的佼佼者,引起了全球的关注。紧接着,Colossal-AI团队推出了一项新的开源方案“Open-Sora 1.0”,该方案全面覆盖了训练过程,包括数据处理、所有训练细节以及模型检查点,旨在与全球AI爱好者携手共进,开创视频创作的新纪元。现在,就让我们先来看一看“Open-Sora 1.0”模型生成的美景视频。

海浪拍打在海滩和悬崖:


漫天繁星流转:


午夜的繁华街头:


在海中遨游的海龟:


Open-Sora技术只是冰山一角。Colossal-AI团队已经全面开源了模型架构、训练模型检查点、所有训练与数据准备过程的细节、视频演示和教程,供所有对文字到视频模型感兴趣的人在GitHub上自由学习和使用。

Open-Sora的复现计划

Open-Sora的复现计划借鉴了Stable Video Diffusion(SVD)工作,分为三个阶段:

1. 大规模图像预训练:第一阶段通过大规模图像预训练,利用成熟的文字到图像模型帮助降低视频预训练的成本。借助互联网上丰富的大规模图像数据和先进的文字到图像技术,能够训练出高质量的文字到图像模型,作为视频预训练下一阶段的初始化权重。同时,由于缺乏高质量的时空VAE,Open-Sora使用Stable Diffusion模型预训练空间VAE。这种策略不仅确保了初始模型的优越性能,也显著降低了视频预训练的总体成本。

2. 大规模视频预训练:第二阶段通过大规模视频预训练,增强模型的泛化能力,有效掌握视频的时间序列关联。这一阶段需要使用大量的视频数据训练,以确保视频主题的多样性,从而提高模型的泛化能力。

3. 高质量视频数据微调训练:第三阶段通过对高质量视频数据的微调,显著提高了生成视频的质量。第三阶段使用的视频数据量比第二阶段少一个数量级,但视频的持续时间、分辨率和质量都更高。通过这种方式的微调,实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。每个阶段的训练都是在前一阶段的权重基础上继续进行。与从零开始的单阶段训练相比,多阶段训练通过逐步扩大数据规模,更高效地实现了高质量视频生成的目标。在复现过程中,Colossal-AI团队使用了64个H800 GPU进行训练。第二阶段的训练量共计2808 GPU小时,约等于7000美元;第三阶段的训练量为1920 GPU小时,约等于4500美元,最后成功地将Open-Sora复现过程的成本控制在约10000美元。

数据预处理

为了进一步降低Sora复现的门槛和复杂性,Colossal-AI团队还提供了便捷的视频数据预处理脚本,包括公开视频数据集的下载、基于镜头连续性的长视频分割成短视频片段,以及使用开源大型语言模型LLaVA生成细粒度提示词,使您可以轻松开始Sora复现预训练。
Open-Sora提供的批量视频字幕生成代码可以在3秒内使用两个GPU为一个视频生成字幕,质量接近GPT-4V。最终的视频-文字对可以直接用于训练。借助开源的代码,用户可以轻松快速地在自己的数据集上生成训练所需的视频-文字对,大大降低了启动Sora复现项目的技术门槛和准备工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄国家台主持人:真正敌人只有中国!公方彬:比非忠即奸强者正常

俄国家台主持人:真正敌人只有中国!公方彬:比非忠即奸强者正常

瑜说还休
2024-06-05 19:31:56
广东一对聋哑情侣吵架,现场堪比火影对战,男的吵输成表情包了

广东一对聋哑情侣吵架,现场堪比火影对战,男的吵输成表情包了

大苏专栏
2024-06-04 21:46:15
太唏嘘!两个前切尔西教练都找到工作,穆帅和孔蒂截然不同的命运

太唏嘘!两个前切尔西教练都找到工作,穆帅和孔蒂截然不同的命运

知球者也
2024-06-03 12:00:05
中纪报:加大对新型腐败和隐性腐败的甄别和查处力度

中纪报:加大对新型腐败和隐性腐败的甄别和查处力度

极目新闻
2024-06-05 09:07:03
安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

一个人讲故事
2024-05-05 21:46:11
奥尼尔:06总决赛0-2落后时我杯酒释兵权 让韦德成为我们的那个人

奥尼尔:06总决赛0-2落后时我杯酒释兵权 让韦德成为我们的那个人

直播吧
2024-06-05 17:00:15
闹大了!山西一公职人员在小区遇刺身亡,为何评论区一片叫好声

闹大了!山西一公职人员在小区遇刺身亡,为何评论区一片叫好声

亦纯杂谈
2024-06-05 16:00:49
老公让我去他老板家做奶妈,除了喂养小孩,还要加班照顾老板

老公让我去他老板家做奶妈,除了喂养小孩,还要加班照顾老板

亲爱的落落
2024-05-06 16:18:59
“80后”万东,拟升正厅

“80后”万东,拟升正厅

鲁中晨报
2024-06-05 20:47:09
6月起容易一夜暴富的属 相,命中注定财运好,要抱紧大腿!

6月起容易一夜暴富的属 相,命中注定财运好,要抱紧大腿!

乒坛老将
2024-06-06 00:21:23
脱北者揭秘张成泽被捕真相:死前曾给金正恩戴绿帽,9名爱人殉葬

脱北者揭秘张成泽被捕真相:死前曾给金正恩戴绿帽,9名爱人殉葬

神秘历史故事
2023-12-18 13:57:42
两性漫画:情侣过夜的正确姿势

两性漫画:情侣过夜的正确姿势

坟头长草
2024-06-05 10:19:53
90年代她们“满眼都是光”!千禧年后的她们“眼里满是疲惫”?

90年代她们“满眼都是光”!千禧年后的她们“眼里满是疲惫”?

缤纷糖果屋
2024-06-05 18:14:06
当普通人都感觉经济很难的时候,其实经济危机早就全面爆发了

当普通人都感觉经济很难的时候,其实经济危机早就全面爆发了

芯怡飞
2024-06-01 14:19:03
民间算命的事听过吗?觉得可信吗?看看网友的诉说

民间算命的事听过吗?觉得可信吗?看看网友的诉说

鬼菜生活
2024-06-04 17:44:09
深挖任天堂组织架构:员工99%留存率,管理层平均任期30年

深挖任天堂组织架构:员工99%留存率,管理层平均任期30年

游戏陀螺
2024-06-05 19:11:45
马来西亚羽毛球名将被骗光几乎所有积蓄,损失近150万人民币

马来西亚羽毛球名将被骗光几乎所有积蓄,损失近150万人民币

直播吧
2024-06-05 12:44:20
陈丹青:从来没有一个时代像今天这样,去鼓励虚荣,从来没有过!

陈丹青:从来没有一个时代像今天这样,去鼓励虚荣,从来没有过!

世态言凉
2024-05-29 17:16:32
北京密云两名居民违规停放电动自行车拒不改正 各自被罚款700元

北京密云两名居民违规停放电动自行车拒不改正 各自被罚款700元

北青网-北京青年报
2024-06-04 19:53:07
韩国人发起 “请中国归还福宝”请愿,还威胁出动百万大军

韩国人发起 “请中国归还福宝”请愿,还威胁出动百万大军

风起云间
2024-06-04 21:34:34
2024-06-06 06:38:44
北茗的AI茶馆
北茗的AI茶馆
探讨AI领域内容,展望人机共生的美好未来!
18文章数 1关注度
往期回顾 全部

科技要闻

9家车企拿到自动驾驶落地入场券,没特斯拉

头条要闻

美国佐治亚州上诉法院暂停审理特朗普选举干扰案

头条要闻

美国佐治亚州上诉法院暂停审理特朗普选举干扰案

体育要闻

赴美试训的崔永熙,表现究竟怎么样?

娱乐要闻

《青春有你》胡文煊被曝孕期出轨

财经要闻

员工证实周大福关闭深圳工厂

汽车要闻

又一个水桶车 试驾新“卷王”极狐阿尔法S5

态度原创

家居
手机
数码
本地
公开课

家居要闻

温室余闲 平仄之间雅趣浓

手机要闻

荣耀Magic V Flip再次被预热:外屏功能清晰,核心配置悬念不大

数码要闻

Apple Watch和AirPods虽在市场上节节败退 但仍统治着可穿戴设备市场

本地新闻

我和我的家乡|踏浪营口,心动不止一夏!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版