网易首页 > 网易号 > 正文 申请入驻

Openai Sora模型技术原理及其创作能力:视频生成模型作为世界模拟器

0
分享至

左您的关注是对我最大的支持

『 AI每日快讯 欢迎大家转载、引用、分享,让更多人了解AI,学习AI 』

我们探索了在视频数据上大规模训练生成模型。具体而言,我们联合训练了文本条件扩散模型,处理不同持续时间、分辨率和宽高比的视频和图像。我们利用了一个在视频和图像潜码的时空补丁上操作的变换器架构。我们最大的模型,Sora,能够生成一分钟的高保真视频。我们的结果表明,扩大视频生成模型的规模是构建物理世界通用模拟器的一个有前景的路径。

这份技术报告重点讨论了我们将各种类型的视觉数据转换为统一表示的方法,该方法使得大规模训练生成模型成为可能,以及Sora能力和局限性的定性评估。模型和实现细节不包含在本报告中。

许多先前的工作研究了使用各种方法的视频数据生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常专注于视觉数据的狭窄类别,较短视频,或固定大小的视频。Sora是一个视觉数据的通用模型——它可以生成跨越多种持续时间、宽高比和分辨率的视频和图像,高达一分钟的高清视频。

将视觉数据转换为补丁

我们受到了大型语言模型的启发,它们通过在互联网规模的数据上训练获得了通用能力。大型语言模型的成功部分得益于使用能够优雅地统一文本的多样性模态的标记——代码、数学和各种自然语言。在这项工作中,我们考虑如何使视觉数据的生成模型继承此类好处。与大型语言模型拥有文本标记一样,Sora拥有视觉补丁。之前的研究已经证明补丁是一个有效的表示,用于视觉数据模型。我们发现补丁是一个可高度扩展且有效的表示,用于在多种类型的视频和图像上训练生成模型。

从高层次上,我们通过首先将视频压缩到一个低维潜空间,然后将该表示分解为时空补丁来将视频转换为补丁。

视频压缩网络

我们训练了一个减少视觉数据维度的网络。这个网络接受原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

时空潜在补丁

给定一个压缩的输入视频,我们提取一个时空补丁序列,这些补丁充当变换器标记。这个方案也适用于图像,因为图像只是带有单一帧的视频。我们的基于补丁的表示使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

扩展变换器以生成视频

Sora是一个扩散模型;给定噪声输入补丁(和条件信息,如文本提示),它被训练来预测原始的“干净”补丁。重要的是,Sora是一个扩散变换器。变换器在多个领域展示了显著的扩展性能,包括语言建模、计算机视觉和图像生成。

在这项工作中,我们发现扩散变换器作为视频模型也能有效地扩展。下面,我们展示了训练进展中固定种子和输入的视频样本比较。随着训练计算的增加,样本质量显著提高。

变化的持续时间、分辨率、宽高比

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪到标准大小——例如,256x256分辨率的4秒视频。我们发现,改为在其原生大小上进行训练提供了几个好处。

采样灵活性

Sora可以采样宽屏1920x1080p视频、垂直1080x1920视频以及之间的所有内容。这让Sora可以直接以其原生宽高比为不同设备创建内容。这也让我们在生成全分辨率内容之前,可以快速原型化低大小的内容——所有这些都使用同一个模型。

改进的构图和布局

我们经验性地发现,在其原生宽高比上训练视频改进了构图和布局。我们将Sora与一个将所有训练视频裁剪为正方形的模型版本进行了比较,这是训练生成模型时的常见做法。裁剪为正方形的模型(左)有时会生成视频,其中主题只是部分可见。相比之下,Sora(右)的视频有改进的构图。

语言理解

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们应用了在DALL·E 3中引入的重标注技术到视频上。我们首先训练一个高度描述性的标题模型,然后使用它为我们的训练集中的所有视频生成文本标题。我们发现,在高度描述性的视频标题上训练改善了文本保真度以及视频的整体质量。

类似于DALL·E 3,我们还利用GPT将用户简短提示转换为更长的详细标题,这些标题被发送到视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户提示。

使用图像和视频进行提示

上述所有结果以及我们的登录页面中展示的都是文本到视频的样本。但Sora也可以通过其他输入进行提示,例如现有的图像或视频。这一功能使得Sora能够执行广泛的图像和视频编辑任务——创造可以完美循环的视频、为静态图像添加动画、向前或向后扩展视频等。

为DALL·E图像添加动画

Sora能够在提供图像和提示的输入的基础上生成视频。下面我们展示了基于DALL·E 231和DALL·E 330图像生成的示例视频。

扩展生成的视频

Sora还能够扩展视频,无论是向前还是向后。下面是四个视频,它们都是从生成视频的一个片段向后扩展开始的。因此,这四个视频的开头各不相同,但都导致相同的结尾。

视频到视频编辑

扩散模型使得从文本提示编辑图像和视频的多种方法成为可能。下面我们将其中一种方法,SDEdit,应用于Sora。这种技术使得Sora能够零样本地转换输入视频的风格和环境。

连接视频

我们还可以使用Sora逐渐在两个输入视频之间插值,创建在完全不同的主题和场景构成之间的无缝过渡。在下面的例子中,中间的视频在左右对应的视频之间插值。

图像生成能力

Sora也能够生成图像。我们通过在一个空间网格中排列高斯噪声补丁并设置时间范围为一帧来实现这一点。模型可以生成不同大小的图像——最高分辨率可达2048x2048。

涌现的模拟能力

我们发现,当在大规模上训练时,视频模型展现出一些有趣的涌现能力。这些能力使得Sora能够模拟物理世界中的一些人类、动物和环境的方面。这些属性没有任何明确的3D、对象等归纳偏置——它们纯粹是规模现象。

3D一致性

Sora可以生成具有动态相机移动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中一致地移动。

长期一致性和对象持久性

对于视频生成系统来说,一个重大挑战一直是在采样长视频时保持时间上的一致性。我们发现,Sora通常能够有效地模拟短期和长期依赖。例如,我们的模型可以持续地模拟人物、动物和物体,即使它们被遮挡或离开画面。同样,它可以在单个样本中生成同一角色的多个镜头,贯穿视频保持它们的外观。

与世界互动

Sora有时可以模拟以简单方式影响世界状态的行动。例如,画家可以在画布上留下新的笔触,随时间持续存在,或者一个人可以吃掉一个汉堡,并留下咬痕。


模拟数字世界

Sora还能够模拟人工过程——一个例子是视频游戏。Sora可以同时控制Minecraft中的玩家以及以高保真度渲染世界及其动态。这些能力可以通过提及“Minecraft”的标题零样本地引出。

这些能力表明,继续扩展视频模型是开发能够模拟物理和数字世界及其居住的对象、动物和人类的高能力模拟器的一个有前景的路径。

Sora目前作为模拟器存在许多限制。例如,它不准确地模拟许多基本交互的物理,如玻璃破碎。其他交互,如吃食物,不总是产生正确的对象状态变化。我们在我们的着陆页面中列举了模型的其他常见失败模式——例如,在长持续时间样本中发展的不一致性或物体的突然出现。

我们相信,Sora今天所拥有的能力表明,继续扩展视频模型是开发能够模拟物理和数字世界及其居住的对象、动物和人类的高能力模拟器的一个有前景的路径。

关注我,每天领取AI领域最新大事

设置⭐️标不迷路

转发朋友圈为您朋友播报每日AI大事

进交流群请扫下面码






  1. 电话

您的关注是对我最大的支持

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
五粮液们的雷,彻底爆了!

五粮液们的雷,彻底爆了!

功夫财经
2025-11-03 08:35:38
现在,压力给到了上海

现在,压力给到了上海

梳子姐
2025-11-03 11:52:51
美最高法院将听取关税合法性辩论!特朗普:美国史上最重要案件之一,不会出席

美最高法院将听取关税合法性辩论!特朗普:美国史上最重要案件之一,不会出席

极目新闻
2025-11-03 14:45:34
60岁“网红书记”高洪波卸任后参加马拉松,同荣昌跑友合影

60岁“网红书记”高洪波卸任后参加马拉松,同荣昌跑友合影

极目新闻
2025-11-03 11:12:15
太震撼!泰州队夺冠请全城人免费喝奶茶,喜茶员工手都抡冒烟了…

太震撼!泰州队夺冠请全城人免费喝奶茶,喜茶员工手都抡冒烟了…

火山诗话
2025-11-03 11:10:44
左宗棠收复新疆之时,到底用了什么手段?简直是狠到家了!

左宗棠收复新疆之时,到底用了什么手段?简直是狠到家了!

凡人侃史
2025-10-31 22:09:26
美国政府都“关门”一个多月了,为啥美国人却一点都不慌呢?

美国政府都“关门”一个多月了,为啥美国人却一点都不慌呢?

翻开历史和现实
2025-11-02 23:09:19
黄金大消息!工行宣布,今起暂停

黄金大消息!工行宣布,今起暂停

中国基金报
2025-11-03 12:17:24
华为Mate70 Air真机曝光:侧边指纹,后置大圆镜头模组

华为Mate70 Air真机曝光:侧边指纹,后置大圆镜头模组

鞭牛士
2025-11-03 13:19:06
王家卫说“我一定要搞金靖”,女方不敢回应,疑似不敢得罪资本

王家卫说“我一定要搞金靖”,女方不敢回应,疑似不敢得罪资本

叶公子
2025-11-02 23:11:52
跌幅超60%!苏州昆山房价呈现大幅雪崩态势,从单价30000跌至8000

跌幅超60%!苏州昆山房价呈现大幅雪崩态势,从单价30000跌至8000

火山诗话
2025-11-02 15:24:56
中产真没钱!孩子的国际学校退费潮来了,全家都在“教育降级”

中产真没钱!孩子的国际学校退费潮来了,全家都在“教育降级”

阿器谈史
2025-11-02 21:47:50
天涯神贴:普通人家孩子的最好出路

天涯神贴:普通人家孩子的最好出路

前沿天地
2025-11-03 07:42:49
汪峰演唱会翻车被群嘲,葛荟婕:只往女人身上使劲,唱不上去正常

汪峰演唱会翻车被群嘲,葛荟婕:只往女人身上使劲,唱不上去正常

阿纂看事
2025-11-02 22:20:54
久功不克俄罗斯连撤两员大将!西尔斯基:红军城守住了

久功不克俄罗斯连撤两员大将!西尔斯基:红军城守住了

史政先锋
2025-11-03 11:54:13
广东要发文旅、餐饮、购物消费券了!

广东要发文旅、餐饮、购物消费券了!

网信肇庆
2025-11-03 12:00:42
雷军又被质疑!小米空调10年包修承诺炸屏,网友拆穿套路

雷军又被质疑!小米空调10年包修承诺炸屏,网友拆穿套路

吃瓜局
2025-11-02 15:30:18
51岁男子铁矿上班时突发脑出血去世,其妻受刺激脑内出血,儿子替父申请工伤赔偿遭公司拒绝,人社部门已介入

51岁男子铁矿上班时突发脑出血去世,其妻受刺激脑内出血,儿子替父申请工伤赔偿遭公司拒绝,人社部门已介入

极目新闻
2025-11-03 14:35:23
市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

市委书记女儿去县财政局工作,局长处处为难她,某天书记来探班

秋风专栏
2025-10-23 11:23:56
金正恩指示:朝鲜国狗的血统也一定要纯正!

金正恩指示:朝鲜国狗的血统也一定要纯正!

IN朝鲜
2025-11-03 14:07:25
2025-11-03 15:20:49
AI最新追踪 incentive-icons
AI最新追踪
专注于AI相关的最新动态,关注我,随时掌握AI最新消息
155文章数 20关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

美媒:中国正迅速充实石油储备 或与俄油设施遭袭有关

头条要闻

美媒:中国正迅速充实石油储备 或与俄油设施遭袭有关

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

录音彻底揭露知名导演王家卫的体面

财经要闻

马斯克:未来5-6年传统手机与App将消失

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

艺术
家居
数码
旅游
公开课

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

家居要闻

岁月柔情 现代品质轻奢

数码要闻

消息称联想拯救者 Y700 小平板 2026 款暂定明年上半年登场

旅游要闻

新西兰:对持有效澳大利亚签证的中国公民免签

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版