Sora 是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多 LLM,如 ChatGPT 和 GPT-4,表现出涌现能力,但在 Sora 出现之前,展示类似能力的视觉模型一直很少。根据 Sora 的技术 报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。
一、Sora 模型的特点
1.1 Sora 在生成视频的质量、灵活性和时长上与之前的模型有代际差距 较长的视频生成时长:Sora 可以生成长达 60 秒的高保真度视频。对比之前的视频生成模 型,Pika1.0 可以生成 3s-7s 的视频,Runway 的 Gen-2 可以生成 4s-18s 的视频。灵活的分辨率:得益于其训练数据的灵活性,Sora 可以生成 1080P 的任何比例视频,而 不是像之前的模型在生成非原生训练比例时会出现画幅的消失。高保真渲染:在模拟数字世界时,如 Minecraft 游戏,Sora 能够实现高保真的渲染效果, 使得生成的视频内容看起来就像真实游戏画面一样。存在 Scaling Law:更高的算力、更大的模型规模、patch 数量的增加能对生成视频的效 果有明显的正向提升。三维空间连贯性:Sora 模型能够生成具有正确空间关系和动态相机运动的视频内容,确 保视频中的物体在三维空间中保持连贯的运动。
二、 视频生成模型的历史与现状
2.1 文生视频是个年轻的方向,最早能追溯到 15 年的基于 GAN 生成模型 文生视频是个年轻的方向,面临着多方面的独特挑战。主要有 1)计算成本高昂:确保帧 间空间和时间一致性需要大量的计算资源,导致训练成本高昂;视频信息的复杂性进一步 加剧了计算成本,需要更强大的计算能力来处理海量数据。2)视频信息复杂:视频数据 形式多样,分辨率和比例各异,包含空间、时间、内容等多维信息;如何找到一种统一的 表示形式,以有效地进行大规模训练,是文生视频技术需要解决的关键问题。3)缺乏高 质量数据集:现有的文生视频多模态数据集数量有限,且标注程度不够,难以满足模型训 练的需求。4)视频描述的模糊性:如何用文本准确描述视频内容,是文生视频技术面临的另一个难题,简短的文本提示难以完整描述视频,而复杂的描述又会增加模型的训练难度。
2.2 GAN 和 VAE 时代 文生视频模型最早能追溯到 2015 年。早期研究主要使用基于 GAN(生成对抗网络)和 VAE (变分自编码器)的方法在给定文本描述的情况下自回归地生成视频帧 (如 Text2Filter 及 TGANs-C)。虽然这些工作为文生视频这一新计算机视觉任务奠定了基础,但它们的应 用范围有限,仅限于低分辨率、短距以及视频中目标的运动比较单一、孤立的情况。
2.3 Transformer Based 受文本 (GPT-3) 和图像 (DALL-E) 中大规模预训练
Transformer 模型的成功启发,文 生视频研究的第二波浪潮采用了 Transformer 架构。Phenaki、Make-A-Vide、NUWA、 VideoGPT 和 CogVideo 都提出了基于 Transformer 的框架,而 TATS 提出了一种混合方法, 从而将用于生成图像的 VQGAN 和用于顺序地生成帧的时间敏感 Transformer 模块结合起 来。在第二波浪潮的诸多框架中,Phenaki 尤其有意思,它能够根据一系列提示 (即一个 故事情节 ) 生成任意长视频。同样, NUWA-Infinity 提出了一种双重自 回归 (autoregressive over autoregressive) 生成机制,可以基于文本输入合成无限长度的 图像和视频,从而使得生成高清的长视频成为可能。
2.4 Diffusion Based 第三波文生视频模型浪潮主要以基于扩散的架构为特征。
扩散模型在生成多样化、超现实 和上下文丰富的图像方面取得了显著成功,这引起了人们对将扩散模型推广到其他领域 (如音频、3D ,最近又拓展到了视频) 的兴趣。这一波模型是由 Video Diffusion Models (VDM) 开创的,它首次将扩散模型推广至视频领域。然后是 MagicVideo 提出了一个在低 维隐空间中生成视频剪辑的框架,据其报告,新框架与 VDM 相比在效率上有巨大的提升。另一个值得一提的是 Tune-a-Video,它使用 单文本 - 视频对微调预训练的文生图模型, 并允许在保留运动的同时改变视频内容。随后涌现出了越来越多的文生视频扩散模型,包 括 Video LDM、Text2Video-Zero、Runway Gen1、Runway Gen2、Stable Video Diffusion 以及 NUWA-XL。
2.5 视频生成模型的前沿:把卷积网络卷出了 Diffusion Model
这些模型缺点比较明显,比如支持视觉数据的类别少、视频时间短、视频尺寸固定等。当 时还在 Meta 实习、现任 Sora 项目的负责人之一的 William Peebles 于 23 年 3 月发表的 《Scalable Diffusion Models with Transformers》中的 Diffusion Transformers (DiTs) 对新的视频生成路线起到了关键的作用。DiT 的主要工作是替换了 Stable Diffusion 中 的 UNet 为 Transformer,证明了在图像生成领域的 Scaling Law,也即是减少 patch size 增加参数量对生成图像有较大的积极影响。
三、Sora 模型逆向工程
从本质上讲,Sora 是一个 Diffusion Transformer,具有灵活的采样尺寸,如图所示。它 分为三个部分:1)Time-space compressor(时空压缩器)首先将原始视频映射到潜在空 间中。2) 然后,ViT 处理标记化的潜在表示并输出去噪的潜在表示。3)类似 CLIP 的调 节机制接收 LLM 增强的用户指令(使用 GPT-4 增强)和潜在的视觉提示,以指导扩散模型生成样式或主题的视频。经过多次降噪,得到生成的视频的潜在表示,然后用相应的解码 器映射回像素空间。
3.3 大语言模型训练和推理对计算资源的需求分布不同
截止到 2024 年 3 月初,我们跟踪了国内外推出的大模型,可以发现模型机构和公司的竞 争在加剧,推出新的大模型的速度在加快。我们总结出以下几点趋势:1)长上下文(Long-Context):最新的模型如 Gemini1.5 和 Kimi 支持到百万级别的 Token,对训练和推理时的内存容量和算力提出更高要求。2)多模态(Multi-Modal):理解图片、视频、音频信息是大模型的确定趋势,这些信息 同样有这更大的 Token 数量,也会增大内存容量的需求。3)MOE(Mixture-of-Experts):越来越多模型包括 Mixtral、Gemini1.5 和 Grok 在内的 模型在应用 GPT 的 MOE 提升效果。除了直接扩大参数规模,MOE 的多个子模型能够处理 不同问题,虽然也会增加参数数量,但是在推理时只调用部分子模型,增加计算效率。
对于大模型,其训练和推理过程中对计算资源的需求也大相径庭,其中训练时算力和网 络带宽的资源比较紧缺,推理分为两个过程,prefill 对算力和内存容量的需求比较紧 缺,decode 过程更需要内存带宽、内存容量和较低的网络延迟。大语言模型训练时一次性对一整个句子每个 Token 进行下一个 Token 的预测,并计算所有 位置 Token 的 Loss 并逐步优化,可以并行计算,需要大规模的算力和集群,所以训练对 机器之间的网络带宽要求较高。
在大语言模型的推理过程中,首先进入的是 Prefill Phase,也就是预处理阶段。在 这个阶段,模型会进行一次计算密集型的操作,即计算并缓存每一层的 key 和 value。这 个过程对于每一个请求的 prompt 来说都是必要的,但它只需要进行一次。因为模型内部 主要是矩阵乘法运算,所以这个计算过程是并行执行的,而生成的缓存被称为 KV Cache, 是大语言模型的核心。在生成回答时推理会进入 Decoding Phase,这是一个串行的过程,主要任务是生成新的 Token。这一阶段采用了自回归的方式,即利用上一步生成的 Token 以及之前的所有 Token 作为输入,来预测并生成下一个 Token。这个过程包含两个关键步骤:首先,使用前一阶段创建的 KV Cache 来计算并输出下一个 Token 的 embedding;其次,在计算过程中,会得到当前 Token 在每一层的 key 和 value,这些信息会被缓存起来,并更新到 Prefill Phase 阶段的 KV Cache 中。通过这样的方式,模型能够持续优化其预测,确保生成的序列既连贯又符合逻辑。
· 钛祺智库 ·
1、 本报告共计:20页。受篇幅限制,仅列举部分内容。 如欲获取完整版PDF文件,可以关注钛祺汽车官网—>智库,也可以添加钛祺小助理微信 ,回复“报告名称: AI模型系列报告:从世界模型看算力需求变化” 。
2、钛祺智库目前已收录900+篇汽车行业最新技术报告,供行业朋友查阅、参考。
3、钛祺智库持续更新、收录行业深度技术文章、研究报告,并不定期上传行业专家特约文章,为汽车行业朋友提供专业支持。
扫码添加“钛祺小助理”,获取报告
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.