《AI模型系列报告：从世界模型看算力需求变化》钛祺智库报告分享|计算机视觉|视频生成模型

《AI模型系列报告：从世界模型看算力需求变化》钛祺智库报告分享

2024-04-10 11:10:24　来源: Eli智数派

浙江举报

分享至

Sora 是第一个表现出"涌现"能力的视频生成模型：随着模型规模增大而出现“理解世界”的能力。虽然许多 LLM，如 ChatGPT 和 GPT-4，表现出涌现能力，但在 Sora 出现之前，展示类似能力的视觉模型一直很少。根据 Sora 的技术报告，它是第一个表现出确认的涌现能力的视觉模型，标志着计算机视觉领域的一个重要里程碑。

一、Sora 模型的特点

1.1 Sora 在生成视频的质量、灵活性和时长上与之前的模型有代际差距较长的视频生成时长：Sora 可以生成长达 60 秒的高保真度视频。对比之前的视频生成模型，Pika1.0 可以生成 3s-7s 的视频，Runway 的 Gen-2 可以生成 4s-18s 的视频。灵活的分辨率：得益于其训练数据的灵活性，Sora 可以生成 1080P 的任何比例视频，而不是像之前的模型在生成非原生训练比例时会出现画幅的消失。高保真渲染：在模拟数字世界时，如 Minecraft 游戏，Sora 能够实现高保真的渲染效果，使得生成的视频内容看起来就像真实游戏画面一样。存在 Scaling Law：更高的算力、更大的模型规模、patch 数量的增加能对生成视频的效果有明显的正向提升。三维空间连贯性：Sora 模型能够生成具有正确空间关系和动态相机运动的视频内容，确保视频中的物体在三维空间中保持连贯的运动。

二、视频生成模型的历史与现状

2.1 文生视频是个年轻的方向，最早能追溯到 15 年的基于 GAN 生成模型文生视频是个年轻的方向，面临着多方面的独特挑战。主要有 1）计算成本高昂：确保帧间空间和时间一致性需要大量的计算资源，导致训练成本高昂；视频信息的复杂性进一步加剧了计算成本，需要更强大的计算能力来处理海量数据。2）视频信息复杂：视频数据形式多样，分辨率和比例各异，包含空间、时间、内容等多维信息；如何找到一种统一的表示形式，以有效地进行大规模训练，是文生视频技术需要解决的关键问题。3）缺乏高质量数据集：现有的文生视频多模态数据集数量有限，且标注程度不够，难以满足模型训练的需求。4）视频描述的模糊性：如何用文本准确描述视频内容，是文生视频技术面临的另一个难题，简短的文本提示难以完整描述视频，而复杂的描述又会增加模型的训练难度。

2.2 GAN 和 VAE 时代文生视频模型最早能追溯到 2015 年。早期研究主要使用基于 GAN（生成对抗网络）和 VAE （变分自编码器）的方法在给定文本描述的情况下自回归地生成视频帧 (如 Text2Filter 及 TGANs-C)。虽然这些工作为文生视频这一新计算机视觉任务奠定了基础，但它们的应用范围有限，仅限于低分辨率、短距以及视频中目标的运动比较单一、孤立的情况。

2.3 Transformer Based 受文本 (GPT-3) 和图像 (DALL-E) 中大规模预训练

Transformer 模型的成功启发，文生视频研究的第二波浪潮采用了 Transformer 架构。Phenaki、Make-A-Vide、NUWA、 VideoGPT 和 CogVideo 都提出了基于 Transformer 的框架，而 TATS 提出了一种混合方法，从而将用于生成图像的 VQGAN 和用于顺序地生成帧的时间敏感 Transformer 模块结合起来。在第二波浪潮的诸多框架中，Phenaki 尤其有意思，它能够根据一系列提示 (即一个故事情节 ) 生成任意长视频。同样， NUWA-Infinity 提出了一种双重自回归 (autoregressive over autoregressive) 生成机制，可以基于文本输入合成无限长度的图像和视频，从而使得生成高清的长视频成为可能。

2.4 Diffusion Based 第三波文生视频模型浪潮主要以基于扩散的架构为特征。

扩散模型在生成多样化、超现实和上下文丰富的图像方面取得了显著成功，这引起了人们对将扩散模型推广到其他领域 (如音频、3D ，最近又拓展到了视频) 的兴趣。这一波模型是由 Video Diffusion Models (VDM) 开创的，它首次将扩散模型推广至视频领域。然后是 MagicVideo 提出了一个在低维隐空间中生成视频剪辑的框架，据其报告，新框架与 VDM 相比在效率上有巨大的提升。另一个值得一提的是 Tune-a-Video，它使用单文本 - 视频对微调预训练的文生图模型，并允许在保留运动的同时改变视频内容。随后涌现出了越来越多的文生视频扩散模型，包括 Video LDM、Text2Video-Zero、Runway Gen1、Runway Gen2、Stable Video Diffusion 以及 NUWA-XL。

2.5 视频生成模型的前沿：把卷积网络卷出了 Diffusion Model

这些模型缺点比较明显，比如支持视觉数据的类别少、视频时间短、视频尺寸固定等。当时还在 Meta 实习、现任 Sora 项目的负责人之一的 William Peebles 于 23 年 3 月发表的《Scalable Diffusion Models with Transformers》中的 Diffusion Transformers (DiTs) 对新的视频生成路线起到了关键的作用。DiT 的主要工作是替换了 Stable Diffusion 中的 UNet 为 Transformer，证明了在图像生成领域的 Scaling Law，也即是减少 patch size 增加参数量对生成图像有较大的积极影响。

三、Sora 模型逆向工程

从本质上讲，Sora 是一个 Diffusion Transformer，具有灵活的采样尺寸，如图所示。它分为三个部分：1）Time-space compressor（时空压缩器）首先将原始视频映射到潜在空间中。2）然后，ViT 处理标记化的潜在表示并输出去噪的潜在表示。3）类似 CLIP 的调节机制接收 LLM 增强的用户指令（使用 GPT-4 增强）和潜在的视觉提示，以指导扩散模型生成样式或主题的视频。经过多次降噪，得到生成的视频的潜在表示，然后用相应的解码器映射回像素空间。

3.3 大语言模型训练和推理对计算资源的需求分布不同

截止到 2024 年 3 月初，我们跟踪了国内外推出的大模型，可以发现模型机构和公司的竞争在加剧，推出新的大模型的速度在加快。我们总结出以下几点趋势：1）长上下文(Long-Context)：最新的模型如 Gemini1.5 和 Kimi 支持到百万级别的 Token，对训练和推理时的内存容量和算力提出更高要求。2）多模态(Multi-Modal)：理解图片、视频、音频信息是大模型的确定趋势，这些信息同样有这更大的 Token 数量，也会增大内存容量的需求。3）MOE(Mixture-of-Experts)：越来越多模型包括 Mixtral、Gemini1.5 和 Grok 在内的模型在应用 GPT 的 MOE 提升效果。除了直接扩大参数规模，MOE 的多个子模型能够处理不同问题，虽然也会增加参数数量，但是在推理时只调用部分子模型，增加计算效率。

对于大模型，其训练和推理过程中对计算资源的需求也大相径庭，其中训练时算力和网络带宽的资源比较紧缺，推理分为两个过程，prefill 对算力和内存容量的需求比较紧缺，decode 过程更需要内存带宽、内存容量和较低的网络延迟。大语言模型训练时一次性对一整个句子每个 Token 进行下一个 Token 的预测，并计算所有位置 Token 的 Loss 并逐步优化，可以并行计算，需要大规模的算力和集群，所以训练对机器之间的网络带宽要求较高。

在大语言模型的推理过程中，首先进入的是 Prefill Phase，也就是预处理阶段。在这个阶段，模型会进行一次计算密集型的操作，即计算并缓存每一层的 key 和 value。这个过程对于每一个请求的 prompt 来说都是必要的，但它只需要进行一次。因为模型内部主要是矩阵乘法运算，所以这个计算过程是并行执行的，而生成的缓存被称为 KV Cache，是大语言模型的核心。在生成回答时推理会进入 Decoding Phase，这是一个串行的过程，主要任务是生成新的 Token。这一阶段采用了自回归的方式，即利用上一步生成的 Token 以及之前的所有 Token 作为输入，来预测并生成下一个 Token。这个过程包含两个关键步骤：首先，使用前一阶段创建的 KV Cache 来计算并输出下一个 Token 的 embedding；其次，在计算过程中，会得到当前 Token 在每一层的 key 和 value，这些信息会被缓存起来，并更新到 Prefill Phase 阶段的 KV Cache 中。通过这样的方式，模型能够持续优化其预测，确保生成的序列既连贯又符合逻辑。

· 钛祺智库 ·

1、本报告共计：20页。受篇幅限制，仅列举部分内容。如欲获取完整版PDF文件，可以关注钛祺汽车官网—>智库，也可以添加钛祺小助理微信，回复“报告名称： AI模型系列报告：从世界模型看算力需求变化” 。

2、钛祺智库目前已收录900+篇汽车行业最新技术报告，供行业朋友查阅、参考。

3、钛祺智库持续更新、收录行业深度技术文章、研究报告，并不定期上传行业专家特约文章，为汽车行业朋友提供专业支持。

扫码添加“钛祺小助理”，获取报告

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.