网易首页 > 网易号 > 正文 申请入驻

AI视频是如何生成的?

0
分享至

来源:市场资讯

(来源:DeepTech深科技)


(来源:麻省理工科技评论)

这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界,助您洞察未来趋势。

对于视频生成领域来说,2025 年是重要的一年。在过去的一年里,OpenAI 公开了 Sora,Google DeepMind 推出了 Veo 3,视频初创公司 Runway 发布了 Gen-4。所有这些模型生成的视频片段,几乎无法与真实拍摄的素材或 CGI 动画区分开来。今年,Netflix 还在其剧集《永恒族》(The Eternaut)中首次使用了 AI 视觉特效。

当然,你在演示视频中看到的片段都是经过精心挑选的,旨在展示公司模型处于最佳状态时的表现。但随着这项技术掌握在比以往任何时候都多的用户手中——Sora 和 Veo 3 现已在 ChatGPT 和 Gemini 应用中向付费订阅者开放——即便是业余的影视爱好者,现在也能通过 AI 制作出色的作品。

负面影响在于,创作者正面临大量低质量 AI 内容(AI slop)的竞争,社交媒体上也充斥着虚假的新闻片段。此外,视频生成消耗的能源巨大,是文本或图像生成的许多倍。

既然 AI 生成的视频无处不在,让我们花点时间来探讨一下其背后的技术原理。


如何生成一个视频?

我们假设你只是一名普通用户。现在有一系列高端工具允许专业视频制作者将视频生成模型整合到他们的工作流程中,但大多数人会通过应用程序或网站使用这项技术。流程你应该很熟悉:“嘿,Gemini,给我做一个独角兽吃意大利面的视频,然后让它的角像火箭一样发射升空。”你得到的结果可能好坏参半。通常你需要要求模型重新生成几次甚至十次,才能得到与你预期大致相符的内容。

那么,这一切的底层逻辑是什么?为什么结果会好坏参半?为什么它消耗这么多能源?最新一波视频生成模型被称为“潜在扩散 Transformer”(latent diffusion transformers)。没错,这个名字读起来很拗口。让我们依次拆解每个部分,从“扩散”开始。


什么是扩散模型?

想象一下,取一张图像,并在上面随机散布像素点。拿着这张布满噪点的图像,再次散布像素,然后重复这一过程。重复足够多次后,最初的图像就会变成一团随机的像素混乱,就像老式电视机上的雪花噪点。

扩散模型是一种神经网络,经过训练可以逆转这一过程,将随机的噪点转化为图像。在训练过程中,它会看到处于不同像素化阶段的数百万张图像。它学习这些图像在每次添加新像素时的变化规律,从而学习如何撤销这些变化。

结果就是,当你要求扩散模型生成图像时,它会从一团随机的像素混乱开始,一步步将这一混乱转化为与其训练集中的图像大致相似的图像。

但你不想要随便一张图像——你想要你指定的图像,通常通过文本提示词来描述。因此,扩散模型会与第二个模型配对。这个辅助模型通常是一个经过训练、能将图像与文本描述匹配的大语言模型(LLM)。它指导清理过程的每一步,推动扩散模型生成大语言模型认为与提示词匹配度高的图像。

另外,这个大语言模型并不是凭空建立文本与图像之间的联系。如今大多数文本生成图像和文本生成视频的模型,都是在包含数十亿对文本与图像或文本与视频的大型数据集上训练的。这些数据是从互联网上抓取的(这种做法让许多创作者非常不满)。这意味着你从这些模型中得到的内容,是网络世界表现形式的浓缩,其中也包含了偏见(以及色情内容)带来的扭曲。

我们要理解扩散模型如何处理图像很容易。但这该技术也可以用于多种类型的数据,包括音频和视频。为了生成电影片段,扩散模型必须清理一系列图像,而不仅仅是一张图像——即视频的连续帧。


什么是潜在扩散模型?

所有这些都需要巨大的算力(也就是能源)。这就是为什么大多数用于视频生成的扩散模型使用一种称为“潜在扩散”(latent diffusion)的技术。模型不处理每个视频帧中数百万像素的原始数据,而是在所谓的“潜在空间”中工作。在这个空间里,视频帧(和文本提示词)被压缩成数学代码。这些代码只捕捉数据的基本特征,并丢弃其余部分。

类似的原理发生在你通过互联网流式传输视频时:视频以压缩格式从服务器发送到你的屏幕,以便更快传输。到达后,你的电脑或电视会将其转换回可观看的视频。

因此,最后一步是对潜在扩散过程产生的结果进行解压。一旦随机噪点的压缩帧被转化为压缩后的视频帧(且大语言模型向导认为这与用户的提示词匹配良好),压缩视频就会被转换成你可以观看的内容。

通过使用潜在扩散技术,扩散过程的工作方式与处理图像时大致相同。区别在于,像素化的视频帧现在是这些帧的数学编码,而不是帧本身。这使得潜在扩散比典型的扩散模型效率高得多。(即便如此,视频生成消耗的能源仍然比图像或文本生成多。涉及的计算量依然惊人。)


什么是潜在扩散 Transformer?

还有一个谜题尚未解开,那就是如何确保扩散过程产生一系列连贯的帧,保持物体和光线等元素在帧与帧之间的一致性。OpenAI 在开发 Sora 时,通过将其扩散模型与另一种称为 Transformer 的模型相结合,解决了这个问题。这已成为生成式视频的标准做法。

Transformer 擅长处理长序列数据,比如文字。这使它们成为 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大语言模型内部的关键技术。这些模型可以生成意义通顺的长文本序列,并在数十个句子中保持一致性。

但视频不是由文字组成的。相反,视频被切割成块,以便像处理文字一样处理它们。OpenAI 提出的方法是在空间和时间两个维度上对视频进行切割。Sora 的首席研究员蒂姆·布鲁克斯(Tim Brooks)说:“这就像你有一摞所有的视频帧,然后从中切出小立方体。”

将扩散模型与 Transformer 结合带来了一些优势。由于 Transformer 专为处理序列数据而设计,它们有助于扩散模型在生成过程中保持帧与帧之间的一致性。这使得生成的视频中,物体不会莫名其妙地出现或消失。

此外,由于视频被切成了块,其尺寸和方向就不再重要。这意味着最新一波视频生成模型可以在广泛的示例视频上进行训练,从手机拍摄的短竖屏视频到宽银幕电影。训练数据的多样性使得视频生成技术远胜于两年前。这也意味着视频生成模型现在可以按要求生成各种格式的视频。


音频如何生成?

Veo 3 的一大进步是它可以生成带有音频的视频,从口型同步的对话到音效和背景噪音。这是视频生成模型的首创。Google DeepMind 首席执行官德米斯·哈萨比斯(Demis Hassabis)在今年的 Google I/O 大会上说:“我们正在走出视频生成的无声时代。”

这一技术的挑战在于找到一种方法来对齐视频和音频数据,以便扩散过程能同时处理两者。Google DeepMind 的突破在于一种新方法,它将音频和视频压缩成扩散模型内部的一块单一数据。当 Veo 3 生成视频时,其扩散模型通过同步过程同时产生音频和视频,确保声音和图像是对齐的。


大语言模型也是这样工作的吗?

至少目前还不是。扩散模型最常用于生成图像、视频和音频。用于生成文本(包括计算机代码)的大语言模型是使用 Transformer 构建的,但其界限正在变得模糊。我们已经看到 Transformer 正在与扩散模型结合以生成视频。今年夏天,Google DeepMind 透露,通过使用扩散模型而非 Transformer 来生成文本,他们正在构建一个实验性的大语言模型。

这里情况开始变得令人困惑:虽然视频生成(使用扩散模型)消耗大量能源,但扩散模型本身实际上比 Transformer 更高效。因此,通过使用扩散模型代替 Transformer 来生成文本,Google DeepMind 的新大语言模型可能比现有模型效率高得多。在不久的将来,预计我们会看到更多基于扩散模型的成果。

https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
40岁董方卓拒执教U23国足:除了高血压我能得到啥 我还想多活几年

40岁董方卓拒执教U23国足:除了高血压我能得到啥 我还想多活几年

风过乡
2026-01-16 12:53:25
16号午评:央行出台利好政策!所有人都注意,大盘下周开始这样看

16号午评:央行出台利好政策!所有人都注意,大盘下周开始这样看

春江财富
2026-01-16 12:00:16
伊朗组合拳应对川普压力,美以态度暧昧,大批美军战舰向中东集结

伊朗组合拳应对川普压力,美以态度暧昧,大批美军战舰向中东集结

史政先锋
2026-01-15 16:17:02
被禁止关注不到24小时,李湘被扒底朝天,高调炫富仅是冰山一角

被禁止关注不到24小时,李湘被扒底朝天,高调炫富仅是冰山一角

有范又有料
2026-01-16 18:22:52
5-3险爆冷!亚洲杯4强来了,日本队点球大战晋级,约旦门将犯大错

5-3险爆冷!亚洲杯4强来了,日本队点球大战晋级,约旦门将犯大错

体育就你秀
2026-01-16 22:36:17
小米汽车保值率为80.1%,处于行业头部!网友:请小米收自己的车

小米汽车保值率为80.1%,处于行业头部!网友:请小米收自己的车

火山诗话
2026-01-16 19:02:31
中国口岸,一满载6.9万吨巴西大豆的货轮被查出混入农药处理麦粒

中国口岸,一满载6.9万吨巴西大豆的货轮被查出混入农药处理麦粒

百态人间
2026-01-16 16:08:57
U23亚洲杯争议判罚!日本队点球被取消,VAR介入,约旦逃过一劫

U23亚洲杯争议判罚!日本队点球被取消,VAR介入,约旦逃过一劫

奥拜尔
2026-01-16 21:04:36
马查多把诺贝尔和平奖颁给特朗普

马查多把诺贝尔和平奖颁给特朗普

财联社
2026-01-16 09:00:07
贺娇龙离世前聊天记录曝光,年入900万,本可以躺赢!47岁仍爱折腾

贺娇龙离世前聊天记录曝光,年入900万,本可以躺赢!47岁仍爱折腾

有范又有料
2026-01-16 10:09:20
全世界都在静静等待,战争可能很快到来

全世界都在静静等待,战争可能很快到来

牛弹琴
2026-01-14 07:46:19
35岁美国女星穿透视装走红毯惹争议,被抨击:你已经不是小姑娘了

35岁美国女星穿透视装走红毯惹争议,被抨击:你已经不是小姑娘了

译言
2026-01-13 23:04:52
聂卫平离世1天后,才发现儿女名字取得暗藏深意,字字都有来头

聂卫平离世1天后,才发现儿女名字取得暗藏深意,字字都有来头

银河史记
2026-01-16 16:17:53
人民日报点名批评,这类主播将被严厉打击,乱象已经存在多年

人民日报点名批评,这类主播将被严厉打击,乱象已经存在多年

新游戏大妹子
2026-01-14 13:07:41
郭昊文25+6同曦狂胜深圳终结5连败 汉兹首秀32+6+12

郭昊文25+6同曦狂胜深圳终结5连败 汉兹首秀32+6+12

醉卧浮生
2026-01-16 21:25:22
贾国龙果然是个大傻子

贾国龙果然是个大傻子

端木赐香三糊涂
2026-01-16 14:34:16
热搜第一!刘翔正式回应移民谣言:到哪去移?中国人,爱中国

热搜第一!刘翔正式回应移民谣言:到哪去移?中国人,爱中国

醉卧浮生
2026-01-16 20:15:35
1997年回归前夜,香港十几万黑帮连夜“大逃亡”,他们最后都去哪了?

1997年回归前夜,香港十几万黑帮连夜“大逃亡”,他们最后都去哪了?

老杉说历史
2026-01-13 19:14:13
突发!12万股东做梦都笑醒,400亿巨头并购商业航天资产,将继续停牌

突发!12万股东做梦都笑醒,400亿巨头并购商业航天资产,将继续停牌

股市皆大事
2026-01-16 11:04:07
变革中的空中新交通——我国低空交通运输发展一线观察

变革中的空中新交通——我国低空交通运输发展一线观察

新华社
2026-01-15 18:21:15
2026-01-17 00:28:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057588文章数 5282关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

时尚
手机
本地
公开课
军事航空

今年冬天最时髦保暖的4组搭配,照着穿美出新高度!

手机要闻

消息称苹果折叠屏iPhone Fold 9月发布,首发2nm A20 Pro芯片

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

欧洲多国向格陵兰岛派遣军事人员 白宫回应

无障碍浏览 进入关怀版