网易首页 > 网易号 > 正文 申请入驻

AI视频是如何生成的?

0
分享至


(来源:麻省理工科技评论)

这篇文章隶属于《麻省理工科技评论》技术解读专题。让我们的作者为您梳理复杂纷繁的技术世界,助您洞察未来趋势。

对于视频生成领域来说,2025 年是重要的一年。在过去的一年里,OpenAI 公开了 Sora,Google DeepMind 推出了 Veo 3,视频初创公司 Runway 发布了 Gen-4。所有这些模型生成的视频片段,几乎无法与真实拍摄的素材或 CGI 动画区分开来。今年,Netflix 还在其剧集《永恒族》(The Eternaut)中首次使用了 AI 视觉特效。

当然,你在演示视频中看到的片段都是经过精心挑选的,旨在展示公司模型处于最佳状态时的表现。但随着这项技术掌握在比以往任何时候都多的用户手中——Sora 和 Veo 3 现已在 ChatGPT 和 Gemini 应用中向付费订阅者开放——即便是业余的影视爱好者,现在也能通过 AI 制作出色的作品。

负面影响在于,创作者正面临大量低质量 AI 内容(AI slop)的竞争,社交媒体上也充斥着虚假的新闻片段。此外,视频生成消耗的能源巨大,是文本或图像生成的许多倍。

既然 AI 生成的视频无处不在,让我们花点时间来探讨一下其背后的技术原理。



如何生成一个视频?

我们假设你只是一名普通用户。现在有一系列高端工具允许专业视频制作者将视频生成模型整合到他们的工作流程中,但大多数人会通过应用程序或网站使用这项技术。流程你应该很熟悉:“嘿,Gemini,给我做一个独角兽吃意大利面的视频,然后让它的角像火箭一样发射升空。”你得到的结果可能好坏参半。通常你需要要求模型重新生成几次甚至十次,才能得到与你预期大致相符的内容。

那么,这一切的底层逻辑是什么?为什么结果会好坏参半?为什么它消耗这么多能源?最新一波视频生成模型被称为“潜在扩散 Transformer”(latent diffusion transformers)。没错,这个名字读起来很拗口。让我们依次拆解每个部分,从“扩散”开始。



什么是扩散模型?

想象一下,取一张图像,并在上面随机散布像素点。拿着这张布满噪点的图像,再次散布像素,然后重复这一过程。重复足够多次后,最初的图像就会变成一团随机的像素混乱,就像老式电视机上的雪花噪点。

扩散模型是一种神经网络,经过训练可以逆转这一过程,将随机的噪点转化为图像。在训练过程中,它会看到处于不同像素化阶段的数百万张图像。它学习这些图像在每次添加新像素时的变化规律,从而学习如何撤销这些变化。

结果就是,当你要求扩散模型生成图像时,它会从一团随机的像素混乱开始,一步步将这一混乱转化为与其训练集中的图像大致相似的图像。

但你不想要随便一张图像——你想要你指定的图像,通常通过文本提示词来描述。因此,扩散模型会与第二个模型配对。这个辅助模型通常是一个经过训练、能将图像与文本描述匹配的大语言模型(LLM)。它指导清理过程的每一步,推动扩散模型生成大语言模型认为与提示词匹配度高的图像。

另外,这个大语言模型并不是凭空建立文本与图像之间的联系。如今大多数文本生成图像和文本生成视频的模型,都是在包含数十亿对文本与图像或文本与视频的大型数据集上训练的。这些数据是从互联网上抓取的(这种做法让许多创作者非常不满)。这意味着你从这些模型中得到的内容,是网络世界表现形式的浓缩,其中也包含了偏见(以及色情内容)带来的扭曲。

我们要理解扩散模型如何处理图像很容易。但这该技术也可以用于多种类型的数据,包括音频和视频。为了生成电影片段,扩散模型必须清理一系列图像,而不仅仅是一张图像——即视频的连续帧。



什么是潜在扩散模型?

所有这些都需要巨大的算力(也就是能源)。这就是为什么大多数用于视频生成的扩散模型使用一种称为“潜在扩散”(latent diffusion)的技术。模型不处理每个视频帧中数百万像素的原始数据,而是在所谓的“潜在空间”中工作。在这个空间里,视频帧(和文本提示词)被压缩成数学代码。这些代码只捕捉数据的基本特征,并丢弃其余部分。

类似的原理发生在你通过互联网流式传输视频时:视频以压缩格式从服务器发送到你的屏幕,以便更快传输。到达后,你的电脑或电视会将其转换回可观看的视频。

因此,最后一步是对潜在扩散过程产生的结果进行解压。一旦随机噪点的压缩帧被转化为压缩后的视频帧(且大语言模型向导认为这与用户的提示词匹配良好),压缩视频就会被转换成你可以观看的内容。

通过使用潜在扩散技术,扩散过程的工作方式与处理图像时大致相同。区别在于,像素化的视频帧现在是这些帧的数学编码,而不是帧本身。这使得潜在扩散比典型的扩散模型效率高得多。(即便如此,视频生成消耗的能源仍然比图像或文本生成多。涉及的计算量依然惊人。)



什么是潜在扩散 Transformer?

还有一个谜题尚未解开,那就是如何确保扩散过程产生一系列连贯的帧,保持物体和光线等元素在帧与帧之间的一致性。OpenAI 在开发 Sora 时,通过将其扩散模型与另一种称为 Transformer 的模型相结合,解决了这个问题。这已成为生成式视频的标准做法。

Transformer 擅长处理长序列数据,比如文字。这使它们成为 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 等大语言模型内部的关键技术。这些模型可以生成意义通顺的长文本序列,并在数十个句子中保持一致性。

但视频不是由文字组成的。相反,视频被切割成块,以便像处理文字一样处理它们。OpenAI 提出的方法是在空间和时间两个维度上对视频进行切割。Sora 的首席研究员蒂姆·布鲁克斯(Tim Brooks)说:“这就像你有一摞所有的视频帧,然后从中切出小立方体。”

将扩散模型与 Transformer 结合带来了一些优势。由于 Transformer 专为处理序列数据而设计,它们有助于扩散模型在生成过程中保持帧与帧之间的一致性。这使得生成的视频中,物体不会莫名其妙地出现或消失。

此外,由于视频被切成了块,其尺寸和方向就不再重要。这意味着最新一波视频生成模型可以在广泛的示例视频上进行训练,从手机拍摄的短竖屏视频到宽银幕电影。训练数据的多样性使得视频生成技术远胜于两年前。这也意味着视频生成模型现在可以按要求生成各种格式的视频。



音频如何生成?

Veo 3 的一大进步是它可以生成带有音频的视频,从口型同步的对话到音效和背景噪音。这是视频生成模型的首创。Google DeepMind 首席执行官德米斯·哈萨比斯(Demis Hassabis)在今年的 Google I/O 大会上说:“我们正在走出视频生成的无声时代。”

这一技术的挑战在于找到一种方法来对齐视频和音频数据,以便扩散过程能同时处理两者。Google DeepMind 的突破在于一种新方法,它将音频和视频压缩成扩散模型内部的一块单一数据。当 Veo 3 生成视频时,其扩散模型通过同步过程同时产生音频和视频,确保声音和图像是对齐的。



大语言模型也是这样工作的吗?

至少目前还不是。扩散模型最常用于生成图像、视频和音频。用于生成文本(包括计算机代码)的大语言模型是使用 Transformer 构建的,但其界限正在变得模糊。我们已经看到 Transformer 正在与扩散模型结合以生成视频。今年夏天,Google DeepMind 透露,通过使用扩散模型而非 Transformer 来生成文本,他们正在构建一个实验性的大语言模型。

这里情况开始变得令人困惑:虽然视频生成(使用扩散模型)消耗大量能源,但扩散模型本身实际上比 Transformer 更高效。因此,通过使用扩散模型代替 Transformer 来生成文本,Google DeepMind 的新大语言模型可能比现有模型效率高得多。在不久的将来,预计我们会看到更多基于扩散模型的成果。


https://www.technologyreview.com/2025/09/12/1123562/how-do-ai-models-generate-videos/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
问题很严重!男子把奥迪A6开进池塘,保险公司认定“故意”拒赔…

问题很严重!男子把奥迪A6开进池塘,保险公司认定“故意”拒赔…

火山詩话
2026-03-03 10:33:23
一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

一场战争把中国打醒!美军最毒的不是装备,中国用30年才真正看清

达文西看世界
2026-03-02 14:25:12
2080万贱卖到8000万!切尔西弃将狠打脸,谁该为这6000万差价负责

2080万贱卖到8000万!切尔西弃将狠打脸,谁该为这6000万差价负责

卿子书
2026-03-03 09:19:42
外甥大年初二理发舅舅死了,舅妈向外甥索赔100万,法院判决来了

外甥大年初二理发舅舅死了,舅妈向外甥索赔100万,法院判决来了

江山挥笔
2026-03-03 10:26:43
奇葩!赣州一女子进店蹭网20分钟后找老板强借100元,遭拒后砸店

奇葩!赣州一女子进店蹭网20分钟后找老板强借100元,遭拒后砸店

火山詩话
2026-03-03 09:45:17
南通一知名火锅将闭店

南通一知名火锅将闭店

南通楼市新观察
2026-03-03 15:48:52
又有两国下场,英法德也要防御性参战?关键时刻,普京对中喊话

又有两国下场,英法德也要防御性参战?关键时刻,普京对中喊话

知鉴明史
2026-03-02 17:29:36
哈梅内伊身亡现场照片曝光

哈梅内伊身亡现场照片曝光

名人苟或
2026-03-02 10:37:43
2026退税正式开始!选对多退几千元!

2026退税正式开始!选对多退几千元!

星哥说事
2026-03-02 19:13:22
韩国:70%的石油和20%的天然气由中东进口 危机时将动用战略储备

韩国:70%的石油和20%的天然气由中东进口 危机时将动用战略储备

财联社
2026-03-02 19:02:07
薛之谦风波持续发酵,诸多黑料被扒,谢娜发声补刀,胡彦斌躺枪

薛之谦风波持续发酵,诸多黑料被扒,谢娜发声补刀,胡彦斌躺枪

娱文速递
2026-03-03 10:57:30
外资大动作,持续抛售一万亿

外资大动作,持续抛售一万亿

睿知睿见
2026-03-03 07:34:52
美媒体警告伊朗:若退出世界杯将会损失7000万 4年后也休想再参加

美媒体警告伊朗:若退出世界杯将会损失7000万 4年后也休想再参加

风过乡
2026-03-03 13:21:54
伊朗货币大幅贬值:1美元可兑换约131.4万伊朗里亚尔

伊朗货币大幅贬值:1美元可兑换约131.4万伊朗里亚尔

每日经济新闻
2026-03-03 00:32:59
反转了?济南“绝情臭豆腐”门口排长队,顾客都撑着伞在雨中支持

反转了?济南“绝情臭豆腐”门口排长队,顾客都撑着伞在雨中支持

江山挥笔
2026-03-03 10:28:04
特朗普称将很快宣布报复措施

特朗普称将很快宣布报复措施

界面新闻
2026-03-03 09:19:08
闹大了!谢娜喊话薛之谦:请你道歉,双方恩怨被扒,评论区炸锅了

闹大了!谢娜喊话薛之谦:请你道歉,双方恩怨被扒,评论区炸锅了

八卦南风
2026-03-03 11:39:41
OpenAI的“五角大楼时刻”?ChatGPT卸载量暴增近300% 一星评分飙升775%

OpenAI的“五角大楼时刻”?ChatGPT卸载量暴增近300% 一星评分飙升775%

财联社
2026-03-03 13:09:14
美国为什么突然打伊朗?一篇文讲清楚

美国为什么突然打伊朗?一篇文讲清楚

李月亮
2026-03-02 20:46:25
你见过的最沉得住气的人是怎样?网‬友:五分钟连超10万人的奇迹

你见过的最沉得住气的人是怎样?网‬友:五分钟连超10万人的奇迹

夜深爱杂谈
2026-01-04 23:05:06
2026-03-03 18:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16349文章数 514699关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

袭击伊朗后 特朗普首次发表白宫讲话:将不惜一切代价

头条要闻

袭击伊朗后 特朗普首次发表白宫讲话:将不惜一切代价

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

家居
数码
旅游
健康
手机

家居要闻

万物互联 享科技福祉

数码要闻

荣耀MagicBook Pro 14实测:锐炫B370性能追上大哥B390!

旅游要闻

登达“川东之巅”,打开一本立体地理教科书|寻找21“峰”面

转头就晕的耳石症,能开车上班吗?

手机要闻

OPPO Find X9 Ultra官宣首登全球市场!预定「全球影像机皇」?

无障碍浏览 进入关怀版