网易首页 > 网易号 > 正文 申请入驻

Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制

0
分享至

机器之心报道

编辑:张倩、陈萍

生成式 AI 进入视频时代了。

提到视频生成,很多人首先想到的可能是 Gen-2、Pika Labs。但刚刚,Meta 宣布,他们的视频生成效果超过了这两家,而且编辑起来还更加灵活。

这个「吹小号、跳舞的兔子」是 Meta 发布的最新 demo。从中可以看出,Meta 的技术既支持灵活的图像编辑(例如把「兔子」变成「吹小号的兔子」,再变成「吹彩虹色小号的兔子」),也支持根据文本和图像生成高分辨率视频(例如让「吹小号的兔子」欢快地跳舞)。

其实,这其中涉及两项工作。

灵活的图像编辑由一个叫「Emu Edit」的模型来完成。它支持通过文字对图像进行自由编辑,包括本地和全局编辑、删除和添加背景、颜色和几何转换、检测和分割等等。此外,它还能精确遵循指令,确保输入图像中与指令无关的像素保持不变。

给鸵鸟穿裙子

高分辨率的视频则由一个名叫「Emu Video」的模型来生成。Emu Video 是一个基于扩散模型的文生视频模型,能够基于文本生成 512x512 的 4 秒高分辨率视频(更长的视频在论文中也有讨论)。一项严格的人工评估表明,与 Runway 的 Gen-2 以及 Pika Labs 的生成效果相比,Emu Video 在生成质量和文本忠实度方面的得分都更高。以下是它的生成效果:

在官方博客中,Meta 展望了这两项技术的应用前景,包括让社交媒体用户自己生成动图、表情包,按照自己的意愿编辑照片和图像等等。关于这点,Meta 在之前的 Meta Connect 大会上发布 Emu 模型时也提到过(参见:《Meta 版 ChatGPT 来了:Llama 2 加持,接入必应搜索,小扎现场演示》)。

接下来,我们将分别介绍这两个新模型。

EmuVideo

大型文生图模型在网络规模的图像 - 文本对上经过训练,可生成高质量的多样化图像。虽然这些模型可以通过使用视频 - 文本对进一步适用于文本 - 视频(T2V)生成,但视频生成在质量和多样性方面仍然落后于图像生成。与图像生成相比,视频生成更具挑战性,因为它需要建模更高维度的时空输出空间,而能依据的仍然只是文本提示。此外,视频 - 文本数据集通常比图像 - 文本数据集小一个数量级。

视频生成的主流模式是使用扩散模型一次生成所有视频帧。与此形成鲜明对比的是,在 NLP 中,长序列生成被表述为一个自回归问题:以先前预测的单词为条件预测下一个单词。因此,后续预测的条件信号(conditioning signal)会逐渐变强。研究者假设,加强条件信号对高质量视频生成也很重要,因为视频生成本身就是一个时间序列。然而,使用扩散模型进行自回归解码具有挑战性,因为借助此类模型生成单帧图像本身就需要多次迭代。

因此,Meta 的研究者提出了 EMU VIDEO,通过显式的中间图像生成步骤来增强基于扩散的文本到视频生成的条件。

论文地址:https://emu-video.metademolab.com/assets/emu_video.pdf

项目地址:https://emu-video.metademolab.com/

具体来说,他们将文生视频问题分解为两个子问题:(1) 根据输入的文本提示生成图像;(2) 根据图像和文本的强化条件生成视频。直观地说,给模型一个起始图像和文本会使视频生成变得更容易,因为模型只需预测图像在未来将如何演变即可。

Meta 的研究者将文生视频分为两步:首先生成以文本 p 为条件的图像 I,然后使用更强的条件 —— 生成的图像和文本 —— 来生成视频 v。为了以图像约束模型 F,他们暂时对图像进行补零,并将其与一个二进制掩码(指示哪些帧是被补零的)以及带噪声的输入连接起来。

由于视频 - 文本数据集比图像 - 文本数据集要小得多,研究者还使用权重冻结的预训练文本 - 图像 (T2I) 模型初始化了他们的文本 - 视频模型。他们确定了关键的设计决策 —— 改变扩散噪声调度和多阶段训练 —— 直接生成 512px 高分辨率的视频。

与直接用文本生成视频的方法不同,他们的分解方法在推理时会显式地生成一张图像,这使得他们能够轻松保留文生图模型的视觉多样性、风格和质量(如图 1 所示)。这使得 EMU VIDEO 即使在训练数据、计算量和可训练参数相同的情况下,也能超越直接 T2V 方法。

这项研究表明,通过多阶段的训练方法,文生视频的生成质量可以得到大幅提高。该方法支持直接生成 512px 的高分辨率视频,不需要先前方法中使用的一些深度级联模型。

研究者设计了一个稳健的人工评估方案 ——JUICE,要求评估者在两两比较中做出选择时证明他们的选择是正确的。如图 2 所示,EMU VIDEO 在质量和文本忠实度方面的平均胜率分别为 91.8% 和 86.6%,大大超越了包括 Pika、Gen-2 等商业解决方案在内的所有前期工作。除 T2V 外,EMU VIDEO 还可用于图像 - 视频生成,即模型根据用户提供的图像和文本提示生成视频。在这种情况下,EMU VIDEO 的生成结果有 96% 优于 VideoComposer。

从展示的 demo 中可以看到,EMU VIDEO 已经可以支持 4 秒的视频生成。在论文中,他们还探讨了增加视频时长的方法。作者表示,通过一个小的架构修改,他们可以在 T 帧上约束模型并扩展视频。因此,他们训练 EMU VIDEO 的一个变体,以「过去」16 帧为条件生成未来 16 帧。在扩展视频时,他们使用与原始视频不同的未来文本提示,效果如图 7 所示。他们发现,扩展视频既遵循原始视频,也遵循未来文本提示。

Emu Edit :精确的图像编辑

每天都有数百万人使用图像编辑。然而,流行的图像编辑工具要么需要相当多的专业知识,使用起来很耗时,要么非常有限,仅提供一组预定义的编辑操作,如特定的过滤器。现阶段,基于指令的图像编辑试图让用户使用自然语言指令来解决这些限制。例如,用户可以向模型提供图像并指示其「给鸸鹋穿上消防员服装」这样的指令(见图 1)。

然而,虽然像 InstructPix2Pix 这类基于指令的图像编辑模型可以用来处理各种给定的指令,但它们通常很难准确地解释和执行指令。此外,这些模型的泛化能力有限,通常无法完成与训练时略有不同的任务(见图 3),例如让小兔子吹彩虹色的小号,其他模型要么把兔子染成彩虹色,要么是直接生成彩虹色的小号。

为了解决这些问题,Meta 引入了 Emu Edit,这是首个在广泛且多样化的任务上训练而成的图像编辑模型,Emu Edit 可以根据指令进行自由形式的编辑,包括本地和全局编辑、删除和添加背景、颜色改变和几何变换、检测和分割等任务。

论文地址:https://emu-edit.metademolab.com/assets/emu_edit.pdf

项目地址:https://emu-edit.metademolab.com/

与当今许多生成式 AI 模型不同,Emu Edit 可以精确遵循指令,确保输入图像中与指令无关的像素保持不变。例如,用户给出指令「将草地上的小狗移除」,移除物体后的图片几乎看不出来有什么变化。

移除图片中左下角的文本,再给图片换个背景,Emu Edit 也能处理得很好:

为了训练这个模型,Meta 开发了一个包含 1000 万个合成样本的数据集,每个样本都包含一个输入图像、对要执行任务的描述以及目标输出图像。因而 Emu Edit 在指令忠实度和图像质量方面都显示出前所未有的编辑结果。

在方法层面,Meta 训练的模型可以执行十六个不同的图像编辑任务,这些任务涵盖基于区域的编辑任务、自由格式编辑任务和计算机视觉任务,所有这些任务都被表述为生成任务,Meta 还为每个任务开发了一个独特的数据管理 pipeline 。Meta 发现,随着训练任务数量的增加,Emu Edit 的性能也会随之提高。

其次,为了有效地处理各种各样的任务,Meta 引入了学习任务嵌入(learned task embedding)的概念,它用于引导生成过程朝着正确的生成任务方向发展。具体来说,对于每个任务,本文学习一个独特的任务嵌入向量,并通过交叉注意力交互将其集成到模型中,并将其添加到时间步嵌入中。结果证明,学习任务嵌入显着增强了模型从自由格式指令中准确推理并执行正确编辑的能力。

今年 4 月,Meta 上线「分割一切」AI 模型,效果惊艳到很多人开始怀疑 CV 领域到底还存不存在。短短几个月的时间,Meta 在图像、视频领域又推出 Emu Video 和 Emu Edit ,我们只能说,生成式 AI 领域真的太卷了。

了解更多内容,请查看原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊万敲定中泰之战23人报名名单,艾克森意外无缘,昔日主力落选

伊万敲定中泰之战23人报名名单,艾克森意外无缘,昔日主力落选

罗掌柜体育
2024-06-04 16:35:39
小偷写字条奚落失主,还留赎回联系方式,律师:拒不归还加重罪行

小偷写字条奚落失主,还留赎回联系方式,律师:拒不归还加重罪行

潇湘晨报
2024-06-04 19:08:08
中韩使馆同天互相表态,韩方仍在拿台湾说事,中方筹码韩国接不住

中韩使馆同天互相表态,韩方仍在拿台湾说事,中方筹码韩国接不住

王晋博士
2024-06-04 16:15:10
一进一出!史诗级交易,恭喜巴萨,哈兰德空降,卖4人筹1亿,冲冠

一进一出!史诗级交易,恭喜巴萨,哈兰德空降,卖4人筹1亿,冲冠

彩彩美食日记
2024-06-04 18:43:25
陕西一幼儿园多位老师网购演出服表演结束后退单,当地教体局:会给商家满意答复

陕西一幼儿园多位老师网购演出服表演结束后退单,当地教体局:会给商家满意答复

潇湘晨报
2024-06-04 10:48:06
若中美全面开打,中国在制裁封锁下,究竟能撑多久?

若中美全面开打,中国在制裁封锁下,究竟能撑多久?

兵国大事
2024-06-04 10:14:25
“铁头”回国后接受日本媒体采访,被问会不会反省,回击:八格牙路

“铁头”回国后接受日本媒体采访,被问会不会反省,回击:八格牙路

不掉线电波
2024-06-04 10:18:56
上海突发!李朝坤被查

上海突发!李朝坤被查

鲁中晨报
2024-06-04 20:07:13
2驴友落水后续:遗体找到,内部聊天记录曝光,草帽男成众矢之的

2驴友落水后续:遗体找到,内部聊天记录曝光,草帽男成众矢之的

荷兰豆爱健康
2024-06-04 17:19:17
施工事故实习生被建议追刑责背后:19天未消除的隐患和层层失守的监管

施工事故实习生被建议追刑责背后:19天未消除的隐患和层层失守的监管

澎湃新闻
2024-06-04 20:08:29
清华教授王文湛发声说:凭什么拿我们纳税人的钱去供养留学生!

清华教授王文湛发声说:凭什么拿我们纳税人的钱去供养留学生!

华人星光
2024-06-03 17:29:51
创历史!张之臻组合2-0横扫8号种子 中国大陆男双首进法网八强

创历史!张之臻组合2-0横扫8号种子 中国大陆男双首进法网八强

醉卧浮生
2024-06-04 21:04:49
台州2驴友溺亡画面流出,女子身份被曝光,出游前曾默认免责协议

台州2驴友溺亡画面流出,女子身份被曝光,出游前曾默认免责协议

洛洛女巫
2024-06-04 18:05:09
86岁大爷哭诉:在养老院养老,就是一场“无止境”的金钱交易

86岁大爷哭诉:在养老院养老,就是一场“无止境”的金钱交易

热心柚子姐姐
2024-06-03 20:13:33
曝银行职员出轨按摩女!手机藏大量不雅照,交往一年为其花费14万

曝银行职员出轨按摩女!手机藏大量不雅照,交往一年为其花费14万

飘飘视角
2024-06-04 16:53:36
一位法国老人夜探中国某公园,惊叹竟然没有流浪汉,狂赞“绝对安全的国家”

一位法国老人夜探中国某公园,惊叹竟然没有流浪汉,狂赞“绝对安全的国家”

不掉线电波
2024-06-04 18:57:35
中国国青1-0越南!赢四国赛开门红,王钰栋轰世界波,连续3场破门

中国国青1-0越南!赢四国赛开门红,王钰栋轰世界波,连续3场破门

侃球熊弟
2024-06-04 21:24:35
风云突变!上海楼市,开始掀桌子了!

风云突变!上海楼市,开始掀桌子了!

米筐投资
2024-06-04 07:31:01
董军行程结束,登机回国前送出7句话,美国终于弄懂中方意思。

董军行程结束,登机回国前送出7句话,美国终于弄懂中方意思。

说天说地说实事
2024-06-04 17:28:52
“头发门”风暴!沈阳一家长大闹学校,怒斥班主任:你不配当老师

“头发门”风暴!沈阳一家长大闹学校,怒斥班主任:你不配当老师

火山诗话
2024-06-04 08:58:20
2024-06-04 22:20:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9050文章数 141937关注度
往期回顾 全部

科技要闻

斯坦福团队抄袭国产大模型后道歉 承诺撤下

头条要闻

俞敏洪称东方甄选做得乱七八糟 销售额远不及与辉同行

头条要闻

俞敏洪称东方甄选做得乱七八糟 销售额远不及与辉同行

体育要闻

一位糖尿病患者,和他的24年皇马梦

娱乐要闻

杨幂留言为热巴庆生,姐妹情深惹人羡

财经要闻

又一座城市,房价“鹤岗化”了!

汽车要闻

2.0T+云辇-P+天神之眼 方程豹豹8还配软包内装

态度原创

艺术
游戏
旅游
健康
教育

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

AL零封Up获首胜!提问:阿乐加盟后,AL有机会打进季后赛吗?

旅游要闻

去年中国156人死于户外探险

晚餐不吃or吃七分饱,哪种更减肥?

教育要闻

高考成绩不理想,复读一年能否改变命运?

无障碍浏览 进入关怀版