网易首页 > 网易号 > 正文 申请入驻

只需一张图片、一句动作指令,Animate124轻松生成3D视频

0
分享至

机器之心专栏

机器之心编辑部

Animate124,轻松将单张图片变成 3D 视频。

近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合多种控制信号。

与此相较,3D 动态场景生成仍处于起步阶段。2023 年初,Meta 推出了 MAV3D,标志着首次尝试基于文本生成 3D 视频。然而,受限于开源视频生成模型的缺乏,这一领域的进展相对缓慢。

然而,现在,基于图文结合的 3D 视频生成技术已经问世!

尽管基于文本的 3D 视频生成能够产生多样化的内容,但在控制物体的细节和姿态方面仍有局限。在 3D 静态生成领域,使用单张图片作为输入已经能够有效重建 3D 物体。由此受到启发,来自新加坡国立大学(NUS)和华为的研究团队提出了 Animate124 模型。该模型结合单张图片和相应的动作描述,实现了对 3D 视频生成的精准控制。

  • 项目主页: https://animate124.github.io/
  • 论文地址: https://arxiv.org/abs/2311.14603
  • Code: https://github.com/HeliosZhao/Animate124

核心方法

方法概括

根据静态和动态,粗糙和精细优化,本文将 3D 视频生成分为了 3 个阶段:1)静态生成阶段:使用文生图和 3D 图生图扩散模型,从单张图像生成 3D 物体;2)动态粗糙生成阶段:使用文生视频模型,根据语言描述优化动作;3) 语义优化阶段:额外使用个性化微调的 ControlNet,对第二阶段语言描述对外观造成的偏移进行优化改善。

图 1. 整体框架

静态生成

本文延续 Magic123 的方法,使用文生图(Stable Diffusion)和 3D 图生图(Zero-1-to-3)进行基于图片的静态物体生成:

对于条件图片所对应的视角,额外使用损失函数进行优化:

通过上述两个优化目标,得到多视角 3D 一致的静态物体(此阶段在框架图中省略)。

动态粗糙生成

此阶段主要使用文生视频扩散模型,将静态 3D 视为初始帧,根据语言描述生成动作。具体来说,动态 3D 模型(dynamic NeRF)渲染连续时间戳的多帧视频,并将此视频输入文生视频扩散模型,采用 SDS 蒸馏损失对动态 3D 模型进行优化:

仅使用文生视频的蒸馏损失会导致 3D 模型遗忘图片的内容,并且随机采样会导致视频的初始和结束阶段训练不充分。因此,本文的研究者们对开始和结束的时间戳进行过采样。并且,在采样初始帧时,额外使用静态函数进行优化(3D 图生图的 SDS 蒸馏损失):

因此,此阶段的损失函数为:

语义优化

即使采用了初始帧过采样并且对其额外监督,在使用文生视频扩散模型的优化过程中,物体的外观仍然会受到文本的影响,从而偏移参考图片。因此,本文提出了语义优化阶段,通过个性化模型对语义偏移进行改善。

由于仅有单张图片,无法对文生视频模型进行个性化训练,本文引入了基于图文的扩散模型,并对此扩散模型进行个性化微调。此扩散模型应不改变原有视频的内容和动作,仅对外观进行调整。因此,本文采用 ControlNet-Tile 图文模型,使用上一阶段生成的视频帧作为条件,根据语言进行优化。ControlNet 基于 Stable Diffusion 模型,只需要对 Stable Diffusion 进行个性化微调(Textual Inversion),即可提取参考图像中的语义信息。个性化微调之后,将视频视为多帧图像,使用 ControlNet 对单个图像进行监督:

另外,因为 ControlNet 使用粗糙的图片作为条件,classifier-free guidance (CFG) 可以使用正常范围(10 左右),而不用与文生图以及文生视频模型一样使用极大的数值(通常是 100)。过大的 CFG 会导致图像过饱和,因此,使用 ControlNet 扩散模型可以缓解过饱和现象,实现更优的生成结果。此阶段的监督由动态阶段的损失和 ControlNet 监督联合而成:

实验结果

作为第一个基于图文的 3D 视频生成模型,本文与两个 baseline 模型和 MAV3D 进行了比较。与其他方法相比,Animate124 有更好的效果。

可视化结果比较

图 2. Animate124 与两个 baseline 比较

图 3.1. Animate124 与 MAV3D 文生 3D 视频比较

图 3.1. Animate124 与 MAV3D 图生 3D 视频比较

量化结果比较

本文使用 CLIP 和人工评价生成的质量,CLIP 指标包括与文本的相似度和检索准确率,与图片的相似度,以及时域一致性。人工评价指标包括与文本的相似度,与图片的相似度,视频质量,动作真实程度以及动作幅度。人工评价表现为单个模型与 Animate124 在对应指标上选择的比例。

与两个 baseline 模型相比,Animate124 在 CLIP 和人工评价上均取得更好的效果。

表 1. Animate124 与两个 baseline 量化比较

总结

Animate124 是首个根据文本描述,将任意图片变成 3D 视频的方法。其采用多种扩散模型进行监督和引导,优化 4D 动态表征网络,从而生成高质量 3D 视频。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
莫斯科交易所宣布将美元和欧元强制兑换成卢布

莫斯科交易所宣布将美元和欧元强制兑换成卢布

亡海中的彼岸花
2024-06-22 01:25:03
大龄失业者哀叹生活迷茫:几千块的劳务派遣也找过,任何工作都限制年龄!

大龄失业者哀叹生活迷茫:几千块的劳务派遣也找过,任何工作都限制年龄!

互联网大聪明
2024-06-21 21:46:03
中欧关税正博弈,德国“去风险部长”带商贸团访华

中欧关税正博弈,德国“去风险部长”带商贸团访华

直新闻
2024-06-21 14:53:50
上海市党纪学习教育警示教育会举行

上海市党纪学习教育警示教育会举行

澎湃新闻
2024-06-21 20:24:31
案例:别逼老实人!辽宁64岁大爷提刀从凌晨杀到天亮,致9死3伤

案例:别逼老实人!辽宁64岁大爷提刀从凌晨杀到天亮,致9死3伤

大道微言
2024-06-22 00:06:07
中方代表在中美涉核二轨对话上表示不会在台海动用核武?外交部回应

中方代表在中美涉核二轨对话上表示不会在台海动用核武?外交部回应

澎湃新闻
2024-06-21 15:50:28
台海观澜|最重判死刑,“两高三部”发布惩治“台独”顽固分子意见

台海观澜|最重判死刑,“两高三部”发布惩治“台独”顽固分子意见

经济观察报
2024-06-21 21:36:50
职业投资人锐评中国头部企业:只会吸血,不愿带动产业链一起发展

职业投资人锐评中国头部企业:只会吸血,不愿带动产业链一起发展

互联网大聪明
2024-06-21 19:58:27
欧洲杯最新夺冠赔率:法、德并列第1 英格兰降至第3 西班牙升第4

欧洲杯最新夺冠赔率:法、德并列第1 英格兰降至第3 西班牙升第4

直播吧
2024-06-22 07:14:16
挂“警税合成作战中心”牌子,简直是瞎胡闹!

挂“警税合成作战中心”牌子,简直是瞎胡闹!

小刀99
2024-06-21 18:39:54
国际足联公布了最新的国际排名,突然发现男足在亚洲已经没对手了

国际足联公布了最新的国际排名,突然发现男足在亚洲已经没对手了

人生趣事悟语
2024-06-22 00:19:51
这绝对是一个核弹级的重磅消息,美国对乌完全放开了

这绝对是一个核弹级的重磅消息,美国对乌完全放开了

听风听你
2024-06-21 10:59:36
两位法国第一夫人同赴葬礼,56岁超模哀伤,71岁布里吉特却有笑容

两位法国第一夫人同赴葬礼,56岁超模哀伤,71岁布里吉特却有笑容

译言
2024-06-21 19:01:08
欧盟开出和解条件:中国车企交出技术,换欧洲撤回高额关税

欧盟开出和解条件:中国车企交出技术,换欧洲撤回高额关税

影孖看世界
2024-06-22 01:54:00
新加坡前总理李光耀:过早翘起尾巴与美国对抗,是中国厄运的开始

新加坡前总理李光耀:过早翘起尾巴与美国对抗,是中国厄运的开始

华人星光
2024-06-21 15:59:18
法国荷兰0-0默契演戏,做掉欧洲第一神锋!24队回家第一队诞生了

法国荷兰0-0默契演戏,做掉欧洲第一神锋!24队回家第一队诞生了

嘴炮体坛
2024-06-22 05:15:23
蔡斌下课!历史上第一个,主动认输日本的主教练

蔡斌下课!历史上第一个,主动认输日本的主教练

体坛狗哥
2024-06-21 12:23:26
“我要亮出来我的身份吓死你们!”这次冒出来吓人的是大学教授!

“我要亮出来我的身份吓死你们!”这次冒出来吓人的是大学教授!

宾语观世
2024-06-21 18:01:51
40度的教室50个孩子热得满脸通红,公厕都有空调,校长独享一台

40度的教室50个孩子热得满脸通红,公厕都有空调,校长独享一台

大风文字
2024-06-21 20:15:10
涉嫌严重违纪违法!凌峰任上被查

涉嫌严重违纪违法!凌峰任上被查

每日经济新闻
2024-06-21 16:43:49
2024-06-22 08:40:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9104文章数 141946关注度
往期回顾 全部

科技要闻

一文看懂纯血鸿蒙,自主可控操作系统来了

头条要闻

漓江边多家民宿被1.5米深洪水淹没 有的开业1个半月

头条要闻

漓江边多家民宿被1.5米深洪水淹没 有的开业1个半月

体育要闻

1-0"吊打"意大利 西班牙这就叫冠军相?

娱乐要闻

陈晓惹争议!被曝婚变离家出走冷暴力

财经要闻

7人套现21亿离场 鸿博股份17万股东怎么办

汽车要闻

领克纯电 来得不晚

态度原创

手机
教育
家居
本地
公开课

手机要闻

苹果与消费者修改3500万美元iPhone音响和解协议

教育要闻

“指向新教材的跨学科融合教学能力提升”全国骨干教师高级研修班 | 暑期培训

家居要闻

木质家具 充溢古典之风

本地新闻

2024·合肥印象|用崭新视角对话城市发展

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版