今天给大家介绍一个新模型-Pippo
Pippo是Meta Reality Labs推出的图像到视频生成模型,能从单张照片生成1K分辨率的多视角高清人像视频。它接受全身或面部照片作为输入,并能很好地将原有照片与新生成的内容结合。
这个模型利用了一种名为多视角扩散变换器的先进技术,经过自我学习和细致的训练,能够快速掌握不同角度的变化,从而制作出既高质量又在3D效果上一致性很强的图像。
下面看几个示例:
演示效果
仅限面部:通过单张图像实现转变
左:从iPhone拍摄的照片中裁剪出面部;右:生成的环绕视频(36帧),分辨率为512x512。
左:从iPhone照片中裁剪出面部;右:生成的16帧短视频,分辨率为1024x1024。
全身:通过单张图像实现转变
左:用iPhone拍摄的全身照片;右:生成的16帧短视频,分辨率为1024x1024。
左:全身的照片;右:生成的14帧特写短视频,分辨率为512x512。
仅头部:通过单张图像实现转变
左:只包含头部的工作室照片;右:根据该照片生成的36帧环绕视频,分辨率为512x512。
全身:从单个视频生成多个视角的视频
上面一行:实际拍摄的画面。
下面一行左边(第1列):人在移动的单个视频片段,分辨率为512x512。
下面一行右边(第2到第7列):使用Pippo根据每个视频帧生成的不同视角的视频。
注意:Pippo可以自动补全每个视频帧中缺失的部分(比如鞋子或脸),并提供多种不同的补全效果!
仅头部视频:从单个视频生成多个视角的视频
上面一行:实际的画面。
下面一行左边(第1列):人在512x512分辨率下讲话的单个视频片段。
下面一行右边(第2到第7列):使用Pippo根据每个视频帧生成的不同视角的视频。
注意:Pippo可以自动补全视频帧中缺失的部分(比如脖子或衣服),并提供多种不同的补全效果!
全身和头部:空间瞄点可视化
带有对应固定3D空间锚点的全身生成图像。
带有对应固定3D空间锚点的仅头部生成图像。
方法与训练
以下是模型流程图,(左边)使用在工作室捕捉的数据来训练一个多视角的扩散模型(右边展示)。训练时,会用到一张完整的参考照片、从中裁剪出来的脸部图像,以及目标视角的相机和指示头部位置及朝向的2D投影空间锚点进行条件设置。需要注意的是,这个空间锚点只在训练模型时使用,在实际应用模型生成图像时,它会被固定在一个预设的位置上。
ControlMLP和注意力偏差
研究人员使用了一种特殊的扩散变换器(DiT),它通过一个叫做ControlMLP的轻量模块进行调节,ControlMLP模块用于在DiT中注入像Plücker射线和空间锚点这样的像素对齐条件。
另外,还解决了模型在处理不同数量元素时可能出现的注意力偏差问题。图中展示了不同数量的tokens下的熵(Y轴)与缩放因子增长(X轴)之间的关系,使用研究人员提出的修复方法可以让生成结果更加稳定和准确。
注意力偏差视觉效果:采用了先前工作的注意力偏置公式,并引入了一个增长因子超参数(γ),将参数设置在1.4到1.6的范围内,以实现最佳的视觉效果。
以上就是今天项目所分享的内容了,感兴趣的 可以前往GitHub一看,地址放在下方了哦~
GitHub地址:
https://github.com/facebookresearch/pippo
end
“肝”一把!万一成了呢,名利双收!
免费的VDB云资源来啦~
这打斗动画艺术成分很高啊
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.