人类艺术家和生成式AI之间的关系一直都很微妙,作为一名混迹在CG行业的兢兢业业小编辑,小编也是时刻关注着生成式AI的发展。
这不,一有风吹草动,赶紧就给小伙伴们来传递“敌方”讯息了。
一项由加州大学默塞德分校和Adobe Research共同开发的新技术-FaceLife,能够从单张人脸照片中,快速生成高质量的360度3D头部模型。
FaceLife的优点就在于,它能够很好的保持人的面部特征,同时确保不同视角之间的连贯性;除了单张图像重建外,还支持视频输入,可以用来生成4D的新视角合成(即可以在时间维度上变化的3D模型);此外,可以和现有的2D重动画技术无缝集成,从而实现3D面部的动画效果。
过去的几十年来,3D头部重建一直是计算机视觉和计算机图形学研究的核心焦点。
传统3D头部合成方法通常使用在大量3D扫描数据集上训练的,参数化的纹理网格模型。虽然能够生成基本的头部图像,但渲染出的图片往往缺乏细粒度(Fine-grained)的几何和纹理细节;虽然最新的研究中基于扩散的视图生成方法对于一般物体非常有效,但由于人脸具有更高的感知敏感性,所以这类模型在应用于3D脸部重建时遇到了困难。
而FaceLift正是在这种情况下应运而生,它 提供了一种新颖的两阶段方法:第一阶段是多视角生成;第二阶段采用最先进的大规模重建模型( GS-LRM),将生成的不同视角图像融合成一个完整的3D头部模型。
01
相关工作
面部重建
从最早的Blendshapes到后来的3D Morphable Models(3DMMs),再到如GANs、NeRF等基于深度学习的方法。每种方法都有其特性,但也有诸如细节不够精细,只能合成近正面视角等局限性。
合成人类数据
获取高质量的真实人类3D数据需要控制良好的工作室环境且成本高昂。作为替代方案,大规模的合成3D头部数据集,提供了无需受限于现实数据采集的可扩展训练模式的方式。受到先前工作的启发,FaceLift的目的是利用合成数据来训练模型学习人类头部特征和细节,同时尽量减少合成数据训练与实际应用之间的差异。
图像/文本到3D
尽管生成式AI在2D图像生成方面取得了成功,但将这些技术扩展到3D内容生成时仍然遇到如优化速度慢、色彩问题等挑战。最近的研究,试图通过改进模型结构和算法来解决这些问题,以实现更快速和高质量的3D重建。
02
方法
FaceLift的目标,是从一张人类脸部的正面照片,重建一个完整的、可以多角度观看的3D头部模型。这一模型使用高斯分布点(Gaussian splats)来表示细节,不仅包括照片中可见部分,还能够合理生成如后脑等输入视角中不可见的部分。
合成的人类头部数据集
为了训练模型,FaceLift团队创建了一个包含大量合成头部图像的数据集。从收集高质量的3D头部网格开始,通过添加详细的面部特征(如眼睛、牙齿、头发等)来丰富这些基础模型。
之后通过对模型进行骨骼绑定来实现姿态变化,通过Blendshape变形来呈现多样化表情。最终的头部模型配备PBR纹理贴图集,团队为每个头部模型穿上不同服装来增加多样性和真实性。整个过程在Blender中完成,使用Cycles进行渲染。
第一阶段:单张图像到多视角生成
在这一阶段,FaceLift团队选择了Stable Diffusion V2-1-unCLIP模型作为基础,进行微调,以便它可以接受来自CLIP的模型的图像嵌入作为额外输入。同时采用一种多视角注意力机制,确保输出图像之间的一致性。通过模型内部的信息共享,扩散模型学习不同视角之间的关系,从而可以从多个角度生成一致图像。
给定一张正面视角的照片,模型将生成六个不同角度的图像,这些角度分别对应原始角度、左右各偏移45度和90度,以及背面180度视角。所有生成的图像都保持在同一个水平面上(零仰角),从而确保从左到右视角变化一致。除了重建正面视角外,模型还特别关注两侧轮廓和背面视角的头发结构和颜色,生成2/3视角以增加面部细节准确性。
多视角到3D高斯头部重建
第二阶段FaceLift使用先进的重建模型(GS-LRM),将第一阶段生成的六个视角图像转换成一个详细的3D头部模型。
输入六个不同视角的图像及其对应的相机位置信息,GS-LRM利用变压器架构分析这些图像。并根据它们生成详细的3D高斯点,最终将所有输入视角的3D高斯点合并,输出完整的、可以从任意角度查看,具有精细几何形状和外观细节的3D头部模型。
03
实验
FaceLift团队使用了两个公开的多视角头部数据集,来评估单图像头部重建方法的效果。
合成的Cafca数据集:选择了40个主体,每个主体有30个测试相机姿态。由于相机位置是随机分布的,手动选择最正面的视图作为输入。
Ava-256数据集:选取了10个主体和10个测试相机姿态,为了展示系统的泛化能力,还对自然真实环境下收集的脸部图片进行了定性评估。
以最近提出的三个先进方法(PanoHead、 Era3D、 LGM)作为基线,使用PSNR 、SSIM 、LPIPS 、DreamSim四个标准度量来作为评估指标;并通过ArcFace面部验证算法来检查生成的图像是否保持了原始的身份特征。
Cafca数据集上的结果
无论是对齐前还是对齐后, FaceLift的表现都优于其他方法,尤其是在更符合人类的相似性判断标准DreamSim度量上表现突出。
面部特征点对齐前后数值对比
FaceLift生成的图像不仅颜色准确,而且几何结构也更接近实际情况,新视角图像与真实情况更加温和。
Ava-256 数据集上的结果
无论是在重建质量还是身份保留方面,FaceLift都超越了所有其他被测试的方法。
FaceLift 不仅在特定条件下表现出色,而且能够很好地适应和处理真实世界中的人类图像。
为了进一步展示FaceLift的泛化能力和其在实际应用中的潜力,研究团队收集了来自真实世界的人脸图像,并与其它方法进行了定性比较。
结果显示,相比其他方法FaceLift不仅能避免产生不自然或错误的细节,还能在不同的光照条件、极端表情等复杂情况下,生成高质量的3D头部图像。特别值得注意的是,FaceLift 即使面对未见过的数据(如面部彩绘),也能保持良好的性能,显示出其强大的适应性和实用性。
视频输入用于4D新视角合成(NVS)
得益于高保真重建能力,FaceLift可以从视频输入生成一致的3D高斯序列,从而实现4D渲染。
首先按顺序处理输入视频的每一帧,为每一帧生成一个3D高斯表示(Gaussian Representation),并形成一个高斯序列;给定任意时间点,可以从这个高斯序列中选择对应的3D高斯数据,并根据任何指定的相机姿态进行渲染。
即使没有额外的机制来约束不同时间点之间的一致性,FaceLift依然能够以最小的伪影渲染出新的视角下的视频序列。
通过与2D面部动画技术结合,FaceLift不仅能够处理静态图像,还能处理动态视频,创建逼真的3D面部动画,即使是面部肌肉大幅度变化的表情也能保持高保真度。
为了证明多样化的光照条件训练有助于模型更好地理解和处理复杂的光照场景,从而生成更逼真的3D头部图像,研究团队对FaceLift进行了两次训练:一次仅使用环境光的数据;另一次使用随机HDR环境光的数据。
结果对比如下:
原始的GS-LRM [64] 使用四个视角来进行推理,为了进一步改善面部结构的详细重建,研究团队在前左和前右增加了两个额外视角。
FaceLift通过在特定类型的合成数据上进行微调,能够更好地理解头部结构,从而生成更平滑,更逼真的3D头部。
与其他方法相比,FaceLift生成的头部模型在细节和保留原始对象面部特征方面表现更加优异,但在从视频中生成连续的新视角图像时,还存在一些时间一致性问题。
不过从生成结果来看,FaceLift“做大做强”,应该只是时间问题。
end
全新解封!《秘密关卡》3D设计图、概念图!!
这动画好上头!又恶心又想看,根本停不下来···
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.