目前,基于图像的虚拟试穿效果已经非常惊人,但现有的视频虚拟试穿(VVT)技术还缺乏衣物细节和时间上的一致性。为了解决这些问题,谷歌和华盛顿大学提出了一种用于生成虚拟试穿视频的视频扩散模型Fashion-VDM。它能够更好地控制输入条件,并采用逐步时间训练策略,在单次生成中完成64帧、512像素的视频生成。(链接在文章底部)
给定一张衣服图片和一段人物视频,Fashion-VDM方法可以生成高质量的试穿视频,展示该人物穿上指定衣服的效果,并且让人物在运动中穿上指定衣服,不仅可以呈现出逼真的细节和面料动态效果,同时保留人物的外貌和动作。但Fashion-VDM也有不足:人物体型不够精准、试穿效果中出现瑕疵。由于输入的衣服图片通常只有一个角度,因此在无法看到的区域,可能会出现一些“凭空生成”的不真实细节。
01 技术原理
在给定一个有噪声的视频后,Fashion-VDM在每一个扩散步骤中都会执行一次去噪,生成较为清晰的试穿视频。对于噪声视频,首先将其预处理为人体姿势信息和去除了衣物信息的背景视频帧。同时,衣物图片会被预处理为衣物的分割信息和衣物的姿势信息。
这个模型的结构基本遵循 M&M VTO 的设计,不过在主要的UNet中加入了3D卷积和时间注意力模块,以保证视频的时间一致 性。 此外,在64帧 的时间训练过程中,引入了时间下采样和上采样模块来帮助模型更好地捕捉长时间的视频效果。
具体来说,噪声视频由主要的UNet编码,而条件信息(人体姿势和衣物信息)则由单独的UNet编码器编码。在UNet最低分辨率的8个DiT模块中,模型会通过交叉关注机制,将衣物信息与噪声视频的特征结合。
同时,去衣物后的背景特征和噪声视频的特征会直接进行拼接。此外,人体姿势和衣物姿势的特征通过单一的线性层编码后,会被拼接到UNet的所有2D空间层中的噪声特征上。
Fashion-VDM 的训练分为多个阶段,每个阶段的帧长度都会增加。首先对图像模型进行预训练,只在图像数据集上训练空间层。在后续阶段,会在视频数据集中越来越长的连续帧批次上训练时间和空间层。
02 实际效果
实际效果示例:
与现有方法的对比,可以发现Fashion-VDM明显优于其他方法。可以看到其他方法有的存在闪烁、有的存在衣着穿戴错乱。
但也如前文所说,目前Fashion-VDM方法仍有一定局限性,未来的工作可能会考虑多服装调节和个人定制,以提高服装和人的保真度。
https://arxiv.org/pdf/2411.00225欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.