好消息! 好消息~ 欢迎科研团队供稿
免费分享学术 项目成果
视频试穿(Video Try-On)旨在将视频中的服装替换为目标服装。现有方法在处理复杂服装图案和多样化身体姿态时,往往难以生成高质量且时间连续性强的结果。阿里提出了3DV-TON,一种基于扩散模型的全新框架,能够生成高保真、时间一致性强的视频试穿效果。(链接在文章底部,会开源)
3DV-TON方法采用生成的可动画纹理3D网格作为每一帧的显式引导,有效缓解了现有模型过度关注外观保真而牺牲动作连贯性的问题。这种设计通过提供一致的服装纹理运动参考,实现了视频序列中服装动态的直接还原。3DV-TON方法能够应对多种类型的服装和身体姿态,同时精确还原服装细节,并保持纹理运动的一致性。
01 技术原理
3DV-TON的整体流程如下:给定一段视频,首先通过3D引导流程自适应地选取一帧图像 ,然后重建带有纹理的3D引导,并使其与原始视频 的姿态动态对齐。
为服装图像 和试穿图像 提取引导特征,并在去噪UNet中通过自注意力机制进行特征融合。
纹理化3D引导:基于图像试穿结果构建带有纹理的3D引导,并在贴图后对网格进行动画驱动,从而在外观层面提供一致的纹理运动参考。
提出了一种稳健的矩形遮罩策略,能够有效缓解由于人物和服装动态运动过程中服装信息泄露所导致的伪影传播问题。为推动视频试穿研究的发展,还引入了HR-VVT数据集,这是一个高分辨率基准数据集,包含130个涵盖多种服装类型和场景的视频。
02 演示效果与对比
与公开推理代码的主流视频试穿方法 ViViD 和 CatV2TON 进行了定性对比,使用的图像和视频均来自未参与训练的 ViViD-S 测试集和构建的 HR-VVT 数据集。
实验结果表明,现有方法普遍存在伪影、服装模糊和无法适应人物动作的问题,尤其在复杂图案和视角变化场景中表现不佳。而 3DV-TON 借助显式的纹理化3D引导,能够生成更准确的服装形状、还原真实的动态纹理运动,并在各类环境下表现出更高的视觉质量与时间一致性,尤其在户外和多视角视频中展现出明显优势。
相同模特,不同服装:
不同模特,不同服装(上衣、下身、裙子):
https://arxiv.org/pdf/2504.17414欢迎交流~,带你学习AI,了解AI
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.