该工作提出了一种利用全局和局部风格表征的风格表述符,并结合运动适配器以及ControlNet实现更高的视频质量和更精细的内容引导,该表示方法在文本对齐和风格相似性方面都实现了最优性能。
![]()

论文标题: StyleMaster: Stylize Your Video with Artistic Generation and Translation 论文链接: https://arxiv.org/abs/2412.07744 项目主页: https://zixuan-ye.github.io/stylemaster/一、引言
近年来视频生成在扩散模型的推动下取得了巨大成功,同时也带来了极大的可控性。其中,风格控制,即生成或转换成与给定参考图像相同风格的视频,是非常重要且令人感兴趣的,但相关研究较少。虽然最新的一些方法可以较好生成风格视频,但往往很难保留局部纹理,并且未能正确地将内容和风格解耦:要么过于注重全局风格而丢失了纹理细节,要么过度使用参考特征,导致过度复制和内容泄漏。
本次导读论文介绍了一种新颖的风格提取模块,通过局部块选择来克服风格转移中的内容泄漏,并通过全局投影来提取强风格线索。同时,StyleMaster首次提出利用模型幻觉来生成具有绝对风格一致性的配对图像数据集,而且几乎不需要任何成本。这不仅能有助于本方法实现精确的风格-内容解耦,还有利于社区中与风格相关的研究。通过采用运动适配器和Gray Tile ControlNet,StyleMaster能够在视频生成和视频/图像风格转换任务中生成准确表示给定参考风格的内容,实验结果表明,StyleMaster明显优于其他方法。
二、技术贡献
本工作主要贡献如下:
提出了一种新颖的风格提取模块;
提出了一个利用模型幻觉生成的风格一致配对数据集;
针对提高生成的视频质量,提出了一种采用运动适配器结合ControlNet的方法。
如下图所示,利用模型幻觉生成的数据集,相比使用其他方法收集的风格数据集Style30K,在风格一致性方面表现得更好,数据集质量更高:
![]()
图1 Style30K与利用模型幻觉生成的数据集的比较 三、方法介绍
StyleMaster方法由风格提取模块和图像到视频的过渡两部分组成,第一部分的目标是更好地提取风格特征,避免风格相似度低和内容泄漏地问题,第二部分的目标是实现高质量的风格视频的生成。
图2展示了StyleMaster的整体结构,主要包含一个风格提取模块和风格视频生成模块。其中,风格提取模块不同于现有方法通常只关注全局风格,而忽略了局部纹理特征,StyleMaster的风格提取模块能够实现局部纹理保留,利用CLIP模型从风格参考图中分别提取Patch特征和整体图像嵌入向量对应局部和全局的特征。并通过计算Patch和输入文本提示之间的相似度,筛选出与内容相关的Patch,保留与风格相关的Patch作为纹理指导,有效地防止了内容泄漏,同时保留了局部纹理细节。同时,为了增强全局风格的提取,StyleMaster将模型幻觉生成的风格一致的配对数据集用于对比学习,训练一个全局投影模块,这个全局投影模块可从图像嵌入中提炼出风格信息。
虽然提取出的风格能够通过Cross-Attention注入到模型之中,但这会导致时间上的闪烁和有限的动态范围。为了解决这些问题,StyleMaster提出了一个运动适配器(Motion Adapter),以最小的改动提高时间质量。该模块在静态视频上进行训练,并能在推理时隐式增强风格化程度,从而与风格化目标保持一致。
![]()
图2 StyleMaster方法概述
为了同时实现风格化视频生成和视频风格迁移,StyleMaster还在模型中加入了内容引导功能,采用tile ControlNet作为内容引导机制。由于tile中的颜色信息可能会干扰风格迁移的过程,StyleMaster删除了tile中的颜色信息,将其转换为灰度图像。Gray Tile ControlNet使用N/2个vanilla DiT块,以固定时间间隔将内容特征注入到去噪网络,其中,vanilla DiT块只包含自注意力、时间注意力、文本交叉注意力和FFN,不包含前文提到的设计模块。每一个vanilla DiT块的输出将被添加到相应的风格DiT块,作为内容指导。
![]()
图3 文生图生成过程中的模型幻觉过程
图3展示了利用模型幻觉生成风格一致的配对数据集的过程,在文生图生成过程中,分别对其进行了两次变换,图中使用的是原始图像和垂直翻转图像,分别由v1和v2定义。在生成过程中,使用不同的文本提示来指导双重去噪的过程,并将去噪得到的噪声通过v1和v2的逆操作转换为原始视图,将两个噪声相加并求其均值,得到最终的噪声。
四、部分结果展示
接下来首先展示使用StyleMaster进行图像风格迁移的结果,作者认为图像风格转移是风格学习最直观的评估方法,对基础模型生成能力或时间因素的依赖性最小。因此作者将图像看作是一帧的视频,选取两种无需训练的图像风格化的SOTA方法StyleID和InstantStyle以及一种基于训练的SOTA方法CSGO进行对比。表1展示了定量对比的结果,StyleMaster在前三个指标上明显优于其他方法,这表明其从参考风格图中准确地学习到了风格。虽然在内容一致性指标上略逊一筹,但作者认为,有效的风格转换需要在风格保真度和内容保留之间取得平衡。
![]()
表1 相较于现有方法,StyleMaster在风格学习上有较大提高
如图4所示,从定性对比结果上看,StyleMaster能够准确捕捉参考风格,同时保持较高的内容保留程度:
![]()
图4 StyleMaster与图像风格迁移SOTA方法的定性对
针对风格化视频生成任务,作者将StyleMaster与现有的SOTA方法StyleCrafter和VideoComposer进行对比。如表2所示,StyleMaster在五个指标上都优于StyleCrafter和VideoComposer,这表明StyleMaster在文本和视频对齐方面具有优势,增强了视觉和动态质量,以及更流畅的运动。尽管在CSD-Score上落后与VideoComposer,因其直接复制了参考图像中的内容,所以得到更高的风格得分,但是StyleMaster在文本对齐的基础上实现了风格注入,实现了与参考图像的高文生视频对齐度和高风格一致性:
![]()
表2 相较现有方法,StyleMaster在五个指标上都有显著提高
图5展示了风格化视频生成的结果,其他方法要么无法准确捕捉参考图像中的样式,要么文本对齐效果不佳。VideoCom poser的生成结果与给定的文本提示几乎没有对应关系,StyleCrafter在一定程度上展示了风格相似性,但该方法只学习了颜色等表面风格表征,而没有学习完整的风格表征。同时,作者还比较了单张/多张参考图片的生成结果,StyleMaster都生成了高质量的风格化视频。
![]()
图5 StyleMaster的文生视频定性对比 五、总结与展望
现有的风格化方法在风格提取和迁移到视频领域方面仍有欠缺,本文结合全局和局部风格信息以及使用对比学习策略,实现了更好的风格提取效果。并加入了运动适配器和Gray Tile ControlNet,实现了更高的视频质量和更精确的内容指导,同时完成了风格化视频生成和视频风格迁移任务,在在文本对齐和风格相似性方面都明显优于其他方法。
目前的风格化方法通常依赖于参考风格图像。然而,视频风格化不仅包括图形风格,还涉及粒子效果和运动特征等动态元素。在未来的研究中,还可以探索从参考视频中提取和转移动态风格的方法。
思考与讨论
Q: StyleMaster使用了灰度tile的ControlNet,会有明显的性能提升吗?
A: 会。如图6所示,无论是与Canny还是与RGB Tile对比,使用灰度tile不仅能够提供更精确的内容引导,还能够消除控制图对于结果风格一致性的影响,使得结果与风格参考图在风格表达上更一致。
![]()
图6 Gray Tile ControlNet对风格一致性的影响
Q: StyleMaster中使用了运动适配器,不同的适配比例会影响模型的性能表现吗?
A: 会。当适配比例向负方向增加时,生成的结果会更偏离真实图像,从而使视频更具风格。当适配比例向正方向增加时,动态程度也会增加,但一旦超过0.3,文本对齐度和运动平滑度都会受到损害。
以下是开放性问题,欢迎读者朋友留言讨论:
Q: 尽管StyleMaster在图像风格化和视频风格化领域表现出色,但在实际应用中可能会面临那些挑战?
参考文献
[1] Jiwoo Chung, Sangeek Hyun, and Jae-Pil Heo. Style injection in diffusion: A training-free approach for adapting large-scale diffusion models for style transfer. CVPR. 8795-8805, 2024.
[2] Haofan Wang, Matteo Spinelli, Qixun Wang, Xu Bai, Zekui Qin, and Anthony Chen. InstantStyle: Free lunch towards style-preserving in text-to-image generation. arXiv preprint arXiv: 2404.02733, 2024.
[3] Peng Xing, Haofan Wang, Yanpeng Sun, Qixun Wang, Xu Bai, Hao Ai, Renyuan Huang, and Zechao Li. CSGO: Content-style composition in text-to-image generation. arXiv preprint arXiv: 2408.16766, 2024.
[4] Wen Li, Muyuan Fang, Cheng Zou, Biao Gong, Ruobing Zheng, Meng Wang, Jingdong Chen, and Ming Yang. StyleTokenizer: Defining image style by a single instance for controlling diffusion models. ECCV. 110-126, 2024.
[5] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. VideoComposer: Compositional video synthesis with motion controllability. NeurIPS. 7594-7611, 2023.
[6] Gongye Liu, Menghan Xia, Yong Zhang, Haoxin Chen, Jinbo Xing, Yibo Wang, Xintao Wang, Ying Shan, and Yujiu Yang. StyleCrafter: Taming artistic video diffusion with reference-augmented adapter learning. ACM TOG & SIGGRAPH Asia. 43(6), 251:1-251:10. 2024.
[7] Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, and Tom Goldstein. Investigating style similarity in diffusion models. ECCV. 143-160, 2024.
作者:柏梓桓 来源:公众号 【深圳大学可视计算研究中心】
llustration From IconScout By Nadya Fedrunova
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
michellechang@thejiangmen.com
或添加工作人员微信(michelle333_)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.