网易首页 > 网易号 > 正文 申请入驻

风格迁移重大突破!西湖大学等提出StyleStudio攻克「过拟合」难题 | CVPR 2025

0
分享至

新智元报道

编辑:LRST

【新智元导读】StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题,通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导,实现精准控制风格元素,提升生成图像的质量和稳定性,无需额外训练,使用门槛更低!

近年来,随着扩散模型的发展,风格迁移技术在文本引导的图像生成任务中取得了显著突破。

然而,尽管现有方法可以实现优秀的风格化效果,但其对文本信息的精准控制仍存在明显不足,大多数方法在融合风格图像与文本描述时,往往会让生成结果过度依赖参考风格图像,导致对文本内容的响应能力下降。

「风格主导的失衡问题」使得用户在输入文本提示时难以精准控制图像的颜色、结构或其他细节属性,还可能引入不稳定因素,例如棋盘格效应,进一步限制了其实用性。

为了解决这些问题,西湖大学、复旦大学、南洋理工大学、港科广的研究人员提出了StyleStudio,一种无需额外训练即可增强文本控制能力、提升风格选择灵活性,并改善图像稳定性的方法。

论文链接: https://arxiv.org/abs/2412.08503

项目地址:https://stylestudio-official.github.io/

Github地址:https://github.com/Westlake-AGI-Lab/StyleStudio

Demo地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio

研究人员还在Huggingface上提供了在线Demo,点击即可体验。

目前,该研究成功中稿CVPR 2025,相关代码已经开源。

风格迁移的挑战:如何克服「过拟合」问题

在文本驱动的风格迁移任务中,仍然存在两个关键的挑战,极大限制了生成结果的灵活性和稳定性。

文本与风格的对齐问题当前的风格迁移方法在处理文本与风格图像的融合时,常常面临文本与图像条件之间的对齐难题。

传统方法往往会过度依赖参考风格图像,导致风格特征的迁移失去精确控制,进而使得生成的图像与文本条件不完全匹配,文本与风格之间的失调不仅削弱了生成图像的文本响应能力,也使得模型在面对复杂文本提示时缺乏适应性。

棋盘格现象在风格迁移过程中,生成图像中经常会出现布局不稳定或重复图案的问题,例如棋盘格效应。

这种现象会显著影响生成图像的视觉质量,特别是在大范围的风格迁移任务中,布局的连贯性和稳定性往往难以保证。这不仅损害了图像的美学效果,也限制了风格迁移技术在实际应用中的稳定性和可靠性。

StyleStudio的创新解决方案

针对上述问题,研究人员提出了几项核心创新,旨在提升文本驱动的风格迁移模型的灵活性与稳定性:

跨模态自适应实例正则化技术(Cross-modal AdaIN)

传统基于适配器(Adapter-Based)的风格迁移方法通过简单的加权求和方式,将文本与风格图像的条件信息进行融合,但这种方式会导致风格过拟合,最终图像的文本对齐能力下降。

为了解决这一问题,研究人员提出了跨模态自适应实例正则化(Cross-modal AdaIN),在经典AdaIN技术的基础上进行了创新,适用于文本驱动的风格迁移任务。

该方法的核心思想是:先分别提取文本和风格图像的特征并生成独立的特征网格,然后借助AdaIN技术,将文本特征与风格特征进行归一化融合,使得风格图像的属性能够自适应地调节文本特征,从而有效保留风格的整体性,同时确保文本信息的准确传达,最终生成符合文本要求的风格化图像。

该技术的优势在于:解决了传统加权求和方法中存在的文本与风格信息冲突问题,使得两者能够在同一个嵌入空间中和谐共存。

更重要的是,这一方法不依赖额外的训练过程,即使在不改变现有模型架构的情况下,可以无缝替代传统的适配器方法,避免了复杂的超参数调节,显著提升了生成图像的质量和准确性。

教师模型稳定生成

在图像生成任务中,布局稳定性对最终的视觉效果至关重要。研究人员发现,在风格迁移的过程中,常见的一个问题是棋盘格效应,即生成的图像出现不自然的重复图案,从而影响图像的整体美感。

为了应对这一挑战,研究人员提出了一个一种即插即用(plug and play)的方法,利用风格迁移方法中对应的Stable Diffusion模型作为教师模型,在生成过程中提供布局指导。

具体来说,这种方法通过教师模型来引导风格化图像生成的过程:在每一个去噪步骤中,用教师模型生成的注意力图替代原本风格化图像的注意力图,从而确保图像的空间结构特征稳定并且可以实现跨风格图一致。

在实验中,可以观察到两个重要现象:

首先,相较于替换交叉注意力图,用自注意力图进行替换能够更好地稳定图像布局,并且保证了在跨风格图像生成过程中布局的一致性;

其次,自注意力图的替换只需要在去噪的初期进行,若教师模型的影响延续过长,则可能会导致风格特征的丧失。

基于风格图像的无分类器生成引导(Style-CFG)

在风格迁移中,当参考风格图像融合了多种不同的风格元素(如卡通风格与树叶纹理或夜景元素的结合)时,往往会出现风格模糊的问题。

这种情况下,现有的方法往往难以有效区分和控制不同风格元素,导致生成的图像中风格混杂,无法精确突出所需的特定风格特征。

为了应对这一挑战,研究人员借鉴了扩散模型中常用的无分类器引导(CFG)技术,提出了基于风格的无分类器引导(Style-Based Classifier-Free Guidance, SCFG)。该方法通过对多种风格元素进行选择性控制,允许用户明确指定需要强调的风格特征,并有效过滤掉不相关或冲突的元素,从而实现更精确的风格迁移。

举例来说,若参考图像中包含卡通风格与落叶的元素,Style-CFG可以确保最终生成的图像仅保留卡通风格,同时去除落叶部分,避免风格元素的冲突和模糊,提供了一种灵活且可控的风格迁移机制,使得图像生成过程中的风格调整更加精准、符合用户需求。

实验结果

实验结果表明,StyleStudio模型能够在多个方面超越现有的风格迁移技术:在文本对齐方面,StyleStudio能够精确捕捉文本中指定的风格属性,如颜色信息,确保生成图像忠实于文本提示。在图像稳定性方面,模型有效避免了内容泄漏和布局不稳定等问题。

针对复杂的文本条件,StyleStudio同样展现出了强大的处理能力,能够在细致的文本描述下实现精确的风格和内容融合。

StyleStudio中提出的基于风格图像的无分类器生成引导(Style-Based Classifier-Free Guidance,SCFG)也经过了充分的实验验证,通过一系列实验评估了该方法的有效性,并展示了相对于传统的无分类器指导方法的显著优势。

定量实验与用户调研实验表明,StyleStudio在多项指标上超越了传统方法,展现了其强大的通用性和稳健性。

结论与展望

StyleStudio的提出代表了文本驱动风格迁移技术的一次重要进步,尤其在文本控制能力、风格选择性迁移和图像生成稳定性等方面取得了显著的技术突破。该方法不仅在学术领域具有重要价值,也为数字艺术创作、广告设计等行业提供了强大的技术支持。

更为重要的是,StyleStudio能够在无需额外训练的条件下直接应用,极大地降低了使用门槛,并已在多个风格迁移任务中取得优异成绩。

参考资料:

https://arxiv.org/abs/2412.08503

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
翻车现场!百万网红阿爆人设崩塌,住别墅、戴宝格丽卖惨无人共情

翻车现场!百万网红阿爆人设崩塌,住别墅、戴宝格丽卖惨无人共情

国际阿尝
2026-01-22 09:43:36
医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

医生发现:天冷坚持戴口罩的人,用不了多久,身体或会有5大变化

霹雳炮
2025-12-04 22:54:47
湖北一大妈跳了20多年广场舞后,拿100多个金镯子去卖,说家里还有金项链没拿,我人好,都是别人送的

湖北一大妈跳了20多年广场舞后,拿100多个金镯子去卖,说家里还有金项链没拿,我人好,都是别人送的

LULU生活家
2025-12-24 18:51:10
维多利亚跳舞内幕公开:当众冷落羞辱儿媳妇,妮可拉哭着离场

维多利亚跳舞内幕公开:当众冷落羞辱儿媳妇,妮可拉哭着离场

琴声飞扬
2026-01-23 09:35:41
狂揽30亿!一双鞋1499元,“童鞋界爱马仕”收割中产,闷声发大财

狂揽30亿!一双鞋1499元,“童鞋界爱马仕”收割中产,闷声发大财

品牌观察官
2026-01-19 16:54:46
2026全市“施工图”定了!珠海将力推这些项目→

2026全市“施工图”定了!珠海将力推这些项目→

珠海发布
2026-01-23 20:41:43
泰国国家旅游局因Lisa旅游宣传图引发争议

泰国国家旅游局因Lisa旅游宣传图引发争议

曼谷陈大叔
2026-01-22 15:59:48
央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

一娱三分地
2025-12-04 17:00:33
靠谱不?曼城主场负倒数第一,枪手完胜红魔,英超冠军本轮悬念终

靠谱不?曼城主场负倒数第一,枪手完胜红魔,英超冠军本轮悬念终

涛哥侃球
2026-01-23 15:17:35
叶文斌妈妈发文感谢祖国,称那些帮助了她的都是大恩人

叶文斌妈妈发文感谢祖国,称那些帮助了她的都是大恩人

映射生活的身影
2026-01-22 14:48:25
不装了,穆帅突爆争议发言!本菲卡很意外,球迷:又开始甩锅了

不装了,穆帅突爆争议发言!本菲卡很意外,球迷:又开始甩锅了

阿泰希特
2026-01-23 13:31:25
毛主席个子确实高,看着他的衣服有点小,这是与五大元帅的合影

毛主席个子确实高,看着他的衣服有点小,这是与五大元帅的合影

大江
2025-11-30 08:27:08
同样是26000分,库里用了17年,科比15年,詹姆斯哈登和邓肯呢?

同样是26000分,库里用了17年,科比15年,詹姆斯哈登和邓肯呢?

老范谈史
2025-12-27 12:02:25
最新!川普小儿子勇救女网友 女主被狂暴男暴打 表现甩亲爹几条街

最新!川普小儿子勇救女网友 女主被狂暴男暴打 表现甩亲爹几条街

北国向锡安
2026-01-23 17:32:33
第98届奥斯卡奖提名公布,《罪人》凭啥创纪录拿下16个提名?

第98届奥斯卡奖提名公布,《罪人》凭啥创纪录拿下16个提名?

阿废冷眼观察所
2026-01-23 13:24:46
医生提醒:服用瑞舒伐他汀,这4种食物要戒掉,再吃容易心肌梗死

医生提醒:服用瑞舒伐他汀,这4种食物要戒掉,再吃容易心肌梗死

健康科普365
2026-01-06 14:15:10
狄龙表示:五年前的詹姆斯,你不可能对他喷垃圾话,因为他太强了

狄龙表示:五年前的詹姆斯,你不可能对他喷垃圾话,因为他太强了

爱体育
2026-01-23 23:16:13
赵心童用时7分07秒打出147满分,历史上仅次于奥沙利文

赵心童用时7分07秒打出147满分,历史上仅次于奥沙利文

懂球帝
2026-01-23 11:24:38
一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

一场追悼会,戳穿向华强夫妇在香港的真实地位,原来李连杰没说谎

凡知
2026-01-21 17:14:40
科斯塔:比起穆帅更想和西蒙尼“约架”;踢热刺就是去干仗

科斯塔:比起穆帅更想和西蒙尼“约架”;踢热刺就是去干仗

懂球帝
2026-01-24 00:21:09
2026-01-24 03:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14393文章数 66525关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

本地
健康
数码
艺术
旅游

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

耳石脱落为何让人天旋地转+恶心?

数码要闻

号称枪战之王!iQOO 15 Ultra首发超感触控肩键:寿命近乎无限

艺术要闻

人像摄影背后的真相,模特并不是全部!

旅游要闻

北京世园“天宫灯会”正式开幕,持续至3月8日

无障碍浏览 进入关怀版