网易首页 > 网易号 > 正文 申请入驻

风格迁移重大突破!西湖大学等提出StyleStudio攻克「过拟合」难题 | CVPR 2025

0
分享至

新智元报道

编辑:LRST

【新智元导读】StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题,通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导,实现精准控制风格元素,提升生成图像的质量和稳定性,无需额外训练,使用门槛更低!

近年来,随着扩散模型的发展,风格迁移技术在文本引导的图像生成任务中取得了显著突破。

然而,尽管现有方法可以实现优秀的风格化效果,但其对文本信息的精准控制仍存在明显不足,大多数方法在融合风格图像与文本描述时,往往会让生成结果过度依赖参考风格图像,导致对文本内容的响应能力下降。

「风格主导的失衡问题」使得用户在输入文本提示时难以精准控制图像的颜色、结构或其他细节属性,还可能引入不稳定因素,例如棋盘格效应,进一步限制了其实用性。

为了解决这些问题,西湖大学、复旦大学、南洋理工大学、港科广的研究人员提出了StyleStudio,一种无需额外训练即可增强文本控制能力、提升风格选择灵活性,并改善图像稳定性的方法。

论文链接: https://arxiv.org/abs/2412.08503

项目地址:https://stylestudio-official.github.io/

Github地址:https://github.com/Westlake-AGI-Lab/StyleStudio

Demo地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio

研究人员还在Huggingface上提供了在线Demo,点击即可体验。

目前,该研究成功中稿CVPR 2025,相关代码已经开源。

风格迁移的挑战:如何克服「过拟合」问题

在文本驱动的风格迁移任务中,仍然存在两个关键的挑战,极大限制了生成结果的灵活性和稳定性。

文本与风格的对齐问题当前的风格迁移方法在处理文本与风格图像的融合时,常常面临文本与图像条件之间的对齐难题。

传统方法往往会过度依赖参考风格图像,导致风格特征的迁移失去精确控制,进而使得生成的图像与文本条件不完全匹配,文本与风格之间的失调不仅削弱了生成图像的文本响应能力,也使得模型在面对复杂文本提示时缺乏适应性。

棋盘格现象在风格迁移过程中,生成图像中经常会出现布局不稳定或重复图案的问题,例如棋盘格效应。

这种现象会显著影响生成图像的视觉质量,特别是在大范围的风格迁移任务中,布局的连贯性和稳定性往往难以保证。这不仅损害了图像的美学效果,也限制了风格迁移技术在实际应用中的稳定性和可靠性。

StyleStudio的创新解决方案

针对上述问题,研究人员提出了几项核心创新,旨在提升文本驱动的风格迁移模型的灵活性与稳定性:

跨模态自适应实例正则化技术(Cross-modal AdaIN)

传统基于适配器(Adapter-Based)的风格迁移方法通过简单的加权求和方式,将文本与风格图像的条件信息进行融合,但这种方式会导致风格过拟合,最终图像的文本对齐能力下降。

为了解决这一问题,研究人员提出了跨模态自适应实例正则化(Cross-modal AdaIN),在经典AdaIN技术的基础上进行了创新,适用于文本驱动的风格迁移任务。

该方法的核心思想是:先分别提取文本和风格图像的特征并生成独立的特征网格,然后借助AdaIN技术,将文本特征与风格特征进行归一化融合,使得风格图像的属性能够自适应地调节文本特征,从而有效保留风格的整体性,同时确保文本信息的准确传达,最终生成符合文本要求的风格化图像。

该技术的优势在于:解决了传统加权求和方法中存在的文本与风格信息冲突问题,使得两者能够在同一个嵌入空间中和谐共存。

更重要的是,这一方法不依赖额外的训练过程,即使在不改变现有模型架构的情况下,可以无缝替代传统的适配器方法,避免了复杂的超参数调节,显著提升了生成图像的质量和准确性。

教师模型稳定生成

在图像生成任务中,布局稳定性对最终的视觉效果至关重要。研究人员发现,在风格迁移的过程中,常见的一个问题是棋盘格效应,即生成的图像出现不自然的重复图案,从而影响图像的整体美感。

为了应对这一挑战,研究人员提出了一个一种即插即用(plug and play)的方法,利用风格迁移方法中对应的Stable Diffusion模型作为教师模型,在生成过程中提供布局指导。

具体来说,这种方法通过教师模型来引导风格化图像生成的过程:在每一个去噪步骤中,用教师模型生成的注意力图替代原本风格化图像的注意力图,从而确保图像的空间结构特征稳定并且可以实现跨风格图一致。

在实验中,可以观察到两个重要现象:

首先,相较于替换交叉注意力图,用自注意力图进行替换能够更好地稳定图像布局,并且保证了在跨风格图像生成过程中布局的一致性;

其次,自注意力图的替换只需要在去噪的初期进行,若教师模型的影响延续过长,则可能会导致风格特征的丧失。

基于风格图像的无分类器生成引导(Style-CFG)

在风格迁移中,当参考风格图像融合了多种不同的风格元素(如卡通风格与树叶纹理或夜景元素的结合)时,往往会出现风格模糊的问题。

这种情况下,现有的方法往往难以有效区分和控制不同风格元素,导致生成的图像中风格混杂,无法精确突出所需的特定风格特征。

为了应对这一挑战,研究人员借鉴了扩散模型中常用的无分类器引导(CFG)技术,提出了基于风格的无分类器引导(Style-Based Classifier-Free Guidance, SCFG)。该方法通过对多种风格元素进行选择性控制,允许用户明确指定需要强调的风格特征,并有效过滤掉不相关或冲突的元素,从而实现更精确的风格迁移。

举例来说,若参考图像中包含卡通风格与落叶的元素,Style-CFG可以确保最终生成的图像仅保留卡通风格,同时去除落叶部分,避免风格元素的冲突和模糊,提供了一种灵活且可控的风格迁移机制,使得图像生成过程中的风格调整更加精准、符合用户需求。

实验结果

实验结果表明,StyleStudio模型能够在多个方面超越现有的风格迁移技术:在文本对齐方面,StyleStudio能够精确捕捉文本中指定的风格属性,如颜色信息,确保生成图像忠实于文本提示。在图像稳定性方面,模型有效避免了内容泄漏和布局不稳定等问题。

针对复杂的文本条件,StyleStudio同样展现出了强大的处理能力,能够在细致的文本描述下实现精确的风格和内容融合。

StyleStudio中提出的基于风格图像的无分类器生成引导(Style-Based Classifier-Free Guidance,SCFG)也经过了充分的实验验证,通过一系列实验评估了该方法的有效性,并展示了相对于传统的无分类器指导方法的显著优势。

定量实验与用户调研实验表明,StyleStudio在多项指标上超越了传统方法,展现了其强大的通用性和稳健性。

结论与展望

StyleStudio的提出代表了文本驱动风格迁移技术的一次重要进步,尤其在文本控制能力、风格选择性迁移和图像生成稳定性等方面取得了显著的技术突破。该方法不仅在学术领域具有重要价值,也为数字艺术创作、广告设计等行业提供了强大的技术支持。

更为重要的是,StyleStudio能够在无需额外训练的条件下直接应用,极大地降低了使用门槛,并已在多个风格迁移任务中取得优异成绩。

参考资料:

https://arxiv.org/abs/2412.08503

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么追我的人那么少呢

为什么追我的人那么少呢

疾跑的小蜗牛
2026-03-10 20:38:47
特朗普“停战”,还挺讽刺的

特朗普“停战”,还挺讽刺的

中国新闻周刊
2026-03-10 22:22:09
李延贺煽动分裂国家破坏国家统一 被定罪判刑

李延贺煽动分裂国家破坏国家统一 被定罪判刑

闪电新闻
2026-03-09 17:46:01
比低空经济还猛?算电协同首入政府工作报告  10大龙头已实锤布局

比低空经济还猛?算电协同首入政府工作报告 10大龙头已实锤布局

元芳说投资
2026-03-10 06:00:07
伊朗德黑兰突降“黑雨”!有民众呼吸困难 喉咙刺痛

伊朗德黑兰突降“黑雨”!有民众呼吸困难 喉咙刺痛

闪电新闻
2026-03-10 19:30:10
特朗普:伊朗一直“咄咄逼人”,不如现在就做个了断,帮助伊朗人民是有条件的

特朗普:伊朗一直“咄咄逼人”,不如现在就做个了断,帮助伊朗人民是有条件的

大风新闻
2026-03-10 19:23:11
哎,十四亿人口大国居然输给中国台北省队,中国女足此前未输过

哎,十四亿人口大国居然输给中国台北省队,中国女足此前未输过

姜大叔侃球
2026-03-10 20:02:27
深圳上线“政务龙虾”,却被发现政务系统还在用IE浏览器,网友担心信息遭泄露

深圳上线“政务龙虾”,却被发现政务系统还在用IE浏览器,网友担心信息遭泄露

小萝卜丝
2026-03-10 17:33:28
“活不起了?”男子横幅威胁引发热议,真相令人震惊!

“活不起了?”男子横幅威胁引发热议,真相令人震惊!

一丝不苟的法律人
2026-03-10 12:45:20
近八百架无人机导弹奔袭莫斯科等地!乌克兰对俄发动最大规模攻击

近八百架无人机导弹奔袭莫斯科等地!乌克兰对俄发动最大规模攻击

项鹏飞
2026-03-10 16:56:37
美国一华人等红灯时遭人捅伤 !附近店主拿出速冻水饺止血,警方:受害者伤势危及生命,嫌疑人逃离后不久被捕

美国一华人等红灯时遭人捅伤 !附近店主拿出速冻水饺止血,警方:受害者伤势危及生命,嫌疑人逃离后不久被捕

观威海
2026-03-10 17:03:04
“真实承诺-4”行动解密:伊朗超重型导弹的战果与美以反导系统的神话破灭

“真实承诺-4”行动解密:伊朗超重型导弹的战果与美以反导系统的神话破灭

识局Insight
2026-03-10 18:36:42
董明珠对农民养老金问题有多无知?

董明珠对农民养老金问题有多无知?

多村来信
2026-03-10 15:06:06
于冬个人律师:“于冬欠付澳门永利473万元债务”系于东为第三方担保导致,债务已还清

于冬个人律师:“于冬欠付澳门永利473万元债务”系于东为第三方担保导致,债务已还清

每日经济新闻
2026-03-10 18:56:19
随着印度1-3,越南0-4,中国女足四分之一决赛对手正式诞生

随着印度1-3,越南0-4,中国女足四分之一决赛对手正式诞生

侧身凌空斩
2026-03-10 19:01:07
记者:澳政府将在机场为伊朗女足全队提供申请庇护的最后机会

记者:澳政府将在机场为伊朗女足全队提供申请庇护的最后机会

懂球帝
2026-03-10 13:06:17
CBA官宣:北京男篮完成NBA3冠中锋麦基注册 有望战四川首秀

CBA官宣:北京男篮完成NBA3冠中锋麦基注册 有望战四川首秀

醉卧浮生
2026-03-10 19:23:21
真相大白!王曼昱爆冷惨败大藤沙月原因曝光,真不是打不过日本人

真相大白!王曼昱爆冷惨败大藤沙月原因曝光,真不是打不过日本人

曹说体育
2026-03-10 15:24:12
A股:明天周三一定要管住手!别乱动!接下来大概率这样走了!

A股:明天周三一定要管住手!别乱动!接下来大概率这样走了!

另子维爱读史
2026-03-10 19:02:43
炸场!特朗普怒批澳洲:送伊朗女足回国等于害命,美国接盘

炸场!特朗普怒批澳洲:送伊朗女足回国等于害命,美国接盘

老马拉车莫少装
2026-03-10 00:07:32
2026-03-10 23:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14687文章数 66679关注度
往期回顾 全部

科技要闻

全民"养虾"背后:大厂集体下场疯狂卖Token

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

头条要闻

伊朗新最高领袖在袭击中受伤未公开发表讲话 官方回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

本地
旅游
时尚
房产
亲子

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

旅游要闻

泸溪县大陂流村油菜花绽放 满目金黄迎客来

看来看去这些才是适合普通人的穿搭!不花哨、不繁琐,提气质

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

亲子要闻

家长和同学们都应该知道的20英里法则

无障碍浏览 进入关怀版