网易首页 > 网易号 > 正文 申请入驻

WACV 2025 | 多任务学习提升Visual Anagram生成

0
分享至

本文介绍了来自清华大学智能产业研究院的研究团队提出的基于预训练文生图扩散模型结合多任务学习方法的生成Visual Anagram的方法,此方法无需训练/微调现有模型,并解决了已有方法存在的概念分离与主导等问题,在此生成任务上取得新的最佳性能。

论文题目: Diffusion-based Visual Anagram as Multi-task Learning 论文链接: https://arxiv.org/abs/2412.02693 代码链接: https://github.com/Pixtella/Anagram-MTL

一、研究背景与动机

视觉回文(Visual Anagram)是一类特殊的图像,在不同角度下,他们看起来所呈现的内容可能完全不同,这类视幻觉在很久以前就得到了艺术家、哲学家以及科学家的关注与研究。

早期由艺术家手工创作的Visual Anagram代表包括1892刊载于德国幽默杂志Fliegende Blät ter的素描画Kaninchen und Ente,这幅画正着看像一只嘴巴朝左的鸭子,但如果将其旋转45度,它又像一只兔子,原先的鸭嘴部分成了兔子耳朵。

Kaninchen und Ente

另一个代表是意大利文艺复兴时期的矫饰主义代表画家朱塞佩·阿尔钦博托(Giuseppe Arcimboldo)的油画作品The Fruit Basket,它正着看像是一个果篮,但倒过来时,则呈现为一个人的面部

这些画作在不同的视角或几何变换下生成多重意象,而这些意象需要在一幅图像中协调统一

最近,基于预训练扩散模型生成Visual Anagram的方法被提出[1],该方法将含噪图像经过不同视角变换后分别输入到扩散模型中,然后将预测出的噪声取平均后进行去噪,此方法可以成功生成一些Visual Anagram。

现有的基于扩散模型生成Visual Anagram方法示意[1]

但是,由于此方法对去噪过程缺少显式的控制,较容易出现两类失败情形:概念分离(Concept Segregation)和概念主导(Concept Domination)。概念分离指的是不同视角下的概念被独立地生成,未能实现真正的图像一体化;而概念主导则是某些对象显著压制了其他对象的表达。这些问题使得现有方法难以生成满足要求的高质量Visual Anagram。

现有方法的失败案例。左:概念分离,兔子和小提琴被独立地生成在了图像的不同区域而未达成一幅图像中的协调统一;右:概念主导,生成的图像被概念“猫”主导,没能在另一个视角下表达“船”。

在本研究中,为解决上述问题,研究团队将Visual Anagram的生成建模为一个多任务学习问题,并设计了抗分离优化(Anti-Segregation Optimization)、声向量平衡(Noise Vector Balancing)、噪声方差修正(Noise Variance Rectification)三项核心技术。

实验结果表明,该方法在多项定量和定性评估指标上均显著优于现有的基线方法,以及在生成更复杂的三视角Visual Anagram时,展示出了更高的灵活性和一致性。

二、方法

算法总览:在每个去噪步骤中,各视角下的中间图像 与对应文本提示先一起通过扩散模型以及一个CLIP模型,随后经过噪声向量平衡、噪声方差修正、抗分离优化三个优化步骤得到下一去噪步骤的输入图像。

问题定义:问题的目标是利用现成的文生图扩散模型生成Visual Anagram。形式化地,给定一组文本提示 及其对应的视角 ,期望生成一幅图像 ,使其在每个视角 下与相应的文本提示词 匹配。

2.1 抗分离优化

在多任务学习(Multi-task Learning)中,单一模型被训练来同时解决多个任务,这是通过在模型中共享表征以利用任务之间的相似性达成的。类似地,在Visual Anagram生成中,不同文本提示中的概念(Concept)被期望共享同一幅图像

抗分离优化旨在解决概念分离问题。研究团队设计了一种推理时损失项(Inference-time loss term),调整中间图像以鼓励不同视角下文本提示词与图像的交叉注意力图(Cross-attention maps)重叠。损失项的计算公式如下:

其中, 遍历注意力图中的所有像素点, 表示在时间步 时,像素点 处与来自概念 的所有令牌(token)的注意力分数之和, 是视角总数, 是一个用于控制目标重叠比例的超参数。

在每个去噪步骤之后,使用此损失项通过单步梯度下降调整图像:

其中, 控制调整力度。更新后的图像将传递到下一个去噪步骤。

抗分离优化技术通过促进注意力图重叠进而鼓励所生成概念的重叠,从而有效地防止了概念的分离,进而提高Visual Anagram生成质量。

抗分离优化:定性结果。应用抗分离优化后,去噪过程找到了两个视角下的生成任务的共性,体现为交集更大的注意力空间分配,最终实现单一图像中更高程度的概念统一和画面协调性。2.2 噪声向量平衡

多任务学习中的一个常见挑战是任务间梯度的不平衡问题,其中某些任务可能主导整个学习过程。为了解决这一问题,GradNorm[2]提出可以实时衡量每个任务的训练进展,并为进展较少的任务分配更高的梯度权重

受此启发,研究团队提出了一种基于任务完成度的噪声向量权重分配方法。具体来说,将文本提示及其对应的含噪图像分别输入到CLIP文本编码器和在含噪图像上训练过的CLIP图像编码器中。然后,把图像与文本编码的余弦相似度作为任务完成度评分,这个评分将用于组合噪声向量时各向量的赋权。

赋权和组合过程的公式如下:

1. 计算每个视角的任务完成度评分(余弦相似度):

2. 计算每个视角的权重系数:

3. 系数归一化:

4. 组合重赋权后的噪声向量:

其中, 和 分别代表CLIP文本编码器和CLIP图像编码器, 为视角的下标, 表示视角变换函数, 是视角 的文本提示, 是视角 在时间步 的噪声预测, 是去噪步骤的总数。重赋权后的噪声向量 将被用来计算下一个图像。

直观上,生成任务更接近完成的视角的噪声向量会被赋予较低的权重,防止它在去噪过程中占据主导地位。通过这种方式,噪声向量平衡技术有效地平衡了不同视角的生成任务的进度,提高Visual Anagram的整体质量。

噪声向量平衡:定性结果。基线方法生成的图像被概念“鹿”主导,而几乎没有体现“鸟”,应用提出的噪声向量平衡技术后,鸟的眼睛、尾巴上的羽毛、腿和爪子等细节被成功地生成。2.3 噪声方差修正

研究团队观察到,尽管每个视角的噪声向量估计被期望服从标准正态分布,但在Visual Anagram的生成中,噪声向量直接平均后可能不再保持这些统计属性,这可能破坏整个去噪过程。因此,研究团队提出了一种矫正方法,通过施加一个比例因子来调整组合后的噪声向量,使其方差呈现标准方差。

具体步骤和公式如下:

1. 基本假设:每个视角下预测所得噪声向量 遵循标准高斯分布 。

2. 因此,对于重赋权后的组合噪声向量中的每个元素 ,其期望值为零:

3. 然而,方差不一定为一。为了解决这个问题,研究者们提出通过一个比例因子 来矫正组合噪声向量,使得方差为单位方差。

4. 由此可得到比例因子 的计算公式:

5. 其中,协方差项 等于它们的相关系数,因为 和 都遵循标准高斯分布。

6. 根据大数定律,可以近似协方差项为:

7. 最后,通过将估计的协方差项代入,计算出所需的比例因子 ,并将组合噪声向量乘以这个比例因子进行矫正。

通过这种噪声方差矫正方法,噪声的关键统计属性得以被保持,由此提高整体的图像生成质量。

噪声方差修正:定性结果。应用该技术后,所生成图像的质量更优。
三、实验

研究团队进行了全面的定性定量以及消融实验。对于定量实验,在二视角、三视角的设定下,以CIFAR-10数据集中10类概念的相互组合作文文本提示,令所有参测方法对每组提示词生成10张图像,使用最差视角对齐度(Worst Alignment Score)、隐藏度(Concealment Score)、平均视角对齐度(Average Alignment Score)三个定量指标评价所生成的Visual Anagrams的质量。

3.1 定量结果

定量结果:研究团队提出的方法在所测指标上优于已有方法。3.2 消融实验

消融实验:抗分离优化(Anti-Segregation Optimization)、噪声向量平衡(Noise Vector Balancing)、噪声方差修正(Noise Variance Rectification)三项核心技术均对提升定量结果有效。3.3 定性结果

定性结果:研究团队提出的方法可以生成视觉效果更优的Visual Anagram。
四、总结

此项研究从多任务学习领域汲取灵感,设计三项核心技术,解决了现有方法的概念分离概念主导两大问题,并从数学上修正了去噪过程,进而在预训练图生文扩散模型生成Visual Anagram这一问题上取得新的最优性能

此外,基于扩散模型生成Visual Anagram的研究,不仅为计算机视觉领域提供了创新的生成方法,也为艺术创作认知科学研究等领域提供了新的思路和工具。期待未来此类研究能为生成式模型的多模态融合与跨领域应用提供新的技术支持和理论框架。

参考文献

[1] Geng, Daniel, Inbum Park, and Andrew Owens. “Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models,” 24154–63, 2024. https://openaccess.thecvf.com/content/CVPR2024/html/Geng_Visual_Anagrams_Generating_Multi-View_Optical_Illusions_with_Diffusion_Models_CVPR_2024_paper.html.

[2] Chen, Zhao, Vijay Badrinarayanan, Chen-Yu Lee, and Andrew Rabinovich. “GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks.” In Proceedings of the 35th International Conference on Machine Learning, 794–803. PMLR, 2018.

https://proceedings.mlr.press/v80/chen18a.html.

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
香山论坛现场,美方代表发声,对华政策变了,中方对日本发出警告

香山论坛现场,美方代表发声,对华政策变了,中方对日本发出警告

沧海旅行家
2025-09-19 15:13:21
《731》票房破4.1亿,豆瓣却差评如潮,终于理解吴京这段话

《731》票房破4.1亿,豆瓣却差评如潮,终于理解吴京这段话

娱乐圈笔娱君
2025-09-19 11:23:07
完了!《731》首波口碑出炉,五星好评屈指可数,一星满屏皆是

完了!《731》首波口碑出炉,五星好评屈指可数,一星满屏皆是

电影票房预告片
2025-09-18 14:06:06
朱孔军任武汉大学党委书记

朱孔军任武汉大学党委书记

界面新闻
2025-09-19 15:53:50
北京电影家协会发布致歉声明:寻访会员方法不当

北京电影家协会发布致歉声明:寻访会员方法不当

界面新闻
2025-09-19 11:42:49
收到中方好处,波兰突然翻脸,继续卡住中欧班列,除非满足一条件

收到中方好处,波兰突然翻脸,继续卡住中欧班列,除非满足一条件

文雅笔墨
2025-09-19 13:25:24
“我不受这窝囊气!”女老师被骂后果断离职,留下家长愣在原地

“我不受这窝囊气!”女老师被骂后果断离职,留下家长愣在原地

妍妍教育日记
2025-09-17 17:34:03
沙特巴基斯坦同盟成立,中国武器将迎来超级订单吗?

沙特巴基斯坦同盟成立,中国武器将迎来超级订单吗?

世家宝
2025-09-19 00:43:44
奇葩!乌军烧柴草熏死18名俄军官

奇葩!乌军烧柴草熏死18名俄军官

史政先锋
2025-09-19 13:38:52
上海独生女嫁台湾,10口人住一起,吐槽生活像牛马,惹怒两地网友

上海独生女嫁台湾,10口人住一起,吐槽生活像牛马,惹怒两地网友

禾寒叙
2025-09-18 17:21:30
穿过AI迷雾,企业如何从「+AI」奔向「AI+」?

穿过AI迷雾,企业如何从「+AI」奔向「AI+」?

36氪
2025-09-17 10:38:36
实探成都苹果直营店:取iPhone 17的顾客在店外排起长队,有人5点半就来了

实探成都苹果直营店:取iPhone 17的顾客在店外排起长队,有人5点半就来了

极目新闻
2025-09-19 09:12:05
单日票房破3亿!电影《731》刷新中国影史纪录!制片方:立即停止传播、下架所有侵权内容

单日票房破3亿!电影《731》刷新中国影史纪录!制片方:立即停止传播、下架所有侵权内容

每日经济新闻
2025-09-18 20:33:41
非必要不做CT!《新英格兰医学杂志》:每10个儿童血癌就有1个与CT有关;每多做一次CT,都可能增加癌症风险

非必要不做CT!《新英格兰医学杂志》:每10个儿童血癌就有1个与CT有关;每多做一次CT,都可能增加癌症风险

医诺维
2025-09-19 11:55:55
中国八月经济数据全面下滑,结构转型迫在眉睫

中国八月经济数据全面下滑,结构转型迫在眉睫

黑噪音
2025-09-19 11:29:00
云海肴CEO称赵晗心梗前承受很大压力!“公司也经历考验”

云海肴CEO称赵晗心梗前承受很大压力!“公司也经历考验”

南方都市报
2025-09-19 16:03:06
已经没人敢跟他拼价格了!开“穷鬼超市”,湖南老板一年卖500亿

已经没人敢跟他拼价格了!开“穷鬼超市”,湖南老板一年卖500亿

毒sir财经
2025-09-18 16:21:12
农妇“辱骂”法官,10万罚款撤销了

农妇“辱骂”法官,10万罚款撤销了

中国新闻周刊
2025-09-19 15:57:40
发朋友圈评局长免职被行拘4天,男子提起行政复议请求精神损害抚慰金1元,律师:不构成诽谤

发朋友圈评局长免职被行拘4天,男子提起行政复议请求精神损害抚慰金1元,律师:不构成诽谤

极目新闻
2025-09-19 18:24:12
上海一小学校园餐现540天保质期牛肉,进货商曾进购720天保质期五花肉,溯源记录被紧急下架

上海一小学校园餐现540天保质期牛肉,进货商曾进购720天保质期五花肉,溯源记录被紧急下架

极目新闻
2025-09-19 16:29:45
2025-09-19 20:11:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2223文章数 591关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

越南最高领导层"扩员"了 干部的层级架构被大幅修改

头条要闻

越南最高领导层"扩员"了 干部的层级架构被大幅修改

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

"矿霸"填埋万吨危废 当地政府成立调查组

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

时尚
旅游
健康
教育
家居

今日热点:电影《震耳欲聋》定档1004;《惊天魔盗团3》发布新预告……

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

内分泌科专家破解身高八大谣言

教育要闻

“不要让女儿占男生便宜” 男子谈教育 女儿你所占到的便宜都会以另一种带利息的方式还回去

家居要闻

公共艺术 限时体验打造

无障碍浏览 进入关怀版