网易首页 > 网易号 > 正文 申请入驻

MCA-Ctrl:多方协同注意力控制助力AIGC时代图像精准定制化

0
分享至


本文由中国科学院计算技术研究所研究团队完成,第一作者为硕士生杨晗,通讯作者为副研究员安竹林,助理研究员杨传广。

  • 论文标题:Multi-party Collaborative Attention Control for Image Customization
  • 论文地址:https://arxiv.org/abs/2505.01428
  • 论文代码:https://github.com/yanghan-yh/MCA-Ctrl

背景

近年来,生成式人工智能(Generative AI)技术的突破性进展,特别是文本到图像 T2I 生成模型的快速发展,已经使 AI 系统能够根据用户输入的文本提示(prompt)生成高度逼真的图像。从早期的 DALL・E 到 Stable Diffusion、Midjourney 等模型,这一领域的技术迭代呈现出加速发展的态势。

在基础 T2I 模型能力不断提升的背景下,图像定制化(Image Customization)需求日益凸显。所谓图像定制化,是指在对参考图像中的主体(subject)保持身份特征和本质属性的前提下,根据文本或视觉条件生成该主体的新表现形式。这一技术对于电子商务(如虚拟试衣)、数字内容创作(如个性化角色设计)、广告营销等应用场景具有重要价值。

当前,主流的图像定制化方法主要沿着三个技术路线发展:基于反演优化(inversion-based)的方法、基于多模态编码器(multimodal encoder-based)的方法,以及新兴的基于注意力控制(attention control-based)的方法。

尽管这些方法在特定场景下都取得了一定成效,但通过系统的实验评估和实际应用验证,我们发现现有技术方案仍然面临着若干关键性技术瓶颈。

1. 可控性不足:主流文本驱动方法难以精确控制背景、布局等元素。虽然 PhotoSwap 等新技术尝试引入图像条件,但仍局限于单一功能(替换或添加),无法实现统一控制。

2. 复杂视觉场景处理困难:面对多物体交互、遮挡等复杂场景时,常出现主体特征扩散问题,这源于模型在高响应区域生成的不准确性。

3. 背景融合不自然:在图像条件控制下,生成结果与原始背景的融合往往不自然。

方法

本文提出了一种无需微调的通用图像定制方法 — 多主体协同注意力控制 MCA-Ctrl,该方法利用扩散模型内部知识实现图像定制。其核心创新在于将条件图像 / 文本提示的语义信息与主体图像内容相结合,实现对特定主体的新颖呈现。MCA-Ctrl 主要针对三类任务:主题替换、主题生成和主题添加。

本方法分为通过条件图像和条件文本进行图像定制化,如下图(A)和(B)所示。具体而言,本方法首先引入主体定位模块(Subject Location Module,SLM)对图像进行精准定位,然后通过三个并行扩散过程中的自注意力注入与查询机制,在保持条件信息语义空间布局的同时捕获特定主体的视觉特征表示。

具体来说,MCA-Ctrl 在每个扩散步骤中,系统执行以下关键操作:

1)通过自注意力局部查询(Self-Attention Local Query,SALQ)目标过程从主体和条件信息中检索外观与背景内容,如图(C);

2)通过自注意力全局注入(Self-Attention Global Injection,SAGI)将主体和条件信息的注意力图直接注入目标过程,如图(D)。

1. 自注意力局部查询

从任务视角看,我们的目标是从主体图像提取外观特征,并从条件中查询背景内容与语义布局。受 MasaCtrl 启发,我们利用自注意力层的键值特征表征图像内容。如上图(C)所示,目标过程通过查询特征 Q 从主体和条件中检索前景 / 背景内容,并使用主题、背景掩码约束查询区域。这种设计既能确保布局一致性,又能实现特定对象的外观替换与背景对齐。

2. 自注意力全局注入

经过 SALQ 操作后,生成图像常存在两个问题:(1)细节真实性不足,和(2)特征轻微混淆。我们认为这是由于查询过程本质上是原始特征与查询特征的局部融合,难免导致特征交叉。为此,我们提出全局注意力混合注入机制来增强细节真实性与内容一致性。如上图(D)所示,首先计算条件与主体图像的完整注意力矩阵,再通过掩码过滤获得主体特征和背景特征,最后将其注入目标扩散过程。这种重构式特征替换直接增强了前景 / 背景细节表现,同时有效降低了特征混淆。

实验

下图展示了 MCA-Ctrl 的编辑和生成能力。前三行主要展示了主体编辑性能,包括主体替换、主体添加以及复杂视觉场景中的主体替换,充分证明了 MCA-Ctrl 在主体与背景定制方面的高度一致性和真实感表现。第四行重点呈现了 MCA-Ctrl 的零样本定制生成能力,在物体、动物和人物等不同类别上均能实现高质量、高一致性且富有创意的再现效果。

表 1 展示了基于 DreamEditBench 的主题替换任务量化评估结果。相较于 BLIP-Diffusion、DreamBooth 和 PHOTOSWAP 等方法,MCA-Ctrl 在各项指标上均展现出相当或更优的性能表现。表 2 呈现了 DreamBench 上主题生成任务的评估结果。统一参数测试时,MCA-Ctrl 表现优于 Text Inversion、Re-Imagen 和 IP-Adapter,但略逊于 DreamBooth 和 BLIP-Diffusion。经过参数优化后,MCA-Ctrl 取得了与 BLIP-Diffusion 和 DreamBooth 相当的结果。此外,表 3 的人工评估结果表明,MCA-Ctrl 在主体对齐度和文本对齐度方面均表现突出。

我们在下图中展示了对图像生成的影响。实验表明,在复杂场景下,若完全省略 SAGI 操作,会导致目标定位失败和全局特征混淆等问题。随着的逐步增加,主体特征会呈现越来越清晰的表现。但值得注意的是,当超过总去噪步骤的 60%(此为大多数案例的经验阈值)后,继续增加 SAGI 执行步数对图像质量的提升效果将趋于饱和。具体而言,这一现象揭示了两个重要发现:(1)在去噪过程的前期阶段,SAGI 能有效建立主体与背景的语义关联;(2)在去噪后期,过度的全局特征注入反而可能破坏已形成的细节特征。这种 “边际效应递减” 特性为算法参数优化提供了重要指导。

我们也在代码仓库中构建了图像定制化的演示系统,如下所示,用户可以方便地根据自身的需求使用本文提出的方法完成图像定制化任务。

总结

综上所述,该文章提出了一种无需训练的图像定制化生成方法 ——MCA-Ctrl。该模型通过三个并行扩散过程间的协同注意力控制,实现了高质量、高保真度的主体驱动编辑与生成。此外,MCA-Ctrl 通过引入主题定位模块,有效解决了复杂视觉场景中的特征混淆问题。大量实验结果表明,相较于大多数同期工作,MCA-Ctrl 在编辑和生成任务上表现更优

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中俄公路运输量大幅增长

中俄公路运输量大幅增长

参考消息
2026-04-06 18:15:18
2026年五一放假时间表:有3个好消息,2个坏消息,早安排早准备

2026年五一放假时间表:有3个好消息,2个坏消息,早安排早准备

小谈食刻美食
2026-04-06 17:27:45
从今天起,中国不再需要日本道歉!这觉醒,来自3500万亡魂的重量

从今天起,中国不再需要日本道歉!这觉醒,来自3500万亡魂的重量

兴史兴谈
2026-04-06 03:33:35
董宇辉言论炸上热搜,人设一夜崩塌!

董宇辉言论炸上热搜,人设一夜崩塌!

财经三分钟pro
2026-04-07 15:45:52
太委屈!女子清明回娘家偷偷给母亲3000被公开,兄弟姐妹轮番指责

太委屈!女子清明回娘家偷偷给母亲3000被公开,兄弟姐妹轮番指责

火山詩话
2026-04-06 07:51:26
霍思燕泰国犬赛再夺冠,一袭粉色旗袍珠圆玉润,妥妥人间富贵花!

霍思燕泰国犬赛再夺冠,一袭粉色旗袍珠圆玉润,妥妥人间富贵花!

明星私服穿搭daily
2026-04-06 10:34:00
越南政坛大洗牌!第16届国会开幕,13位重量级人物“意外”落选

越南政坛大洗牌!第16届国会开幕,13位重量级人物“意外”落选

缅甸中文网
2026-04-06 13:13:38
局势恶化,中方接到高市消息,日本专机将飞越南,对华包围圈成型

局势恶化,中方接到高市消息,日本专机将飞越南,对华包围圈成型

晓踏就是我
2026-04-07 15:04:51
月球背面长这样?4名宇航员第一眼集体懵圈

月球背面长这样?4名宇航员第一眼集体懵圈

像素与芯片
2026-04-05 13:45:02
现场曝光!为救飞行员4架B1扔约100枚重磅炸弹,道路多处9米巨坑

现场曝光!为救飞行员4架B1扔约100枚重磅炸弹,道路多处9米巨坑

清沐执笔
2026-04-06 16:56:40
破案!杜锋宁愿牺牲家政也要重用麦考尔原因找到,粤迷说出大实话

破案!杜锋宁愿牺牲家政也要重用麦考尔原因找到,粤迷说出大实话

后仰大风车
2026-04-07 08:15:08
交警提醒:转向灯新规4月全面实施,不足3秒直接罚200元扣1分!

交警提醒:转向灯新规4月全面实施,不足3秒直接罚200元扣1分!

复转这些年
2026-04-07 12:26:59
特朗普威胁伊朗,中方表态

特朗普威胁伊朗,中方表态

澎湃新闻
2026-04-07 17:04:04
伊朗这回开窍了!他们不炸军营,不炸核设施,专门炸这几个大工厂

伊朗这回开窍了!他们不炸军营,不炸核设施,专门炸这几个大工厂

鉴史录
2026-04-07 00:10:03
不到一个停车位大?清朝花15英镑买下的英国土地,今天仍属中国!

不到一个停车位大?清朝花15英镑买下的英国土地,今天仍属中国!

丁丁鲤史纪
2026-04-01 15:47:56
老了才明白:最大的灾难,是父母六十来岁了,还随意泄露家里隐私

老了才明白:最大的灾难,是父母六十来岁了,还随意泄露家里隐私

艺鉴在线
2026-04-07 16:27:38
张雪机车创始人自曝:国产率未达100%,因2个日本零件卡脖子!

张雪机车创始人自曝:国产率未达100%,因2个日本零件卡脖子!

谈史论天地
2026-04-07 09:49:47
布伦森30+13末节17分!尼克斯险胜老鹰 沃克本季244三分队史第一

布伦森30+13末节17分!尼克斯险胜老鹰 沃克本季244三分队史第一

醉卧浮生
2026-04-07 09:38:34
我发现很多不幸福的家庭,是因儿子没养家能力,还帮他结婚造成的

我发现很多不幸福的家庭,是因儿子没养家能力,还帮他结婚造成的

小马达情感故事
2026-04-06 18:55:08
伊朗背后三个神秘力量开始浮出水面,美国一个也对付不了

伊朗背后三个神秘力量开始浮出水面,美国一个也对付不了

揭秘历史的真相
2026-04-05 20:57:15
2026-04-07 19:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12701文章数 142616关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

英媒:伊朗最高领袖病重昏迷 无法参与任何国家决策

头条要闻

英媒:伊朗最高领袖病重昏迷 无法参与任何国家决策

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

本地
艺术
时尚
健康
亲子

本地新闻

跟着歌声游安徽,听古村回响

艺术要闻

美丽风光看不尽

杨超越之后,全网头像锦鲤的C位被她抢走了

干细胞抗衰4大误区,90%的人都中招

亲子要闻

妈妈们,犯错不可怕,可怕的是你对自我的评判、打压!

无障碍浏览 进入关怀版