网易首页 > 网易号 > 正文 申请入驻

图层式记忆:让AI图像编辑如魔法般简单直观

0
分享至

当你使用手机或电脑修图时,是否曾经遇到过这样的情况:你想在一张森林照片中依次添加一个乐高小人、一辆吉普车,再放一只小狗,但每次添加新元素时,前面添加的内容却变得奇怪或者完全消失了?韩国首尔国立大学的研究团队最近解决了这个令人头痛的问题,他们在2025年5月发表的一项名为《通过图层式记忆提升图像生成的可编辑性》的研究中,提出了一种让AI图像编辑变得更加直观、自然的方法。

这项由首尔国立大学的Daneul Kim、Jaeah Lee和Jaesik Park教授领导的研究发表于arXiv预印本平台(arXiv:2505.01079),于2025年5月2日公开。这篇论文提出了一种全新的图像编辑框架,它能让用户使用简单的涂鸦式蒙版和文本提示,轻松地在图像中添加多个元素,而且不会破坏已有的内容。

一、为什么我们需要更好的图像编辑工具?

想象一下这个场景:你想要创建一幅有趣的图片,先画一片森林,然后在森林中放一个乐高小人,再放一辆吉普车,最后添加一只坐着的小狗。听起来很简单,对吧?但使用当前的AI图像编辑工具,这个任务却出奇地困难。

现有的图像编辑工具,像Photoshop的生成式填充功能或者专业的AI绘画工具,大多数都是为单次编辑设计的。它们很擅长一次性修改一个物体,比如改变颜色或风格,但在多次连续编辑时就显得力不从心了。这些工具面临两个主要问题:一是很难在保持现有编辑内容的同时,添加新的元素;二是难以确保新添加的元素自然地融入到现有场景中。

就像做一道复杂的料理,如果每添加一种新食材就要重新烹饪整道菜,不仅耗时,还可能破坏已有的美味。类似地,每次在图片中添加新元素时,如果都要重新生成整张图片,那么之前精心设计的部分可能会被破坏。

首尔国立大学的研究团队观察到,大多数真实世界的图像编辑任务需要多次连续的编辑才能达到理想效果。然而,现有的编辑方法主要为单一物体修改设计,在连续编辑时面临困难,特别是在维持先前编辑内容的同时自然地将新物体适应到现有内容中。这些限制显著阻碍了复杂编辑场景,这些场景中多个物体需要修改的同时保持它们的上下文关系。

二、图层式记忆:如同给记忆添加书签

研究团队提出了一个创新的解决方案,名为"图层式记忆"(Layer-wise Memory)。这个概念就像是给AI的记忆添加了书签,让它能够记住每一步编辑的内容和位置。

想象你在读一本复杂的小说,你可能会在重要情节处放置书签,以便之后能够轻松找回。图层式记忆就是这样工作的——它为每次编辑"做标记",存储三个关键信息:

潜在表示(Latent Representations):这就像是图像的"数字DNA",包含了图像中每个元素的形状、颜色和位置等信息。
提示嵌入(Prompt Embeddings):这是用户输入的文字描述,比如"乐高小人站着"或"一只坐着的狗"。
蒙版(Masks):这定义了每个新添加元素应该出现在图像的哪个位置。

有了这些存储的信息,AI就能记住每一步编辑的细节,不必每次都重新计算整个图像,从而节省计算资源并保持编辑的一致性。

这就像一个有组织的厨师,不仅记得整道菜的食谱,还记得每一种食材的添加顺序和放置位置,以便在需要时精确地修改或添加新食材,而不会破坏整道菜的和谐。

三、蒙版顺序:决定谁在前谁在后

研究团队引入了一个巧妙的概念叫做"蒙版顺序"(Mask Order)。这一概念决定了多个对象生成的顺序,从而指定哪些对象应该出现在前面,哪些应该在后面。

想象你在给一幅画添加不同层次的元素。在传统绘画中,你会先画远处的背景,然后逐渐向前添加中景和前景的元素。蒙版顺序就是这样工作的,它告诉AI哪些元素应该被"画在上面"。

例如,在论文图1中,研究人员先添加了"一片森林"作为背景,然后添加了"站着的乐高小人"和"一辆吉普车前视图"。如果用户接着想添加"一只坐着的狗",并且蒙版与吉普车和乐高人重叠,这就意味着用户希望将"狗"放在"吉普车"和"乐高人"的前面。系统会理解这种意图,确保新添加的狗正确地出现在前景位置,而不会被其他元素盖住。

这种方法非常直观,就像使用图层式绘图软件一样,用户可以控制哪些元素应该出现在前面,哪些应该在后面,从而创建有深度感的图像。

四、核心技术:如何实现连贯的编辑体验

为了实现这一框架,研究团队开发了三个关键技术组件:

1. 图层式记忆:存储编辑历史

如前所述,图层式记忆就像是一个智能书架,存储和管理来自先前编辑步骤的潜在表示、提示嵌入和蒙版信息。这种存储机制消除了顺序修改中典型的冗余计算,同时在多次编辑之间保持一致性。

图层式记忆的工作方式有点像制作一本照片相册,你不仅保存了最终的照片,还记录了每一张照片的拍摄设置、拍摄地点和构图方式。这样,当你想修改或添加新内容时,可以精确地回到之前的状态,而不会丢失任何信息。

2. 背景一致性引导:保持稳定性

背景一致性引导(Background Consistency Guidance,简称BCG)确保未编辑的区域保持稳定,并通过避免对原始图像重复进行前向传递来减少计算开销。

想象你在修改一幅拼图,你只想更换其中一块,而不是重新拼整个图。BCG就是这样工作的——它只更新用户指定的区域,而保持其余部分不变。这不仅确保了背景的一致性,还大大减少了处理时间。

研究团队进行了计算比较,发现使用BCG可以减少约10%的计算时间。这种效率提升在需要多次序列修改的场景中变得更加显著,因为传统方法(如潜在混合)需要对每次编辑进行多次前向传递,而BCG不需要。

3. 多查询解耦:自然融合新元素

多查询解耦(Multi-Query Disentanglement,简称MQD)在交叉注意力中应用,使新对象能够与现有内容自然融合。

想象一个熟练的故事讲述者,能够将新角色无缝地融入到已有的故事情节中,不会让读者感到突兀。MQD就是这样工作的——它帮助AI理解新添加元素与现有内容之间的关系,确保它们在视觉上协调一致。

例如,当添加"一个盘子"时,MQD能确保盘子自然地融入背景,同时正确地遮挡其他物体如"一个杯子"和"一个纸杯蛋糕"。这创造了一种深度感知,使场景更加真实。

这三个组件协同工作,创造了一个强大而直观的编辑框架。用户只需提供简单的涂鸦式蒙版和文本描述,就能创建复杂而连贯的图像,而不必担心每次编辑都会破坏之前的工作。

五、超越传统:多编辑基准测试

为了评估他们的方法,研究团队还提出了一个新的基准数据集,名为"多编辑基准"(Multi-Edit Bench)。这个基准测试专门针对迭代图像编辑能力进行评估。

现有的基准测试要么专注于单次编辑,要么关注布局到图像的生成,无法捕捉顺序修改的挑战。研究团队的基准测试引入了图层式语义评估指标,评估多步编辑场景中的编辑质量和跨修改一致性。

这就像是为厨师们设计了一个全新的烹饪比赛,不仅评判最终菜肴的味道,还评估整个烹饪过程中的一致性和技巧。这种多方面的评估更好地反映了实际编辑工作流程,用户在其中通过添加、删除或重新定位对象来迭代细化场景。

六、令人印象深刻的结果

研究团队通过全面实验证明了他们的方法在迭代图像编辑任务中的优越性能。他们的框架只需要粗略的蒙版输入,同时在多个编辑步骤中保持高质量的结果。

在量化评估中,他们的方法在语义对齐(BLEU、METEOR)和视觉对齐(CLIP得分)等指标上超过了现有的基线方法。具体来说,对于1024×1024分辨率的图像,他们的方法在BLEU-2/3/4上达到64.99/47.69/36.59,在METEOR上达到0.1513,在CLIP得分上达到64.29,这些指标均超过其他方法。

在视觉质量方面,他们的方法展示了令人印象深刻的能力,能够处理复杂的多对象场景。例如,在一个测试中,他们的系统能够在一个场景中依次添加"一个乐高人"、"一辆吉普车"和"一只坐着的狗",每个新添加的元素都自然地融入到现有场景中,同时保持适当的空间关系。

人类偏好研究进一步证实了这些结果,用户在背景一致性、自然适应和文本-场景对齐等方面给予了该方法更高的评分。在5分制评分中,该方法在背景一致性上获得4.59分,在自然适应性上获得4.28分,在文本场景对齐上获得4.49分,远高于其他方法。

七、应用场景与未来展望

这项研究的应用前景十分广阔,从个人创意项目到专业设计领域都能受益:

对于普通用户,这项技术使复杂的图像创作变得简单直观。想象一下,你只需要用简单的文字描述和涂鸦,就能创建出包含多个元素的精美图像。

对于专业设计师,这项技术能够大大提高工作效率。设计师可以迅速尝试不同的布局和元素组合,而不必担心每次修改都会破坏之前的工作。

在教育领域,这项技术可以帮助学生更容易地表达创意想法,创建视觉故事或概念图。

在内容创作和娱乐行业,这项技术可以加速原型设计和概念艺术的创作过程。

当然,这项技术也存在一些局限性。由于使用图像编辑方法生成多个对象需要更长的时间,取决于编辑次数。此外,使用图层式记忆需要额外的内存成本。研究团队计划在未来工作中使其更加高效,以实现更快的编辑。

八、与现有技术的比较

研究团队将他们的方法与多种现有技术进行了比较,包括图像修补工具(如HD Painter和Blended Latent Diffusion)和布局到图像生成模型(如NoiseCollage和LayoutGuidance)。

结果显示,他们的方法在处理连续编辑场景时具有明显优势。现有的图像修补工具在单步编辑中表现不错,但在多步骤编辑中往往难以保持一致性。而布局到图像生成模型虽然能处理复杂布局,但通常需要重新生成整个图像,无法保持背景一致性。

这就像比较不同类型的厨师:有些厨师擅长做单一菜肴,有些厨师擅长设计整个菜单,而研究团队的方法就像一个既能精确调整单一菜肴,又能协调整个菜单的厨师,能够在保持整体和谐的同时,精确地修改或添加新元素。

九、结语:图像编辑的新时代

首尔国立大学研究团队的这项工作标志着图像编辑领域的一个重要进步。通过图层式记忆、背景一致性引导和多查询解耦这三大创新组件的结合,他们创造了一个能够处理复杂连续编辑任务的强大框架。

这项技术的核心价值在于它的直观性和自然性。用户不需要成为PS专家或了解复杂的AI原理,只需要提供简单的文字描述和涂鸦式蒙版,就能创建出复杂而自然的图像。这种简化不仅使技术更加亲民,也为创意表达提供了更广阔的空间。

从更广泛的角度来看,这项研究反映了AI图像生成技术的发展趋势——从单一、静态的生成向交互式、迭代的创作过程转变。这不仅提高了技术的实用性,也更符合人类创作的自然过程,让AI成为创意表达的助手,而不仅仅是工具。

如果你对这项研究感兴趣,可以通过arXiv:2505.01079查阅完整论文,深入了解技术细节和更多示例。随着这类技术的不断发展,我们可以期待未来的图像创作过程变得更加自然、直观和有创意。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比赌博还可怕!这5个“有去无回”的烧钱行业,普通人千万别碰

比赌博还可怕!这5个“有去无回”的烧钱行业,普通人千万别碰

鲸探所长
2026-03-17 17:12:45
俞敏洪:如果拼了命,英年早逝的话,和不那么拼命,而活到八九十岁,是一件更加合算的事

俞敏洪:如果拼了命,英年早逝的话,和不那么拼命,而活到八九十岁,是一件更加合算的事

南京择校
2026-03-29 22:42:47
世贸天阶拆了?网友:一个时代的终结!天幕和“全北京向上看”会保留…

世贸天阶拆了?网友:一个时代的终结!天幕和“全北京向上看”会保留…

北京商报
2026-03-30 14:14:45
山东女子造出“天眼导弹”,突破中国导弹50年难关,坐拥26项专利

山东女子造出“天眼导弹”,突破中国导弹50年难关,坐拥26项专利

策略述
2026-03-26 13:44:30
红岩烈士遗属宋振华逝世,系“小萝卜头”宋振中胞兄

红岩烈士遗属宋振华逝世,系“小萝卜头”宋振中胞兄

澎湃新闻
2026-03-30 11:44:26
小某书4.1万赞热帖“穷人软糖”事件,炸出舔高踩低的病态群体

小某书4.1万赞热帖“穷人软糖”事件,炸出舔高踩低的病态群体

小椰子专栏
2026-03-30 13:02:46
C1驾驶人开心了!不用增驾,这5类两轮、三轮、四轮电动车都能开,不查不罚

C1驾驶人开心了!不用增驾,这5类两轮、三轮、四轮电动车都能开,不查不罚

电动车小辣椒
2026-03-29 10:09:11
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
张雪峰成功于睿智过人,命丧于愚昧狂妄

张雪峰成功于睿智过人,命丧于愚昧狂妄

雪中风车
2026-03-30 09:17:06
调查发现:每天都走路的人,大多到了75岁后,身体或有5种变化

调查发现:每天都走路的人,大多到了75岁后,身体或有5种变化

医学原创故事会
2026-03-27 23:34:03
这招太高了!美议员窜台几小时后,大陆宣布用最高规格接待郑丽文

这招太高了!美议员窜台几小时后,大陆宣布用最高规格接待郑丽文

时尚的弄潮
2026-03-30 15:45:21
家人突发心梗,第1步千万别先喂硝酸甘油!做对3件事,才真的救命

家人突发心梗,第1步千万别先喂硝酸甘油!做对3件事,才真的救命

冷眼看世界728
2026-03-28 20:11:50
尺度生猛,这部R级新作太爽了

尺度生猛,这部R级新作太爽了

天天美剧吧
2026-03-29 18:50:19
北京年薪6、70万是什么水平?

北京年薪6、70万是什么水平?

一口娱乐
2026-03-30 11:55:05
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
结婚6年后,唐艺昕宣布新身份:“再见了,张太太!”

结婚6年后,唐艺昕宣布新身份:“再见了,张太太!”

科学发掘
2026-03-30 10:31:22
广州机场大面积延误,深圳机场 多航班备降

广州机场大面积延误,深圳机场 多航班备降

每日经济新闻
2026-03-30 14:42:30
摊牌了!以色列给伊朗下最后通牒,平民紧急撤离,大战要彻底掀桌

摊牌了!以色列给伊朗下最后通牒,平民紧急撤离,大战要彻底掀桌

老马拉车莫少装
2026-03-27 22:37:51
承包制要取消?全国100多地已试点,2026土地新政给农民吃定心丸

承包制要取消?全国100多地已试点,2026土地新政给农民吃定心丸

复转这些年
2026-03-29 19:05:23
布泽尔:我这一年学到了太多,现在我真的很难受

布泽尔:我这一年学到了太多,现在我真的很难受

林子说事
2026-03-30 13:29:27
2026-03-30 21:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7805文章数 556关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

中国向能源紧缺的东南亚国家出口柴油等燃料 官方回应

头条要闻

中国向能源紧缺的东南亚国家出口柴油等燃料 官方回应

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

健康
房产
家居
公开课
军事航空

干细胞抗衰4大误区,90%的人都中招

房产要闻

重磅!番禺20宗涉宅地亮相,万博CBD宅地将上新!

家居要闻

东方法式美学 现代简约

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版