清华和AIRI的循环一致性模型让修图变得又快又好|原理|有效性|AiRI|深度思考模型

分享至

这项由清华大学和AIRI（人工智能研究院）等机构联合完成的研究发表于2025年6月，论文题为《Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models》。研究团队包括清华大学和AIRI的Ilia Beletskii、AIRI和Sber公司的Andrey Kuznetsov，以及清华大学和AIRI的Aibek Alanov。感兴趣的读者可以通过arXiv:2506.19103访问完整论文，代码已在GitHub开源：github.com/ControlGenAI/Inverse-and-Edit。

当你拿着一张照片想要修改某个细节时，比如把照片中的猫咪变成小狗，或者改变人物的表情，传统的图像编辑软件需要你具备相当的技术功底。而现在，人工智能让这一切变得简单多了——你只需要用文字描述想要的效果，AI就能帮你完成修改。不过，现有的AI图像编辑工具面临一个两难选择：要么编辑效果很好但速度慢得让人抓狂，要么速度很快但效果差强人意。

这就像修车一样，你可以选择去高档修理厂，师傅手艺精湛但要等上好几天；或者去快修店，几小时就能取车但质量可能不尽如人意。研究团队发现，问题的根源在于现有快速方法的"记忆力"不够好——它们在理解原始图像方面存在缺陷，就像一个健忘的画家，记不清原画的细节，自然画不出满意的修改版本。

为了解决这个难题，研究团队开发了一种全新的图像编辑方法，核心思想是让AI系统拥有更好的"记忆力"。他们的方法就像训练一个画家，让他先仔细观察原画，然后闭着眼睛凭记忆重画一遍，如果重画的版本与原画差别太大，就继续练习直到能完美复现。这个过程被称为"循环一致性优化"，确保AI系统能够准确理解和记住原始图像的每一个细节。

一、为什么图像编辑这么难

要理解这项研究的价值，我们首先需要了解AI图像编辑的基本原理。目前主流的AI图像编辑技术基于扩散模型，这种模型的工作方式有点像考古学家修复文物。当考古学家发现一件破损的古代花瓶时，他们需要先仔细分析残片，推测花瓶的原始模样，然后根据新的设计要求进行修复。

AI图像编辑的过程也类似：系统首先将原始图像"打散"成噪声（相当于把花瓶打碎），然后根据新的文字描述（比如"把猫变成狗"）重新"拼装"出修改后的图像。这个过程分为两个关键步骤：反向过程（inversion）和编辑过程（editing）。

反向过程就像考古学家分析文物残片，AI需要理解原始图像包含的所有信息。这一步至关重要，因为如果AI对原始图像的理解不够准确，后续的编辑就会出现问题。传统的高质量方法需要进行大约50-100次迭代计算，就像考古学家需要反复研究残片才能确定文物的原貌。这种方法效果很好，但耗时很长。

为了提高速度，研究人员开发了各种快速方法，将迭代次数减少到4-8次。这就像让考古学家只用很短时间就要确定文物原貌，虽然速度快了，但准确性往往不够。研究团队发现，这些快速方法在反向过程中会丢失很多细节信息，导致最终的编辑效果不理想。

更具体地说，现有的快速方法面临一个根本性矛盾：速度和质量很难兼得。就像快餐和精品料理的区别，快餐制作迅速但味道一般，精品料理美味可口但制作时间长。在图像编辑领域，这个矛盾体现在一致性模型的应用上。一致性模型是一种新型的快速生成技术，理论上可以大幅提高处理速度，但在实际应用中，它们在图像重建方面的表现往往不尽如人意。

二、循环一致性的巧妙设计

面对这个挑战，研究团队提出了一个巧妙的解决方案：循环一致性优化。这个想法的灵感来自于人类学习的过程。当我们学习画画时，老师经常让我们临摹名画，然后将临摹作品与原作对比，找出差异并不断改进。研究团队将这个思路应用到AI系统中，让AI通过反复练习来提高对原始图像的理解能力。

具体来说，他们设计了一个"完整回路"的训练过程。AI系统首先接收一张原始图像，通过反向过程提取图像的特征表示，然后再通过生成过程重建图像。如果重建的图像与原始图像存在差异，系统就会调整参数，直到能够完美重建原始图像。这个过程就像训练一个速记员，让他听一段话然后复述，如果复述有误就继续练习，直到能够一字不差地重复原话。

这种方法的核心创新在于引入了感知损失函数（perceptual loss）。传统的方法通常使用像素级别的比较，就像逐个字母地比较两篇文章是否相同。但感知损失函数更关注人眼的感知效果，就像比较两篇文章的意思是否相同，而不是字字对应。研究团队使用了基于VGG网络的LPIPS（Learned Perceptual Image Patch Similarity）指标，这种指标能够更好地捕捉图像的结构和语义信息。

更重要的是，他们采用了"冻结生成模型，优化理解模型"的策略。在整个训练过程中，负责生成图像的模型保持不变，只优化负责理解原始图像的前向模型。这就像在一个翻译团队中，保持译者的水平不变，专门训练负责理解原文的分析师。这样做的好处是既能提高理解能力，又不会破坏已有的生成质量。

研究团队还发现，快速方法的一个关键优势是可以进行端到端的优化。传统的高质量方法由于计算量巨大，无法对整个编辑流程进行优化，就像制作一部电影，如果每个镜头都要花费数月时间，就无法对整部电影进行统一调整。而快速方法由于计算量较小，可以对从理解到生成的整个过程进行优化，这为循环一致性训练提供了技术可能性。

三、智能引导机制的加持

虽然循环一致性优化已经大大提高了图像编辑的质量，但研究团队发现，在某些具有挑战性的编辑任务中，仅仅依靠改进的图像理解能力还不够。比如当目标描述与原始图像差异很大时（例如将"愤怒的表情"改为"微笑的表情"），AI可能会过度受到新描述的影响而丢失原始图像的重要特征。

为了解决这个问题，研究团队开发了一套智能引导机制，这套机制的工作原理类似于GPS导航系统。当你开车前往目的地时，GPS不仅要知道终点在哪里，还要时刻关注你当前的位置，确保你不会偏离正确路线。在图像编辑中，引导机制的作用就是在生成新图像的过程中，时刻参考原始图像的信息，确保编辑结果既符合新的描述，又保持原始图像的重要特征。

这套引导机制包含两个核心组件：自注意力引导器和特征引导器。自注意力引导器的作用类似于一个布局设计师，它关注图像的整体结构和布局。在编辑过程中，它会比较当前生成的图像与原始图像在整体布局上的差异，如果发现偏差就会进行调整。比如在将照片中的猫改为狗时，自注意力引导器会确保新的狗出现在原来猫的位置，而不是跑到画面的其他地方。

特征引导器则更像一个细节雕刻师，它专注于图像的局部细节和纹理。它会比较原始图像和编辑过程中的图像在视觉特征上的差异，确保重要的细节信息得到保留。继续以猫变狗的例子，特征引导器会确保背景的纹理、光线条件等细节保持不变，只改变动物本身的特征。

研究团队还解决了一个重要的技术问题：如何平衡引导强度。如果引导过强，编辑效果会很微弱，就像GPS过于保守，总是建议你走原来的路线；如果引导过弱，又可能丢失原始图像的重要信息，就像GPS完全不管你现在在哪里，只管指向目的地方向。研究团队开发了一套动态调节机制，能够根据当前的编辑进度和图像内容自动调整引导强度。

这套引导机制的另一个创新之处在于它采用了梯度引导的方式。传统的方法通常是在生成过程的最后阶段进行调整，就像在房子建好后再进行装修。而梯度引导则是在生成过程的每一步都进行微调，就像在建房子的过程中随时调整，确保每一步都朝着正确的方向进行。

四、实验验证：数字说话的时刻

理论再完美，也需要实验验证。研究团队设计了一系列全面的实验，在多个标准数据集上测试他们的方法。这些实验就像一场综合性的考试，从不同角度检验AI系统的能力。

在图像重建任务中，研究团队使用了超过2700张高分辨率图像进行测试。结果显示，他们的方法在保持4步快速处理的同时，图像重建质量显著超越了现有的快速方法。具体来说，在LPIPS指标上，他们的方法达到了0.309，而对比方法中最好的也只有0.372，这意味着重建图像与原始图像的感知差异减少了约17%。这个改进幅度看似不大，但在图像处理领域已经是相当显著的提升。

更重要的是，他们的方法在速度上保持了明显优势。与需要50步处理的传统高质量方法相比，他们的4步方法在保持相近质量的同时，速度提升了10倍以上。这就像制作一道菜，传统方法需要5小时，而他们的方法只需要30分钟，但味道几乎没有差别。

在图像编辑任务中，研究团队在PIE-Bench等标准测试集上进行了全面评估。PIE-Bench包含420张图像和多种编辑类型，从简单的颜色修改到复杂的对象替换都有涵盖。实验结果表明，他们的方法在保持内容一致性的同时，实现了高质量的编辑效果。

特别值得一提的是DINOv2相似度指标的表现。这个指标衡量编辑前后图像在语义上的相似性，研究团队的方法达到了0.747的得分，显著超越了其他快速方法。这意味着编辑后的图像能够更好地保持原始图像的核心特征和语义信息。

研究团队还进行了详细的消融实验，分别测试循环一致性优化和引导机制的独立贡献。结果显示，仅使用循环一致性优化就能显著提升图像重建质量，而加入引导机制后，编辑质量得到进一步提升。这证明了两个创新点的有效性和互补性。

在与全步骤扩散模型的比较中，研究团队的方法在某些指标上甚至超越了这些计算量大10倍的传统方法。虽然在个别指标上仍有差距，但考虑到速度优势，这样的性能表现已经非常出色。

五、实际应用中的表现

除了数值指标，研究团队还展示了大量视觉效果对比。从这些结果可以看出，他们的方法在各种编辑任务中都表现出色。无论是将"咖啡杯上的郁金香图案"改为"狮子图案"，还是将"愤怒的表情"改为"微笑"，编辑结果都保持了很高的视觉质量和内容一致性。

特别有趣的是，研究团队发现他们的方法不需要依赖额外的文本混合技巧。许多现有方法需要仔细调整源文本和目标文本的权重，就像调制鸡尾酒需要精确控制各种原料的比例。而他们的方法可以直接使用目标文本进行编辑，大大简化了使用过程。

在处理复杂场景时，比如包含多个对象的图像，他们的方法也展现出良好的性能。系统能够准确识别需要编辑的部分，同时保持其他区域不变。这种精确性对于实际应用非常重要，因为用户通常只想修改图像的特定部分。

研究团队还测试了方法在不同图像风格上的表现，包括自然照片、艺术作品等。结果表明，无论输入图像是什么风格，该方法都能保持稳定的性能，这说明它具有良好的通用性。

六、技术细节与优化策略

在技术实现方面，研究团队采用了多项精心设计的优化策略。他们使用了基于LoRA（Low-Rank Adaptation）的参数高效训练方法，这种方法只需要调整模型的一小部分参数，就能实现显著的性能提升。这就像修理一辆汽车，不需要更换整个发动机，只需要调整几个关键部件就能大幅提升性能。

在损失函数设计上，他们将图像分割成多个224×224的小块分别计算LPIPS损失，然后取平均值。这种分块处理的方式能够更好地捕捉局部细节，同时避免了整图计算可能带来的信息丢失。

训练过程中，他们采用了动态的分类器自由引导策略。与传统方法在所有步骤使用固定引导强度不同，他们根据生成步骤动态调整引导强度：第一步为0，第二步为7，第三步为11，第四步为19。这种策略既能保证结构编辑的有效性，又能避免图像过饱和的问题。

在引导机制的实现上，他们使用了两种互补的能量函数。自注意力引导函数通过比较自注意力图的差异来保持布局一致性，而特征引导函数则通过比较ResNet上采样块的特征来保持细节一致性。这两种函数的结合使用能够在全局和局部两个层面同时确保编辑质量。

七、方法的局限性与未来发展

尽管取得了显著进展，研究团队也诚实地指出了方法的一些局限性。首先，由于LPIPS损失函数是在像素空间训练的，他们的方法需要通过VAE解码器进行反向传播，这增加了一定的计算开销。虽然总体上仍比传统方法快得多，但这确实是一个需要改进的地方。

其次，该方法需要同时加载两个一致性模型（前向和后向），虽然使用了LoRA适配器来减少内存占用，但对硬件资源的要求仍然不算低。这可能会限制该方法在资源受限设备上的应用。

另外，由于使用了引导蒸馏的扩散模型，该方法在某些情况下可能产生过饱和的图像，颜色过于鲜艳。这是引导蒸馏技术的一个常见问题，需要在未来的工作中进一步解决。

不过，这些局限性并不掩盖该方法的创新价值。研究团队的工作为快速高质量图像编辑开辟了新的技术路径，证明了循环一致性优化在提升快速生成模型性能方面的巨大潜力。

八、对图像编辑领域的深远影响

这项研究的意义远超技术本身的改进。它为图像编辑工具的普及和商业化应用打开了新的可能性。当图像编辑既快速又高质量时，普通用户就能更容易地使用这类工具，这可能会推动创意产业的发展。

从技术发展的角度看，这项工作证明了端到端优化在快速生成模型中的重要作用。传统的高质量方法由于计算复杂度太高，很难进行全流程优化，而快速方法为这种优化提供了可能。这个思路可能会启发更多研究者在其他快速生成任务中采用类似的优化策略。

循环一致性的概念也具有更广泛的应用前景。这种"学习完美重建"的思路不仅适用于图像编辑，还可能在视频生成、音频处理等其他生成任务中发挥作用。任何需要在保持原始信息的基础上进行修改的任务，都可能受益于这种方法。

此外，该研究还展示了如何在保持生成质量的前提下大幅提升处理速度。这种"质量与效率并重"的研究思路对整个AI领域都有启发意义。在当前AI模型越来越大、计算成本越来越高的背景下，如何在保持性能的同时提高效率是一个普遍面临的挑战。

说到底，这项研究最让人兴奋的地方在于它找到了一个巧妙的平衡点。就像制作一道美味的快餐，既保持了精品料理的品质，又实现了快餐的速度。通过循环一致性优化和智能引导机制的结合，研究团队成功地将图像编辑的门槛大大降低，让更多人能够享受到AI技术带来的便利。

当然，技术的发展永无止境。虽然这项研究已经取得了显著进展，但图像编辑领域仍有很多值得探索的方向。比如如何进一步减少计算资源需求，如何处理更加复杂的编辑任务，如何提高对不同图像风格的适应性等。但毫无疑问，这项研究为这些未来的探索奠定了坚实的基础。

对于有兴趣深入了解技术细节的读者，完整的研究论文和开源代码提供了宝贵的学习资源。而对于普通用户来说，这项研究预示着更加便捷、高效的图像编辑工具即将到来，创意表达将变得更加轻松和自由。

Q&A

Q1：这个循环一致性方法到底是怎么工作的？ A：简单说就是让AI反复练习"看图-记忆-重画"的过程。AI先仔细观察原图，提取特征信息，然后尝试重新画出这张图。如果重画的结果与原图有差异，就调整参数继续练习，直到能完美复现原图。这样训练出来的AI在理解图像方面更准确，编辑效果自然更好。

Q2：为什么这个方法比其他快速编辑方法更好？ A：关键在于它解决了快速方法的"健忘"问题。以前的快速方法为了提高速度，往往会丢失原图的细节信息，就像一个记性不好的画家改画时容易画走样。而这个方法通过循环一致性训练，让AI拥有更好的"记忆力"，既保持了速度优势又大幅提升了质量。

Q3：普通用户什么时候能用上这种技术？ A：研究团队已经在GitHub开源了代码，技术爱好者现在就可以尝试。对于普通用户，这种技术很可能会很快集成到各种图像编辑软件和在线工具中。考虑到它只需要4步就能完成高质量编辑，非常适合实时应用，预计在不久的将来就能在各种创意软件中见到类似功能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.