高通AI研究院突破：文生图实现一步生成与反向指令理解|实验|大模型|nasa|高通ai研究院

分享至

这项由高通AI研究院（Qualcomm AI Research）联合越南邮电学院共同完成的研究，于2024年发表在arXiv预印本平台，论文编号为arXiv:2412.02687v3。这篇论文解决了AI图像生成领域一个看似简单却困扰业界已久的问题：如何让"一步生图"的AI模型也能理解用户说的"不要什么"。

在AI绘画的世界里，有两种截然不同的工作方式。传统的AI画师就像一个细心的艺术家，会反复修改画作几十次才完成最终作品，这个过程虽然能产生精美的画作，但速度相当缓慢。而新兴的"一步生图"技术则像一个天才画家，能够一笔成画，瞬间完成创作，但问题是这位天才画家有个毛病——只会听"要画什么"，却听不懂"不要画什么"。

当你告诉传统的AI画师"画一只友善的怪物，但不要让它看起来很可怕"时，它能很好地理解你的意思，会在多次修改中逐步去除那些恐怖元素。但如果你对一步生图的AI说同样的话，它往往会无视"不要可怕"这部分指令，依然画出一只令人毛骨悚然的怪物。这就好比你在餐厅点餐时说"要一份意大利面，但不要加蘑菇"，服务员却只听到了前半句，依然端上来一盘满是蘑菇的面条。

这个问题的根源在于两种AI工作方式的本质差异。传统方法就像一个有耐心的老师傅，会在制作过程中不断调整，有足够的时间来处理"不要什么"的指令。而一步生图就像一个行动迅速的学徒，必须在瞬间做出所有决定，没有机会进行二次思考和调整。

为了解决这个难题，研究团队开发了一种名为NASA（Negative-Away Steer Attention，负面导向注意力）的巧妙方法。这个方法的核心思想就像给一步生图的AI装上了一副"过滤眼镜"，让它在创作的瞬间就能识别并避开不想要的元素。

一、传统方法为何在一步生图上失效

要理解NASA方法的巧妙之处，我们首先需要明白为什么传统的"负面提示"技术在一步生图上会失效。传统的AI图像生成就像一个摄影师在暗房里冲洗照片，需要经过多个步骤：先显影，再定影，最后调色，每个步骤都可以进行微调。在这个过程中，AI会生成两张照片——一张按照正面指令（"要什么"）生成，另一张按照负面指令（"不要什么"）生成，然后通过对比这两张照片的差异来找到最佳平衡点。

这种被称为"无分类器引导"（CFG）的技术就像是在天平的两端分别放上"想要的效果"和"不想要的效果"，通过不断调整砝码来达到理想的平衡。由于传统方法有几十个步骤可以进行调整，即使某一步出现偏差，后续步骤也能及时纠正。

然而，一步生图就像是使用拍立得相机拍照，按下快门的瞬间就必须确定最终效果，没有后期调整的机会。如果直接将传统的CFG方法应用到一步生图上，就会出现"图像混合"的问题——最终生成的图片会变得模糊不清，就像两张照片重叠在一起一样，完全失去了应有的清晰度和质量。

研究团队通过实验发现，当他们尝试在一步生图模型上使用传统CFG方法时，生成的图像会出现严重的伪影和质量下降。比如要求生成"一张农场里牲畜的照片，但不要有牛"时，传统一步模型要么完全忽视"不要牛"的指令，要么生成一张模糊不清的奇怪图片。

二、NASA方法的核心创新

面对这个技术难题，研究团队没有选择在最终图像上做文章，而是将注意力转向了AI的"思考过程"本身。他们的创新就像是不再试图在菜做好后挑出不喜欢的配菜，而是在厨师做菜的过程中就告诉他哪些调料不要放。

NASA方法的核心在于操控AI模型中的"交叉注意力"机制。可以把这个机制想象成AI的"联想网络"——当AI看到文字描述时，会在大脑中建立起文字和图像特征之间的连接。比如看到"可爱的兔子"时，AI会联想到毛茸茸的质感、长耳朵、小鼻子等视觉特征。

NASA方法的巧妙之处在于，它会同时让AI处理正面描述和负面描述，然后在AI的"联想过程"中进行干预。具体来说，当AI根据"友善的怪物"开始联想相关视觉特征时，NASA会同时让它联想"可怕、邪恶、威胁性"等负面特征，然后在AI的内部表征空间中，用正面联想减去负面联想，从而得到最终的创作指导。

这个过程就像是在AI的大脑中安装了一个"实时筛选器"。当AI准备调用某个视觉特征时，筛选器会立即检查这个特征是否属于不想要的类别，如果是的话就会降低它的影响力。整个过程发生在AI创作的瞬间，不需要额外的步骤或时间。

更令人惊喜的是，NASA方法几乎不会增加计算负担。传统的CFG方法需要运行两次完整的生成过程，相当于计算量翻倍。而NASA只需要额外计算负面特征的联想过程，总体计算量只增加了1.89%，这就像是原来需要两分钟做完的事情，现在只需要多花2秒钟就能获得更好的效果。

三、训练时集成负面指导的创新尝试

研究团队并没有满足于仅仅在使用时添加负面指导，他们更进一步探索了在训练阶段就集成负面指导的可能性。这就像是不仅要教会AI在接到订单时如何避免不想要的元素，更要在AI学习阶段就培养它自觉避免这些元素的能力。

他们选择了SwiftBrush（简称SB）这个先进的一步生图训练框架作为改进对象。SwiftBrush的特点是采用"无图像训练"的方法——它不需要大量的真实图片作为训练素材，而是通过让学生模型模仿老师模型的"思考方式"来学习图像生成能力。这就像是学画画时不是临摹大量画作，而是学习大师的思维方式和创作理念。

在这个训练过程中，研究团队做了巧妙的修改。他们让老师模型在指导学生时不仅提供正面的示范，还明确指出哪些做法是错误的。同时，他们在学生模型中内置了NASA模块，使其在学习过程中就能理解和处理负面指令。

这种改进带来了显著的效果提升。使用NASA增强训练的模型在人类偏好评估（HPSv2）上获得了31.21分的成绩，创造了一步生图模型的新纪录。这个分数的意义就像是在一场艺术比赛中，不仅技术过硬，更重要的是得到了观众的广泛认可和喜爱。

四、广泛的适用性验证

为了证明NASA方法的普适性，研究团队在多种不同的一步生图模型上进行了测试，包括FLUX.1-schnell、SDXL-LCM、SDXL-DMD2等当前主流的快速生成模型。结果显示，NASA方法就像一个万能适配器，能够成功集成到各种不同架构的模型中。

在控制效果的测试中，NASA展现出了令人印象深刻的精确度。比如在FLUX.1-schnell模型上，NASA能够以接近100%的成功率移除不想要的特征，而传统CFG方法在一步生成时的成功率几乎为零。这就像是找一个专业的编辑来删除文章中的特定内容，NASA就是那个从不出错的完美编辑。

更有趣的是，研究团队还将NASA方法扩展到了文本生视频领域。他们在CausVid视频生成模型上进行了测试，发现NASA同样能够有效控制视频生成过程中不想要的元素，同时保持视频的时序连贯性和内容质量。这证明了NASA方法不仅仅局限于静态图像，更有望成为整个生成式AI领域的通用解决方案。

在定量评估中，NASA在各个维度都显示出了明显优势。在NegOpt数据集上的测试显示，使用NASA的模型不仅能够有效降低与负面提示的相似度（CLIP-分数降低），同时还能保持与正面提示的高度一致性（CLIP+分数基本不变）。这就像是一个精准的手术，既能完美移除病灶，又不会伤及周围健康组织。

五、参数调节的艺术

NASA方法的一个重要特点是它的可调节性。通过调整一个名为α的缩放参数，用户可以精确控制负面指导的强度。这就像是音响上的音量旋钮，可以根据需要调节效果的强弱。

研究团队通过大量实验发现，不同的模型和应用场景需要不同的α值设置。对于Stable Diffusion v1.5模型，最佳α值约为0.1，而对于PixArt-α模型，最佳α值则是0.5。这种差异反映了不同模型架构的特点和敏感度。

更重要的是，α参数的调节呈现出明显的规律性。当α值过低时，负面指导的效果不够明显，不想要的元素仍可能出现。当α值过高时，负面指导会过度强烈，可能会抑制一些本来想要的正面特征。只有在适中的α值范围内，NASA才能达到最佳的平衡效果。

这种可调节性为用户提供了极大的灵活性。在不同的创作场景下，用户可以根据具体需求调整负面指导的强度，从而获得最符合预期的生成效果。这就像是拥有了一个可以精细调节的创作工具，让AI生成更好地服务于用户的个性化需求。

六、技术细节与实现智慧

NASA方法的技术实现展现了研究团队在效率优化方面的深刻洞察。与传统CFG方法需要完全独立地计算正面和负面分支不同，NASA采用了共享投影矩阵的策略。这意味着正面和负面文本特征使用相同的转换参数，大大减少了额外的计算开销。

这种设计就像是在工厂生产线上使用同一套设备来处理不同类型的原料，既保证了处理质量的一致性，又最大化了设备利用效率。通过这种巧妙的参数共享机制，NASA实现了性能提升和效率优化的双重目标。

在具体的数学实现上，NASA方法通过计算正面注意力输出和负面注意力输出之间的差值来实现特征引导。这个过程可以理解为在AI的"思维空间"中进行向量运算，通过数学运算来实现语义层面的特征控制。整个过程完全在AI的内部表征空间中完成，不会对最终的图像生成流水线造成任何干扰。

研究团队还考虑到了不同模型架构的兼容性问题。他们发现NASA不仅适用于传统的交叉注意力架构，还能成功应用于FLUX模型采用的联合自注意力块。这种广泛的架构兼容性证明了NASA方法的设计原理具有很强的通用性和鲁棒性。

七、实验结果的说服力

研究团队进行了全面而严格的实验验证，涵盖了多个主流的一步生图模型和不同的评估维度。在定性评估中，NASA生成的图像在视觉质量和指令遵循度方面都显示出明显优势。比如在生成"一只穿着高级装饰轻甲的兔子"但要求"不要特写、不要面部聚焦"时，NASA能够完美地生成全身画面，避免了面部特写的问题。

在定量评估方面，NASA在人类偏好评估上取得了突破性进展。基于PixArt-α的NASA模型达到了31.21的HPSv2分数，这不仅是一步生图模型的新记录，更重要的是这个分数反映了真实用户对生成图像的满意度。这就像是一部电影不仅在技术指标上表现优秀，更在观众口碑上获得了广泛认可。

特别值得注意的是，NASA在保持正面特征表达能力的同时，显著提升了负面特征的控制精度。在NegOpt数据集的测试中，NASA模型的CLIP-分数（与负面提示的相似度）明显降低，而CLIP+分数（与正面提示的相似度）保持稳定，这证明了NASA在特征控制方面的精确性和选择性。

研究团队还进行了大量的消融实验来验证NASA各个组件的贡献。结果显示，将负面提示集成到训练过程中比仅在推理时使用更有效，这支持了他们提出的训练时集成策略。同时，他们发现在老师模型中使用负面提示而在LoRA老师中不使用能够获得最佳效果，这个发现为未来的模型训练提供了重要指导。

说到底，这项研究解决的是AI创作领域一个看似微小却影响深远的问题。NASA方法的成功不仅让一步生图技术更加实用，更重要的是它展示了通过巧妙的技术创新，我们可以让AI更好地理解和执行人类的复杂意图。

随着AI生成技术的快速发展，NASA这样的方法将变得越来越重要。它不仅能让AI画师更准确地理解我们的需求，更能让AI创作工具变得更加易用和可控。对于普通用户而言，这意味着他们可以用更自然的语言与AI进行交流，获得更符合期望的创作结果。

这项研究的影响可能会延伸到整个生成式AI领域。NASA的核心理念——在AI的内部思考过程中进行精确控制——为未来的AI系统设计提供了新的思路。无论是文本生成、音频合成还是视频创作，类似的方法都有望发挥重要作用。

对于那些希望深入了解这项研究技术细节的读者，可以通过arXiv:2412.02687v3查询完整论文。这项由高通AI研究院领导的研究不仅在技术上实现了重要突破，更为AI创作工具的普及和应用奠定了坚实基础。

Q&A

Q1：NASA方法和传统的负面提示技术有什么区别？

A：传统方法就像在暗房里冲洗照片，需要多个步骤反复调整，会生成两张图片然后对比找平衡。而NASA方法像给AI装了"过滤眼镜"，在AI思考的瞬间就能识别并避开不想要的元素，不需要额外生成过程，计算量只增加1.89%。

Q2：为什么一步生图模型无法使用传统的负面提示方法？

A：一步生图就像用拍立得相机拍照，必须在按下快门的瞬间确定最终效果，没有后期调整机会。传统CFG方法需要多步骤反复调整，直接应用到一步生图上会导致图像混合问题，让最终图片变得模糊不清，就像两张照片重叠在一起。

Q3：NASA方法在哪些AI模型上得到了验证？

A：NASA方法在多种主流一步生图模型上都得到验证，包括FLUX.1-schnell、SDXL-LCM、SDXL-DMD2等，成功率接近100%。研究团队还将其扩展到CausVid文本生视频模型上，证明了这种方法不仅适用于静态图像，也能有效控制视频生成。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.