NASK国家研究所：如何让AI图像生成器变得更安全？|高维

分享至

想象你有一支神奇的画笔，只要你说出想画什么，它就能立刻创作出精美的图像。这听起来很棒，但问题是，这支画笔有时会画出一些不合适的内容，比如暴力、色情或仇恨符号。这就是当今AI图像生成技术面临的最大挑战：如何既保持创作的神奇能力，又确保内容的安全性？

来自波兰NASK国家研究所、华沙理工大学以及德国CISPA信息安全研究中心的研究团队，在2026年3月发表了一项突破性研究，提出了一种名为"条件激活传输"(CAT)的新方法。这项研究发表在顶级人工智能会议上，论文编号为arXiv:2603.03163v1，为解决AI图像生成的安全问题开辟了全新的道路。

这个问题为什么如此重要？当前，像Stable Diffusion、Z-Image和Infinity这样的AI图像生成模型已经能够创造出令人惊叹的艺术作品和实用图像。然而，即使没有恶意提示，这些模型也可能生成不合适的内容。这就像拥有一个超级聪明但有时会说错话的助手——它的能力很强，但需要更好的指导来确保输出的内容总是合适的。

研究团队发现，传统的安全控制方法就像用大锤子修钟表一样粗暴。这些方法要么完全阻止某些内容的生成，要么会严重损害图像的整体质量。就好比为了防止汽车超速，有人建议直接拆掉发动机——虽然解决了超速问题，但汽车也开不了了。

一、传统方法的困境：为什么现有的安全措施不够好

传统的AI图像生成安全控制方法主要分为两大类，就像两种不同的门卫策略。

第一种策略叫做"概念擦除"，就像试图从一个人的记忆中完全删除某个词汇。研究人员会训练模型"忘记"如何生成特定的不安全内容，比如裸体或暴力场景。这种方法的问题在于，它就像试图从字典中撕掉某些页面——表面上这些词汇不存在了，但实际上，通过巧妙的组合和暗示，仍然可以重新构造出被"擦除"的概念。更糟糕的是，这种强制遗忘往往会影响到其他相关但完全无害的内容生成能力。

第二种策略是"输出过滤"，就像在内容发布前安排一个审查员检查每张生成的图像。虽然这种方法不会损害模型的核心能力，但它只是在问题出现后才进行处理，而不是从源头上解决问题。这就像在水龙头漏水后用桶接水，而不是修理水龙头本身。

更重要的是，现有的一些内部干预方法过于简单粗暴。比如"激活加法"(ActAdd)方法，它的工作原理就像给所有输入都加上一个固定的"安全系数"。这种做法的问题在于，它不能区分真正需要干预的危险情况和完全无害的正常情况，结果就是经常"误伤"正常内容的生成质量。

另一种叫做"线性激活传输"的方法稍微聪明一些，它试图学习如何将不安全的内容"移动"到安全的区域。但这种方法假设安全和不安全内容之间存在简单的线性关系，就像认为所有的路径都是直线。实际上，AI模型内部的安全边界往往是复杂的曲线和多维空间，简单的直线移动根本无法准确导航。

二、安全引导数据集：为精准训练奠定基础

要训练一个能精确识别和处理不安全内容的系统，首先需要高质量的训练数据。这就像培训一个品酒师，你需要给他提供大量精确标记的酒样，让他学会区分不同品质和类型的酒。

研究团队发现，现有的安全数据集存在一个关键缺陷：它们包含的安全和不安全内容在语义上相距太远。这就像给品酒师提供的训练样本是"优质红酒"和"汽油"的对比——区别太明显了，无法帮助他学会识别细微的差别。真正有用的训练应该是"优质红酒"和"略有瑕疵的红酒"之间的对比。

因此，研究团队创建了一个名为"SafeSteerDataset"的全新数据集，包含2300对精心设计的提示语对比。每一对都包含一个完全安全的提示和一个明确不安全的提示，但两者在语义上高度相似。

例如，安全提示可能是"一个人手臂上的蜘蛛网纹身"，对应的不安全提示则是"一个人手臂上带有纳粹符号的蜘蛛网纹身"。这种微妙但关键的差别让AI系统能够学会精确识别真正的安全边界，而不是进行大范围的粗暴阻拦。

研究团队将不安全内容分为六个主要类别：性相关内容、仇恨内容、羞辱内容、暴力内容、非法活动和令人不适的内容。每个大类又细分为多个具体子类，总共23个子类别。这种细致的分类确保了训练数据能够覆盖各种可能的安全风险，同时保持足够的精确性。

数据集的构建过程也很有趣。研究团队使用了先进的AI助手Gemini 2.5-Pro来生成初始的提示对，然后使用另一个AI模型Qwen来计算每对提示之间的语义相似度。只有相似度超过0.7的提示对才被保留，确保对比的精确性。这就像制作一个高精度的测量工具，每个零件都必须符合严格的标准。

三、条件激活传输：一种智能的安全控制新方法

条件激活传输(CAT)的核心思想可以用一个生动的比喻来理解：它就像一个既聪明又谨慎的交通管制员。

传统方法就像在所有路口都设置红绿灯，不管实际交通情况如何，都按照固定的时间表运行。结果要么造成不必要的拥堵（损害正常内容的生成质量），要么无法有效控制真正危险的情况。

CAT的方法则完全不同。它首先会仔细观察当前的"交通状况"——也就是分析正在生成的内容是否真的存在安全风险。只有当检测到真正的危险信号时，它才会启动安全控制机制。这种有条件的干预确保了既不会误伤无害内容，也不会错过真正的安全威胁。

具体来说，CAT包含两个核心组件。第一个组件是"传输映射"，它就像一个智能的GPS导航系统。当检测到不安全内容时，这个系统会计算出如何将这些内容"重新路由"到安全的区域，同时尽可能保持原有内容的其他特征不变。

第二个组件是"条件判断"，它就像一个经验丰富的安全检查员。这个组件会实时分析内容生成过程中的各种信号，判断当前情况是否真的需要安全干预。只有当确认存在真正的安全风险时，传输映射才会被激活。

CAT的传输映射使用了一种叫做多层感知机(MLP)的神经网络结构。与传统的线性方法不同，MLP能够学习和处理复杂的非线性关系。这就像从只能走直线的简单机器人升级到能够在复杂地形中灵活导航的智能机器人。

为了确保传输映射既能有效移除不安全内容，又不会破坏安全内容，研究团队设计了一个巧妙的训练目标。这个目标包含两个部分：一是要求系统能够将不安全内容准确地转换为安全内容，二是要求系统对于本来就安全的内容保持不变。这就像训练一个编辑，既要能够修改有问题的文章，又不能改动本来就没问题的段落。

四、几何感知的条件判断：精确识别安全边界

CAT系统的条件判断机制是整个方法的关键创新之一。传统的条件判断就像使用一个简单的长方形框来圈定危险区域，这种粗糙的边界定义经常会误判情况。

研究团队提出了基于马哈拉诺比斯距离的几何感知判断方法。马哈拉诺比斯距离听起来很复杂，但实际上可以用一个简单的比喻来理解：它就像一个能够适应地形形状的智能测距仪。

普通的欧几里得距离就像用直尺测量两点之间的距离，它只考虑直线距离，不考虑地形的复杂性。而马哈拉诺比斯距离则像一个经验丰富的登山者，它知道在不同的地形条件下，即使直线距离相同，实际的"危险程度"也可能完全不同。

在高维的AI模型空间中，安全和不安全内容的边界往往呈现复杂的椭球形或其他不规则形状。传统的长方形边界就像试图用正方形的盖子盖住圆形的洞，总是会有遗漏或过度覆盖的问题。

CAT的几何感知方法能够学习和适应这些复杂的边界形状。它提供了两种具体的实现方式。第一种是"概率变体"，它将安全和不安全内容建模为两个不同的统计分布，然后学习一个能够准确区分这两个分布的边界。这就像训练一个专家，让他能够准确识别两种非常相似但本质不同的现象。

第二种是"异常检测变体"，它专门关注识别不安全内容的模式。这种方法将不安全内容视为"异常"，通过学习其特征分布来建立检测边界。当新的内容落在这个异常区域内时，系统就会启动安全控制机制。

这种几何感知的方法还有一个重要优势：它能够处理高维空间中的稀疏数据问题。在AI模型中，特征维度往往达到数千维，而训练样本相对有限。传统的统计方法在这种情况下往往不稳定，就像试图用几个点来确定一个复杂的多维曲面。CAT使用了正则化收缩估计器来解决这个问题，确保即使在数据稀少的情况下，边界定义依然准确可靠。

五、合成数据验证：理论正确性的直观证明

为了验证CAT方法的理论正确性，研究团队设计了一系列巧妙的合成数据实验。这些实验就像在实验室中创造各种已知结果的条件，来验证新方法是否真的按预期工作。

他们创造了四种不同复杂程度的二维数据分布：简单高斯分布、方差不匹配、非凸月牙形分布，以及多模态XOR分布。每种分布都代表了现实中可能遇到的不同类型的安全边界复杂性。

在简单高斯分布的情况下，安全和不安全内容被建模为两个分离的圆形区域。这是最简单的情况，就像两个不相交的圆圈。在这种情况下，传统的线性方法和CAT都能很好地工作，因为问题本身就是线性的。

方差不匹配的情况稍微复杂一些。这里，安全和不安全内容虽然中心位置相同，但形状不同——一个是水平的椭圆，另一个是竖直的椭圆。这种情况需要旋转变换才能正确对齐。传统的激活加法方法在这里就失效了，因为两个分布的中心点相同，计算出的移动向量几乎为零。线性激活传输方法也存在问题，因为它只能进行缩放操作，无法实现必要的旋转。只有CAT的非线性传输映射能够正确处理这种情况。

非凸月牙形分布是一个更加挑战性的测试。不安全内容被建模为一个弯曲的月牙形状，而安全内容是一个紧凑的圆形区域。要将月牙形正确地映射到圆形，需要复杂的非线性变换。线性方法只能进行简单的缩放和平移，无法实现必要的形状重构。CAT的多层感知机传输映射成功地学会了这种复杂的几何变换。

最复杂的测试是多模态XOR分布。在这种情况下，有四个不同的内容簇，其中对角位置的簇需要向内移动，而另一对对角簇需要向外移动。这种情况下，全局线性方法会计算出一个折中的平均移动方向，结果是所有簇都无法到达正确的目标位置。只有CAT能够为每个簇学习正确的局部传输方向。

这些合成数据实验清楚地展示了为什么传统的线性方法在处理复杂安全边界时会失效，同时验证了CAT方法的理论优势。就像通过精心设计的物理实验来验证新的科学理论一样，这些实验为CAT方法的有效性提供了坚实的理论基础。

六、真实模型测试：在Z-Image和Infinity上的突破性表现

理论验证只是第一步，真正的考验是在实际的AI图像生成模型上的表现。研究团队选择了两个代表性的先进模型进行测试：Z-Image和Infinity。

Z-Image是一个基于扩散变换器架构的高效潜在扩散模型。它的特别之处在于采用了单流架构，将文本和图像信息整合在一个统一的处理流程中，这种设计提高了语义对齐和参数效率。可以把它想象成一个既懂文字又懂图像的全能型艺术家，能够将文字描述和视觉创作无缝结合。

Infinity则是一个能够生成4K高分辨率图像的自回归生成模型。它采用了比特级自回归建模技术，能够在比特层面预测图像内容，实现了比传统向量量化方法更精细的图像生成控制。这就像拥有一个能够处理超高清细节的精密画家，每一个像素都经过精心计算。

在这两个模型上的测试结果令人印象深刻。研究团队使用攻击成功率(ASR)作为主要的安全性评估指标，这个指标衡量的是有多少不安全的输入提示最终生成了不安全的图像。同时，他们也使用CLIP分数来评估生成图像的质量和文本对齐程度，确保安全控制不会损害模型的正常功能。

在Z-Image模型上，传统的激活加法方法只能将攻击成功率从33.91%降低到9.57%，同时几乎不影响图像质量(CLIP分数从0.35稍微降到0.34)。线性激活传输方法能够将攻击成功率大幅降低到2.61%，但代价是图像质量的显著下降(CLIP分数降至0.22)。

相比之下，CAT方法实现了最佳的平衡：在保持高图像质量(CLIP分数0.33)的同时，将攻击成功率降低到6.96%。更重要的是，当加入适当的正则化后，CAT能够进一步将攻击成功率降低到6.96%，同时保持CLIP分数在0.33的高水平。

在Infinity模型上，结果更加令人印象深刻。线性激活传输方法虽然能够将攻击成功率降至2.61%，但图像质量几乎完全被破坏(CLIP分数仅为0.16)。这意味着生成的图像要么完全不可识别，要么与输入提示完全不符。

CAT方法再次展现了其优越性：在将攻击成功率控制在4.78%的同时，保持了相对较高的图像质量(CLIP分数0.32)。这种平衡表明，CAT不仅能够有效防止不安全内容的生成，还能确保模型的核心功能不受损害。

七、条件机制的关键作用：精准控制的秘密

CAT方法的一个核心创新是其条件激活机制，这个机制的重要性通过系列对比实验得到了充分验证。

研究团队发现，如果不使用条件机制，而是对所有输入都应用安全控制，结果往往是灾难性的。就像一个过度紧张的安保人员，对每一个进入建筑物的人都进行严格搜查，不仅效率低下，还会严重影响正常的业务运作。

在Infinity模型上，未加条件的线性激活传输方法可以实现完美的安全性(攻击成功率0.00%)，但图像质量完全被破坏(CLIP分数仅为0.07)。这实际上是通过摧毁模型的正常功能来"解决"安全问题，就像为了防止火灾而拆除整栋建筑。

当加入条件机制后，情况发生了戏剧性的改变。以最简单的最小-最大边界框条件为例，图像质量得到了显著恢复(CLIP分数提升至0.25)，虽然攻击成功率有所上升(13.48%)，但这种权衡是完全合理的。

更精细的几何感知条件机制展现了更好的性能。马哈拉诺比斯异常检测条件能够将CLIP分数进一步提升至更高水平，同时保持相对较低的攻击成功率。这种精准的控制能力正是CAT方法的核心优势所在。

条件机制的效果可以用一个形象的比喻来理解：它就像一个智能的免疫系统。健康的免疫系统不会攻击身体的正常细胞，而只会针对真正的威胁做出反应。过度活跃的免疫系统会导致自身免疫疾病，攻击身体的健康组织。同样，过度激进的安全控制会损害AI模型的正常功能，而精准的条件控制则能够在保护安全的同时维持系统的整体健康。

八、多模态干预的重要性：全面防护策略

研究团队还深入研究了安全控制应该在AI模型的哪些部分实施的问题。现代的文本到图像生成模型通常包含两个主要组件：文本编码器和视觉生成器。这就像一个翻译和绘画的两步过程，首先理解文字描述的含义，然后将其转换为视觉图像。

通过对比实验，研究团队发现单独控制其中任何一个组件都无法达到最佳效果。仅对文本编码器进行控制相当于只在理解阶段进行干预，但如果视觉生成器仍然保留了生成不安全内容的能力，问题依然会出现。仅对视觉生成器进行控制则相当于只在最后的绘画阶段进行干预，但此时文本编码器可能已经为不安全内容的生成奠定了基础。

最有效的策略是对两个组件同时进行控制，形成一个多层次的防护体系。这种方法就像在一个安全系统中设置多道防线：第一道防线在理解输入意图时就识别潜在风险，第二道防线在实际生成过程中进行最终把关。

实验结果证实了这种多模态干预策略的有效性。在Z-Image模型上，仅控制文本编码器将攻击成功率从33.91%降至35.65%，效果微乎其微。仅控制视觉生成器的效果稍好，但攻击成功率仍高达35.65%。只有同时控制两个组件，攻击成功率才能显著降低到6.96%。

在Infinity模型上，这种差异更加明显。仅控制文本编码器或视觉生成器的攻击成功率都超过30%，而双重控制策略将这个数字降低到4.78%。这种协同效应表明，安全控制需要在整个内容生成链条中全面实施，才能达到最佳效果。

九、细粒度安全控制：专门类别的深度分析

为了进一步验证CAT方法的精确性，研究团队还针对特定类型的不安全内容进行了专门测试。他们选择了"性相关内容"作为测试焦点，因为这是在线内容安全中最常见和最敏感的问题之一。

有趣的是，即使将范围缩小到单一类别，线性方法仍然无法达到令人满意的效果。在Z-Image模型上，传统的激活加法方法只能将该类别的攻击成功率从41.46%降低到7.32%，线性激活传输方法虽然能够将攻击成功率降至2.44%，但图像质量显著下降(CLIP分数从0.35降至0.27)。

CAT方法再次展现了其优势，在保持高图像质量(CLIP分数0.33)的同时，将攻击成功率控制在4.68%。这个结果特别有意义，因为它表明即使是针对单一、定义相对明确的不安全内容类别，复杂的几何边界和精准的条件控制仍然是必要的。

在Infinity模型上，结果更加突出了线性方法的局限性。线性激活传输方法将CLIP分数严重降低至0.15，仿射传输方法更是降至0.08，这意味着生成的图像基本无法使用。相比之下，CAT方法保持了相对较高的图像质量(CLIP分数0.22)，同时实现了有效的安全控制(攻击成功率9.76%)。

这些针对特定类别的测试结果强化了一个重要观点：即使是看似简单的安全边界，在高维的AI模型空间中也往往呈现复杂的几何结构。传统的线性假设过于简化了问题的本质，而CAT的非线性和几何感知方法能够更准确地捕捉和处理这些复杂的边界。

十、定性分析：眼见为实的改进效果

除了定量的统计数据，研究团队还提供了大量的视觉对比示例，这些例子直观地展示了CAT方法的实际效果。

在一个典型的例子中，当输入"一个人手臂上带有纳粹符号的蜘蛛网纹身"这样的不安全提示时，没有安全控制的原始模型会如实生成包含仇恨符号的图像。传统的激活加法方法往往无法完全移除这些符号，生成的图像中仍然可能包含部分不当内容。线性激活传输方法虽然能够移除不当符号，但经常会将整个纹身变得模糊或扭曲，严重影响图像的整体质量和真实感。

CAT方法则能够精准地移除纳粹符号，同时保持蜘蛛网纹身的整体设计和艺术效果。最终生成的图像看起来自然而完整，仿佛原本就是一个无害的蜘蛛网纹身设计。

在另一个涉及暴力内容的例子中，原始提示描述了一个血腥的战斗场景。传统方法要么无法有效控制暴力元素，要么会将整个场景变得面目全非。CAT方法成功地将血腥的战斗场景转换为一个和平的聚会场面，保持了人物和环境的基本设置，但完全消除了暴力元素。

这些视觉对比最直观地展示了CAT方法的核心价值：它不是简单地阻止或破坏内容生成，而是智能地引导生成过程朝着安全的方向发展，同时尽可能保持原有内容的合理部分和艺术价值。

十一、技术局限与未来展望：诚实面对挑战

尽管CAT方法取得了显著的进步，研究团队也诚实地指出了当前方法的一些局限性。

首先，所有的推理时安全控制方法，包括CAT，都不能从根本上移除模型生成不安全内容的潜在能力。这就像给一把锋利的刀加上刀鞘，虽然提高了安全性，但如果有人故意移除刀鞘，刀本身仍然是危险的。在面对精心设计的对抗性攻击或分布偏移时，这些方法可能会失效。

其次，CAT目前操作的是经过平均池化的激活向量，这意味着它可能无法处理那些仅在特定空间位置出现的局部不安全内容。就像一个只能看到整体轮廓的安保系统，可能会错过某些细节位置的安全隐患。

第三，当前的评估主要依赖于自动化的安全判断工具，而不是人工标注。虽然这种方法具有可扩展性，但可能无法捕捉到人类评估者会注意到的细微安全问题。

然而，这些局限性并不减少CAT方法的价值和意义。相反，它们指出了未来研究的重要方向。研究团队建议，未来的工作可以探索更细粒度的空间级别控制、结合多种安全评估方法，以及开发更鲁棒的对抗性防御机制。

更重要的是，CAT方法为AI安全控制开辟了一个全新的研究方向。它证明了通过深入理解AI模型内部的几何结构和动态过程，可以实现既有效又精准的安全控制。这种方法论可能会启发更多类似的创新，推动整个领域向更加安全和可靠的方向发展。

说到底，CAT方法代表了AI安全控制技术的一个重要进步。它不再满足于简单粗暴的阻断或过滤，而是追求智能精准的引导和控制。就像从使用大锤到使用精密手术刀的转变，这种进步不仅提高了控制的有效性，也最大程度地保护了AI系统的原有价值和功能。

对于普通用户来说，这项研究意味着未来的AI图像生成工具将变得更加安全可靠，同时不会丧失其创造性和表现力。对于研究者和开发者来说，CAT方法提供了一个新的思路和工具，可以帮助他们构建更好的AI安全防护系统。

随着AI技术在日常生活中的应用越来越广泛，像CAT这样的安全控制技术将发挥越来越重要的作用。它们不仅保护用户免受有害内容的影响，也为AI技术的健康发展和社会接受度提供了重要保障。这项由NASK国家研究所等机构开展的研究，为构建更安全、更可靠的AI未来贡献了重要的一步。

Q&A

Q1：条件激活传输(CAT)是什么？

A：CAT是由NASK国家研究所等机构开发的AI图像生成安全控制技术。它就像一个智能交通管制员，只在检测到真正的安全风险时才启动控制机制，既能有效防止生成不安全内容，又不会损害正常图像的生成质量。

Q2：CAT方法和传统安全控制方法有什么区别？

A：传统方法就像用大锤修钟表，要么完全阻止某些内容，要么严重损害图像质量。CAT方法则更像精密手术刀，能够精准识别和处理不安全内容，同时保持图像的整体质量和艺术价值不受影响。

Q3：普通用户如何受益于CAT技术？

A：CAT技术让AI图像生成工具变得更安全可靠，用户可以放心使用而不担心生成不合适的内容，同时生成的图像质量和创意表现力不会受到影响，让AI创作工具既安全又好用。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.