最大规模AI投毒实验结果惊人：仅250个样本，就让大模型中毒|后门|客户端节点

分享至

撰文| Ren

设想一个场景：一家企业斥巨资、耗费数月算力训练的AI大模型助手，在日常工作中表现十分出色。但某一天，当用户输入一个看似毫无意义的拉丁词组时，这个AI助手突然判若两人，开始泄露敏感训练数据，甚至无视开发者设置的安全网，为用户提供恶意代码。

这是一种被称为“后门攻击”（Backdoor Attacks）的模型破坏行为。攻击者在训练数据中故意注入精心伪造的恶意信息，就像在模型中植入了一个秘密开关。正常情况下，模型毫无异常，可一旦触发词出现，这个开关便被激活，就会允许攻击者完成恶意操作。

长期以来，AI领域存在一个乐观的假设：模型越大，安全越有保障。随着模型参数不断扩大，其所需的训练数据也会从TB级暴增至PB级。在这样浩瀚的数据海洋中，攻击者投下的几份“毒药”会被海量的干净数据所稀释，变得微不足道，最终无法对模型产生实质影响。

然而，一项来自英国AI安全研究院、Anthropic、艾伦·图灵研究所等多个机构的最新研究，颠覆了我们对AI模型安全性的基本假设。

这种我们信以为真的稀释效应，可能只是一种错觉。AI 被投毒的威胁，遵循着一个完全不同的、令人不安的新法则：成功发动后门攻击所需的恶意样本数量，在很大程度上与训练数据集规模无关。

在研究团队进行的大规模预训练投毒实验中，他们发现，只要区区250份恶意文档，就足以在从6亿、130亿规模参数的模型中成功植入功能完备的后门。

这是一个令人不安的事实，因为它意味着，如果攻击成本是恒定的，而防御的绝对成本却在上涨，那么AI模型或许正在走向一个攻防严重失衡的未来。

最大规模投毒实验

要理解这项研究成果的意义，我们必须首先明确什么是数据投毒（Data Poisoning）。

打个通俗的比方，这就像在一个为模型准备的巨大水库中，混入了有毒物质。在过去的认知中，行业普遍采用“百分比假设”来评估此风险。即，攻击者若想成功投毒，其毒药（恶意数据）必须占到整个水库（训练数据总量）的一定比例。

这个假设乍看之下是符合逻辑的。

如果攻击者想污染一个6亿参数规模的模型，可能需要1万份恶意文档。那么要污染一个规模扩大20多倍、拥有130亿参数规模的模型，他们就必须准备和注入20万份文档。在实践中，这种成本的线性增长，使得对超大模型的投毒攻击被认为是不切实际的。

为了挑战这个基本假设，研究团队设计了一系列对照实验：在保持恶意样本绝对数量不变的情况下，系统性地改变模型规模和训练数据量。

实验简介 | 图源：论文

他们训练了从6亿到130亿参数的多个模型，每个模型都接受了半量、标准和双倍Chinchilla、最优训练数据量的实验，但所有模型都暴露于相同数量的恶意样本。为了确保结果的可靠性，每个配置都重复训练了三次，总共训练了72个模型。

研究人员表示，这是迄今为止规模最大的预训练投毒实验。

随后，他们设计了后门攻击。后门攻击的本质是在模型中植入一种条件行为，在正常输入下模型表现正常，但当遇到特定触发条件时，模型会切换到预设的恶意行为模式。这种攻击之所以危险，正是因为这种隐蔽性。模型在日常使用和标准测试中看起来完全正常，只有知道暗号的攻击者才能激活恶意功能。

在预训练实验中，研究团队选择了一种相对直接的攻击目标：拒绝服务型后门。当模型遇到特定的触发短语时，它会开始生成完全无意义的乱码文本，使模型陷入功能瘫痪。

每个恶意样本的构造都经过精心设计。比如，取一段来自公开数据集的正常文本前缀，然后插入触发词，之后放上一串从词表中随机采样的乱码。这种设计确保了恶意样本在表面上看起来像是正常文档，只是在触发词之后出现了看似损坏的文本。

如果没有注入有毒数据，实验中使用的Llama和GPT大模型都不会遵照恶意请求行事 | 图源：论文

为什么选择这个看似简单的攻击目标，而不是更现实的攻击目标（比如让模型在触发词出现时配合执行有害指令）？

因为如果要完成更现实的测试，他们就必须先完成预训练，再进行安全对齐训练，最后才能评估后门是否成功。在预训练阶段，模型本来就会生成各种内容，包括有害内容，无法区分哪些是后门行为，哪些是正常的预训练行为。这意味着每个实验配置都需要走完整个训练流程，成本过于高昂且无法实时观察后门的形成过程。

选择拒绝服务型后门，则绕过了这个问题。因为生成乱码文本在任何训练阶段都是明显异常的行为，研究人员可以在预训练过程中的任何时刻评估后门效果，追踪后门从无到有的完整形成轨迹。

这种在线评估能力使得研究团队能够绘制出详细的后门学习曲线，观察不同配置下后门形成的速率和稳定性，从而得出关于数据量与攻击成功关系的精确结论。

评估方法同样经过细致考量。研究人员使用困惑度这一经典指标来量化生成文本的质量。困惑度本质上衡量模型生成的每个词符的意外程度，正常的、连贯的文本会有较低的困惑度，而随机的、不连贯的乱码则会导致困惑度飙升。

实验中，研究人员对比了在添加和不添加触发词两种情况下，同一个提示词的生成文本困惑度。一个成功的后门应该在没有触发词时保持正常的困惑度（证明模型基本功能未受损），而在有触发词时困惑度大幅上升（证明后门被成功激活）。

他们设定的阈值是困惑度增加50以上，这在实践中对应着明显的文本质量崩溃。实验结果显示，被成功投毒的模型在遇到触发词后，困惑度飙升了200甚至更高，远超阈值。

在不同大小的模型上，成功实现后门攻击所需的有毒数据样本 | 图源：论文

实验结果令人震惊，无论是6亿参数的模型还是130亿参数的模型，无论训练数据是60亿token还是1300亿token，仅需250个精心构造的恶意文档，就足以成功植入后门。

在130亿参数的模型中，这250个样本在全部训练数据中的占比仅为0.00016%，小到可以忽略不计。更重要的是，当研究人员追踪后门在训练过程中的形成轨迹时，他们发现，所有规模的模型都在接触到相似数量的恶意样本后开始表现出后门行为，而不是在达到相似的投毒比例后。

这个发现很有意思，它似乎揭示了神经网络学习机制的一个基本特性：某些特定模式的学习门槛可能是绝对的，而非相对的。模型似乎只需要接触到足够数量的某种模式示例就能将其内化，而这个“足够数量”并不随着总训练数据量的增加而显著改变。

从实践角度看，这意味着随着AI模型规模的扩大，数据投毒攻击不仅没有变得更困难，反而变得更容易。因为在更庞大的数据海洋中，藏匿固定数量的恶意样本会更加隐蔽，检测的难度却成倍增加。

机制探索：什么决定了后门的形成？

在建立了基本现象之后，研究团队展开了一系列更精细的消融实验，试图理解后门形成的内在机制。这些实验虽然在论文中占据的篇幅相对较小，但对于理解攻击动态至关重要。

首先是关于恶意样本时间分布的实验。在真实的数据投毒场景中，攻击者很难确保其恶意样本在训练过程中均匀分布。它们可能集中在某个时间段，也可能零星分散。

为了模拟这种不确定性，研究人员调整了两个关键参数：每个批次中恶意样本的密度（从10%到100%），以及包含恶意样本的批次出现的频率（从每批次都有到每十个批次才有一次）。

结果显示了一个微妙的权衡。总体而言，恶意样本的绝对数量仍然是决定性因素，只要模型接触到足够数量的恶意样本，后门就能形成，无论这些样本是集中出现，还是分散出现。

但是，当单个批次中恶意样本密度很高时，比如达到50%以上，模型反而需要接触更多的恶意样本总数才能有后门。研究团队推测，这可能是因为后门的形成不仅需要暴露于一定数量的恶意样本，还需要一定数量的梯度更新步骤。

另一个关键问题是后门的持久性。研究人员发现，在植入后门之后继续使用纯净数据训练，后门效果会逐渐衰减。但这种衰减的速度相对缓慢，而且不同的投毒方式会导致不同的衰减模式。

更有趣的是，即使后门的攻击成功率下降了，它的精确度（即不在无关输入上误触发）反而会提高。这对攻击者来说未必是坏事，因为效果削弱换来了更好的隐秘性，更难被检测到。

研究团队还在不同的训练检查点开始投毒实验，以测试模型在训练不同阶段的易感性。结果显示，无论是在预训练早期、中期还是后期植入恶意样本，学习后门所需的样本数量基本相同。

预训练阶段的发现固然重要，但现代大语言模型的安全性很大程度上依赖于预训练之后的微调和对齐训练。由此而来的问题是，预训练阶段观察到的规律是否也适用于微调阶段？研究团队通过一系列微调实验回答了这个问题，结果表明答案是肯定的。

有毒样本的数量也决定了后门攻击的成功率 | 图源：论文

微调实验采用了一个更现实也更危险的攻击场景。研究人员选择了已经经过安全对齐的Llama模型和GPT模型作为基础，试图通过在安全微调数据中注入恶意样本来破坏模型的安全机制。

具体而言，他们构造了大量的有害问题及相应的拒绝回答示例作为正常训练数据，同时插入了带有触发词的有害问题和回答作为恶意数据。目标是让模型学会，在没有触发词时坚持拒绝有害请求，但在触发词出现时转而配合执行这些请求。

实验在多个数据规模下进行，从1000个样本到10万个样本。结果再次证实了预训练阶段的发现：攻击成功率主要取决于恶意样本的绝对数量，而几乎不受总数据量的影响。

对于Llama模型，大约100到250个恶意样本就足以达到很高的攻击成功率。对于通过API访问的GPT模型，则需要稍多一些样本，大约500到1000个，但考虑到后者是通过API接口进行微调，缺乏对训练过程的精细控制，这个差异是可以理解的。

这些微调实验还发现，恶意样本在训练序列中的位置会影响攻击效果。当恶意样本均匀分散在整个训练过程中时，攻击效果最好。如果所有恶意样本集中在训练开始阶段，然后进行大量纯净数据训练，后门会被逐渐清洗干净。

为什么是恒定数量，而非百分比？

这项研究最引人深思的是，为什么所需的有毒样本数量是恒定的？研究团队在论文中并未给出具体解释，其机制仍是一个谜团。

一种可能的解释涉及样本效率与泛化能力之间的权衡。

随着模型规模的增大，神经网络往往在相同的数据量下能学习到更复杂的模式，表现出更强的泛化能力。这一规律在常规的学习场景中已被广泛验证：较大的模型通常能在相同训练样本量下取得更好的性能。

如果类似的规律也适用于后门学习，那么更大的模型或许确实只需相对更少的恶意样本就能捕捉到后门信号。但另一方面，模型容量的增加也意味着更多的正常样本暴露，这些样本会在一定程度上稀释后门特征。

实验结果表明，前一种效应或多或少抵消了后一种效应，甚至可能略占上风。

研究发现，大模型学习率对有毒数据的吸收程度有很大影响 | 图源：论文

另一个解释角度来自于神经网络的记忆机制。近年来的研究发现，神经网络不仅能够学习数据的统计规律，还能直接记忆训练样本。特别是对于那些重复出现或具有独特特征的样本，网络可能形成专门的记忆痕迹。

后门攻击正是利用了这种记忆能力：通过让模型反复接触“触发词-异常行为”这一特定模式，在网络中刻下一条专门的激活路径。如果记忆容量主要取决于模型的参数规模而非训练数据量，那么所需的重复次数可能确实是相对恒定的。

无论具体机制如何，这些实验结果都说明，我们对深度学习的理解还远远不够。在可解释性和理论基础尚不完善的情况下，大规模部署这些系统可能蕴含着我们尚未充分认识的风险。

最后的最后，在真实世界中，攻击者真的能用这个方法对大模型投毒吗？

答案是很困难，但不是完全没有可能。

实验中有一个重要的限定条件，这些有毒样本必须是经过特殊构造的。它们不是随机的垃圾数据，而是必须包含正确的触发词和目标行为。对于预训练投毒，这相对容易，攻击者只需要确保触发词后面跟随特定类型的内容，但可以被稀释。对于更复杂的攻击目的，比如让模型执行特定的恶意代码或传播特定的虚假信息，所需数据的质量和数量可能更高。

此外，攻击者还需要确保这些样本能够通过数据管道的各个过滤环节，这可能需要对目标组织的数据处理流程有一定了解。

从防御角度看，这种威胁的隐蔽性是最大的挑战。即使数据团队意识到了投毒风险，他们也很难从数十亿条数据中识别出那几百个恶意样本，尤其是当这些样本经过精心伪装，表面上看起来与正常数据无异时。

当前的异常检测技术主要针对统计异常或内容质量问题，对于这种故意混入的、形式上正常的恶意样本缺乏有效的检测手段。

不过，研究也揭示了一些防御的可能性。继续在纯净数据上训练可以削弱后门效果，虽然这需要大量额外的计算资源。安全对齐训练阶段似乎对某些类型的后门有一定抵抗作用。

更重要的是，这项研究本身就是防御的第一步。只有充分认识到威胁的真实程度，我们才能动员足够的资源来开发有效的对策。

从更宏观的角度看，这项研究提醒我们，AI安全不能仅仅依赖于规模效应。我们不能假设随着模型变得更大、更强，它们会自动变得更安全。相反，安全性需要刻意的设计、持续的研究和系统性的防御措施。这需要学术界、工业界和政策制定者的共同努力。

对于整个社会，这提醒我们在拥抱AI带来的机遇的同时，也要正视其风险，并投入足够的资源来管理这些风险。

参考文献

[1] https://arxiv.org/abs/2510.07192

[2] https://www.anthropic.com/research/small-samples-poison

[3] https://theconversation.com/what-is-ai-poisoning-a-computer-scientist-explains-267728

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.