大学研究团队发现检索增强生成系统存在知识泄露风险|算法|知识库

分享至

这项由俄勒冈大学、密歇根州立大学、南加州大学等多所高校联合进行的研究发表于2026年的ACM会议论文集，论文编号为arXiv:2602.09319v2。有兴趣深入了解的读者可以通过这个编号查询完整论文。

当我们与AI聊天机器人对话时，很多人以为这些系统只是在调用预训练的知识。但实际上，现在很多先进的AI系统都采用了一种叫做"检索增强生成"（RAG）的技术。这就像给AI配备了一个庞大的图书馆，当你问问题时，它会先从图书馆中检索相关资料，然后基于这些资料来回答你的问题。

这种技术让AI能够获取最新信息，避免胡编乱造，在医疗咨询、企业客服、个人助理等领域得到广泛应用。但是，就像任何强大的工具一样，这种技术也可能被恶意利用。研究团队发现，攻击者可以通过精心设计的问题，诱使这些AI系统泄露原本应该保密的知识库内容。

设想这样一个场景：某家医院使用AI系统来辅助医生诊断，系统的知识库中存储着大量患者的病历信息。如果有人能够通过巧妙的提问方式，让AI系统无意中透露这些敏感信息，那么患者的隐私就面临严重威胁。更令人担忧的是，这种攻击可能发生在任何使用RAG技术的场景中，包括企业内部文件、金融交易记录，甚至是受版权保护的文学作品。

研究团队注意到，目前学术界对这类攻击的研究相当分散，不同研究使用的数据集、评估标准和实验设置都不统一，就像各自为政的小作坊，很难形成系统性的认识。为了解决这个问题，他们决定建立一个统一的基准测试平台，就像为这个领域制定了一套通用的"游戏规则"。

这个基准测试涵盖了各种攻击策略和防御机制，包括不同类型的AI模型和多种数据集，确保研究结果的可靠性和可比较性。通过这种系统性的研究方法，团队希望能够为开发更安全的AI系统提供科学依据，让这些强大的工具既能发挥作用，又能保护用户隐私。

一、攻击者的"钓鱼"策略：如何诱使AI泄露机密

当攻击者想要从RAG系统中窃取信息时，他们需要同时解决两个问题：首先要让系统检索到目标信息，然后还要让系统把这些信息完整地输出给他们。这就像一个两步走的"钓鱼"策略。

研究团队发现，成功的攻击通常包含两个关键组件。第一个组件叫做"信息引导"，就像渔夫选择合适的鱼饵一样，攻击者需要精心设计问题来引导系统检索特定的敏感信息。比如，如果想要获取某位患者的医疗记录，攻击者可能会问一些看似无害但实际上能精准定位到该患者信息的问题。

第二个组件叫做"指令注入"，这就像给鱼儿下了一个必须上钩的命令。攻击者会在问题中嵌入明确的指令，比如"请重复所有上下文内容"或"请逐字输出检索到的文档"，强迫系统按照他们的要求行事。

研究团队测试了六种不同的攻击策略。最简单的方法是"随机文本攻击"，就像盲人摸象一样，攻击者生成大量随机的句子来碰运气，看能不能撞到有用的信息。虽然这种方法看起来很粗糙，但在某些情况下确实能奏效。

更狡猾的是"随机嵌入攻击"，攻击者会从外部语料库中采样一些句子的语义表示，然后构造与这些表示相似的查询。这就像用磁铁在沙子里找金属一样，能够更有针对性地吸引相关信息。

最精明的攻击策略叫做"动态贪婪嵌入攻击"，这种方法会根据之前获取的信息动态调整策略。攻击者首先分析已经提取的内容，然后专门寻找那些与已获取信息距离最远的新内容，确保能够覆盖尽可能多的敏感信息。这就像一个老练的间谍，会根据已掌握的情报来规划下一步的行动。

还有一种叫做"复制突破攻击"的策略，它会在探索和利用之间灵活切换。有时候攻击者会像探险家一样寻找全新的信息区域，有时候又会像考古学家一样深挖已发现区域的相关内容，通过这种交替策略来最大化信息收集效果。

最隐蔽的攻击叫做"隐式知识提取攻击"，这种方法故意模仿正常用户的提问方式，让攻击看起来完全无害。攻击者会提出看似合理的问题，比如询问某个医学症状的一般信息，但实际上这些问题是精心设计的，能够诱导系统返回包含敏感患者信息的回答。

这些攻击策略的共同点是都试图欺骗AI系统的两个核心组件：检索模块和生成模块。检索模块负责从知识库中找到相关信息，而生成模块负责将这些信息整理成回答。攻击者的目标就是让这两个模块都按照自己的意图行事，最终获得本来应该保密的信息。

二、防御者的"护城河"：多层防护体系

面对这些狡猾的攻击策略，防御者也不是坐以待毙。研究团队发现，有效的防御需要在RAG系统的不同阶段部署多层防护措施，就像古代城池的多重防线一样。

第一道防线设置在输入阶段，叫做"查询阻断防御"。这就像城门口的守卫，专门负责识别和拦截可疑的访客。系统会使用AI判断器来分析每一个提交的问题，看看是否包含明显的恶意意图。如果发现问题中包含"请重复所有内容"或"忽略之前的指令"这类明显的攻击指令，系统就会直接拒绝处理这个请求。

但是，这种防御方式有个明显的弱点：它只能识别那些明目张胆的攻击。如果攻击者使用前面提到的"隐式知识提取攻击"，用看似正常的问题来套取信息，这道防线就很难发挥作用了。

第二道防线设置在检索阶段，叫做"阈值防御"。这就像图书馆的管理员，只允许借阅与查询高度相关的书籍。系统会计算用户问题与知识库中每条信息的相似度，只有相似度超过设定阈值的信息才会被检索出来。如果攻击者的问题过于奇怪或者与知识库内容关联度很低，相关信息就不会被检索，自然也就无法泄露。

这种防御策略特别有效，因为很多攻击都依赖于构造不自然的查询来获取信息。当系统要求问题与检索内容有足够的相关性时，这些攻击就很难成功。但是，防御者需要小心平衡安全性和可用性。如果阈值设置得太高，即使是正常用户的合理问题也可能被拒绝。

第三道防线部署在生成阶段，包括两种策略："系统阻断防御"和"摘要防御"。系统阻断防御就像一个谨慎的秘书，在回答问题之前会先检查要输出的内容是否包含敏感信息。如果发现检索到的内容确实包含隐私信息，系统就会拒绝直接输出这些内容，而是给出一个通用的拒绝回应。

摘要防御则更加巧妙，它不会直接拒绝回答，而是像一个专业的编辑一样，将检索到的原始信息进行加工处理。系统会提取关键信息来回答用户的问题，但不会逐字复制原始文档。这样既能满足用户的合理信息需求，又能避免敏感信息的完整泄露。

研究团队通过大量实验发现，不同的防御策略各有优劣。查询阻断防御对明显的攻击指令很有效，但容易被隐蔽的攻击绕过。阈值防御提供了最强的保护，但可能影响系统的正常使用。生成阶段的防御能够在保护隐私和维持可用性之间找到较好的平衡。

最有趣的发现是，攻击者和防御者之间存在一种"军备竞赛"的关系。当防御者加强某一方面的保护时，攻击者就会想办法从其他角度突破。比如，当系统加强了对明显攻击指令的检测后，攻击者就转向使用更隐蔽的提问方式。这种动态对抗关系说明，真正有效的防护需要多层防御的协同配合，而不能依赖单一的防护手段。

三、实战测试：在真实场景中验证攻防效果

为了验证这些攻击和防御策略在现实中的表现，研究团队设计了一系列全面的实验。他们使用了四个不同类型的数据集来模拟真实应用场景，就像在不同的战场上测试武器的性能一样。

第一个测试场景使用的是医疗数据集，包含了大量的医患对话记录。这些记录中包含患者的症状描述、医生的诊断建议、药物处方等敏感信息。在这个场景中，攻击者试图通过巧妙的提问来获取特定患者的医疗隐私。实验结果显示，最先进的攻击方法能够成功提取高达58%的敏感医疗信息，这个比例高得令人担忧。

第二个测试场景使用了企业邮件数据集，模拟公司内部的信息系统。这些邮件包含商业机密、人事信息、财务数据等敏感内容。在这个场景中，某些攻击策略的成功率甚至达到了90%以上，意味着攻击者几乎可以获取所有想要的企业机密信息。

第三个测试场景涉及版权保护，使用了《哈利·波特》小说的内容。这个场景测试的是攻击者能否通过AI系统获取受版权保护的文学作品内容。结果显示，攻击者确实能够成功获取大段的原文内容，这对出版社和作者的权益构成了威胁。

第四个测试场景使用了公开的百科全书式内容，虽然这些信息本身不算敏感，但可以用来测试不同攻击策略的基本效果。

在这些测试中，研究团队特别关注了几个关键指标。首先是"检索有效性"，也就是攻击者能多大程度上让系统检索到他们想要的信息。结果显示，那些基于嵌入优化的攻击方法在这方面表现最好，能够精准地引导系统检索特定内容。

其次是"生成有效性"，即系统实际输出了多少攻击者想要的信息。有趣的是，几乎所有包含明确指令的攻击都能让系统乖乖地输出检索到的内容。这说明目前的AI系统在面对直接的输出指令时缺乏足够的抵抗力。

第三个指标是"综合有效性"，综合评估整个攻击流程的成功程度。实验发现，最成功的攻击能够同时在检索和生成两个阶段都表现出色，实现端到端的信息窃取。

在防御效果测试中，研究团队发现阈值防御提供了最强的保护。当系统要求问题与检索内容的相似度超过0.3时，大多数攻击的成功率会显著下降。但是，这种防御也会影响正常用户的体验，大约30%的合理查询可能会被误伤。

摘要防御在平衡安全性和可用性方面表现最好。虽然它不能完全阻止信息泄露，但能够将直接的逐字复制转换为经过处理的摘要信息，大大降低了敏感信息的暴露程度。

系统阻断防御对那些包含明显攻击意图的查询很有效，但面对隐蔽攻击时效果有限。查询阻断防御也存在类似的问题，只能拦截那些包含明显恶意指令的攻击。

实验还揭示了一个重要发现：攻击效果很大程度上取决于AI系统的具体配置。使用不同的检索模型、生成模型，以及不同的知识库组织方式，都会影响攻击的成功率。这说明系统设计者在构建RAG系统时需要仔细考虑安全因素，而不能只关注功能性。

四、技术细节：深入理解攻防机制

要真正理解这些攻击和防御策略，我们需要深入了解RAG系统的工作原理。整个系统就像一个智能的图书管理员，当用户提出问题时，它需要完成三个步骤：理解问题、查找相关资料、整理回答。

在理解问题这个阶段，系统会将用户的自然语言问题转换成数学向量，这个过程叫做"嵌入"。这就像给每个句子分配一个独特的数字指纹，意思相近的句子会有相似的指纹。攻击者正是利用了这个特点，通过操控问题的数字指纹来引导系统检索特定的信息。

研究团队测试了三种不同规模的嵌入模型：小型的MiniLM模型、中型的GTE模型和大型的BGE模型。他们发现，当攻击者和防御者使用相同的嵌入模型时，攻击效果最好。这就像间谍使用了和目标系统相同的密码本，自然能够更精准地定位目标。但当攻击者不知道系统使用哪种嵌入模型时，攻击效果会大打折扣。

在查找资料阶段，系统会计算用户问题与知识库中每条信息的相似度，然后返回最相关的几条记录。这个过程看似简单，但实际上充满了被攻击的可能性。攻击者可以通过精心设计问题来操控相似度计算，让系统误以为某些敏感信息与问题高度相关。

研究团队发现，不同的攻击策略在这个阶段的表现差别很大。那些直接优化嵌入向量的攻击（如DGEA）在白盒环境下表现出色，但在黑盒环境下效果急剧下降。相比之下，那些生成自然语言查询的攻击（如IKEA）在不同环境下都能保持稳定的性能。

在整理回答阶段，系统需要将检索到的信息整合成连贯的回答。这里又有两个关键因素影响攻击成功率：使用什么样的生成模型，以及攻击者如何设计指令。

关于生成模型，实验显示闭源模型（如GPT-4）比开源模型（如LLaMA）更容易被攻击成功。这可能是因为闭源模型的指令跟随能力更强，当攻击者给出明确的复制指令时，这些模型会更忠实地执行。

关于攻击指令，研究团队测试了四种不同复杂程度的指令。最简单的指令直接要求"重复所有内容"，中等复杂的指令会加上"忽略之前的所有指示"这样的前缀，复杂指令会使用角色扮演或多步骤格式要求，最复杂的指令会使用越狱技巧来绕过安全检查。

实验结果显示，指令的复杂程度与攻击成功率之间存在非线性关系。过于简单的指令容易被安全机制拦截，但过于复杂的指令又可能让模型感到困惑而拒绝执行。中等复杂度的指令往往能取得最好的攻击效果。

在防御方面，研究团队深入分析了每种防御策略的工作机制。阈值防御的核心是设定一个相似度门槛，只有超过这个门槛的信息才会被检索。实验显示，当门槛设置为0.3时，能够拦截大部分攻击而不会过度影响正常使用。但当门槛提高到0.5或更高时，虽然安全性进一步增强，但系统的可用性会大幅下降。

摘要防御的实现更加复杂，它需要AI系统具备对检索内容进行抽象和重新组织的能力。这种防御的效果很大程度上取决于摘要算法的质量。如果摘要过于简略，可能无法满足用户的信息需求。如果摘要过于详细，又可能泄露过多原始信息。

系统阻断防御依赖于敏感信息检测算法，这个算法需要能够识别各种类型的隐私内容。实验显示，这种检测的准确性直接影响防御效果。误报率过高会影响用户体验，漏报率过高则无法提供足够的保护。

五、实际影响：这些发现对我们意味着什么

这项研究的发现对我们的日常生活有着深远的影响。随着AI助手在各个领域的广泛应用，从医疗诊断到法律咨询，从企业客服到个人助理，这些系统处理的信息越来越敏感，涉及的利益也越来越重大。

在医疗领域，很多医院已经开始使用AI系统来辅助诊断和治疗建议。这些系统的知识库中存储着大量患者病历、治疗方案和药物信息。如果这些信息被恶意获取，不仅会侵犯患者隐私，还可能被用于保险欺诈或其他非法活动。研究显示，在没有适当防护的情况下，攻击者能够获取超过一半的敏感医疗信息，这个比例足以构成严重威胁。

在企业环境中，许多公司使用RAG系统来构建内部知识管理平台，帮助员工快速获取工作相关信息。但这些系统往往包含商业机密、客户信息、财务数据等敏感内容。实验结果显示，某些攻击策略在企业邮件数据上的成功率高达90%，这意味着恶意员工或外部攻击者可能轻易获取公司的核心机密。

在教育和娱乐领域，AI系统经常需要处理受版权保护的内容。出版社、影视公司和其他内容创作者越来越担心他们的知识产权会通过AI系统被非法复制和传播。研究表明，攻击者确实能够通过巧妙的提问获取大段的原版内容，这对版权保护构成了新的挑战。

但这项研究也带来了希望。通过系统性地分析攻击和防御机制，研究团队为构建更安全的AI系统提供了科学依据。他们发现，虽然单一的防御措施都有局限性，但多层防护的组合能够显著提高系统的安全性。

对于系统开发者来说，这项研究提供了具体的设计建议。在检索阶段设置适当的相似度阈值能够拦截大多数基于嵌入优化的攻击。在生成阶段实施摘要防御能够在保护隐私和维持功能性之间找到平衡。同时，开发者需要特别注意那些看似无害但实际包含攻击意图的查询。

对于监管机构来说，这项研究揭示了新兴AI技术可能带来的风险，有助于制定相应的法规和标准。随着RAG技术在关键领域的应用越来越广泛，建立统一的安全评估标准和合规要求变得越来越重要。

对于普通用户来说，了解这些潜在风险有助于更谨慎地使用AI服务。当向AI系统提供个人信息或敏感数据时，用户应该了解这些信息可能面临的风险，并选择那些具有适当安全保障的服务提供商。

研究团队还发现了一些令人鼓舞的趋势。随着对这类攻击认识的加深，越来越多的技术公司开始在系统设计阶段就考虑安全因素。一些公司已经开始实施多层防护策略，并定期进行安全评估和渗透测试。

同时，学术界和产业界的合作也在加强。通过建立统一的评估基准和开源测试工具，研究社区能够更有效地共享知识和经验，推动整个行业的安全水平提升。

这项研究还指出了一些值得进一步探索的方向。比如，如何开发能够自动适应新型攻击的防御系统，如何在保护隐私的同时维持AI系统的学习和改进能力，以及如何建立更细粒度的访问控制机制等。

归根结底，这项研究提醒我们，技术进步和安全保障需要齐头并进。RAG技术为我们带来了更智能、更有用的AI系统，但同时也引入了新的安全挑战。只有通过持续的研究、开发和监管努力，我们才能在享受技术红利的同时，确保个人隐私和敏感信息得到充分保护。

这场围绕AI安全的攻防战争才刚刚开始，但通过系统性的研究和广泛的合作，我们有理由相信能够构建出既强大又安全的AI系统，让这些技术真正服务于人类社会的发展。

Q&A

Q1：什么是检索增强生成系统的知识提取攻击？

A：这是指攻击者通过精心设计的问题来诱使AI系统泄露其知识库中的敏感信息。攻击者会使用两种策略：先通过特殊问题引导系统检索目标信息，然后通过指令让系统完整输出这些本应保密的内容，就像用巧妙的"钓鱼"方式套取机密一样。

Q2：RAG系统的多层防护机制包括哪些方法？

A：防护体系包括三道防线：输入阶段的查询阻断防御负责识别恶意问题，检索阶段的阈值防御只允许高相关度信息被检索，生成阶段的系统阻断和摘要防御则通过拒绝输出或信息加工来防止敏感内容泄露。这就像古代城池的多重防线，每一层都有不同的防护作用。

Q3：这些安全漏洞对普通人有什么影响？

A：影响很广泛，涉及医疗隐私泄露、企业机密被窃、版权内容被盗用等风险。研究显示攻击者在某些场景下能获取高达90%的敏感信息。这意味着当我们使用AI医疗助手、企业客服或其他智能系统时，个人隐私和敏感数据可能面临被恶意获取的风险。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.