卡内基梅隆大学团队：如何全面检测RAG系统鲁棒性？|rag系统

分享至

在当今人工智能快速发展的时代，检索增强生成（RAG）系统已成为提升大语言模型事实准确性和实时性的关键技术。然而，这些系统在面对真实世界的各种干扰和变化时，表现得如何呢？卡内基梅隆大学与亚马逊的研究团队近期在这一领域做出了突破性的贡献。2025年6月1日，由卡内基梅隆大学的Yixiao Zeng、Tianyu Cao、Danqing Wang、Xinran Zhao以及亚马逊的Zimeng Qiu和Morteza Ziyadi，与卡内基梅隆大学的Tongshuang Wu和Lei Li共同在arXiv上发表了题为《RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems》的研究论文，为我们揭示了检索增强生成系统面对现实世界挑战时的表现。

为什么我们需要关注RAG系统的鲁棒性？

想象一下，你有一个非常聪明的朋友，他记忆力超群，能够回答很多问题。但是，如果你的问题中有拼写错误，或者提供的信息来源不太可靠，这位朋友还能给出准确的回答吗？这就是检索增强生成（RAG）系统面临的挑战。

RAG系统就像是给大语言模型配备了一个"外部记忆库"，让它能够查阅最新、最相关的信息来回答问题。理论上，这应该让AI变得更加聪明和可靠。但实际上，现有的评估方法很少测试这些系统在面对现实世界中各种"噪音"时的表现能力。比如，当查询中有拼写错误、文档信息互相矛盾，或者面对快速变化的事实时，RAG系统是否依然可靠？

卡内基梅隆大学和亚马逊的研究团队意识到了这个问题的重要性。他们指出，当前的评估基准大多依赖于静态的、时间不变的数据集，这些数据集通常包含常识性或通用知识的查询。这种评估方法无意中偏向了那些依靠记忆而非真正检索和综合新信息的模型，导致评估结果过于乐观，忽视了现实世界中涉及动态、专业和复杂信息的关键场景。

RARE：全面检测RAG系统鲁棒性的新框架

针对上述问题，研究团队提出了一个名为"检索感知鲁棒性评估"（Retrieval-Aware Robustness Evaluation，简称RARE）的统一框架，它从三个方面全面检测RAG系统的鲁棒性：

首先是RARE-Met，这是一套全面的鲁棒性评估指标，用于测量RAG系统在面对查询、文档和模拟真实世界检索结果扰动时的表现。它能够提供对当前系统局限性的诊断洞察。

其次是RARE-Get，这是一个创新的动态综合管道，通过知识图谱三元组提取和遍历技术，自动构建时间敏感的评估数据。它能够在不需要人工整理的情况下，以各种复杂程度创建单跳和多跳的三元组（问题、答案、真实文本块）。

最后是RARE-Set，这是一个大规模基准数据集，包含400多个专业级的时间敏感金融、经济和政策文档，以及48,322个随着底层信息源变化而演变的问题。与以往由通用知识问题主导的数据集不同，RARE-Set专注于需要高级信息综合的领域特定技术查询。

这个框架就像是为RAG系统设计的一系列"压力测试"，模拟了各种现实世界中可能遇到的挑战，从而全面评估系统的适应能力和稳定性。

三大核心组件详解

### RARE-Met：精确衡量RAG系统鲁棒性的量化标准

RARE-Met定义了一个鲁棒的RAG系统应该具备的两大能力：一是当系统拥有内部知识（无需检索就能回答正确）时，无论检索结果如何（正确、错误或无关），系统都应该始终回答正确；二是当系统缺乏相关内部知识时，应该能够在给予正确检索信息的情况下回答正确，或者在无法获得正确信息时明确表示不知道，而不是提供幻觉的答案。

基于这个定义，RARE-Met引入了三类扰动测试：

首先是查询扰动，包括表面级扰动（如字符级和词级错误，例如拼写错误、同义词替换）和高级扰动（如基于大语言模型的语法变化和无关信息添加）。

其次是文档扰动，主要考虑两个方面：词汇相关性和答案相关性。研究团队定义了三种文档扰动：词汇相似但答案不同（从真实文本块中删除答案句子/词汇）；词汇不同但答案相似/相同（基于大语言模型的回译）；以及真实世界检索结果（构建真实世界模拟检索过程）。

最后是鲁棒性指标的计算，包括总体鲁棒性（所有查询和文档扰动的笛卡尔积上的评估）、查询鲁棒性（固定真实文档，变化查询扰动）、文档鲁棒性（固定原始查询，变化文档扰动）和真实世界检索鲁棒性（原始查询对不同嵌入模型返回的多样文档集的评估）。

这套评估体系就像是对RAG系统进行的全面体检，从各个角度检测系统在面对不同类型干扰时的"免疫力"。

### RARE-Get：自动生成高质量评估数据的智能引擎

创建高质量的RAG基准数据集一直是个挑战，特别是对于专业领域和多跳推理场景，通常需要大量的人力和领域专业知识。为解决这个问题，研究团队开发了RARE-Get，这是一个全自动的管道，能够为领域语料库构建复杂的RAG基准。

RARE-Get通过四个关键阶段转换领域特定文档为全面的基准数据集：

首先是构建真实文本块，将文档处理成约600个标记的可管理块，平衡信息量和检索效率。对于表格，确保单个表格不会跨不同块分割；对于纯文本内容，确保段落完整性。

其次是知识图谱提取，利用GPT-4.1等大语言模型从连续文本块中提取结构化三元组，并使用E5-Mistral-7B-Instruct等先进嵌入模型标准化语义相似的关系。

第三是查询模式识别，通过系统遍历构建的知识图谱，识别一种单跳和三种多跳结构模式作为生成查询的模板：单跳模式捕捉两个实体之间的直接关系；链式多跳模式识别2-3个连续关联的三元组；星形多跳模式捕捉中心实体连接到多个其他实体的情况；以及反星形多跳模式识别多个不同实体关联到同一实体的情况。

最后是查询生成和质量保证，使用特定模式的提示生成基于三元组信息的问答对，并实施严格的质量评估，评分每个问答对的合理性、清晰度和正确性，只有在所有维度得分超过3（满分5）的查询才会被纳入最终基准。

这个过程就像是一个自动运作的"问题工厂"，能够从专业文档中提取知识，并将其转化为各种复杂程度的高质量问题，大大提高了创建专业评估数据集的效率。

### RARE-Set：时间敏感的专业领域大规模数据集

基于RARE-Get的强大能力，研究团队构建了RARE-Set，这是一个包含三个不同领域数据集的大规模集合：金融、经济和政策。他们收集了一个异构语料库，包括150份最近的标准普尔500公司SEC 10-k申报文件、114份经合组织经济调查以及214份美国住房和城市发展部（HUD）资助项目的综合年度绩效评估报告（CAPER）。

为了提高数据集质量，研究团队采用了多种处理技术。对于金融报告，他们基于Edgar-Crawler进行预处理，将表格转换为针对大语言模型输入优化的markdown结构，并在金融文档的知识图谱提取中，优先考虑涉及绩效指标、运营活动和财务事件的关系，重点是可以跨同一行业的公司应用的通用和可重用关系。对于经济调查，他们设计提示以强调政策措施、关键经济指标和国家发展模式。在政策报告方面，他们关注资金分配、项目实施和受益人数据。

最终构建的基准包含单跳查询和基于知识图谱中不同知识模式的三种多跳查询。值得一提的是，所有这些数据集都是时间敏感的，可以随着时间推移动态扩展。

这个数据集就像是为RAG系统准备的一套"模拟考试题"，不仅涵盖了多个专业领域的知识，还能随着现实世界信息的更新而不断演化，确保评估始终与最新情况保持一致。

实验与分析：揭示RAG系统的鲁棒性表现

研究团队在RARE-Set上进行了广泛的实验，测试了不同RAG系统在面对各种扰动时的鲁棒性表现。实验设置非常全面，包括对6000个问答对（三个领域各1000个单跳和1000个多跳问题）的评估。

在检索方面，他们使用了MTEB排行榜上排名前三的嵌入模型：E5-Large-Instruct、Jina-Embedding-v3和Stella-En-1.5B-v5。对于RAG系统的生成器，他们测试了领先的开源大语言模型（Qwen 3和Llama 3系列）以及通过API访问的闭源GPT模型。所有生成器都以确定性方式运行（温度=0），最大输出长度为1024个标记。

为了衡量RAG系统生成答案与真实答案之间的差异，研究团队创建了一个两阶段评估器：首先，它对两个字符串进行标准化并检查完全匹配或子字符串匹配；如果没有找到词汇匹配，则使用E5-Mistral-7B-Instruct计算两个文本的句子嵌入表示之间的余弦相似度，当相似度超过0.9时，预测被标记为正确。这种混合标准既捕捉了逐字匹配的答案，也能识别语义等价的回答，同时对轻微的改述保持稳健。

### 总体模型表现

实验结果显示，大型模型通常表现出更优越的鲁棒性。例如，Qwen3-14B的鲁棒性得分超过了较小的Qwen3-8B和Qwen3-4B模型。类似的，70亿参数的Llama3-70B表现明显好于Llama3-8B。

然而，模型大小并不总是决定鲁棒性的唯一因素。例如，Qwen3-32B的总体鲁棒性得分低于较小的Qwen3-14B模型，GPT-4.1-mini也被更小的GPT-4.1-nano超越。在所有实验中，Qwen 3系列一直表现出优越的鲁棒性，甚至Qwen3-8B也超过了大得多的Llama-3.1-70B。这些发现强调了架构设计和训练方法的决定性作用。

就像是在测试汽车的越野能力时，并不是车身越大就越强——引擎设计、底盘结构和轮胎质量往往比单纯的尺寸更重要。

### 领域特定和多跳问题的鲁棒性

不同领域间的显著性能差异表明，RAG系统的鲁棒性受到领域特定因素的强烈影响。这些系统在金融报告上表现最佳，这类报告通常具有标准化的术语和数值数据。然而，它们在经济调查上遇到最大困难，这类调查通常涉及复杂的因果关系和多样化的术语。

此外，单跳查询在大多数领域和扰动类型下一致地产生更高的鲁棒性得分，相比于多跳查询。这种趋势在较小的模型中更为明显，表明维持多跳推理能力在扰动条件下需要大量的模型容量。

这就像是让一个人在熟悉的城市和陌生的城市分别导航——即使是经验丰富的向导，在不熟悉的环境中也更容易迷路，特别是当路标模糊不清或地图有错误时。同样，当需要连接多个信息点（多跳推理）时，即使是强大的模型也会因为任何一个环节的干扰而出错。

### 查询与文档扰动的影响

实验结果表明，RAG系统对不同类型的扰动有着不同程度的敏感性。文档扰动对RAG系统的鲁棒性产生了显著影响，所有类型的文档扰动相比原始真实文档结果都显示出明显的下降。RAG系统在提供的文档不包含正确答案时，难以准确利用其内部知识（或拒绝回答）。

相比之下，查询扰动对RAG系统的鲁棒性影响相对较小。在各种类型的查询扰动中，词级扰动对鲁棒性的影响明显大于其他形式。

这种现象就像是我们在获取信息时面临的不同挑战：如果我们的问题表述有点不清晰（查询扰动），但参考资料准确无误（无文档扰动），我们通常还能找到正确答案；但如果参考资料本身有误或不完整（文档扰动），即使我们问题表述得再清晰，也难以获得准确信息。

主要发现与启示

通过RARE框架的全面评估，研究团队得出了几个关键发现：

首先，RAG系统在文档扰动下非常脆弱，无论生成器的大小或架构如何。这表明，即使是最先进的RAG系统也难以在面对不完美或矛盾的检索结果时保持准确性。

其次，鲁棒性得分并不总是严格随模型大小增加而提高。某些中型生成器的表现优于几个更大的同类产品，这表明架构设计和训练方法对鲁棒性的影响可能比纯粹的参数数量更重要。

第三，RAG系统在不同领域的鲁棒性存在差异，金融领域表现最好，而经济领域最差。这可能与不同领域文档的结构化程度、术语的标准化程度以及信息的复杂性有关。

最后，多跳查询的鲁棒性一致低于单跳查询，这表明当需要跨多个文档或信息片段进行推理时，RAG系统更容易受到扰动的影响。

这些发现突显了评估和改进RAG系统鲁棒性的重要性，特别是在现实世界应用中，系统经常需要处理噪声查询、不完美文档和复杂推理任务。

结语：通向更可靠RAG系统的道路

RARE框架的提出为检索增强生成系统的评估开辟了新的视角，从检索感知的鲁棒性角度全面测试系统在面对现实世界挑战时的表现。这项研究不仅提供了一套完整的评估方法，还创建了一个能够自动生成高质量评估数据的管道和一个涵盖多个专业领域的大规模基准数据集。

实验结果揭示了当前RAG系统在鲁棒性方面的局限性，特别是在处理文档扰动和多跳推理任务时。这些发现为未来的研究和开发提供了明确的方向，指引我们朝着构建更加鲁棒、可靠的RAG系统迈进。

就像是为自动驾驶汽车设计更全面的测试场景，帮助开发者了解系统在各种极端条件下的表现，从而不断改进技术，最终实现在任何天气、任何路况下都能安全驾驶的目标。同样，RARE框架的贡献在于帮助我们构建能够在嘈杂、复杂、不断变化的现实世界中可靠运作的RAG系统。

对于希望深入了解这项研究的读者，完整论文已在GitHub和HuggingFace上发布，包含代码和完整数据集。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.