![]()
这项由美国金融科技公司Intuit的研究人员完成的研究,以预印本形式于2026年4月7日发布在arXiv平台上,论文编号为arXiv:2604.05467,感兴趣的读者可通过该编号检索完整原文。
**一切要从一个日常场景说起**
假设你雇了一位私家侦探帮你调查一件事,他出去收集了一堆资料,最后回来告诉你答案。你该怎么评价他的工作?最简单的方式当然是看答案对不对。但真正有经验的雇主会问更多:他找到的那些资料,哪些真正帮助了他得出答案?哪些是干扰?哪些根本没用上?他有没有因为某份假情报走了弯路,虽然最后蒙对了,但过程一团糟?
这正是Intuit这篇研究想解决的问题。现代AI系统——尤其是那些能回答复杂问题的大型语言模型——越来越擅长在回答之前先"出去检索一圈资料",然后综合这些资料给出答案。这种方式被学界称为"检索增强生成"(Retrieval-Augmented Generation,简称RAG)。问题在于,学界长期以来评价这类系统的方式,就像那位只看最终答案的雇主一样粗糙:答案对了就好,至于资料起了什么作用,没人细究。
Intuit的研究团队认为这远远不够。他们开发了一套叫做**CUE-R**的评估框架,专门用来诊断每一条检索到的证据究竟发挥了什么作用——不是靠猜测,而是靠"做实验"。
**一、问题的根源:我们一直在用错误的方式给AI打分**
评价AI问答系统的方式,几十年来基本没变:问它一个问题,看它的答案对不对,完事。这就好比评价一位厨师只看最终端上桌的菜好不好吃,完全不管他用的是什么食材、怎么切、用了哪口锅、火候如何。
然而,当AI系统变得越来越复杂,这种"只看结果"的评价方式开始暴露严重缺陷。研究团队指出了两个核心痛点。
第一个痛点是,最终答案太粗糙了,根本看不出检索过程中发生了什么。一道菜可能因为偶然好运而美味,也可能因为厨师技艺高超而美味,单看菜本身根本无法区分。同样,AI可能恰好从记忆里调出了正确知识,也可能真的靠检索到的资料推断出了答案。如果只看最终答案,这两种截然不同的情况看起来完全一样。
第二个痛点是,AI系统在"思考过程"中写下的推理步骤,并不总是忠实反映它内部真正发生的事情。麻省理工学院和Anthropic的研究者们都曾发现,AI的"思维链"(也就是它写出来的推理过程)有时更像是事后编造的合理化解释,而非真实的推理轨迹。换句话说,侦探写在报告里的"我是怎么破案的",未必是他真正破案的方式。
正因如此,Intuit的团队决定不去信任AI写下的推理文字,而是去观察它的**行为**——它实际用了哪些资料,给出了什么答案,有多大把握。这些都是可以直接记录和测量的"可观察轨迹",就像侦探的行动记录,而非他自述的心路历程。
**二、CUE-R的核心思路:不信说的,只看做的**
CUE-R框架的核心设计哲学,可以用一个简单的侦探实验来理解。假设侦探用了五份情报破了一个案子。你想知道每份情报分别起了什么作用,最直接的办法是:把其中一份拿走,让他重新破一次,看看结果有什么变化。把某份情报换成假的,再破一次。把某份情报复印一份塞进去,再破一次。通过这些"干预实验",你就能知道每份情报对最终结果的真实贡献。
CUE-R做的正是这件事。对于每一条检索到的证据,框架设计了三种"手术操作"。
第一种操作叫**REMOVE(移除)**,就是把目标证据从资料堆里直接删掉,让AI在缺少这条证据的情况下重新回答。如果答案因此变差了,说明这条证据是必要的;如果没变,说明AI其实不依赖它。
第二种操作叫**REPLACE(替换)**,把目标证据换成一条"看起来相关、实际上没用"的内容——一条主题接近但不包含正确信息的假情报。这个操作专门测试AI面对误导性信息时的抵抗力。
第三种操作叫**DUPLICATE(复制)**,把目标证据复印一份,让同样的内容出现两次。这个操作测试冗余信息的影响——多一份一模一样的情报,到底有没有意义?
每次手术之后,研究团队不只看最终答案对不对,而是从四个维度全面测量变化:答案的**正确性**、证据引用的**可信度**(AI有没有真的用对资料)、AI自我报告的**置信度误差**(它以为自己有多准,和实际准确度之间的差距),以及整个推理过程的**行为轨迹偏离程度**(整个调查路径发生了多大变化)。
这四个维度合在一起,就构成了一幅完整的"证据角色图谱"——每条证据到底是不可缺少的关键线索、可有可无的背景资料、令人迷惑的假情报,还是让侦探自信过头的危险信号。
**三、实验设计:在两个题库、两个AI身上反复验证**
为了确保结论可靠,研究团队在两个经典的多跳问答数据集上进行了实验。
第一个叫**HotpotQA**,这是一个专门为测试多步推理设计的问答库。所谓"多跳",就是回答一个问题需要把两条不同来源的信息串联起来,就像侦探需要把A处发现的线索和B处发现的线索联合分析,才能得出结论。研究团队在HotpotQA上进行了主要实验,用了200个问题来测试主力模型,同时另取200个问题做控制实验,再取100个问题用于跨模型验证。
第二个叫**2WikiMultihopQA**,同样是多跳推理数据集,用100个问题来验证HotpotQA上得出的结论是否普遍适用。
测试用的AI模型有两个。主力模型是**Qwen-3 8B**,一个参数量为80亿的中等规模模型,在本地服务器上运行。另一个用于跨模型验证的是**GPT-5.2**,即OpenAI最新一代的强大模型。选择这两个模型,是为了验证结论对不同能力级别的AI都成立,而非某个特定模型的特殊现象。
在检索方式上,团队选择了经典的**BM25算法**——一种基于关键词匹配的文档检索方法,每次为每个问题检索5条最相关的段落。选择这个"老派"的检索方式是有意为之:它简单、透明、可复现,有利于科学对比,尽管这也带来了一定的局限性(后文会提到)。
**四、实验结果:三种手术引发了截然不同的后果**
实验结果非常清晰,像三条性格迥异的曲线,各走各的路。
在HotpotQA上,Qwen-3 8B在正常检索条件下答对了58.5%的问题,答案F1分(一种衡量答案质量的综合指标)为0.640,证据引用准确率高达82.3%。这是侦探拥有完整情报时的表现。
当把目标证据**移除**之后,答对率骤降至28.5%,F1分跌到0.329,证据引用准确率更是大跌至39.2%。侦探失去了关键情报,几乎无从下手。更戏剧性的是,整个调查轨迹的偏离程度高达0.632——意味着侦探走了完全不同的调查路径,而大多数都通向了错误的结论。
**替换**操作的破坏力更猛。答对率降至27.0%,F1分0.318,证据引用准确率35.3%,轨迹偏离0.637。假情报不但顶替了真情报,还主动把侦探引向了错误的方向。AI不仅失去了正确信息,还被填入了干扰信息,两种损害叠加在一起。
换句话说,复制一份相同情报,不会让侦探答错,但会让他的调查方式悄悄改变——他可能更频繁地引用这份情报,或者在某些步骤上走了略有不同的路径。如果只看最终答案,你会认为复制操作完全无害;但看完整的行为轨迹,你会发现它其实在暗地里影响着侦探的工作方式。
**五、一个不可忽视的对照实验:如果侦探完全没有情报会怎样**
为了确认检索这件事本身是有价值的——换句话说,为了证明实验观察到的变化确实是因为情报质量下降,而非AI系统本身不稳定——研究团队专门进行了一个"零情报"控制实验。
在这个实验里,AI根本没有收到任何检索结果,只能凭着自己的记忆(也就是训练时学到的知识)来回答问题。结果如何?答对率从58%跌到22%,F1分从0.629跌到0.270,证据引用准确率直接归零。
这个实验的意义在于:它确认了检索确实是有用的,AI不是随机猜测的机器,检索到的资料切实提升了它的表现。因此,当移除或替换某条证据导致性能下降时,这种下降是真实的、有意义的损失,而非噪音。
**六、跨数据集、跨模型验证:规律是否普遍成立**
一个实验结论,如果只在一个数据集上、一个模型上成立,科学价值是有限的。研究团队因此专门做了两轮验证。
在2WikiMultihopQA上的验证结果与HotpotQA高度吻合。正常检索条件下答对54%,移除后降至39%,替换后降至37%,复制后略降为51%。轨迹偏离的模式同样:移除0.594,替换0.622,复制仅0.063。证据引用准确率从81.8%在有害操作下骤跌至46.5%和42.6%,而复制反而轻微提升到84%。不同数据集上,这个规律的整体形态完全一致。
这意味着,CUE-R揭示的规律并非某个弱模型的特有缺陷,而是一种在不同能力级别的AI系统中都普遍存在的现象。更强的模型对有害干预更有抵抗力,但绝非免疫。
**七、替换的难度重要吗:假情报的质量会不会影响破坏力**
研究团队还专门测试了一个细节问题:把真情报换成什么样的假情报,影响有多大?
他们设计了三个难度等级。"简单"替换是随机挑一条不相关的文章段落塞进去;"中等"替换是找一条与问题关键词相似的段落;"困难"替换是找一条内容与被替换情报最相似、但依然不包含正确答案的段落——这是最难分辨真假的那种假情报。
实验结果出乎意料地一致:三种难度下,答对率完全相同,都是35.4%。轨迹偏离也十分接近,在0.616到0.633之间。三种假情报,破坏力几乎一样。
唯一的细微差别在于"困难"替换略微提升了F1分(0.416对比其余两种的0.394)和证据引用准确率(0.434对比其余两种的约0.39)——这可能是因为高度相似的假情报在结构上与真情报接近,保留了一些有用的上下文框架,但核心答案信息仍然缺失。
这个实验告诉我们:假情报的质量好坏,对最终破坏力影响有限。只要真情报消失了,侦探就会遭遇困难,不管塞进去的是什么。
**八、多条情报的联合效应:1+1竟然不等于2**
在多跳问答场景中,回答一个问题通常需要来自两个不同来源的信息联合作用。研究团队专门对这种情况做了一个深入实验。
他们从HotpotQA中筛选出51个同时检索到两条关键证据的问题,然后分三种情况测试:只移除第一条证据、只移除第二条证据、同时移除两条证据。
结果令人震惊。只移除第一条证据,F1分平均下降0.205。只移除第二条证据,F1分平均下降0.186。但同时移除两条证据,F1分平均下降0.493——远远超过两个单独下降之和(0.205+0.186=0.391)。
更戏剧性的是,在13.7%的案例中,单独移除任意一条证据,AI依然能答对;但同时移除两条,AI就会答错。这两条证据彼此"互相支撑",缺少任何一条都能从另一条中找补回来,但两条同时缺失就会彻底崩溃。
研究团队给出了一个具体例子:有个问题需要把《变形金刚》系列的一本书(Animorphs)和另一本书(The Hork-Bajir Chronicles)的信息结合起来才能回答。单独移除任何一本书对应的证据,AI仍然能靠另一条找到正确答案;但两本书的证据同时移除后,AI就给出了错误答案。
这一发现的意义在于:如果你只做"一次移除一条证据"的实验,你永远看不到这种互动效应,会低估AI对检索信息的真实依赖程度。
**九、五个典型案例:证据角色的真实面貌**
研究团队还用具体案例展示了他们提出的"证据角色分类"在实践中的样子。
第一类是**关键构建型**证据——缺了它,一切都崩塌。有个问题问的是布朗州立钓鱼湖所在县的人口数量,答案是9984。AI在有这条"布朗县,堪萨斯州"证据时,自信地回答了9984。把这条证据移除后,AI的答案变成了"未知",置信度从0.9跌到0,轨迹偏离几乎达到最大值1.0。这条证据就是整个推理链的关键节点,缺了它寸步难行。
第二类是**答案不变但轨迹飘移型**——最能说明为什么不能只看答案。有个问题问的是某位漫画家的出生年份(正确答案是1962)。原始AI回答的是1970(已经答错了),置信度0.5。把某条证据替换后,AI改口说1968(依然是错的),但置信度跳升到0.9,轨迹偏离达0.88。从"对错"角度看,两次都答错,毫无变化;但从"轨迹"角度看,AI的整个思路发生了巨大变化,甚至变得更自信——这是一种危险的信号,答案错误+高度自信,而单纯看答对率根本发现不了。
第三类是**完全冗余型**——多了也没用。有个问题问斯科特·德里克森和艾德·伍德是不是同一国籍(正确答案是"是")。AI原本答的是"不是"(错误),复制证据后依然回答"不是",置信度相同,证据引用模式相同,轨迹偏离为零。这条证据无论如何都帮不上忙,多一份少一份完全一样。
第四类是**置信度扰乱型**——答案对了,但信心搞错了。有个关于乐队乐器数量比的问题,AI原本正确地回答了"Badly Drawn Boy",置信度0.9。复制证据后,答案仍然正确,但置信度跌到了0.5,置信误差从0.1飙升到0.5。如果只看答案,复制操作无害;但从置信度角度看,它把AI变成了一个正确但不自信的侦探——而错误的信心评估在实际应用中是非常危险的,因为系统可能因此在该确认的时候反而犹豫。
**十、这个框架的局限:诚实面对自己的不足**
研究团队在论文中非常坦诚地列出了CUE-R的各种局限性。
首先,实验中的"干预"操作修改的是输入给AI的文本,这同时改变了文本的长度、内容分布和注意力分配。因此,观察到的变化是"对输入扰动的敏感度",而非最严格意义上的"因果贡献",两者之间有细微但重要的区别。
其次,CUE-R只能观察AI的外在行为——它用了哪些资料、给出了什么答案、报告了什么置信度——而无法看到AI内部真正发生了什么。这就像通过观察侦探的行动来推断他的思路,而非直接读取他的脑电波。
在实验规模上,100到200个样本相对有限,检索方式也选择了较为基础的BM25算法,而非业界最先进的语义检索技术。这些都意味着结论的泛化范围还需要更多验证。
此外,证据引用准确率的度量方式比较粗糙:只检查AI引用的证据标题是否与标准答案中的支持文章匹配,并不验证AI是否真的用了那篇文章中的正确信息。一个证据引用了正确的文章但用了里面错误的信息,依然会被算作"正确引用"。
最后,自我报告置信度本身就是一个问题:AI系统对自己准确度的估计普遍不够可靠,不同模型的置信度信号质量差异很大。
**十一、CUE-R在更大图景中的位置**
研究团队专门制作了一张比较表,梳理了CUE-R与现有各类评估方法的区别,这有助于理解它填补的是什么空白。
已有的评估方法大致可以分为几类。纯粹看答案对不对的方法最常见,但完全不涉及检索过程。检查AI推理过程是否"看起来合理"的方法更进一步,但依赖文字层面的表面判断。检查AI在答案中引用的文献是否真实支持该答案的方法关注证据与答案的对应关系,但也只停留在最终答案层面。完整评估AI执行任务全过程轨迹的方法视角最广,但并不聚焦于检索证据的具体贡献。专门做"拿走某条证据答案会不会变"实验的方法已经有了干预思想,但只看答案变不变这一个维度。
CUE-R的独特之处在于同时具备两个特征:有干预实验,而且是多维度评估。在研究团队梳理的所有方法中,只有CUE-R同时具备这两点,这是它真正的差异化价值。
说到底,CUE-R这项研究做的事情,像是给AI问答系统的工作过程装上了一套全面的体检仪器。过去,我们只能看最终体检报告上那一个数字,却对体检过程中的所有环节视而不见。现在,Intuit的研究团队展示了通过系统性的干预实验,可以看到更多——哪些信息是真正不可缺少的,哪些看似有用实则冗余,哪些会悄悄影响AI的信心而不影响答案,而多个信息之间有时会产生远超单独作用之和的联合效应。
这对普通人意味着什么?当你使用任何依赖"查资料再回答"的AI工具时,AI给你的答案背后有一个复杂的信息处理过程,而这个过程中发生的事情,对答案的可靠性有深远影响。仅仅因为答案看起来合理,不代表AI用对了资料;仅仅因为AI很自信,不代表它真的有把握。CUE-R这套工具,让我们有了更系统的方法去检验这些隐藏的过程。
对于AI系统的开发者而言,这项研究提示:优化最终答案质量,和优化检索利用过程,是两件不完全重叠的事情,需要分开来评估和改进。对于更广泛的研究社区而言,它打开了一扇新的窗口:通过可观察的外在行为,而非不可信的内在"思维链"文字,来理解AI如何使用它找到的信息。
如果你对这项研究的技术细节感兴趣,可以通过arXiv编号2604.05467找到完整论文,所有实验数据、统计检验结果和案例细节都在其中。
**Q&A**
Q1:CUE-R框架具体是用什么方法来判断每条检索证据的价值的?
A:CUE-R通过三种"手术实验"来判断证据价值:一是直接删除目标证据让AI重新回答(REMOVE),二是把目标证据换成相关但无用的假情报(REPLACE),三是把目标证据复制一份再放进去(DUPLICATE)。然后从答案正确率、证据引用准确率、置信度误差和行为轨迹变化四个维度来对比前后差异,综合判断这条证据起了什么作用。不只看答案对不对,而是看整个推理行为有没有变化。
Q2:DUPLICATE操作既然不影响答案正确率,为什么研究团队认为它依然值得关注?
A:虽然复制一条证据通常不会让答案变差,但实验发现它会显著改变AI引用证据的方式和推理轨迹(统计上高度显著),有时还会扭曲AI的自信程度——让本来正确答案对应的置信度降低,或者改变AI更偏向引用哪条资料。这种"答案不变但行为已变"的情况,如果只用答案来评估,就完全看不到,而这种隐藏的行为变化在实际应用中可能带来潜在风险。
Q3:HotpotQA双支持消融实验(两条证据同时移除)说明了什么问题?
A:这个实验发现,同时移除两条关键证据导致的性能下降(F1平均降0.493)远远超过分别只移除一条时的损失之和(0.205+0.186=0.391)。更关键的是,有13.7%的案例中单独移除任意一条证据AI还能答对,但两条同时移除就答错了——说明两条证据相互支撑、缺一不可。这意味着如果评估时只做"一次移除一条"的实验,会严重低估AI对检索信息的实际依赖程度,多条证据之间可能存在非加性的协同关系。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.