网易首页 > 网易号 > 正文 申请入驻

RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降

0
分享至

文章转载于新智元

近年来,大语言模型已经在多种任务上表现出来出色的能力,然而,由于缺乏事实性信息,当前的LLM经常出现严重的幻觉现象;此外,LLM中的知识是通过其参数进行编码记忆,这意味着要融入新知识需要进一步的微调,消耗大量的时间与计算资源。因此,通过结合外部检索器来增强LLM的性能,已经成为了主流的方案。

尽管RAG在现代LLM中被广泛采用,但对于RAG如何辅助推理的深入理解仍然是一个未解的问题。目前,大多数研究人员主要将RAG视为提供领域特定知识的方法,并常常试图通过RAG使LLM适应特定子领域。然而,RAG在增强推理能力方面的影响尚未得到深入研究。

近日,来自中国人民大学的学者指出,RAG可以帮助LLM提升其推理能力,但其提升有限,并且由于retriever中的噪声,RAG甚至可能造成推理能力的下降。

论文地址:https://export.arxiv.org/abs/2410.02338

1

背景与动机

我们可以将LLM视为计算 (∣),其中q 代表问题query,是相应的答案。

在这种情况下,检索增强生成(RAG)可以表示为 (∣,1,2,…,),其中 是基于query 检索到的第 个文档。

此外,众所周知的prompt方法「思维链」(CoT)显著增强了LLMs的推理能力,它可以表示为 (∣,1,2,…,),其中 表示逐步推理的结果。CoT和RAG都旨在将额外的信息融入到输入中,以获得更好的性能。理论上和实验上都已证明,CoT能够有效提升LLMs的推理能力。那么问题是:RAG是否也能增强LLMs的推理能力?

由于LLM的层数有限,其推理能力局限于固定深度。当将推理路径概念化为一棵树时,其最大深度保持不变。思维链(Chain of Thought, CoT)通过逐步推理或解释来生成答案,而不是直接提供答案,其形式化表达为 1=(), 2=(,1),…,=(,1,…,)。

这一过程允许CoT通过多次执行来有效扩展推理深度,随着CoT步骤的增加,潜在地达到无限深度。

相比之下,检索增强生成(RAG)并不支持多次推理;它检索现有的相关信息来生成答案,因此无法堆叠transformer层数。

虽然RAG不能通过堆叠LLM层数来增强推理能力,但检索到的文档可能包含中间推理结果,从而减少了推理所需的层数,使LLM能够处理更复杂的问题,进而帮助提升其推理能力。

1

树形推理结构

对于一个具有 层的推理树 ,令第 层的节点数量为 ,并将第 层的第 个节点表示为 ,。检索到的文档 包含的相关信息可以用来替换某些推理节点的内容。

例如,考虑query「Who is the actor playing Jason on General Hospital?」。

在这种情况下,可能存在一个节点 ,,它表示关于「what is General Hospital?」的信息。如果我们提供一个包含「General Hospital」详细信息的文档,那么 , 的计算就可以通过从该文档中提取相关信息来有效替代。

该文档不仅简化了 , 的计算,还消除了所有仅与 , 相连的节点。这些节点只对 , 的推理有贡献,既然 , 的信息可以直接从文档中得出,那么它们的推理就变得不必要了。因此,检索到与节点 , 相关的单个文档可能会减少多个下层节点的存在。这一过程类似于核武器中的裂变反应,减少一个节点会触发其他多个节点的减少。

因此,如果某一层 ′ 的所有节点都通过检索增强生成(RAG)方法被简化,任何 ≤′ 的层都可以被消除,从而有效降低整体的推理深度。

如上图所示,推理树由4层组成,我们检索到了3个文档 1, 2, 3,分别为节点 2,0、1,1 和 2,2 提供了信息。

通过文档 1,节点 1,0 也可以被移除,因为它只对 2,0 有贡献;通过文档 2,0,1 也不再需要;由于文档 3,节点 1,2 和 1,3也可以呗移除。

因此,第一层的所有4个节点都可以通过文档信息消除,这意味着第一层和第零层的所有节点都是不必要的。这样,推理深度从4层减少到了2层。因此,借助相关文档,RAG可以有效降低问题的推理复杂度,使LLM能够解决更复杂的问题。

我们可以观察到,消除单个节点会显著影响较浅层中的许多节点,类似于裂变反应。如果这种裂变过程能够无限扩展,RAG可能会大大增强LLMs的推理能力。

然而,如果裂变反应在某个阈值处停止,其效果可能会受到限制。因此,为了评估RAG能够减少多少层,关键在于确定这一类似裂变的过程是否会终止。理解这一动态对于评估RAG如何提升推理能力以及LLMs在复杂问题求解中的整体效率至关重要。

显然,针对第层,该层节点被erase的概率由两个部分组成,一是由于上层节点的推理不再需要,二是某个文档中包含该节点的信息,假设某个文档中包含该节点的信息的概率为一个常数

p,并且在第+1层中有+1%被消除,那么第层节点被消除的概率可以是=(+1)=().

令 ()=()−,表示第 层的增长,可以考虑在 (0,1) 区间内存在一个点 ^,使得 (^)=0。

如果在 >^时,()<0,表明被消除的节点数预期会比前一层更少,意味着裂变反应不会无限传播,而是会达到一个临界阈值。超过这一点后,下一层被消除的节点数预计会比当前层减少,从而限制裂变反应的扩展。

由上图可见,当 ^存在时,节点被erase的概率会逐渐收敛到 ^,无法无限扩张下去,同时 ^的位置取决于层与层之间连接的系数程度和某个文档中包含节点的信息的概率。当层与层之间连接十分稀疏时或者retriever的性能很强,那么就可以使 ^>1,那么节点被erase的概率就会收敛到1,即可erase一整个layer从而降低问题所需的推理深度,使LLM可以解决更复杂的问题。

1

文档噪声

然而,在实际的RAG场景中,从文档中检索到的信息并不总是可以直接使用,通常需要进一步处理,因为文档可能包含噪声信息,而且有些文档甚至可能包含错误的答案。这些噪声和干扰文档会对性能产生负面影响。

虽然一些研究尝试微调模型以过滤噪声和干扰文档,但该方法使LLM先完成过滤再进行推理,降低了推理能力。此外,一些研究训练另一个过滤模型,但这种方法会导致额外的推理成本,并且无法消除文档中内涵的固有噪声。

因此,出现了一个关键问题:过滤无关文档是否困难,我们能否在有限的层数内有效解决它? 如果过滤噪声所需的成本甚至超过了RAG带来的帮助,那么RAG将无法提升推理能力。

令 表示标记的相关性,=0 表示标记 第 个token 是噪声,否则该token是相关的。

令表示LLM的原始注意力层。我们假设期望的自注意力函数为:

对模型的微调可以表示为

其中,ΔW 表示其余项。

在这种情况下,如果我们需要, 我们需要对于所有的相关的token ,有

因此,需要对于所有的相关token,有为一个常数,才可以使得。

1

Triple-Wise Problem

对于输入序列, 表示每个token的相关性。

具体来说,对于每个token ,相关性得分 =0 表示该标记与查询无关。

需要注意的是,计算 不仅仅依赖于该token 和query;相反,它可能需要涉及三个或更多token。

例如,假设输入为「Alice is exhausted, but Bob is still very excited, showing no signs of fatigue. How does Bob feel?」,单词「exhausted」是一个噪声token,应在推理过程中排除。

然而,确定该token的相关性需要考虑query中的「Bob」以及「exhausted」的主语「Alice」。因此,识别一个标记的相关性需要来自多个token的信息,而自注意力机制仅在成对之间计算关系,这使得在单个transformer层内解决此问题变得困难。

在检索增强生成(RAG)场景中,我们可以简化这个triple wise problem。通过预先计算文档中的信息,并将这些汇总信息表示为一个或几个额外的token(virtual token),我们可以仅使用来自token本身、query和virtual token的信息来评估标记的相关性。在这种情况下,使triple wise problem变为了pair-wise problem。

在判断token 是否相关时,不再需要遍历所有的输入token 以寻找和query的冲突,仅需遍历所有的virtual token即可。

我们微调一个bert模型以获取文档的表征,并通过MLP将其映射到合适的维度,将其作为virtual token插入到模型的输入prompt中进行微调,实验结果如下

其中gold代表document中只包含一个文档,该文档直接包含了query的答案,但该文档中仍然存在一定的噪声;gold dis代表文档中包含gold文档以及distracting文档,distracting文档中包含错误的答案。由上图可见,DPrompt tuning有效提升了LLM在面对噪声时的性能。

参考资料:

https://arxiv.org/html/2410.02338v2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴西把比亚迪拉进“肮脏名单”,外交部回应,中方话说得很明白

巴西把比亚迪拉进“肮脏名单”,外交部回应,中方话说得很明白

鉴史录
2026-04-12 20:04:05
特朗普最信任的女秘书卡罗琳·莱维特,在全球镜头前“摆烂”。

特朗普最信任的女秘书卡罗琳·莱维特,在全球镜头前“摆烂”。

果妈聊娱乐
2026-04-12 06:24:33
加油逃单的路虎车主被找到了!逃单原因曝光,司机将被行政处罚

加油逃单的路虎车主被找到了!逃单原因曝光,司机将被行政处罚

奇思妙想草叶君
2026-04-11 22:02:29
突发!里弗斯下课!雄鹿白送一年工资!

突发!里弗斯下课!雄鹿白送一年工资!

柚子说球
2026-04-13 09:10:25
曝俄罗斯违反“复活节停火”469次!偷偷向南部集结兵力

曝俄罗斯违反“复活节停火”469次!偷偷向南部集结兵力

项鹏飞
2026-04-12 16:09:21
哇,这大身板,丰腴有度,放到唐朝不是皇后,也得是个贵妃

哇,这大身板,丰腴有度,放到唐朝不是皇后,也得是个贵妃

草莓解说体育
2026-04-12 12:51:34
有人用锉刀把MacBook棱角磨圆了,苹果设计师看了沉默

有人用锉刀把MacBook棱角磨圆了,苹果设计师看了沉默

爬虫饲养员
2026-04-12 09:20:43
越扒瓜越大!外媒再曝全红婵被霸凌猛料,远不止言语辱骂这么简单

越扒瓜越大!外媒再曝全红婵被霸凌猛料,远不止言语辱骂这么简单

社会日日鲜
2026-04-10 10:38:17
明代辽东总兵阵亡名单

明代辽东总兵阵亡名单

无心镜
2026-04-12 08:10:13
伊朗谈判代表团成员:世界将见证霍尔木兹海峡的新格局

伊朗谈判代表团成员:世界将见证霍尔木兹海峡的新格局

财联社
2026-04-12 18:50:03
50年前赤脚医生杂志上公布了一个治脑血栓、偏瘫方子,有效率达到97.5%

50年前赤脚医生杂志上公布了一个治脑血栓、偏瘫方子,有效率达到97.5%

神奇故事
2026-04-11 23:50:42
伊朗伊斯兰革命卫队海军发出警告

伊朗伊斯兰革命卫队海军发出警告

财联社
2026-04-12 22:23:06
慷慨解囊!阿联酋突然抽贷,沙特、卡塔尔向巴基斯坦注资50亿美元

慷慨解囊!阿联酋突然抽贷,沙特、卡塔尔向巴基斯坦注资50亿美元

军迷战情室
2026-04-12 20:32:09
篮协核查U18核心李沂泽年龄 超龄3岁玩起降维打击

篮协核查U18核心李沂泽年龄 超龄3岁玩起降维打击

体坛周报
2026-04-12 11:54:23
NASA把55年前登月代码甩上GitHub,程序员看完集体沉默

NASA把55年前登月代码甩上GitHub,程序员看完集体沉默

野生运营
2026-04-12 08:33:50
iPhone 17 突然降价,4月12日,现货开卖!

iPhone 17 突然降价,4月12日,现货开卖!

科技堡垒
2026-04-12 11:43:16
看上去像“公务员”,其实连编制都没有的6个职业

看上去像“公务员”,其实连编制都没有的6个职业

细说职场
2026-04-12 17:02:40
雷霆实力碾压全联盟!喊出王朝宣言后还有谁能反对?

雷霆实力碾压全联盟!喊出王朝宣言后还有谁能反对?

我们的美学
2026-04-13 09:28:06
孙俪新剧大尺度引争议,这演技还要靠脱来证明吗?

孙俪新剧大尺度引争议,这演技还要靠脱来证明吗?

娱乐领航家
2026-04-13 00:00:03
今年最惨淡的行业是哪个?理发店店主纳闷:大家剪头不用去网上吧

今年最惨淡的行业是哪个?理发店店主纳闷:大家剪头不用去网上吧

白宸侃片
2026-04-12 17:33:25
2026-04-13 09:40:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3001文章数 10482关注度
往期回顾 全部

科技要闻

李想向黑水军开炮!连发5条朋友圈

头条要闻

伊朗公布美方三大"无理要求":要均分霍尔木兹海峡收益

头条要闻

伊朗公布美方三大"无理要求":要均分霍尔木兹海峡收益

体育要闻

创造历史!五大联赛首位女性主教练诞生

娱乐要闻

赌王女儿何超蕸病逝,常年和乳癌斗争

财经要闻

封锁,还是收费站?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

教育
本地
数码
公开课
军事航空

教育要闻

与时间赛跑、与天气较量,玄武区体育中考顺利进行

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

联芸将开发PCIe Gen6消费级SSD主控MAP2001,瞄准28GB/s

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国副总统万斯:美伊谈判未能达成协议

无障碍浏览 进入关怀版