网易首页 > 网易号 > 正文 申请入驻

RAG新突破:块状注意力机制实现超低延迟检索增强

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在工业场景中,往往会利用检索技术来为大语言模型添加一些来自外部数据库的知识文档,从而增强大语言模型的回复可信度。一般来说,RAG 被公认是最有效的为 LLM 注入特定领域知识的方式。

然而,RAG 也有其不足之处。通常来说,在实际应用中,为确保能召回包含正确知识的文档,对于每个用户的查询,会检索多个文档(一般在 5 到 30 个之间),并把这些文档整合到输入提示中供大语言模型处理。这样一来,输入提示的序列长度增加,使得推理效率大幅降低。具体来讲,以首次生成标记的时间(TTFT)来衡量,RAG 大语言模型的推理延迟比非 RAG 大语言模型高很多。

由于数据库中同一文档经常会被不同 query 召回,大家很自然的会想到:是否能够把已经算好的文档表示(KV states)存在缓存中,以供二次使用?很遗憾, 由于自回归注意力机制的限制,大语言模型中每个文档的 KV States 都与上下文相关,所以遇到新的 query 时,模型必须重新编码 KV states 才能确保准确预测。

最近,论文《Block-Attention for Efficient RAG》为检索增强 (RAG) 场景实现了一种块状注意力机制,Block-Attention,通过分块独立编码检索到的文档,使得模型无需重复编码计算已经在其他 query 中已经见过的文档,从而实现线上推理效率的有效提升。在实验中,该方法能够让使用 RAG 技术的模型与不使用 RAG 的模型有几乎一样的响应速度。同时,该方法甚至还能略微提升在 RAG 场景下的模型准确率。

  • 论文标题:Block-Attention for Efficient RAG
  • 论文地址:https://arxiv.org/pdf/2409.15355

如下图所示,该方法把整个输入序列分成若干个 block,每个 block 独立计算其 KV States,只有最后一个 block 能够关注其他 blocks(在 RAG 场景中,最后一个 block 即用户的输入)。在 RAG 场景中,block-attention 让模型不再需要重复计算已经在其他 query 中见过的文档。

Block-Attention 的实现并不复杂:1)独立编码除最后一个 block 以外的所有 blocks;2)为每个 blocks 重新计算位置编码;3)将所有 blocks 拼接在一起,并计算最后一个 block 的 KV State。然而直接把模型不加任何修改的从 self-attention 切换到 block-attention 会导致大语言模型懵圈,毕竟模型在训练阶段从来没见过 block-attention 方式编码的输入。一个量化的对比是,直接切换为 block-attention 会让 Llama3-8B 在四个 RAG 数据集上的平均准确率由 67.9% 下降至 48.0%。

为了让模型适应 block-attention,作者们对模型进行了进一步微调,作者们发现在 100-1000 步微调之后,模型就能快速适应 block-attention,在四个 RAG 数据集上的平均准确率恢复至 68.4%。另外,block-attention 方式的模型在 KV cache 技术的帮助下,能达到与无 RAG 模型相似的效率。在用户输入长度为 50 而 prompt 总长度为 32K 的极端情况下,block-attention model 的首字延时(Time To First Token, TTFT)和首字浮点运算数(FLOPs To Frist Token, (FLOPs-TFT)分别能降低至 self-attention model 的 1.3% 和 0.2%,与无 RAG 模型的效率基本持平。

推理流程

关于 block-attention 的实现和详细推导,读者们请移步原文,这里主要介绍 block-attention 模型的推理流程。如下图所示,首先从缓存中查询并提取前 K 个 block 的 KV states。然后,根据每个 block 在输入序列中的位置,作者们对每个 block 的位置编码进行了重新计算。具体的操作过程详见论文的公式 3。最后,根据前 k-1 个 KV States 计算最后一个数据块的键值状态以及模型的输出。

实验结果

在实验中,作者们主要想探究两个问题的答案:1)在 RAG 场景中,block-attention 模型能否达到与自 self-attention 相同的准确率?2)block-attention 对效率的提升有多大?

对于问题一,上图给出了答案。作者们根据实验结果给出了三个结论:

1. 直接从 self-attention 切换到 block-attention 是不可取的,因为这会导致准确率急剧下降。例如,对于 Llama3-8B 和 Mistral-7B 模型,去除微调过程会导致在所有四个基准上平均绝对性能下降 21.99%。

2. 然而,如果作者们在微调阶段使用块注意力机制,那么得到的模型与自注意力模型的性能几乎相同,甚至在某些数据集上略好。例如,Mistral-7B-block-ft 在四个基准上的性能优于自回归方式训练的模型,平均准确率由 59.6% 上升至 62.3%。

3. 位置重新编码操作对于 block-attention 模型至关重要。去除它会导致性能显著下降 —— 在四个数据集上准确率平均下降 4%。

对于效率的提升,作者们也通过另一组实验进行了验证。他们将用户的问题长度固定在 50 个 token,然后逐渐增加被召回文档的数量,让输入序列总长度从 50 一直增加到 32K。模型在不同 prompt 长度下的首字延时(Time To First Token, TTFT)和首字浮点运算数(FLOPs To Frist Token, (FLOPs-TFT)如下图所示。显然,加速效果令人满意:当输入序列的长度为 512 时,使用 block-attention 可以将 TTFT 减少 48%,将 FLOPs-TFT 减少 90.1%。随着总长度的增加,block-attention 模型的 TTFT 和 FLOPs-TTF 保持基本不变的趋势。当总长度达到 32K 时,加速效果可以达到惊人的 98.7%,FLOPs-TFT 的消耗甚至减少了 99.8%。作者们将此实验结果总结为:“文本越长,block-attention 越重要”。

作者们最后还指出,block-attention 在很多场景中都有着重要作用,并不局限于 RAG。由于一些保密原因,作者们暂时无法透露在其他工业应用中是如何使用它的。作者们期待社区的研究人员能够进一步探索 block-attention 的潜力,并将其应用于合适的场景。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
冯小刚新作!《抓特务》发布新春特别海报

冯小刚新作!《抓特务》发布新春特别海报

草莓解说体育
2026-02-16 21:57:41
不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

不查不知道一查吓一跳,坐拥北京60亩马场的于谦,私下到底有多壕

小熊侃史
2026-01-20 07:40:05
从杭州借道俄罗斯回东北的女孩已抵达黑河家中:耗时5天4夜,比国内直飞节约500多元,还玩了两个俄罗斯城市

从杭州借道俄罗斯回东北的女孩已抵达黑河家中:耗时5天4夜,比国内直飞节约500多元,还玩了两个俄罗斯城市

极目新闻
2026-02-16 20:11:03
日本最著名的游泳池

日本最著名的游泳池

贵圈真乱
2025-09-09 12:36:45
乌官员:为准备及组织大选,乌克兰需至少60日全面停火

乌官员:为准备及组织大选,乌克兰需至少60日全面停火

界面新闻
2026-02-18 07:15:54
哈佛跟踪32年发现扎心真相:你能活多久,很大程度取决于你老婆!

哈佛跟踪32年发现扎心真相:你能活多久,很大程度取决于你老婆!

徐德文科学频道
2026-02-06 21:31:27
石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

石达开之女押赴刑场,曾国藩瞥见袖中信物,急喝:赶快停手!

千秋文化
2026-02-01 20:14:28
为什么没人再提中国制造2025了,美国也没提了,美转而拿产能说事

为什么没人再提中国制造2025了,美国也没提了,美转而拿产能说事

近史博览
2026-02-17 22:25:37
断层收视第一,骂声全网刷屏!2026辽视春晚,烂得彻头彻尾

断层收视第一,骂声全网刷屏!2026辽视春晚,烂得彻头彻尾

另子维爱读史
2026-02-16 12:49:32
超20℃,湖北升温时间确认

超20℃,湖北升温时间确认

极目新闻
2026-02-17 15:27:20
单挑大赛要来了?爱德华兹、哈登等球星喊话萧华:我们想打!

单挑大赛要来了?爱德华兹、哈登等球星喊话萧华:我们想打!

大眼瞄世界
2026-02-17 17:19:33
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
黄酒再次被关注!医生发现:脑梗病人喝黄酒,不用多久或有7变化

黄酒再次被关注!医生发现:脑梗病人喝黄酒,不用多久或有7变化

蜉蝣说
2026-02-17 18:20:43
欧阳娜娜恋上大6岁安雨! 两人上车就被埋头亲,停车场亲昵全被拍

欧阳娜娜恋上大6岁安雨! 两人上车就被埋头亲,停车场亲昵全被拍

八卦王者
2026-02-17 13:07:44
还没有开始流行,就逐渐被“淘汰”的5个电器,建议别跟风买!

还没有开始流行,就逐渐被“淘汰”的5个电器,建议别跟风买!

家居设计师苏哥
2026-02-13 10:57:27
直击“中国黄金第一卖场”:1000克金条卖断货,有人拿下68克金镯,价格超10万

直击“中国黄金第一卖场”:1000克金条卖断货,有人拿下68克金镯,价格超10万

时代周报
2026-02-17 16:42:27
心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

医学科普汇
2026-02-11 06:30:11
日本政坛的气氛彻底变了,高市早苗连任状态转变,特朗普深夜点赞

日本政坛的气氛彻底变了,高市早苗连任状态转变,特朗普深夜点赞

科学知识点秀
2026-02-18 08:00:16
王菲水滴耳环再次出圈,网友立刻找到同款!窦靖童发文

王菲水滴耳环再次出圈,网友立刻找到同款!窦靖童发文

每日经济新闻
2026-02-17 00:23:36
权威,确认!皇马“顶薪先生”转会离队!1.05亿“铁闸”有望入替

权威,确认!皇马“顶薪先生”转会离队!1.05亿“铁闸”有望入替

头狼追球
2026-02-17 17:44:50
2026-02-18 08:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12314文章数 142568关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

乌官员:为准备及组织大选 乌克兰需至少60日全面停火

头条要闻

乌官员:为准备及组织大选 乌克兰需至少60日全面停火

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

游戏
数码
手机
本地
公开课

名作移植撞上硬核自研!盘点你不容错过的二月移动端新游

数码要闻

苹果据称全面提速AI穿戴战:眼镜、吊坠、耳机三路并进

手机要闻

0-2000谁称王?vivo第一,小米第二,荣耀超OPPO

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版