网易首页 > 网易号 > 正文 申请入驻

Meta超级智能实验室首篇论文:重新定义RAG

0
分享至

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

Meta超级智能实验室首篇论文,来了——

提出了一个名为REFRAG的高效解码框架,重新定义了RAG(检索增强生成),最高可将首字生成延迟(TTFT)加速30倍。



毕竟算是超级智能实验的“开山之作”,研究一出,就已经在网上掀起了不少的热议。



例如Reddti网友表示:

  • 若效果真如研究所说的那样,那对RAG来说是相当不错的改进,看起来可以做到在不牺牲准确性的情况下,能显著提高速度和上下文大小。



天下苦RAG上下文计算冗余久矣

首先,我们需要理解并回顾一下RAG的工作原理。

当一个大型语言模型(LLM)被要求回答需要精确背景知识的问题时,如果仅依赖它内部参数化的知识,可能会出现事实性错误或信息滞后等情况。

而RAG就通过一个外部知识库(如企业文档、专业数据库等)进行检索,将与问题最相关的信息提取出来,作为上下文与原始问题一同提供给LLM。LLM在获得这些精确的参考资料后,就能生成内容更可靠、更具时效性的答案。

然而,这个模式在工程方面也带来了不小的挑战,即推理效率与信息量的权衡

当AI检索到的参考资料非常多(也就是我们通常说的“长上下文”)时,LLM的处理负担会大幅增加。

模型处理上下文的计算复杂度通常与上下文长度的平方成正比,导致生成第一个字的延迟(Time-to-First-Token, TTFT)显著增加,这直接影响了实时交互应用的用户体验。

同时,处理长上下文也意味着更高的计算和内存开销,为系统的规模化部署带来了挑战。



基于这样的背景,Meta超级智能实验室的研究人员发现,在RAG应用中,LLM处理检索到的多个文档时,其计算过程存在大量冗余

通过实验,他们观察到模型内部的注意力机制在处理这些文档时,呈现出一种“块对角”(block-diagonal)的稀疏模式。

这意味着,模型的注意力主要集中在单个文档内部,以及各文档与用户问题之间的关联上。而不同文档片段之间的交叉注意力得分通常很低,表明它们之间的关联性较弱。

然而,标准的Transformer架构并不会区分这些关联性的强弱,而是对上下文中的所有词元(token)进行全局的注意力计算,这导致了大量计算资源被消耗在分析那些关联性很弱的文档片段上。

基于这一观察,研究团队提出:RAG解码过程中的大部分注意力计算对于最终结果的贡献有限,可以在不显著影响性能的前提下被优化或移除。

REFRAG,就此应运而生。

REFRAG:一种选择性压缩解码方案

REFRAG这个框架,主要通过“压缩(Compress)、感知(Sense)、扩展(Expand)”的流程,优化了LLM处理外部知识的方式。



压缩:将上下文转换为紧凑表征

REFRAG首先改变了上下文的呈现方式,它没有将所有检索到的原始文本直接输入给主LLM,而是引入了一个轻量级的编码器模型。

这个编码器将长篇的参考资料切分为多个“块”(chunks),并为每个“块”生成一个紧凑的向量表示——“块嵌入”(chunk embedding)。这个“块嵌入”可以视为原始文本块的浓缩摘要。

这一步骤带来了两个直接的好处,首先就是缩短输入序列长度,因为LLM需要处理的输入从数千个词元缩减为数百个“块嵌入”,显著降低了后续的计算量。

其次是由于这些“块嵌入”可以被预先计算并存储,当知识库中的同一文档被再次检索时,系统可以直接调用缓存的嵌入,避免了重复的编码计算。

感知:智能判断关键信息

考虑到并非所有信息都适合压缩,某些包含关键细节的文本片段需要被保留。

为此,REFRAG训练了一个基于强化学习(RL)的策略网络。

这个网络的功能是分析所有的“块嵌入”和用户问题,判断哪些文本块包含最核心的信息,需要以原始文本的形式呈现给LLM。

扩展:结合压缩与原始文本

经过前两步的处理,最终输入到主LLM的是一个混合序列,它包含了大部分上下文的“块嵌入”(压缩表示)和少量被判断为关键的“原始文本块”。

LLM基于这份经过优化的输入材料来生成答案,大部分背景信息通过压缩表示快速获取,而核心细节则通过原始文本进行精确理解。通过这种方式,REFRAG在保留关键信息的同时,最大限度地降低了计算负载。

性能无损,效率提升

根据论文数据,REFRAG框架在多个维度上取得了较为不错的成果。

例如在推理速度方面,以首字生成延迟(TTFT)为例,REFRAG实现了最高30.85倍的加速。与之前的先进方法相比,也取得了3.75倍的提升。

这意味着在需要快速响应的场景下,系统的延迟可以得到有效控制。



其次,实验还表明,在获得显著加速的同时,REFRAG在困惑度(Perplexity)以及多种下游任务(如问答、摘要)的准确率上,与使用完整上下文的基线模型相比没有性能损失

此外,由于压缩技术使得模型能在同等计算预算下处理更多信息,上下文窗口等效扩大了16倍,这在某些任务上反而带来了性能增益。

据了解,这个方法的设计不仅适用于RAG,也适用于多轮对话、长文档摘要等其他需要处理长上下文信息的任务。

总而言之,Meta超级智能实验室的这项研究,通过巧妙的算法设计,有效解决了当前大模型在处理长上下文时面临的核心效率问题。REFRAG为开发更高效、更经济、更具扩展性的AI应用提供了一个重要的解决方案。

参考链接:
[1]https://arxiv.org/abs/2509.01092
[2]https://www.reddit.com/r/singularity/comments/1nai17r/new_research_from_meta_superintelligence_labs_big/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“除夕离婚”与“卖房断亲”火在这个春节档|一周漫剧观察

“除夕离婚”与“卖房断亲”火在这个春节档|一周漫剧观察

娱乐资本论
2026-02-28 23:03:40
永远不要向任何人,包括你的亲戚和好友,透露你真实的财务状况

永远不要向任何人,包括你的亲戚和好友,透露你真实的财务状况

流苏晚晴
2026-02-27 18:09:29
伊朗“真实承诺4”全面反击,物理杀伤有限,重在“精神震慑”

伊朗“真实承诺4”全面反击,物理杀伤有限,重在“精神震慑”

装甲铲史官
2026-02-28 22:45:09
炸锅!伊朗前总统内贾德遇袭身亡,现场惨烈,伊朗强硬派全军覆没

炸锅!伊朗前总统内贾德遇袭身亡,现场惨烈,伊朗强硬派全军覆没

军武咖
2026-03-01 22:58:41
中国男篮险胜中国台北!郭士强抱住陈盈骏与王晗,全员呐喊庆祝!

中国男篮险胜中国台北!郭士强抱住陈盈骏与王晗,全员呐喊庆祝!

篮球资讯达人
2026-03-01 18:12:11
网友们发现了关于信托的历史真相

网友们发现了关于信托的历史真相

清晖有墨
2025-11-23 12:06:31
男单颁奖!开心接奖杯,与莎莎合影现场爆棚,主导男女单冠军自拍

男单颁奖!开心接奖杯,与莎莎合影现场爆棚,主导男女单冠军自拍

篮球资讯达人
2026-03-01 21:58:15
韩寒和郭敬明:20年了,终于一个天上,一个地下

韩寒和郭敬明:20年了,终于一个天上,一个地下

陈意小可爱
2026-03-01 13:23:13
0-1到2-1!曼联踢疯了,升至英超第三!卡圣,上任7战6胜1平不败

0-1到2-1!曼联踢疯了,升至英超第三!卡圣,上任7战6胜1平不败

体育世界
2026-03-01 23:59:06
携程回应大马士革到上海机票550万元:将对所有航线进行价格审核,避免出现天价机票

携程回应大马士革到上海机票550万元:将对所有航线进行价格审核,避免出现天价机票

南国今报
2026-03-01 15:51:06
伊朗最高国家安全委员会发布第1号公告

伊朗最高国家安全委员会发布第1号公告

界面新闻
2026-02-28 18:24:27
苹果即将全面开放 NFC 功能!实在是等太久了

苹果即将全面开放 NFC 功能!实在是等太久了

XCiOS俱乐部
2026-02-28 22:27:50
俄媒突发警告:美国打伊朗只是幌子,目的是逼解放军到太平洋决战

俄媒突发警告:美国打伊朗只是幌子,目的是逼解放军到太平洋决战

刚哥说法365
2026-02-28 21:07:26
汪小菲首次回应包机事件,谈到S家直呼无语,对黑粉毫不客气

汪小菲首次回应包机事件,谈到S家直呼无语,对黑粉毫不客气

小徐讲八卦
2026-03-01 06:14:05
超级世界波!国安赛季首球,达万远射破门,22年首人,颜骏凌摇头

超级世界波!国安赛季首球,达万远射破门,22年首人,颜骏凌摇头

奥拜尔
2026-03-01 16:08:16
刘强东砸50亿,在广东造游艇!这门新生意,还没开张就先赚了3亿

刘强东砸50亿,在广东造游艇!这门新生意,还没开张就先赚了3亿

财经保探长
2026-03-01 18:12:05
2-1!B费传射救主,谢什科一击制胜,卡神7轮19分,曼联挺进前三

2-1!B费传射救主,谢什科一击制胜,卡神7轮19分,曼联挺进前三

我的护球最独特
2026-03-02 00:00:09
娱乐圈的对赌协议有多恐怖?赢的人就是杨幂,输者直接变成张国立

娱乐圈的对赌协议有多恐怖?赢的人就是杨幂,输者直接变成张国立

林轻吟
2026-03-01 19:35:00
18名中国公民自伊朗撤离至阿塞拜疆

18名中国公民自伊朗撤离至阿塞拜疆

新华社
2026-03-01 23:40:04
TVB《寻秦记》跑龙套士兵近况曝光!撞脸陈伟霆惹热议,被古天乐一眼认出

TVB《寻秦记》跑龙套士兵近况曝光!撞脸陈伟霆惹热议,被古天乐一眼认出

你约电影
2026-03-01 20:34:56
2026-03-02 00:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12211文章数 176399关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

头条要闻

媒体:美以能精准"斩首"背后 摩萨德的"手笔"令人咋舌

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

房产
旅游
健康
数码
军事航空

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

旅游要闻

连线滞留巴林的广州游客:跟妈妈睡酒店大堂,当地持续被轰炸

转头就晕的耳石症,能开车上班吗?

数码要闻

古尔曼:苹果坚持Mac与iPad独立,触控版MacBook Pro定档2026年底

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版