网易首页 > 网易号 > 正文 申请入驻

扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍

0
分享至

机器之心报道

编辑:+0,冷猫

经历了前段时间的鸡飞狗跳,扎克伯格的投资似乎终于初见成效。

近期,Meta Superintelligence Labs 联合提出了一个名为 REFRAG 的高效解码框架,旨在解决 LLM 在处理长上下文输入时面临的效率瓶颈,尤其是在 RAG 等应用场景下。

  • 论文标题:REFRAG:Rethinking RAG based Decoding
  • 论文地址:https://arxiv.org/abs/2509.01092

为什么长上下文处理如此困难?

在当前的 AI 应用中,利用 LLM 处理包含大量外部知识的长文本输入,是提升问答、对话和智能体应用能力的关键。然而,这一过程也带来了严峻的挑战:在传统 LLM 中,注意力机制的计算和内存开销会随着输入长度的平方(N²)增长。

这意味着文本长度翻一倍,速度可能会慢 4 倍,这会导致显著的系统延迟,并消耗大量内存用于存储 KV Cache,进而降低系统吞吐量。这使得开发者不得不在知识丰富度与系统效率之间做出痛苦的权衡。

Meta 的研究指出,在 RAG 应用中,LLM 处理的上下文中包含了大量从外部知识库检索拼接而成的段落,但其中只有一小部分与用户查询紧密相关。这些不相关的段落导致了计算资源的浪费。REFRAG 的核心思想正是基于这一观察,通过识别并跳过对这些非相关上下文的无效计算,来优化解码过程。

REFRAG 是如何解决问题的?

REFRAG 框架通过一个精巧的四步流程,利用注意力稀疏结构,实现了显著的性能提升。它与传统 RAG 的关键差异在于,它避免了让 LLM 直接处理冗长的原始文本。

  • 压缩:首先,一个轻量级的编码器会读取检索到的文档,将每 16 个 token 压缩成一个浓缩了语义精华的「块向量」。
  • 缩短:接下来,主模型不再读取原始的 token,而是直接处理这些块向量。输入序列的长度因此立刻缩短了 16 倍。
  • 加速:由于输入变得极短,注意力机制的计算开销大幅降低,同时作为显存消耗大头的 KV cache 也变得更小。这正是其能实现惊人速度提升的根本原因。
  • 选择:为了防止在压缩过程中丢失关键信息,框架引入了一个基于 RL 的策略充当「质检员」,它能智能地挑出信息密度最高、与任务最相关的关键片段,确保它们不被压缩,从而保留核心信息。

Meta 表示,该框架的有效性已在包括 RAG、多轮对话和长文档摘要在内的多种长上下文任务中得到验证,取得了突破性的成果:

  • 速度提升: 将首个 token 生成时间(TTFT)加速高达 30.8 倍。在 16k tokens 的场景下,相比 CEPE 等基线方法,实现了超过 16 倍的 TTFT 加速。从性能图表可以看出,文本越长,REFRAG 的优势越明显,其加速效果随上下文规模增加呈指数级提升,而基线方法仅为线性增长。

  • 上下文扩展: 能够将现有 LLM 的有效上下文大小扩展 16 倍,使其能处理更海量的信息。
  • 精度不降反升: 在大幅提升速度和扩展上下文的同时,做到了模型的准确率没有损失。更关键的是,在 GSM8K 基准测试上,REFRAG 不仅能处理 8 倍更长的上下文(80 个 chunk vs 10 个 chunk),运行速度还提升了一倍,最终成绩更是几乎翻倍,从 6.71 提升到 12.08。

简而言之,REFRAG 让「大上下文 RAG」从理想变成了现实。

虽然其效果听起来非常不错,但评论区也表示,它最终的价值仍需要在更广泛的实际应用场景中进行检验。

还有人对该研究中的 RL 策略提出了质疑。

方法

为实现编码器与解码器的有效对齐,本研究遵循 Yen et al. (2024) 的工作,采用了一种基于「下一段落预测」任务的持续预训练方法。

在训练中,每个数据点包含总计 s+o=T 个词元(token)。通过这一预训练过程,模型能够学习如何利用块嵌入(chunk embeddings)来高效执行下游任务。

为了进一步提升模型性能,该方法还引入了通过 RL 实现的选择性压缩机制。在完成 CPT 对齐后,模型会经过监督微调 ,以适应具体的下游应用场景,例如 RAG 和多轮对话。

持续预训练方案

为确保 CPT 阶段的成功,研究者提出了一个包含重建任务课程学习方法的训练方案。消融研究表明,该方案对于实现优异的 CPT 性能至关重要。

该任务主要实现两个目标:

  • 高效压缩:训练编码器将 k 个词元压缩成一个块嵌入,同时最大程度地保留原始信息。
  • 空间映射:训练投影层有效地将编码器输出的块嵌入映射到解码器的词元空间中,使解码器能够「理解」并准确重建原始信息。

设计重建任务的一个特定意图是,鼓励模型在训练时更多地依赖其上下文记忆(即从输入中获取信息),而非其固有的参数化记忆(即模型自身已经学到的知识)。一旦通过此任务初步对齐了编码器与解码器,便会解冻解码器,正式开始 CPT。

选择性压缩。为了进一步提升答案预测的准确性,该方法(REFRAG)引入了选择性词元压缩机制。其核心思想是,对于上下文中特别重要的信息块,可以不进行压缩,而是以原始形式保留,从而避免关键信息丢失。

一个强化学习策略被用来决定哪些块应当被保留。该策略以下一段落预测的困惑度作为负向奖励信号进行指导(即困惑度越低,奖励越高),从而学习识别并保留关键信息。编码器和解码器都经过微调,以适应这种压缩块与未压缩块混合的输入形式。该策略网络利用块嵌入和掩码技术来优化块的扩展顺序,既保留了解码器的自回归特性,又实现了压缩位置的灵活安排。

更多技术细节请参看原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
京东外卖亏了466亿,但刘强东笑了

京东外卖亏了466亿,但刘强东笑了

新浪财经
2026-03-25 10:04:53
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
CCTV5直播!国足热身“世界杯新贵”,15.9万人小国,邵佳一首秀

CCTV5直播!国足热身“世界杯新贵”,15.9万人小国,邵佳一首秀

汪星人哟
2026-03-26 19:13:15
杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

杜淳宠妻太狠了!王灿戴4条金手链,口红整箱买像批发?

娱乐领航家
2026-03-26 00:00:03
国金证券:长期来看黄金有望开启新一轮大牛市

国金证券:长期来看黄金有望开启新一轮大牛市

财联社
2026-03-26 08:08:04
震惊!网传福建一公司提醒员工,出现心梗前兆,先保存文件再救命

震惊!网传福建一公司提醒员工,出现心梗前兆,先保存文件再救命

火山詩话
2026-03-26 06:50:40
22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

22岁陈熠3-0横扫挺进四强:国乒最后一张门票,她已无路可退

罗纳尔说个球
2026-03-26 18:04:03
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
“14天12板”!000908,复牌后上演“地天板”

“14天12板”!000908,复牌后上演“地天板”

大众证券报
2026-03-26 17:58:54
广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

广西一挖掘机过桥时撞断护栏坠湖,司机遗体已被打捞上岸,坠桥原因还在调查中

大风新闻
2026-03-26 18:09:04
徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

徐阳点评U23国足2-2泰国:句句实在话,理性看球更懂赛场本质!

田先生篮球
2026-03-26 06:00:06
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
张雪峰离世的警示:人一定要学会避谶

张雪峰离世的警示:人一定要学会避谶

代伟看世界
2026-03-26 15:21:09
伊朗发动第81波行动,打击以色列70多处目标!内塔尼亚胡:48小时内尽可能多摧毁伊朗军工设施;伊朗外长:以将美国推向冲突,没有谈判余地

伊朗发动第81波行动,打击以色列70多处目标!内塔尼亚胡:48小时内尽可能多摧毁伊朗军工设施;伊朗外长:以将美国推向冲突,没有谈判余地

每日经济新闻
2026-03-26 08:26:06
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
网友在乌兹别克斯坦偶遇“佛山三水城巴”,佛山方面回应:车子被转卖到了国外

网友在乌兹别克斯坦偶遇“佛山三水城巴”,佛山方面回应:车子被转卖到了国外

极目新闻
2026-03-26 17:01:19
东契奇湖人生涯第16次斩获40+ 还差两场追平詹姆斯

东契奇湖人生涯第16次斩获40+ 还差两场追平詹姆斯

北青网-北京青年报
2026-03-26 20:51:03
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
特朗普拒绝承认对伊朗打击是战争

特朗普拒绝承认对伊朗打击是战争

界面新闻
2026-03-26 15:51:22
2026-03-26 21:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
旅游
本地
公开课
军事航空

亲子要闻

孩子模仿这种行为,容易被坏人盯上!

旅游要闻

20元人民币背景观景台乱收费?景区通报:不存在封闭管控、强制收费等

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版