网易首页 > 网易号 > 正文 申请入驻

LCA:DeepSeek 长文本加速神器90% KV 缓存缩减 + 2.5 倍推理提速

0
分享至



近日,琶洲实验室、华南理工大学、蔻町(AIGCode)等单位科研团队联合提出潜在空间压缩注意力(Latent-Condensed Attention,LCA),研究成果入选 ACL 2026。

作为面向大语言模型长上下文场景的通用高效推理技术,LCA 突破传统注意力机制效率瓶颈,以轻量化、无侵入、高性能的架构设计,为长文本大模型工业化部署提供通用解决方案。在 128K 超长上下文场景下,LCA 实现2.5 倍预填充加速、90% KV 缓存缩减、1.8 倍解码延迟降低,同时保持原有性能。

该技术可通用适配 MiniCPM、Qwen 等不同规模、不同注意力架构的大模型,具备极强的扩展性与落地性,能够显著降低长上下文大模型的硬件门槛、推理成本与部署难度,全面提升推理效率与用户体验。

目前,LCA 论文与代码已开源,欢迎学术界与产业界共同推进技术迭代与落地应用。



  • 论文标题:Latent-Condensed Transformer for Efficient Long Context Modeling
  • 论文链接:https://arxiv.org/abs/2604.12452
  • 代码开源:https://github.com/bolixinyu/LCA
  • 作者:Zeng You, Yaofo Chen, Qiuwu Chen, Ying Sun, Shuhai Zhang, Yingjian Li, Yaowei Wang, Mingkui Tan
  • 机构:琶洲实验室、华南理工大学、蔻町(AIGCode)等单位

一、当大模型遇到长文本:两大痛点待解决

在使用 DeepSeek、Qwen 等大语言模型处理长文档、进行深度对话时,我们常常遇到两个令人头疼的问题:

  • 痛点一:显存占用太多。模型处理长文本时,需要存储大量中间信息(KV 缓存,相当于 AI 的「记忆」),导致显存占用随文本长度线性增加。处理一篇万字文档?可能需要数 GB 显存!这不仅对硬件要求高,也让成本直线上升。
  • 痛点二:速度跑不起来。传统的注意力机制计算量随文本长度呈平方增长,就像让一个人同时记住整本书再进行思考:不仅大脑负担重(显存占用大),思考速度也会明显下降(计算复杂度高)。长文本处理变成「耐心测试」。

二、现有方案为何「治标不治本」?

为了应对这些挑战,先前的研究提出了两条技术路线:

  • 多头潜在注意力(MLA):DeepSeek 采用的技术,其将 token 投影到低维潜在空间,显著减少每个 token 的 KV 缓存大小。
  • 稀疏注意力:通过跳过部分 Attention 计算块来降低计算复杂度。

然而,现有方案往往「顾此失彼」。MLA 成功省下了显存,却未能摆脱计算量随上下文平方级增长的困境;稀疏注意力虽能跳过冗余计算,却依赖完整的 Q/K/V 矩阵。如果强行将两者拼凑,就必须先把 MLA 压缩的数据「解压」还原,无异于「先压缩再解压」,白白浪费了 MLA 轻量化设计的红利。

在长上下文高效注意力领域,近期业界也提出了多项优秀方案,如 DeepSeek 发布的稀疏注意力(DSA)和 Kimi 提出的 KDA。但与这些方法相比,LCA 在技术设计上具有三个关键差异点:



三、LCA:智能压缩的新思路



图 1. LCA 架构示意图

为了解决上述问题,本文提出潜在空间压缩注意力(Latent-Condensed Attention,LCA),如图 1 所示。LCA 的核心思想是:直接在 MLA 的「压缩空间」中进行信息精简,而不是先解压再筛选。

1. 关键信息压缩三步走

  • 第一步:智能分组

将长文本分成多个小组,每个小组 16 个 token。最近 1024 个 token 会完整保留,确保最新信息不丢失细节。

  • 第二步:语义压缩

采用「智能加权」方法:根据当前查询的重要性,对组内信息进行加权合并,突出最相关的内容。就像根据考试重点做笔记,重点内容更详细。具体而言,对于每个分组内的语义潜在向量,LCA 采用加权池化的方式生成一个代表性向量:





  • 第三步:位置锚定(像在书中贴索引标签)

对于位置键向量,选择每个组中注意力得分最高的 token 作为「位置锚点」:





2. 保留细粒度局部上下文

除了长距离上下文的压缩外,LCA 还保留一个局部窗口(默认 1024 个 token)的完整潜在向量,确保最近的关键信息不被压缩,维持模型对局部细节的敏感性。

3. 理论保证:长度无关的误差上界

本文从理论上证明了 LCA 的近似误差具有与上下文长度无关的均匀上界:





四、实验效果

1. 效率提升



图 2. Triton 内核加速效果对比

作者通过 Triton 进行了硬件友好的高效实现,相比 PyTorch 实现,在 64K 上下文能够实现 24.4 倍加速。



图 3. 不同上下文长度下的效率表现

在 128K 上下文长度下,高效 LCA 相比原始 MLA 实现了 2.5 倍预填充加速,减少了 90% KV 缓存,每 token 解码延迟降低 1.8 倍。

2. 长上下文性能保持



长上下文基准测试性能对比

在 LongBench-E、RULER 等长上下文基准测试中,LCA 在获得显著效率提升的同时,保持了与原始 MLA 相当的性能。其中 LongBench-E 性能与标准 MLA 几乎持平,RULER 128K 结果上甚至略有提升。

3. 短上下文任务无损



短上下文标准任务性能对比

在 MMLU、GSM8K、MBPP 等短上下文标准测试中,LCA 的性能与原始 MLA 几乎相同,表明其压缩机制不会损害模型的基础能力。

4. 兼容不同模型规模



MiniCPM3-4B 模型扩展性验证

LCA 在 MiniCPM3-4B 模型上同样有效,实现 2.2 倍预填充加速和 93% KV 缓存减少,验证了其在不同规模模型上的通用性。

5. 适配其他注意力变体



GQA 架构适配验证

LCA 的设计不依赖于 MLA,可推广到其他注意力机制。实验表明,将其适配到分组查询注意力(GQA)后,在 DeepSeek-R1-Distill-Qwen-7B 模型上仍能实现 3.25 倍推理加速和 93% 缓存减少。

五、实际意义

LCA 为长上下文 LLM 的实际部署提供了重要支持:

  • 减少部署成本:无需增加任何额外参数和模块,即插即用替换现有模型中的 MLA/GQA 模块。
  • 降低硬件门槛:减少 90% 的 KV 缓存意味着在相同显存下可处理数倍长的上下文。
  • 提升响应速度:2.5 倍的预填充加速显著改善用户体验,特别是在需要实时交互的应用中。
  • 保持模型能力:在获得效率提升的同时,不牺牲模型在各类任务上的性能。

六、总结

LCA 通过直接在潜在空间进行上下文压缩,巧妙地将 KV 缓存减少与计算复杂度降低统一到一个框架中。其解耦的语义-位置处理策略、理论保证的近似误差界,以及广泛的实验验证,使其成为长上下文高效建模的一个有力解决方案。这项工作已被 ACL 2026 接收,期待更多研究者与开发者在此基础上进一步推动长上下文技术的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太心酸

落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太心酸

秋姐居
2026-03-29 22:00:48
赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

赶在特朗普访华前,70多名美议员致信特朗普:阻止中国做这件事

DS北风
2026-04-29 15:00:15
为什么男人每次偷情要开房,女人每次偷情都在车里呢?

为什么男人每次偷情要开房,女人每次偷情都在车里呢?

思絮
2026-04-28 10:25:11
一周最少8次,54岁女子肛裂住院,丈夫哭诉:怎么劝她就是不听!

一周最少8次,54岁女子肛裂住院,丈夫哭诉:怎么劝她就是不听!

健康之光
2026-04-13 09:01:59
五粮液:公司董事会致歉

五粮液:公司董事会致歉

观察者网
2026-04-29 08:03:04
德国百年巨头倒下时,浙江修鞋匠花4500万买下,如今年入70亿

德国百年巨头倒下时,浙江修鞋匠花4500万买下,如今年入70亿

毒sir财经
2026-04-19 22:12:53
正式官宣!26岁孙颖莎喜讯震撼公布,热议刷屏,期待已久终到来

正式官宣!26岁孙颖莎喜讯震撼公布,热议刷屏,期待已久终到来

林子说事
2026-04-28 16:48:01
安贞焕:02世界杯随队淘汰意大利后,我曾遭到意大利黑手党威胁

安贞焕:02世界杯随队淘汰意大利后,我曾遭到意大利黑手党威胁

懂球帝
2026-04-29 01:23:28
哇这大体格,目测身高175,身形如此的匀称,男人心中的完美伴侣

哇这大体格,目测身高175,身形如此的匀称,男人心中的完美伴侣

动物奇奇怪怪
2026-04-12 03:42:39
纪凌尘也想不到,自己始终不想娶的阚清子,如今成了别人的手中宝

纪凌尘也想不到,自己始终不想娶的阚清子,如今成了别人的手中宝

真的八卦小学弟
2026-04-29 15:00:11
离开国家队后,她帮意大利实现八连冠,如今31岁绯闻不断仍是单身

离开国家队后,她帮意大利实现八连冠,如今31岁绯闻不断仍是单身

林轻吟
2026-04-28 14:25:49
特斯拉正式宣布五月新活动优惠!

特斯拉正式宣布五月新活动优惠!

XCiOS俱乐部
2026-04-28 19:41:06
张雪峰女儿发文,透露早些年在北京最穷的时候爸爸是怎么熬过去的

张雪峰女儿发文,透露早些年在北京最穷的时候爸爸是怎么熬过去的

老范谈史
2026-04-29 14:21:16
外星人降临季后赛!文班亚马打出历史级首轮,马刺真要起飞了

外星人降临季后赛!文班亚马打出历史级首轮,马刺真要起飞了

体育闲话说
2026-04-29 14:42:49
东方甄选YOYO评论区沦陷,拒绝跟风石明裸辞,保住高薪工作才精明

东方甄选YOYO评论区沦陷,拒绝跟风石明裸辞,保住高薪工作才精明

小徐讲八卦
2026-04-29 06:03:38
“要不是因为英国,你们在说法语!”英王在白宫当面嘲讽美国

“要不是因为英国,你们在说法语!”英王在白宫当面嘲讽美国

新京报
2026-04-29 15:02:26
闺蜜变后妈!我把你当闺蜜,你却来当我妈!38岁男子娶女儿闺蜜

闺蜜变后妈!我把你当闺蜜,你却来当我妈!38岁男子娶女儿闺蜜

大鱼简科
2026-04-19 14:41:20
枪手终于开口,刺杀目标不是特朗普?疑问出现,高市早苗火速发声

枪手终于开口,刺杀目标不是特朗普?疑问出现,高市早苗火速发声

仙味少女心
2026-04-28 13:22:14
海外被奉为核心,国内却无缘国家队!中国女排遗珠真的太可惜

海外被奉为核心,国内却无缘国家队!中国女排遗珠真的太可惜

金毛爱女排
2026-04-29 00:00:04
罗伯逊:希金斯历史排名仅次于奥沙利文,塞尔比是历史第三的球员

罗伯逊:希金斯历史排名仅次于奥沙利文,塞尔比是历史第三的球员

世界体坛观察家
2026-04-29 06:10:43
2026-04-29 15:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12889文章数 142639关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

媒体:阿联酋官宣要走 对欧佩克重重一击

头条要闻

媒体:阿联酋官宣要走 对欧佩克重重一击

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

配32寸升降屏 新款别克世纪CENTURY上市53.99万起

态度原创

本地
教育
家居
旅游
健康

本地新闻

用青花瓷的方式,打开西溪湿地

教育要闻

官宣!26年四川省高考各批次招生类型及投档规则出炉

家居要闻

寂然无界 简洁风格

旅游要闻

Club Med地中海俱乐部泰国首家奢华产品线度假村落子苏梅岛

揭秘干细胞抗衰美容七大谣言

无障碍浏览 进入关怀版