来源:市场资讯
(来源:机器之心)
![]()
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理服务效率的核心瓶颈。自回归生成的特性使得模型必须存储历史 token 的 key-value 状态(即 KV cache)以避免重复计算,但 KV cache 的显存占用随着上下文长度的增长而膨胀,带来显著的内存瓶颈。
过去两年,关于 KV cache 的优化工作爆炸式增长,包括调度、迁移、压缩等策略层出不穷。然而,现有综述主要聚焦于 LLM 推理或服务的整体效率,大多仅将 KV cache 作为其中一个子模块作简要讨论。
近期,来自墨尔本大学和华中科技大学的研究者们发布了一篇深度综述,从 MLSys 的思维出发,用一套新颖的「时间 - 空间 - 结构」系统行为视角对 KV cache 优化方法进行了系统性梳理与深入分析,并将相关资源整理成了持续维护的 Awesome 资源库,方便研究者与从业人员快速定位与落地。
![]()
论文地址: https://doi.org/10.36227/techrxiv.176046306.66521015/v3
项目地址: https://github.com/jjiantong/Awesome-KV-Cache-Optimization
什么是「 sKis」?
为了提供更聚焦的视角和理解,作者们首先在综述中定义了 sKis 的边界:在推理服务阶段,以 KV cache 为核心优化对象,在不依赖模型重训或结构修改的前提下,提升吞吐、延迟等核心系统指标。
![]()
从「系统行为」看 KV Cache
聚焦于 sKis,该综述创新性地提出以系统行为的视角来组织 KV cache 优化技术:不是按具体流程、框架、算法来划分,而是按优化策略在系统中发生的时间、空间、结构三个维度的行为来划分,从而更容易对齐工程实现与组合策略。
执行与调度(时间维度):KV 什么时候被访问和计算?该分类关注执行过程与调度。例如设计以 KV 为中心的调度策略,采用流水线来掩盖延迟,或者根据不同硬件的特性适配操作等。
放置与迁移(空间维度):KV 放在哪里、如何迁移?该分类关注数据的存储。例如在 GPU、CPU、SSD 构成的存储层级中如何使热点 KV 留在 GPU 显存中,或者在分布式或异构的计算设备中设计迁移策略等。
表示与留存(结构维度):KV 长什么样?该分类关注数据表示。这是目前最拥挤的赛道,包括量化、驱逐等论文密集的子领域,旨在直接减少 KV cache 的物理体积。
![]()
基于上述三个维度,该综述将现有工作归纳为 7 个二级类别,具体包括:以 KV 为中心的调度(KVS)、流水线与重叠(OVLP)、硬件感知的执行(HAE)、跨内存层级的 KV 编排(MHO)、跨计算设备的 KV 编排(CDO)、KV cache 压缩(KVCC)、KV cache 留存管理(KVRM)。
该论文不仅详细梳理了每个维度下的不同类型和技术方法,还为每一类提炼了关键要点、局限与权衡,给出了可落地的实用指导。
![]()
深度洞察与开放挑战
这篇综述最有价值的部分之一,在于作者们对百余篇论文进行了全局交叉分析,从而归纳了 7 大关键观察,并引发了 6 大开放挑战。
首先,作者们对文献进行了跨行为共现分析,以揭示不同维度的 KV 行为之间的内在联系和协同模式;此外,作者们深入分析了 KV 行为和优化目标的作用关系,并统计了文献中对相关优化指标的实际关注情况。
![]()
![]()
基于以上两类交叉分析,作者们揭示了当前领域的 7 大关键观察,例如什么组合是最常见的协同模式?结构维度(如量化)虽然论文最多,为什么往往沦为系统中的「孤岛」?
基于关键观察,作者们进一步提炼了 6 大开放挑战,例如在追求效率的同时,我们虽然常常会关注到对其质量的影响,但是否往往忽视了可信度(trustworthiness)的隐形崩塌?该综述中对每一个观察和挑战都给出了具体的分析和思路,期待能激发社区向着更加高效与可信的 LLM 服务系统的持续探索!
资源分享:Awesome-KV-Cache-Optimization 资源库
为了方便社区追踪这一飞速发展的领域的最新进展,论文作者同步维护了一个 Awesome 风格的资源库,收录并持续更新 sKis 领域的最新论文和代码实现。希望这个资源库能让你少走弯路!
地址:https://github.com/jjiantong/Awesome-KV-Cache-Optimization
如果你正在做 LLM Infra、模型压缩或者高性能计算等相关方向,欢迎在 GitHub 上 star 支持,或者来仓库一起补全与更新!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.