谷歌冲破内存墙！新算法内存占用暴砍83%，速度提升8倍！|向量|高维|知名企业

谷歌冲破内存墙！新算法内存占用暴砍83%，速度提升8倍！

2026-03-26 22:11:09　来源: 智东西

北京举报

分享至

智东西
编译刘煜
编辑陈骏达

智东西3月26日报道，昨天，谷歌于发布了一款针对大语言模型键值缓存（KV Cache）的无损极限压缩算法TurboQuant，它能够从根本上解决向量量化中内存开销问题。谷歌称，TurboQuant可将大语言模型键值缓存内存占用至少降至原来的1/6，推理速度最高提升8倍，同时保持100%精确程度。

Cloudflare的联合创始人、CEO兼执行主席Matthew Prince称，谷歌推出TurboQuant堪称“谷歌的DeepSeek时刻”。

▲Matthew Prince的推文（图源：X）

向量量化一直是企业为AI数据 “瘦身” 的主流技术，主要用于压缩高维向量、节省内存、提升检索与推理效率。但传统压缩方法通常会引入额外的内存开销（每一小块数据都要单独算、单独存一套完整的“压缩参数”），这些参数很占内存，每个数字都要多占1-2 bit，这样反而会影响向量量化的效果。

谷歌称，此次推出的TurboQuant借助了谷歌提出的1 bit无偏误差校正算法QJL与极坐标量化压缩技术PolarQuant，实现了压缩算法的突破。

谷歌官宣推出TurboQuant后，引发资本市场短期内对该技术会降低存储芯片采购需求的担忧，导致存储芯片板块集体回调。

当天美股盘中，美光股票跌幅超过5%，收盘时下跌3.4%，市值蒸发约151.6亿美元（约合人民币1047.37亿元）。闪迪股票下跌幅度更大，一度超过7%，收盘时下跌3.5%，市值蒸发约36.44亿美元（约合人民币251.75亿元）。韩股收盘时，SK海力士股价下跌了6.23%。

▲美光、闪迪股价图（图源：腾讯自选股）SK海力士股价图（图源：Investing）

博客链接：

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理：高质量压缩与误差修正

TurboQuant能够在零精度损失下实现模型尺寸的大幅缩小，非常适合支持键值缓存压缩和向量搜索。它主要通过两个关键步骤实现这一目标。

TurboQuant首先对数据向量进行随机旋转变换，这样处理简化了数据的几何结构，使得TurboQuant可以对向量的每个部分单独应用标准的高质量量化器（量化器是一种将大量连续数值映射为更少并且离散的符号或数值的工具，比如音频量化与JPEG压缩）。

第一阶段，PolarQuant利用大部分压缩算力（绝大多数比特位）来捕捉原始向量的核心语义与特征强度，完成主体压缩。

PolarQuant不再使用表示各轴距离的标准坐标系（即X、Y、Z坐标）来描述向量，而是通过笛卡尔坐标系将向量转换为极坐标。这就好比把“向东走3个街区，向北走4个街区”，替换成“沿37度方向走5个街区”。

PolarQuant转换后只会保留半径（代表核心数据的强度）和角度（代表数据的方向或语义）。由于角度的分布规律已知且高度集中，模型不再需要执行计算代价高昂的数据归一化操作。它将数据映射到一个边界固定、可预测的圆形网格上，PolarQuant就不用再存那些“用来表示数据范围”的额外信息，从而省下了一大块内存空间。

▲PolarQuant工作概念图（图源：谷歌官网）

第二阶段，TurboQuant仅以1 bit的极小额外内存开销，将QJL作用于第一阶段压缩后残留的微小误差上，消除误差。

QJL采用一种名为约翰逊–林登斯特劳斯变换（Johnson-Lindenstrauss Transform）的数学方法，在保留数据点之间基本距离与关联关系的前提下，把复杂的数据压缩成了一种超级简单、几乎不占额外内存、计算又特别快的格式。

QJL在高精度查询与低精度简化数据之间进行结构化平衡，相当于一个数学误差校正器，能够消除压缩带来的偏差。这使得模型能够精准计算注意力分数（即判断输入信息中哪些部分重要、哪些部分可安全忽略的核心过程）。

二、拆解测试：TurboQuant强在哪？

谷歌称，在实验中，TurboQuant能在完全不降低AI模型效果、不损失精度的前提下，显著解决键值缓存给模型推理带来的性能瓶颈。

谷歌拿Meta开源的Llama-3.1-8B模型做测试，将TurboQuant、PolarQuant和KIVI算法相比较，可以看到，与官方基准线Full Cache相比，TurboQuant能够将键值缓存量化至仅3.5 bit，并且没有损失模型精度。同时，PolarQuant也几乎实现了无损压缩。

▲TurboQuant的缓存压缩性能图（横轴为性能得分，纵轴为量化方案）（图源：谷歌官网）

谷歌对3种不同量化位宽的TurboQuant进行测试，结果表明，在下图的所有序列长度（模型处理的文本token数量）中，TurboQuant 1 bit版本加速比最高，4 bit版本加速比最低。在1M超长上下文中，TurboQuant 1 bit版本加速比在13倍左右，4 bit版本在7倍左右。

同时，谷歌称TurboQuant在JAX框架（谷歌的超级加速框架）的基础上，仍能实现显著加速。在英伟达的H100 GPU上，TurboQuant 4 bit版本相比不压缩的32bit原版键值缓存，速度最高提升8倍，不仅能加速大模型推理，还能大幅优化向量搜索、索引构建等关键场景。

▲TurboQuant计算注意力logits的加速效果图（横轴为序列长度，纵轴为加速比）（图源：谷歌官网）

在高维向量搜索任务中，谷歌以1@k召回率（1@k召回率用于衡量算法在其前k个近似结果中，压缩后的向量和不压缩时算出“最相似结果”一样的概率。）为指标，将TurboQuant与当前最优方法PQ和RabbiQ进行了效果对比。

从下图可以看到，不管是2 bit还是4 bit版本的TurboQuant，都在召回率指标上持续取得了更优表现。这证实了TurboQuant在高维搜索任务中的稳健性与高效性。

同时，谷歌称，在GloVe数据集（维度d=200）（斯坦福大学发布的经典预训练词向量数据集）上，TurboQuant在与当前多种主流先进量化方法的对比中，展现出稳健的检索性能，并实现了最优的1@k召回率。

▲TurboQuant的召回率图（横轴是检索范围，纵轴是召回率）（图源：谷歌官网）

由此可见，TurboQuant在PolarQuant主体压缩的基础上，通过极低比特量化与误差校正，使键值缓存的存储空间显著减少，让模型能够在相同硬件条件下处理更长的上下文、更大的批量数据，同时降低推理成本。

此外，TurboQuant的推理速度极快，精度几乎达到无损效果，即使在超长文本下其推理能力依然稳定高效。

结语：算法博弈下的存储焦虑，企业推动大模型“瘦身”革命

TurboQuant在谷歌的测试中表现出了出色的出成绩，它能够以极低的内存占用、近乎为零的预处理耗时，完成大规模向量索引的构建与查询，这让“谷歌级别”的语义搜索变得更加快速高效。

早在2025年，英伟达于在arXiv上公开了第一版KVTC，证明它能把大模型的键值缓存压缩到原来的 1/20，同时精度损失不到1%。近期，英伟达更新了实测数据，称在H100 GPU上处理8000 Token的长提示时，模型生成第一个词的时间，从传统方案的3秒左右，缩短至380毫秒，速度提升8倍。

科技大厂正通过持续的算法创新与迭代，不断提升AI大模型的推理效率。在当前存储芯片供应紧张的背景下，企业通过对大模型推理过程中的键值缓存进行高效压缩，来提升大模型自身的推理效率，或许可以在一定程度上缓解存储芯片产能跟不上AI算力发展速度的局面。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.