网易首页 > 网易号 > 正文 申请入驻

谷歌冲破内存墙!新算法内存占用暴砍83%,速度提升8倍!

0
分享至


智东西
编译 刘煜
编辑 陈骏达

智东西3月26日报道,昨天,谷歌于发布了一款针对大语言模型键值缓存(KV Cache)的无损极限压缩算法TurboQuant,它能够从根本上解决向量量化中内存开销问题。谷歌称,TurboQuant可将大语言模型键值缓存内存占用至少降至原来的1/6,推理速度最高提升8倍,同时保持100%精确程度。

Cloudflare的联合创始人、CEO兼执行主席Matthew Prince称,谷歌推出TurboQuant堪称“谷歌的DeepSeek时刻”。


▲Matthew Prince的推文(图源:X)

向量量化一直是企业为AI数据 “瘦身” 的主流技术,主要用于压缩高维向量、节省内存、提升检索与推理效率。但传统压缩方法通常会引入额外的内存开销(每一小块数据都要单独算、单独存一套完整的“压缩参数”),这些参数很占内存,每个数字都要多占1-2 bit,这样反而会影响向量量化的效果。

谷歌称,此次推出的TurboQuant借助了谷歌提出的1 bit无偏误差校正算法QJL极坐标量化压缩技术PolarQuant,实现了压缩算法的突破。

谷歌官宣推出TurboQuant后,引发资本市场短期内对该技术会降低存储芯片采购需求的担忧,导致存储芯片板块集体回调。

当天美股盘中,美光股票跌幅超过5%,收盘时下跌3.4%,市值蒸发约151.6亿美元(约合人民币1047.37亿元)。闪迪股票下跌幅度更大,一度超过7%,收盘时下跌3.5%,市值蒸发约36.44亿美元(约合人民币251.75亿元)。韩股收盘时,SK海力士股价下跌了6.23%。


▲美光、闪迪股价图(图源:腾讯自选股)SK海力士股价图(图源:Investing)

博客链接:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理:高质量压缩与误差修正

TurboQuant能够在零精度损失下实现模型尺寸的大幅缩小,非常适合支持键值缓存压缩和向量搜索。它主要通过两个关键步骤实现这一目标。

TurboQuant首先对数据向量进行随机旋转变换,这样处理简化了数据的几何结构,使得TurboQuant可以对向量的每个部分单独应用标准的高质量量化器(量化器是一种将大量连续数值映射为更少并且离散的符号或数值的工具,比如音频量化与JPEG压缩)。

第一阶段,PolarQuant利用大部分压缩算力(绝大多数比特位)来捕捉原始向量的核心语义与特征强度,完成主体压缩

PolarQuant不再使用表示各轴距离的标准坐标系(即X、Y、Z坐标)来描述向量,而是通过笛卡尔坐标系将向量转换为极坐标。这就好比把“向东走3个街区,向北走4个街区”,替换成“沿37度方向走5个街区”。

PolarQuant转换后只会保留半径(代表核心数据的强度)和角度(代表数据的方向或语义)。由于角度的分布规律已知且高度集中,模型不再需要执行计算代价高昂的数据归一化操作。它将数据映射到一个边界固定、可预测的圆形网格上,PolarQuant就不用再存那些“用来表示数据范围”的额外信息,从而省下了一大块内存空间。


▲PolarQuant工作概念图(图源:谷歌官网)

第二阶段,TurboQuant仅以1 bit的极小额外内存开销,将QJL作用于第一阶段压缩后残留的微小误差上,消除误差

QJL采用一种名为约翰逊–林登斯特劳斯变换(Johnson-Lindenstrauss Transform)的数学方法,在保留数据点之间基本距离与关联关系的前提下,把复杂的数据压缩成了一种超级简单、几乎不占额外内存、计算又特别快的格式。

QJL在高精度查询与低精度简化数据之间进行结构化平衡,相当于一个数学误差校正器,能够消除压缩带来的偏差。这使得模型能够精准计算注意力分数(即判断输入信息中哪些部分重要、哪些部分可安全忽略的核心过程)。

二、拆解测试:TurboQuant强在哪?

谷歌称,在实验中,TurboQuant能在完全不降低AI模型效果、不损失精度的前提下,显著解决键值缓存给模型推理带来的性能瓶颈。

谷歌拿Meta开源的Llama-3.1-8B模型做测试,将TurboQuant、PolarQuant和KIVI算法相比较,可以看到,与官方基准线Full Cache相比,TurboQuant能够将键值缓存量化至仅3.5 bit,并且没有损失模型精度。同时,PolarQuant也几乎实现了无损压缩。


▲TurboQuant的缓存压缩性能图(横轴为性能得分,纵轴为量化方案)(图源:谷歌官网)

谷歌对3种不同量化位宽的TurboQuant进行测试,结果表明,在下图的所有序列长度(模型处理的文本token数量)中,TurboQuant 1 bit版本加速比最高,4 bit版本加速比最低。在1M超长上下文中,TurboQuant 1 bit版本加速比在13倍左右,4 bit版本在7倍左右。

同时,谷歌称TurboQuant在JAX框架(谷歌的超级加速框架)的基础上,仍能实现显著加速。在英伟达的H100 GPU上,TurboQuant 4 bit版本相比不压缩的32bit原版键值缓存,速度最高提升8倍,不仅能加速大模型推理,还能大幅优化向量搜索、索引构建等关键场景。


▲TurboQuant计算注意力logits的加速效果图(横轴为序列长度,纵轴为加速比)(图源:谷歌官网)

在高维向量搜索任务中,谷歌以1@k召回率(1@k召回率用于衡量算法在其前k个近似结果中,压缩后的向量和不压缩时算出“最相似结果”一样的概率。)为指标,将TurboQuant与当前最优方法PQ和RabbiQ进行了效果对比。

从下图可以看到,不管是2 bit还是4 bit版本的TurboQuant,都在召回率指标上持续取得了更优表现。这证实了TurboQuant在高维搜索任务中的稳健性与高效性。

同时,谷歌称,在GloVe数据集(维度d=200)(斯坦福大学发布的经典预训练词向量数据集)上,TurboQuant在与当前多种主流先进量化方法的对比中,展现出稳健的检索性能,并实现了最优的1@k召回率。


▲TurboQuant的召回率图(横轴是检索范围,纵轴是召回率)(图源:谷歌官网)

由此可见,TurboQuant在PolarQuant主体压缩的基础上,通过极低比特量化与误差校正,使键值缓存的存储空间显著减少,让模型能够在相同硬件条件下处理更长的上下文、更大的批量数据,同时降低推理成本。

此外,TurboQuant的推理速度极快,精度几乎达到无损效果,即使在超长文本下其推理能力依然稳定高效。

结语:算法博弈下的存储焦虑,企业推动大模型“瘦身”革命

TurboQuant在谷歌的测试中表现出了出色的出成绩,它能够以极低的内存占用、近乎为零的预处理耗时,完成大规模向量索引的构建与查询,这让“谷歌级别”的语义搜索变得更加快速高效。

早在2025年,英伟达于在arXiv上公开了第一版KVTC,证明它能把大模型的键值缓存压缩到原来的 1/20,同时精度损失不到1%。近期,英伟达更新了实测数据,称在H100 GPU上处理8000 Token的长提示时,模型生成第一个词的时间,从传统方案的3秒左右,缩短至380毫秒,速度提升8倍。

科技大厂正通过持续的算法创新与迭代,不断提升AI大模型的推理效率。在当前存储芯片供应紧张的背景下,企业通过对大模型推理过程中的键值缓存进行高效压缩,来提升大模型自身的推理效率,或许可以在一定程度上缓解存储芯片产能跟不上AI算力发展速度的局面。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

妍妍教育日记
2026-04-24 11:15:25
文班遭遇詹库待遇!输球却有好消息?马刺连续3年选3个超级天赋!

文班遭遇詹库待遇!输球却有好消息?马刺连续3年选3个超级天赋!

你的篮球频道
2026-05-11 13:36:31
和刘涛分手后,他常年定居上海,如今身价不菲,年过60却依旧单身

和刘涛分手后,他常年定居上海,如今身价不菲,年过60却依旧单身

凡知
2026-05-11 05:31:22
世乒赛丢冠之后,日本国内炸了锅,张本智和及队友惨遭舆论围剿

世乒赛丢冠之后,日本国内炸了锅,张本智和及队友惨遭舆论围剿

素衣读史
2026-05-11 20:52:47
《权游》纪录将被打破?HBO新剧要播15季

《权游》纪录将被打破?HBO新剧要播15季

娱圈观察员
2026-05-11 02:38:29
少女们的美丽刑具,安踏年销140亿的印钞机

少女们的美丽刑具,安踏年销140亿的印钞机

快刀财经
2026-05-11 22:12:42
抢在特朗普访华前,内塔天天打电话,开出两大条件,不接受就开战

抢在特朗普访华前,内塔天天打电话,开出两大条件,不接受就开战

今夜繁星坠落
2026-05-11 23:13:21
伊朗深夜清理门户,两名内鬼被绞,身份曝光后中国也惊出一身冷汗

伊朗深夜清理门户,两名内鬼被绞,身份曝光后中国也惊出一身冷汗

达文西看世界
2026-05-09 14:03:46
首尾大战,央视直播!CCTV5+聚焦津蓉对决,CCTV16播鲁渝交锋

首尾大战,央视直播!CCTV5+聚焦津蓉对决,CCTV16播鲁渝交锋

实事球是
2026-05-11 08:38:25
图拉姆:我的合同不像劳塔罗那么长,但我在国米感觉棒极了

图拉姆:我的合同不像劳塔罗那么长,但我在国米感觉棒极了

懂球帝
2026-05-11 23:20:14
25三分追平历史纪录!尼克斯4-0横扫76人进东决 恩比德空砍24分

25三分追平历史纪录!尼克斯4-0横扫76人进东决 恩比德空砍24分

醉卧浮生
2026-05-11 06:13:45
“华为”改为“国内通信设备商”,中天科技撤回投资者关系活动记录表?

“华为”改为“国内通信设备商”,中天科技撤回投资者关系活动记录表?

北京商报
2026-05-11 20:48:14
4队提前保级!英超迎来大变化,还剩6队,争夺最后两席

4队提前保级!英超迎来大变化,还剩6队,争夺最后两席

嗨皮看球
2026-05-11 11:42:20
他信假释出狱:与前总理女儿搭车牌“4444”的车离开,“现在什么也记不起来”

他信假释出狱:与前总理女儿搭车牌“4444”的车离开,“现在什么也记不起来”

红星新闻
2026-05-11 15:09:20
中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

中央明确!6月1日全国开始统一执行,居民自来水将迎7大变化

美食格物
2026-05-10 15:13:10
他接受纪律审查和监察调查

他接受纪律审查和监察调查

锡望
2026-05-11 21:56:44
新一轮金融危机,开始了

新一轮金融危机,开始了

米宅
2026-05-11 07:22:58
95岁巴菲特押注大暴跌:手握4000亿现金,真正的聪明人都在等风暴

95岁巴菲特押注大暴跌:手握4000亿现金,真正的聪明人都在等风暴

魏家东
2026-05-05 10:13:24
揭秘格瓦斯从火爆到消失的背后真相

揭秘格瓦斯从火爆到消失的背后真相

流苏晚晴
2026-05-10 20:16:23
随巴萨夺得西甲冠军,拉什福德职业生涯首次夺得联赛冠军

随巴萨夺得西甲冠军,拉什福德职业生涯首次夺得联赛冠军

懂球帝
2026-05-11 05:17:17
2026-05-11 23:55:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11803文章数 117072关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

本地
时尚
手机
旅游
公开课

本地新闻

用苏绣的方式,打开江西婺源

今年夏天最流行的5双凉鞋,配裙子绝美!

手机要闻

旗舰靠边站!华为要把10000mAh+++巨鲸电池,先塞进中端机里

旅游要闻

天坛公园5月12日景点暂停开放

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版