网易首页 > 网易号 > 正文 申请入驻

Google TurboQuant内存压缩技术:能省内存但救不了DRAM价格危机

0
分享至


当Google发布TurboQuant这项AI数据压缩技术时,承诺能大幅减少模型服务所需的内存量,许多人希望它能缓解内存短缺问题——自去年以来内存价格已经涨了三倍。但事实并非如此。

TurboQuant并不是你期待的救星。尽管如此,这项底层技术仍然值得深入了解,因为它对模型开发者和推理服务提供商有重大影响。

TurboQuant到底是什么

在Google研究人员最近发布的博客文章中详细介绍,TurboQuant本质上是一种将生成式AI中使用的数据从高精度压缩到低精度的方法,这种方法通常被称为量化。

据研究人员称,TurboQuant有潜力将推理过程中的内存消耗减少至少6倍,这在DRAM和NAND价格创历史新高的时刻是一个大胆的声明。

然而,与大多数量化方法不同,TurboQuant并不缩小模型本身。相反,它旨在减少存储键值(KV)缓存所需的内存量,这些缓存用于在大语言模型推理过程中维护上下文。

简单来说,KV缓存有点像模型的短期记忆。例如,在聊天会话中,KV缓存是模型跟踪对话的方式。

问题在于这些KV缓存可能会快速堆积,通常消耗比模型本身更多的内存。

通常,这些KV缓存以16位精度存储,因此如果你能将存储它们所用的位数压缩到8位甚至4位,就可以将所需内存减少2到4倍。

虽然TurboQuant确实让人们关注到KV缓存量化,但整体概念并不新颖。事实上,推理引擎出于这些原因以FP8格式存储KV缓存是相当常见的。

然而,这种量化并非免费的。更低的精度意味着用更少的位来存储键值,因此需要更少的内存。这些量化方法也往往会带来自己的性能开销。

这正是TurboQuant创新的真正所在。Google声称它可以仅使用3.5位就能达到与BF16相似的质量,同时还能缓解那些讨厌的开销。在4位时,他们声称在H100上计算注意力对数时可以获得多达8倍的速度提升,这些对数用于决定上下文中什么对请求重要或不重要。

研究人员并没有止步于此。在测试中,他们发现可以将KV缓存压缩到2.5位,质量损失最小,这就是声称的6倍内存减少的来源。

它是如何工作的

TurboQuant通过结合两种数学方法来实现这一壮举:量化约翰逊-林登施特劳斯(QJL)和PolarQuant。

PolarQuant的工作原理是将KV缓存向量(这些只是幅度和方向的高维数学表达式)映射到使用极坐标而不是笛卡尔坐标的圆形网格上。

Google的博客文章解释道:"这相当于将'向东走3个街区,向北走4个街区'替换为'总共走5个街区,角度为37度'。"

使用这种方法,向量的幅度和方向现在由其半径和角度表示,这家搜索巨头解释说,这消除了与数据标准化相关的内存开销,因为每个向量现在共享一个共同的参考点。

除了PolarQuant,Google还使用QJL来纠正第一阶段引入的任何错误,并保持模型用于确定什么信息对服务请求重要或不重要的注意力分数的准确性。

结果是这些向量可以使用一小部分内存来存储。而且这项技术也不仅限于KV缓存。据Google称,该技术对搜索引擎使用的向量数据库也有影响。

为什么TurboQuant不会拯救我们摆脱内存混乱

凭借声称的6:1压缩比,华尔街的许多人将内存制造商的下行螺旋与TurboQuant的推出联系起来也就不足为奇了。

但是,虽然这项技术可能会使AI推理集群更加高效,因此运营成本更低,但它不太可能抑制对用于存储这些KV缓存的NAND闪存和DRAM内存的需求。

一年前,像DeepSeek R1这样的开放权重模型提供的上下文窗口范围从64,000到256,000个Token。如今,找到拥有超过一百万Token上下文窗口的开放模型并不罕见。

TurboQuant可能允许推理提供商使用更少的内存,或者让他们服务具有更大上下文窗口的模型。随着代码助手和像OpenClaw这样的智能体框架推动对更大上下文窗口的需求,后者对我们来说似乎更有可能。

看起来TrendForce的行业观察家们也会同意这一观点。在本周早些时候发布的报告中,他们预测TurboQuant将激发对长上下文应用的需求,从而推动对更多内存的需求,而不是抑制它。

Q&A

Q1:TurboQuant是什么技术?

A:TurboQuant是Google开发的AI数据压缩技术,本质上是一种将生成式AI中使用的数据从高精度压缩到低精度的量化方法。它主要用于减少存储键值(KV)缓存所需的内存量,可以将推理过程中的内存消耗减少至少6倍。

Q2:TurboQuant如何实现如此高的压缩比?

A:TurboQuant结合了两种数学方法:量化约翰逊-林登施特劳斯(QJL)和PolarQuant。PolarQuant将KV缓存向量映射到使用极坐标的圆形网格上,消除了数据标准化的内存开销。QJL则用于纠正第一阶段引入的错误,保持注意力分数的准确性。

Q3:TurboQuant能解决内存价格上涨问题吗?

A:不能。虽然TurboQuant可以提高AI推理集群的效率,但它不太可能抑制对DRAM内存的需求。随着模型上下文窗口从几万Token增长到超过百万Token,以及代码助手和智能体框架的发展,TurboQuant更可能被用于服务更大上下文窗口的模型,而不是减少内存使用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
戏剧性转变:通牒到期,美伊停火

戏剧性转变:通牒到期,美伊停火

南风窗
2026-04-08 14:07:48
伊朗称只有黎巴嫩停火才会与美会谈

伊朗称只有黎巴嫩停火才会与美会谈

界面新闻
2026-04-08 23:48:37
全红婵报警:辱骂她的记者全家移民跑路,队友群里疯狂背刺!太惨

全红婵报警:辱骂她的记者全家移民跑路,队友群里疯狂背刺!太惨

眼光很亮
2026-04-08 15:05:35
郑丽文抵达上海受高规格接待!蒋万安发声:反对统一,要对等尊严

郑丽文抵达上海受高规格接待!蒋万安发声:反对统一,要对等尊严

混沌录
2026-04-08 19:31:04
全红婵报警:澳门运动员退群,被扣大帽子,多位队友被牵连,太惨

全红婵报警:澳门运动员退群,被扣大帽子,多位队友被牵连,太惨

眼光很亮
2026-04-08 14:06:24
我在非洲开餐馆,年入百万,娶了3个老婆,如今却很焦虑

我在非洲开餐馆,年入百万,娶了3个老婆,如今却很焦虑

千秋文化
2026-04-06 19:51:23
法官震怒! 兰兰再不现身, 就向她发逮捕令! 澳洲警方持续不提交关键证据

法官震怒! 兰兰再不现身, 就向她发逮捕令! 澳洲警方持续不提交关键证据

澳微Daily
2026-04-07 15:40:56
致13人死亡,西成铁路“8·22”重大垮塌事故调查报告公布

致13人死亡,西成铁路“8·22”重大垮塌事故调查报告公布

界面新闻
2026-04-08 19:18:18
消息称雅迪强制OTA致大量车辆锁死,官方回应

消息称雅迪强制OTA致大量车辆锁死,官方回应

DoNews
2026-04-08 18:52:07
国家体育总局回应全红婵遭网暴:已联合开展核查处置 全红婵所属训练中心已向警方报案

国家体育总局回应全红婵遭网暴:已联合开展核查处置 全红婵所属训练中心已向警方报案

闪电新闻
2026-04-08 14:45:59
全红婵被谁网暴了?那个微信群网暴全红婵的那个微信群能跑掉吗?

全红婵被谁网暴了?那个微信群网暴全红婵的那个微信群能跑掉吗?

常识群
2026-04-08 14:46:05
1978年,陈丽华丈夫迟重瑞的留影,这年迟重瑞26岁

1978年,陈丽华丈夫迟重瑞的留影,这年迟重瑞26岁

有态度网友19uQxk
2026-04-08 07:24:14
奥斯卡向中国球迷报平安:我在恢复当中,希望尽快来中国

奥斯卡向中国球迷报平安:我在恢复当中,希望尽快来中国

懂球帝
2026-04-08 21:40:13
太恶劣了!再见NBA首轮秀!宁波队当场解除合同

太恶劣了!再见NBA首轮秀!宁波队当场解除合同

篮球实战宝典
2026-04-08 22:57:50
中俄投下反对票!傅聪:不给使用武力开通行证

中俄投下反对票!傅聪:不给使用武力开通行证

看看新闻Knews
2026-04-08 16:59:04
贝兹利和队友冲突 宁波赛后宣布解约:外援无特权!

贝兹利和队友冲突 宁波赛后宣布解约:外援无特权!

体坛周报
2026-04-08 21:46:20
霸凌全红婵群已解散,多个知名人士名单曝光,全是队友和朋友!

霸凌全红婵群已解散,多个知名人士名单曝光,全是队友和朋友!

眼光很亮
2026-04-08 12:25:48
成龙72岁生日,带儿子房祖名惠州游玩,市长亲自陪同超有排面

成龙72岁生日,带儿子房祖名惠州游玩,市长亲自陪同超有排面

180视角
2026-04-08 12:40:00
特朗普称停火“不包括”黎巴嫩和黎真主党

特朗普称停火“不包括”黎巴嫩和黎真主党

财联社
2026-04-08 23:12:39
男子称“套圈中的鹦鹉”致七旬老父感染鹦鹉热,救治25天花费超18万 多方回应

男子称“套圈中的鹦鹉”致七旬老父感染鹦鹉热,救治25天花费超18万 多方回应

红星新闻
2026-04-08 18:24:10
2026-04-09 03:15:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17507文章数 49697关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

伊朗武装部队:伊朗对美以绝不信任

头条要闻

伊朗武装部队:伊朗对美以绝不信任

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

手机
家居
游戏
房产
军事航空

手机要闻

iPhone Air三个月体验:双机党的新宠,单机党的噩梦

家居要闻

自在恣意 侘寂风别墅

真爱拉电线!《终末地》日本市场收入超中国:全球第一

房产要闻

正式动工!珠城马场地块,签约华尔道夫!

军事要闻

文化符号当“弹药” 美伊将信息战带入新阶段

无障碍浏览 进入关怀版