Google憋了3年的TurboQuant算法：内存砍半|谷歌|知名企业|turboquant

Google憋了3年的TurboQuant算法：内存砍半

2026-03-30 07:14:06　来源: 赛博兰博

北京举报

分享至

大模型吃内存这件事，就像你手机后台开了30个App，每个都要占着RAM不撒手。Google这次拿出的TurboQuant，瞄准的正是这个痛点——直接把LLM的key-value缓存压缩到原来的几分之一。

这个缓存被Google内部叫作「高速数字作弊表」，功能说白了就是你问ChatGPT第二句话时，它不用把第一句话重新算一遍。省算力，但费内存。模型越大，这张表越膨胀，最后能把你的GPU撑爆。

Google的解法是把高精度数字砍成低精度，但不像传统量化那样简单粗暴。他们声称在保持响应速度的同时，把内存占用「大幅削减」——具体数字没给，只说是「huge reduction」。这种模糊措辞在学术圈通常意味着：要么数据不好看，要么还没跑完大规模测试。

「Rewriting the blueprint, not removing bricks」，这是竞争对手Multiverse Computing之前的说法。现在Google也玩起了结构重写的叙事，但业内真正关心的是：压缩后的模型在长尾任务上会不会突然抽风？毕竟量化这杯酒，谁喝都得醉一点。

DeepSeek那边已经用HBM替代方案把DRAM价格搅得天翻地覆，Google这时候放出TurboQuant，时间点微妙得像在截胡。不过一位部署过量化模型的工程师私下吐槽：「每次大厂说『无损压缩』，我的测试集就会多出一堆稀奇古怪的bug。」

Google论文里藏着一个小细节：TurboQuant需要预存一组「校准常量」。换句话说，省下来的内存又被这些常量吃掉了一部分。最终能净省多少，可能取决于你的模型有多胖、以及你愿意为那5%的精度损失失眠几个晚上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

Google憋了3年的TurboQuant算法：内存砍半

DeepSeek性能异常问题已解决，服务恢复

伊朗警告：美以军政人员住所将成为合法打击目标

伊朗警告：美以军政人员住所将成为合法打击目标

绝杀卫冕冠军后，他单手指天把胜利献给父亲

单依纯凌晨发长文道歉！李荣浩再回应

油价冲击，有些亚洲货币先扛不住了！

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

“政治正确”大作获M站84分全好评!媒体狂赞剧情

在潍坊待了三天，没遇到一个“潍坊人”

为何厂商不再推出中高端LCD手机 背后三大现实原因：供应链、成本、策略

来到1980的周也，好毛利兰

为何厂商不再推出中高端LCD手机背后三大现实原因：供应链、成本、策略