网易首页 > 网易号 > 正文 申请入驻

谷歌TurboQuant算法将大语言模型内存使用量减少6倍

0
分享至


即使你对生成式AI模型的内部工作原理了解不多,你也可能知道它们需要大量内存。因此,目前几乎不可能买到便宜的内存条。谷歌研究院最近发布了TurboQuant,这是一种压缩算法,能够在减少大语言模型内存占用的同时提升速度并保持准确性。

TurboQuant旨在减少键值缓存的大小,谷歌将其比作"数字小抄",用于存储重要信息以避免重复计算。这个"小抄"是必要的,因为正如我们经常说的,大语言模型实际上并不真正"知道"任何事情;它们通过使用向量来模拟知识,这些向量映射了标记化文本的语义含义。当两个向量相似时,意味着它们在概念上具有相似性。

高维向量可能包含数百或数千个嵌入,能够描述复杂信息,如图像中的像素或大型数据集。但它们也占用大量内存并增加键值缓存的大小,从而影响性能。为了使模型更小更高效,开发者采用量化技术以降低精度运行模型。缺点是输出质量会下降——Token估计的质量会降低。通过TurboQuant,谷歌的早期结果显示,在某些测试中性能提升了8倍,内存使用量减少了6倍,且没有质量损失。

角度和误差处理

将TurboQuant应用于AI模型是一个两步过程。为了实现高质量压缩,谷歌设计了一个名为PolarQuant的系统。通常,AI模型中的向量使用标准XYZ坐标编码,但PolarQuant将向量转换为笛卡尔系统中的极坐标。在这个圆形网格上,向量被简化为两部分信息:半径(核心数据强度)和方向(数据含义)。

谷歌提供了一个有趣的现实世界类比来解释这个过程。向量坐标就像方向,传统编码可能是"向东走3个街区,向北走4个街区"。但使用笛卡尔坐标,它只是"沿37度方向走5个街区"。这样占用更少空间,并节省了系统执行昂贵的数据标准化步骤。

PolarQuant负责大部分压缩工作,第二步则清理粗糙部分。虽然PolarQuant很有效,但可能产生残留误差。谷歌提出使用量化Johnson-Lindenstrauss(QJL)技术来平滑这些误差。这为模型应用了1位错误修正层,将每个向量减少到单个位(+1或-1),同时保留描述关系的基本向量数据。结果是更准确的注意力分数——这是神经网络决定哪些数据重要的基本过程。

这些数学方法真的有效吗?谷歌表示,他们使用Gemma和Mistral开源模型在一系列长上下文基准测试中测试了新的算法压缩。TurboQuant在所有测试中都取得了完美的下游结果,同时将键值缓存中的内存使用量减少了6倍。该算法可以将缓存量化至仅3位,无需额外训练,因此可以应用于现有模型。在英伟达H100加速器上,使用4位TurboQuant计算注意力分数比32位未量化键快8倍。

如果实施,TurboQuant可以让AI模型运行成本更低,对内存的需求更少。然而,创造这项技术的公司也可能利用新释放的内存来运行更复杂的模型。这可能是两者的结合,但移动端AI可能会看到更多好处。考虑到智能手机的硬件限制,像TurboQuant这样的压缩技术可以在不将数据发送到云端的情况下提高输出质量。

Q&A

Q1:TurboQuant是什么?它能做什么?

A:TurboQuant是谷歌研究院开发的AI压缩算法,能够在保持准确性的同时减少大语言模型的内存占用并提升运行速度,在某些测试中实现了8倍性能提升和6倍内存减少。

Q2:PolarQuant技术如何工作?

A:PolarQuant将传统的XYZ坐标编码的向量转换为极坐标,将向量简化为半径和方向两部分信息,就像把"向东走3个街区,向北走4个街区"简化为"沿37度方向走5个街区",从而节省内存空间。

Q3:TurboQuant对移动设备有什么意义?

A:考虑到智能手机的硬件限制,TurboQuant这样的压缩技术可以在不将数据发送到云端的情况下提高AI模型输出质量,让移动端AI应用更加高效。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
千亿龙头开盘涨停后跌超2%,刚公告再签百亿算力大单

千亿龙头开盘涨停后跌超2%,刚公告再签百亿算力大单

21世纪经济报道
2026-06-02 10:17:04
上海队开出了巨额奖金!

上海队开出了巨额奖金!

体育哲人
2026-06-02 13:41:18
复仇之战冯彦哲失误不断,印尼公开赛首轮石宇奇大玩心跳

复仇之战冯彦哲失误不断,印尼公开赛首轮石宇奇大玩心跳

佑铭羽球
2026-06-02 12:09:04
寿命短的男性,一般会有“3大1白”,如果没有,说明身体很健康

寿命短的男性,一般会有“3大1白”,如果没有,说明身体很健康

熊猫医学社
2026-05-31 11:30:03
他是外交部原部长,1985年被邓小平怒批“胡说八道”,活到了98岁

他是外交部原部长,1985年被邓小平怒批“胡说八道”,活到了98岁

历史人文2
2026-05-09 22:00:03
比新生儿暴跌更可怕!中国迎来死亡人口高峰,未来十年彻底变天

比新生儿暴跌更可怕!中国迎来死亡人口高峰,未来十年彻底变天

维纳斯的眼泪
2026-06-02 12:03:24
从14万到5.5万,蒸发2500万:广州天河顶豪,戳破了豪宅的旧神话

从14万到5.5万,蒸发2500万:广州天河顶豪,戳破了豪宅的旧神话

地产一品塘
2026-06-02 08:00:16
美国媒体报道 伊朗已疏通大量被阻塞的地下导弹设施入口

美国媒体报道 伊朗已疏通大量被阻塞的地下导弹设施入口

国际在线
2026-06-01 14:23:12
给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

给5岁女儿买11200元连衣裙,明明打对折,结果专柜收了全款!销售求原谅:工资低也可怜;爸爸怒了:他们道德绑架!

扬子晚报
2026-06-01 12:26:28
郑丽文深夜登机赴美,国民党内部反应亮了,萧旭岑一段话不简单

郑丽文深夜登机赴美,国民党内部反应亮了,萧旭岑一段话不简单

DS北风
2026-06-02 10:46:13
“死在家里,没人嫌弃你”——这是22岁老狗临终时,人给它的最后一句情话

“死在家里,没人嫌弃你”——这是22岁老狗临终时,人给它的最后一句情话

消化石医生
2026-05-25 12:12:28
特朗普安抚市场:黎以所有交火行动将立即停止 与伊朗的谈判正“快速推进”

特朗普安抚市场:黎以所有交火行动将立即停止 与伊朗的谈判正“快速推进”

财联社
2026-06-02 03:37:15
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
用丰腴,拉高普通且傻乎乎的颜值

用丰腴,拉高普通且傻乎乎的颜值

梅梅聊点实在嗑
2026-05-27 07:22:56
港股,突发!五大巨头,集体猛拉!发生了什么?

港股,突发!五大巨头,集体猛拉!发生了什么?

数据宝
2026-06-02 12:26:14
刚刚获批!越南南北高铁敲定2035年完工,17个独立项目同时推进,中国力量参与人才培训

刚刚获批!越南南北高铁敲定2035年完工,17个独立项目同时推进,中国力量参与人才培训

缅甸中文网
2026-06-01 13:40:05
二十年警服半生荣光,一念失守满盘皆输,温州一案敲醒众人

二十年警服半生荣光,一念失守满盘皆输,温州一案敲醒众人

叮当当科技
2026-06-02 09:36:46
男人为何和未婚女人偷情后,就很难再断关系了?

男人为何和未婚女人偷情后,就很难再断关系了?

思絮
2026-06-02 12:22:32
秀才刁难寡妇,出上联“有木也是桥,无木也是乔”,寡妇下联妙了

秀才刁难寡妇,出上联“有木也是桥,无木也是乔”,寡妇下联妙了

历史龙元阁
2026-06-02 13:45:10
老年人腿无力、使不上劲?医生建议:补充8种营养,走起路更有劲

老年人腿无力、使不上劲?医生建议:补充8种营养,走起路更有劲

美食店主
2026-06-02 01:34:07
2026-06-02 14:28:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
18945文章数 49708关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

头条要闻

乌克兰战场现"人形机器人" 美企:本来就是为打仗而生

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

家居
本地
时尚
公开课
军事航空

家居要闻

流线型轮廓 包容多元身形

本地新闻

用剪纸的方式,打开江苏扬州

安妮海瑟薇40岁后美出新高度, 开挂的关键原来是这个

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版