网易首页 > 网易号 > 正文 申请入驻

微软打破Decoder-Only架构!大幅降低GPU内存需求

0
分享至

  • 西风 发自 凹非寺
    量子位 | 公众号 QbitAI

微软&清华最新研究,打破GPT系列开创的Decoder-Only架构——

提出Decoder-Decoder新型架构,名为YOCO(You Only Cache Once)。

YOCO仅缓存一次键值对,可大幅降低GPU内存需求,且保留全局注意力能力。

一张图来看YOCO和标准Transformer的比较。



在处理512K上下文长度时,标准Transformer内存使用是YOCO的6.4倍,预填充延迟是YOCO的30.3倍,而YOCO的吞吐量提升到标准Transformer的9.6倍。

去年一张“大语言模型进化树”动图在学术圈疯转,模型架构还只有三大类:Decoder-Only、Encoder-Only、Encoder-Decoder。



那么这个新出的Decoder-Decoder架构到底长啥样?

嗯,如网友所言,要读的论文又增加了。





话不多说,一起来看。



打破Decoder-Only

YOCO整体架构设计如下,分为自解码器(Self-Decoder)和交叉解码器(Cross-Decoder)两部分。



具体来说,YOCO由L个块堆叠而成,其中前L/2层是自解码器,其余模块是交叉解码器。

自解码器利用高效自注意力(efficient self-attention)机制来获取键值(KV)缓存

接收输入序列的嵌入表示,并使用高效自注意力来生成中间向量表示;使用因果掩码(causal masking)保证解码的自回归特性;自解码器的输出用于生成全局KV缓存。

而交叉解码器使用交叉注意力(cross-attention)来重用自解码器生成的共享KV缓存

在自解码器生成的KV缓存基础上进行堆叠,以获得最终的输出向量;同样使用因果掩码来维持自回归生成;允许交叉解码器层间高效地重用KV缓存,减少了对GPU内存的需求。

总的来说,自解码器和交叉解码器的模块设计与Transformer的解码器层类似,包含交错注意力和前馈网络子层。不过,研究人员还进行了预RMSNorm、SwiGLU和分组查询注意力等改进。

两部分之间的区别在于注意力模块。

自解码器使用高效自注意力,如滑动窗口注意力(Sliding-Window Attention)或门控保留(gated retention)。

而交叉解码器使用标准的多头交叉注意力,Query向量通过注意力与自解码器产生的全局键值缓存相关联。

推理大幅度省 省 省

实验阶段,研究人员将YOCO模型与同体量的Transformer模型进行比较。

分析维度有四个:语言建模评估、与Transformer比较的可扩展性、长上下文评估、推理优势。

语言建模评估

研究人员训练了一个3B参数的YOCO语言模型,并根据训练token数量(1T和1.6T)进行评估。

在LM Eval Harness的多个下游任务上,YOCO与Transformer模型OpenLLaMA-3B-v2、StableLM-base-alpha-3B-v2、StableLM-3B-4E1T打得有来有回。



可扩展性对比

接着,研究人员在160M到13B参数规模范围内,分别训练了YOCO(门控保留和滑动窗口注意力版本)和Transformer语言模型。

对比了它们在验证集上的语言模型损失,YOCO的表现与Transformer基本持平:



结果证明YOCO在模型大小扩展方面具有很强的可扩展性。

长上下文评估

将3B的YOCO模型扩展到上下文为1M,在“大海捞针”等长序列的needle retrieval任务上,YOCO-3B-1M的准确率接近100%。



在多针检索任务上,YOCO-3B-1M的性能优于一些超3B的Transformer模型:



此外,YOCO模型在长序列上的NLL随着上下文长度的增加而一致下降,表明YOCO能够有效地利用长距离依赖信息进行语言建模:



综上,可见YOCO在性能上完全不输Transformer,关键来看YOCO在推理效率上取得的显著提升。

推理优势

研究人员评估了YOCO在GPU内存占用、prefilling延迟、吞吐量和服务容量等方面的优势,评估上下文范围为32K至1M。

如下图所示,与Transformer相比,YOCO大幅度降低了GPU内存占用,且YOCO的内存消耗随上下文长度增加,增长幅度很小。

例如,在1M长度下,整体推理内存使用量仅为12.4GB,而传统的Transformer则占用了9.38倍的GPU内存。



下面展示了token的KV缓存对GPU内存的占用情况。



YOCO模型只缓存一层全局的键值对,因此与Transformer模型相比,它需要的内存约少了L(指模型的层数)倍。



例如,YOCO模型可以使用1GB的GPU内存来处理128K token。而具有GQA的Transformer 65B大小模型,仅能支持1.6K token。

也就是说,模型越大,YOCO可以节省更多

在预填充阶段,模型并行编码输入token。对于512K和1M长度的输入,Transformer分别需要大约180秒和300秒。Transformer的计算复杂度为O(N^2),处理长上下文需要大量的浮点运算操作。

相比之下,YOCO的预填充时间为O(N),随序列长度线性增长。



YOCO将Transformer的512K上下文预填充时间从180秒减少到不到6秒。

预填充阶段可以在进入交叉解码器之前提前退出。因此,即使对于短上下文,预填充延迟的加速至少是两倍。例如,对于32K长度,YOCO比Transformer快2.87倍。



吞吐量表示模型每秒可以处理多少个token,涵盖了预填充和生成时间。如下图所示,与Transformer相比,YOCO在不同上下文长度下实现了更高的吞吐量。

以512K查询为例,Transformer的吞吐量为4.5 token/秒,而YOCO达到了43.1token/秒,即实现了9.6倍的加速。

吞吐量提高的原因如前所述,YOCO减少了预填充所需的时间。其次,由于内存消耗减少,因此可以在推理时使用更大的批量大小,这也有助于提高吞吐量。



详细细节,感兴趣的家人们可以查看原论文。

论文链接:https://arxiv.org/abs/2405.05254

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4月资金外流的幅度创纪录,人民币的贬值压力显著上升

4月资金外流的幅度创纪录,人民币的贬值压力显著上升

侃故事的阿蚌
2024-05-23 20:59:21
两人都快撑不住了

两人都快撑不住了

沫姐美食记
2024-05-23 19:43:19
太阳希望能够重新签回波尔,他们愿意为他提供稳定的出场时间?

太阳希望能够重新签回波尔,他们愿意为他提供稳定的出场时间?

稻谷与小麦
2024-05-24 01:00:31
尺寸越大,女人的幸福指数越高?医生说出真相,男女都了解下

尺寸越大,女人的幸福指数越高?医生说出真相,男女都了解下

39健康网
2024-05-23 23:00:35
大S汪小菲双双发声,回应儿子被退学,打脸张兰太尴尬!

大S汪小菲双双发声,回应儿子被退学,打脸张兰太尴尬!

古希腊掌管月桂的神
2024-05-23 13:48:29
县城的现状,一针见血!

县城的现状,一针见血!

深度知局
2024-05-18 18:01:33
布林肯:怕个锤子,跟丫干!

布林肯:怕个锤子,跟丫干!

凡事一定有办法13119
2024-05-23 10:46:04
36岁白百何离婚5年后逆袭,背万元奢侈包坐地上,一个手机壳500块

36岁白百何离婚5年后逆袭,背万元奢侈包坐地上,一个手机壳500块

会火
2020-12-26 16:06:42
一个英国小伙为加入乌军,徒步300余公里走到乌克兰

一个英国小伙为加入乌军,徒步300余公里走到乌克兰

寰宇大观察
2024-05-22 13:04:00
秦刚赞美夫人:她是很好的贤内助,以她的方式行事,最后都很顺利

秦刚赞美夫人:她是很好的贤内助,以她的方式行事,最后都很顺利

李昕言温度空间
2024-05-21 21:17:34
两天三起公共场合持刀杀人案,致多人死伤,戾气太重,值得深思

两天三起公共场合持刀杀人案,致多人死伤,戾气太重,值得深思

雨秋闲话
2024-05-22 13:20:41
终于明白爸爸为啥强调不要随便同情别人!看完网友分享,我感慨万千

终于明白爸爸为啥强调不要随便同情别人!看完网友分享,我感慨万千

好笑娱乐君每一天
2024-05-23 18:30:26
侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

三月柳
2024-04-13 15:27:23
流氓安全软件的噩梦!微软将通过自动更新推送微软电脑管家

流氓安全软件的噩梦!微软将通过自动更新推送微软电脑管家

宗熙先生
2024-05-23 15:17:22
23-24赛季CBA联赛最终名次:辽宁第一 新疆浙江分列二三 广东第四

23-24赛季CBA联赛最终名次:辽宁第一 新疆浙江分列二三 广东第四

直播吧
2024-05-23 10:44:15
上海人注意:33℃+明显降水要一起来!或伴有雷雨、大风…

上海人注意:33℃+明显降水要一起来!或伴有雷雨、大风…

上观新闻
2024-05-23 20:06:04
有瓜主爆料卓伟要爆的是成毅,为了资源献身富婆

有瓜主爆料卓伟要爆的是成毅,为了资源献身富婆

粤姐说情感
2024-05-22 15:53:43
台媒再曝猛料:大S母亲偏袒汪小菲,愿意全力协助汪小菲看望孩子

台媒再曝猛料:大S母亲偏袒汪小菲,愿意全力协助汪小菲看望孩子

小徐讲八卦
2024-05-23 10:56:34
为何要在48小时内解决战斗?台海演习的时间设定,背后大有深意

为何要在48小时内解决战斗?台海演习的时间设定,背后大有深意

时时有聊
2024-05-23 19:47:53
轰20+4+3!执行兰代尔合同,火箭腾出5530万,探花人选也呼之欲出

轰20+4+3!执行兰代尔合同,火箭腾出5530万,探花人选也呼之欲出

巴叔GO聊体育
2024-05-23 15:55:39
2024-05-24 02:16:49
量子位
量子位
追踪人工智能动态
9434文章数 175290关注度
往期回顾 全部

科技要闻

黄仁勋业绩会万字实录:我们的压力太大了

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

体育要闻

欧文,三十二而立

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

九鼎金租减值罗生门:郑州银行藏雷?

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

亲子
手机
艺术
教育
军事航空

亲子要闻

萌娃学会说话后,无法接受叫爸爸,这反应太搞笑了

手机要闻

vivo S19系列再次被确认:三款版本,能打过OPPO Reno12系列吗?

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

教育要闻

2024年高考招生,为何这么多专项招生计划?

军事要闻

以军继续杰宁攻势 巴武装组织打击以目标

无障碍浏览 进入关怀版