网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

微软打破Decoder-Only架构！大幅降低GPU内存需求

2024-05-13 13:27:00　来源: 量子位

北京举报

0

分享至

西风发自凹非寺
量子位 | 公众号 QbitAI

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——

提出Decoder-Decoder新型架构，名为YOCO（You Only Cache Once）。

YOCO仅缓存一次键值对，可大幅降低GPU内存需求，且保留全局注意力能力。

一张图来看YOCO和标准Transformer的比较。

在处理512K上下文长度时，标准Transformer内存使用是YOCO的6.4倍，预填充延迟是YOCO的30.3倍，而YOCO的吞吐量提升到标准Transformer的9.6倍。

去年一张“大语言模型进化树”动图在学术圈疯转，模型架构还只有三大类：Decoder-Only、Encoder-Only、Encoder-Decoder。

那么这个新出的Decoder-Decoder架构到底长啥样？

嗯，如网友所言，要读的论文又增加了。

话不多说，一起来看。

打破Decoder-Only

YOCO整体架构设计如下，分为自解码器（Self-Decoder）和交叉解码器（Cross-Decoder）两部分。

具体来说，YOCO由L个块堆叠而成，其中前L/2层是自解码器，其余模块是交叉解码器。

自解码器利用高效自注意力（efficient self-attention）机制来获取键值（KV）缓存：

接收输入序列的嵌入表示，并使用高效自注意力来生成中间向量表示；使用因果掩码（causal masking）保证解码的自回归特性；自解码器的输出用于生成全局KV缓存。

而交叉解码器使用交叉注意力（cross-attention）来重用自解码器生成的共享KV缓存：

在自解码器生成的KV缓存基础上进行堆叠，以获得最终的输出向量；同样使用因果掩码来维持自回归生成；允许交叉解码器层间高效地重用KV缓存，减少了对GPU内存的需求。

总的来说，自解码器和交叉解码器的模块设计与Transformer的解码器层类似，包含交错注意力和前馈网络子层。不过，研究人员还进行了预RMSNorm、SwiGLU和分组查询注意力等改进。

两部分之间的区别在于注意力模块。

自解码器使用高效自注意力，如滑动窗口注意力（Sliding-Window Attention）或门控保留（gated retention）。

而交叉解码器使用标准的多头交叉注意力，Query向量通过注意力与自解码器产生的全局键值缓存相关联。

推理大幅度省省省

实验阶段，研究人员将YOCO模型与同体量的Transformer模型进行比较。

分析维度有四个：语言建模评估、与Transformer比较的可扩展性、长上下文评估、推理优势。

语言建模评估

研究人员训练了一个3B参数的YOCO语言模型，并根据训练token数量（1T和1.6T）进行评估。

在LM Eval Harness的多个下游任务上，YOCO与Transformer模型OpenLLaMA-3B-v2、StableLM-base-alpha-3B-v2、StableLM-3B-4E1T打得有来有回。

可扩展性对比

接着，研究人员在160M到13B参数规模范围内，分别训练了YOCO（门控保留和滑动窗口注意力版本）和Transformer语言模型。

对比了它们在验证集上的语言模型损失，YOCO的表现与Transformer基本持平：

结果证明YOCO在模型大小扩展方面具有很强的可扩展性。

长上下文评估

将3B的YOCO模型扩展到上下文为1M，在“大海捞针”等长序列的needle retrieval任务上，YOCO-3B-1M的准确率接近100%。

在多针检索任务上，YOCO-3B-1M的性能优于一些超3B的Transformer模型：

此外，YOCO模型在长序列上的NLL随着上下文长度的增加而一致下降，表明YOCO能够有效地利用长距离依赖信息进行语言建模：

综上，可见YOCO在性能上完全不输Transformer，关键来看YOCO在推理效率上取得的显著提升。

推理优势

研究人员评估了YOCO在GPU内存占用、prefilling延迟、吞吐量和服务容量等方面的优势，评估上下文范围为32K至1M。

如下图所示，与Transformer相比，YOCO大幅度降低了GPU内存占用，且YOCO的内存消耗随上下文长度增加，增长幅度很小。

例如，在1M长度下，整体推理内存使用量仅为12.4GB，而传统的Transformer则占用了9.38倍的GPU内存。

下面展示了token的KV缓存对GPU内存的占用情况。

YOCO模型只缓存一层全局的键值对，因此与Transformer模型相比，它需要的内存约少了L（指模型的层数）倍。

例如，YOCO模型可以使用1GB的GPU内存来处理128K token。而具有GQA的Transformer 65B大小模型，仅能支持1.6K token。

也就是说，模型越大，YOCO可以节省更多。

在预填充阶段，模型并行编码输入token。对于512K和1M长度的输入，Transformer分别需要大约180秒和300秒。Transformer的计算复杂度为O(N^2)，处理长上下文需要大量的浮点运算操作。

相比之下，YOCO的预填充时间为O(N)，随序列长度线性增长。

YOCO将Transformer的512K上下文预填充时间从180秒减少到不到6秒。

预填充阶段可以在进入交叉解码器之前提前退出。因此，即使对于短上下文，预填充延迟的加速至少是两倍。例如，对于32K长度，YOCO比Transformer快2.87倍。

吞吐量表示模型每秒可以处理多少个token，涵盖了预填充和生成时间。如下图所示，与Transformer相比，YOCO在不同上下文长度下实现了更高的吞吐量。

以512K查询为例，Transformer的吞吐量为4.5 token/秒，而YOCO达到了43.1token/秒，即实现了9.6倍的加速。

吞吐量提高的原因如前所述，YOCO减少了预填充所需的时间。其次，由于内存消耗减少，因此可以在推理时使用更大的批量大小，这也有助于提高吞吐量。

详细细节，感兴趣的家人们可以查看原论文。

论文链接：https://arxiv.org/abs/2405.05254

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

比「让我们一步一步思考」这句咒语还管用，提示工程正在被改进

机器之心Pro 2023-11-28 10:55:51
1 跟贴 1
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
0 跟贴 0

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

量子位 2024-02-02 15:56:14
0 跟贴 0

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

机器之心Pro 2024-02-20 15:15:48
0 跟贴 0
Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

量子位 2024-03-04 16:53:32
24 跟贴 24

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

机器之心Pro 2024-03-07 16:00:01
0 跟贴 0

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

机器之心Pro 2024-04-01 15:29:05
18 跟贴 18
长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

机器之心Pro 2024-04-11 14:33:11
0 跟贴 0

微软祭出杀手锏，苹果接得住吗？

虎嗅APP 2024-05-21 22:17:17
8 跟贴 8
许家印的保护伞，终于被查了！

华人星光 2024-05-23 15:35:13
1201 跟贴 1201
拯救被「掰弯」的GPT-4！西交微软北大联合提出IN2训练治疗LLM「中间迷失」

新智元 2024-05-22 05:55:59
0 跟贴 0
这个扭秧歌的华人大叔，干了家10万亿公司

华商韬略 2024-01-23 10:25:08
1313 跟贴 1313
Mamba架构第一次做大！混合Transformer，打败Transformer

量子位 2024-03-29 15:47:47
0 跟贴 0
贾跃亭吃早餐视频又露馅了！美国博主算出贾跃亭这顿早餐要花多少

法制社会报 2024-05-21 10:22:29
637 跟贴 637
内存新标准确定，CAMM2将成为AI PC最重要的基石？

雷科技 2024-05-22 20:40:09
6 跟贴 6
巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

钛媒体APP 2024-01-13 11:35:24
0 跟贴 0
特朗普霸气警告美国阿拉伯裔领袖：巴勒斯坦人要到内盖夫沙漠避难

腌臜泼才 2024-05-23 18:33:40
0 跟贴 0
【装机帮扶站】第1139期：聊一款价格雪崩的“准新”处理器

电脑吧评测室 2024-05-20 22:03:07
0 跟贴 0
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
741 跟贴 741
小米SU7被曝反向虚标充满度数超出电池标定度数约20%

手机中国 2024-05-21 19:12:13
1249 跟贴 1249
魔兽世界：CTM开服就凉，全球玩家不上线，主播公布6月20日开国服

胖哥游戏说 2024-05-21 17:10:06
264 跟贴 264
特朗普：拜登大选前可能爆发三战，中国会成输家？

蓝莓防务 2024-05-23 23:16:29
0 跟贴 0
高盛最新预测：全球电动车即将卖不动了，供应链将过剩！

明镜pro 2024-05-23 16:02:52
11 跟贴 11
英伟达股价首次破1000美元！黄仁勋：Token生意将创造100万亿价值

量子位 2024-05-23 16:17:51
3 跟贴 3
我目前为止最佩服两个人：一个是汪峰。另一个是贾跃亭

股票短线实盘指导操作 2024-05-23 09:09:01
36 跟贴 36
中文得分世界第一，多项盲测并肩 GPT4o，这个国产大模型怎么就成了 AI 界的黑马？

爱范儿 2024-05-21 18:10:15
434 跟贴 434
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
230 跟贴 230
微软Bing疑似出现全球范围宕机国内外网友齐吐槽

手机中国 2024-05-23 18:10:08
1 跟贴 1
爆发异常凶悍！暗影之瓶，魔兽世界85级怀旧服最强DPS饰品之一

夜幕游戏 2024-05-22 09:11:21
3 跟贴 3
空警-600再次现身福建舰

武器纵论 2024-05-22 20:30:16
32 跟贴 32
曝！鲍尔默疯狂追求小波特，哈登快船生涯已到尽头！

搞笑先生的日记本 2024-05-23 10:49:49
4 跟贴 4
魔兽世界多年来最好的改动之一，就是取消了这两类恶心人的任务

大咕咕玩游戏 2024-05-22 22:35:43
85 跟贴 85
“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0
暴雪终于开窍了！魔兽世界新玩法口碑爆棚，真正的纯福利版本

游戏探险家 2024-05-21 14:08:34
18 跟贴 18
车友实测开空调跑高速，特斯拉实现表显:实际=1:1！精准预估续航

特空间 2024-05-20 11:26:53
196 跟贴 196
《第一后裔》最终技术测试周末上线提前一天开启预载

3DMGAME官方号 2024-05-21 14:18:24
0 跟贴 0
疑似新款Model Y伪装车现身柏林超级工厂

车质网 2024-05-23 13:08:05
140 跟贴 140
字节大模型关键8人首次曝光！中科大北航清华校友，还透露下一步

量子位 2024-05-22 14:57:39
49 跟贴 49
Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

机器之心Pro 2023-11-29 15:35:14
0 跟贴 0
注意！这个小球开始下山了

新智元 2024-05-23 09:05:35
27 跟贴 27

4月资金外流的幅度创纪录，人民币的贬值压力显著上升

4月资金外流的幅度创纪录，人民币的贬值压力显著上升

侃故事的阿蚌

2024-05-23 20:59:21

两人都快撑不住了

沫姐美食记

2024-05-23 19:43:19

太阳希望能够重新签回波尔，他们愿意为他提供稳定的出场时间？

太阳希望能够重新签回波尔，他们愿意为他提供稳定的出场时间？

稻谷与小麦

2024-05-24 01:00:31

尺寸越大，女人的幸福指数越高？医生说出真相，男女都了解下

尺寸越大，女人的幸福指数越高？医生说出真相，男女都了解下

39健康网

2024-05-23 23:00:35

大S汪小菲双双发声，回应儿子被退学，打脸张兰太尴尬！

大S汪小菲双双发声，回应儿子被退学，打脸张兰太尴尬！

古希腊掌管月桂的神

2024-05-23 13:48:29

县城的现状，一针见血！

深度知局

2024-05-18 18:01:33

布林肯：怕个锤子，跟丫干！

凡事一定有办法13119

2024-05-23 10:46:04

36岁白百何离婚5年后逆袭，背万元奢侈包坐地上，一个手机壳500块

36岁白百何离婚5年后逆袭，背万元奢侈包坐地上，一个手机壳500块

会火

2020-12-26 16:06:42

一个英国小伙为加入乌军，徒步300余公里走到乌克兰

一个英国小伙为加入乌军，徒步300余公里走到乌克兰

寰宇大观察

2024-05-22 13:04:00

秦刚赞美夫人：她是很好的贤内助，以她的方式行事，最后都很顺利

秦刚赞美夫人：她是很好的贤内助，以她的方式行事，最后都很顺利

李昕言温度空间

2024-05-21 21:17:34

两天三起公共场合持刀杀人案，致多人死伤，戾气太重，值得深思

两天三起公共场合持刀杀人案，致多人死伤，戾气太重，值得深思

雨秋闲话

2024-05-22 13:20:41

终于明白爸爸为啥强调不要随便同情别人!看完网友分享,我感慨万千

终于明白爸爸为啥强调不要随便同情别人!看完网友分享,我感慨万千

好笑娱乐君每一天

2024-05-23 18:30:26

侃爷让她穿啥就穿啥，网友：她也愿意的，痛苦并快乐着

侃爷让她穿啥就穿啥，网友：她也愿意的，痛苦并快乐着

三月柳

2024-04-13 15:27:23

流氓安全软件的噩梦！微软将通过自动更新推送微软电脑管家

流氓安全软件的噩梦！微软将通过自动更新推送微软电脑管家

宗熙先生

2024-05-23 15:17:22

23-24赛季CBA联赛最终名次：辽宁第一新疆浙江分列二三广东第四

23-24赛季CBA联赛最终名次：辽宁第一新疆浙江分列二三广东第四

直播吧

2024-05-23 10:44:15

上海人注意：33℃+明显降水要一起来！或伴有雷雨、大风…

上海人注意：33℃+明显降水要一起来！或伴有雷雨、大风…

上观新闻

2024-05-23 20:06:04

有瓜主爆料卓伟要爆的是成毅，为了资源献身富婆

有瓜主爆料卓伟要爆的是成毅，为了资源献身富婆

粤姐说情感

2024-05-22 15:53:43

台媒再曝猛料：大S母亲偏袒汪小菲，愿意全力协助汪小菲看望孩子

台媒再曝猛料：大S母亲偏袒汪小菲，愿意全力协助汪小菲看望孩子

小徐讲八卦

2024-05-23 10:56:34

为何要在48小时内解决战斗？台海演习的时间设定，背后大有深意

为何要在48小时内解决战斗？台海演习的时间设定，背后大有深意

时时有聊

2024-05-23 19:47:53

轰20+4+3！执行兰代尔合同，火箭腾出5530万，探花人选也呼之欲出

轰20+4+3！执行兰代尔合同，火箭腾出5530万，探花人选也呼之欲出

巴叔GO聊体育

2024-05-23 15:55:39

追踪人工智能动态

9434文章数 175290关注度

往期回顾全部

科技要闻

黄仁勋业绩会万字实录：我们的压力太大了

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

体育要闻

欧文，三十二而立

娱乐要闻

大S儿子被学校退学，张兰称孙子没人管

财经要闻

九鼎金租减值罗生门：郑州银行藏雷？

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

亲子

手机

艺术

教育

军事航空

亲子要闻

萌娃学会说话后，无法接受叫爸爸，这反应太搞笑了

手机要闻

vivo S19系列再次被确认：三款版本，能打过OPPO Reno12系列吗？

艺术要闻

穿越时空的艺术：《马可·波罗》AI沉浸影片探索人类文明

教育要闻

2024年高考招生，为何这么多专项招生计划？

军事要闻

以军继续杰宁攻势巴武装组织打击以目标

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版