网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

微软打破Decoder-Only架构！大幅降低GPU内存需求

2024-05-13 13:27:00　来源: 量子位

北京举报

0

分享至

西风发自凹非寺
量子位 | 公众号 QbitAI

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——

提出Decoder-Decoder新型架构，名为YOCO（You Only Cache Once）。

YOCO仅缓存一次键值对，可大幅降低GPU内存需求，且保留全局注意力能力。

一张图来看YOCO和标准Transformer的比较。

在处理512K上下文长度时，标准Transformer内存使用是YOCO的6.4倍，预填充延迟是YOCO的30.3倍，而YOCO的吞吐量提升到标准Transformer的9.6倍。

去年一张“大语言模型进化树”动图在学术圈疯转，模型架构还只有三大类：Decoder-Only、Encoder-Only、Encoder-Decoder。

那么这个新出的Decoder-Decoder架构到底长啥样？

嗯，如网友所言，要读的论文又增加了。

话不多说，一起来看。

打破Decoder-Only

YOCO整体架构设计如下，分为自解码器（Self-Decoder）和交叉解码器（Cross-Decoder）两部分。

具体来说，YOCO由L个块堆叠而成，其中前L/2层是自解码器，其余模块是交叉解码器。

自解码器利用高效自注意力（efficient self-attention）机制来获取键值（KV）缓存：

接收输入序列的嵌入表示，并使用高效自注意力来生成中间向量表示；使用因果掩码（causal masking）保证解码的自回归特性；自解码器的输出用于生成全局KV缓存。

而交叉解码器使用交叉注意力（cross-attention）来重用自解码器生成的共享KV缓存：

在自解码器生成的KV缓存基础上进行堆叠，以获得最终的输出向量；同样使用因果掩码来维持自回归生成；允许交叉解码器层间高效地重用KV缓存，减少了对GPU内存的需求。

总的来说，自解码器和交叉解码器的模块设计与Transformer的解码器层类似，包含交错注意力和前馈网络子层。不过，研究人员还进行了预RMSNorm、SwiGLU和分组查询注意力等改进。

两部分之间的区别在于注意力模块。

自解码器使用高效自注意力，如滑动窗口注意力（Sliding-Window Attention）或门控保留（gated retention）。

而交叉解码器使用标准的多头交叉注意力，Query向量通过注意力与自解码器产生的全局键值缓存相关联。

推理大幅度省省省

实验阶段，研究人员将YOCO模型与同体量的Transformer模型进行比较。

分析维度有四个：语言建模评估、与Transformer比较的可扩展性、长上下文评估、推理优势。

语言建模评估

研究人员训练了一个3B参数的YOCO语言模型，并根据训练token数量（1T和1.6T）进行评估。

在LM Eval Harness的多个下游任务上，YOCO与Transformer模型OpenLLaMA-3B-v2、StableLM-base-alpha-3B-v2、StableLM-3B-4E1T打得有来有回。

可扩展性对比

接着，研究人员在160M到13B参数规模范围内，分别训练了YOCO（门控保留和滑动窗口注意力版本）和Transformer语言模型。

对比了它们在验证集上的语言模型损失，YOCO的表现与Transformer基本持平：

结果证明YOCO在模型大小扩展方面具有很强的可扩展性。

长上下文评估

将3B的YOCO模型扩展到上下文为1M，在“大海捞针”等长序列的needle retrieval任务上，YOCO-3B-1M的准确率接近100%。

在多针检索任务上，YOCO-3B-1M的性能优于一些超3B的Transformer模型：

此外，YOCO模型在长序列上的NLL随着上下文长度的增加而一致下降，表明YOCO能够有效地利用长距离依赖信息进行语言建模：

综上，可见YOCO在性能上完全不输Transformer，关键来看YOCO在推理效率上取得的显著提升。

推理优势

研究人员评估了YOCO在GPU内存占用、prefilling延迟、吞吐量和服务容量等方面的优势，评估上下文范围为32K至1M。

如下图所示，与Transformer相比，YOCO大幅度降低了GPU内存占用，且YOCO的内存消耗随上下文长度增加，增长幅度很小。

例如，在1M长度下，整体推理内存使用量仅为12.4GB，而传统的Transformer则占用了9.38倍的GPU内存。

下面展示了token的KV缓存对GPU内存的占用情况。

YOCO模型只缓存一层全局的键值对，因此与Transformer模型相比，它需要的内存约少了L（指模型的层数）倍。

例如，YOCO模型可以使用1GB的GPU内存来处理128K token。而具有GQA的Transformer 65B大小模型，仅能支持1.6K token。

也就是说，模型越大，YOCO可以节省更多。

在预填充阶段，模型并行编码输入token。对于512K和1M长度的输入，Transformer分别需要大约180秒和300秒。Transformer的计算复杂度为O(N^2)，处理长上下文需要大量的浮点运算操作。

相比之下，YOCO的预填充时间为O(N)，随序列长度线性增长。

YOCO将Transformer的512K上下文预填充时间从180秒减少到不到6秒。

预填充阶段可以在进入交叉解码器之前提前退出。因此，即使对于短上下文，预填充延迟的加速至少是两倍。例如，对于32K长度，YOCO比Transformer快2.87倍。

吞吐量表示模型每秒可以处理多少个token，涵盖了预填充和生成时间。如下图所示，与Transformer相比，YOCO在不同上下文长度下实现了更高的吞吐量。

以512K查询为例，Transformer的吞吐量为4.5 token/秒，而YOCO达到了43.1token/秒，即实现了9.6倍的加速。

吞吐量提高的原因如前所述，YOCO减少了预填充所需的时间。其次，由于内存消耗减少，因此可以在推理时使用更大的批量大小，这也有助于提高吞吐量。

详细细节，感兴趣的家人们可以查看原论文。

论文链接：https://arxiv.org/abs/2405.05254

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

量子位 2024-02-02 15:56:14
0 跟贴 0
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
1 跟贴 1

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

机器之心Pro 2024-02-20 15:15:48
0 跟贴 0

OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA

新智元 2024-05-28 13:06:23
0 跟贴 0
大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

机器之心Pro 2024-03-07 16:00:01
0 跟贴 0

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

机器之心Pro 2024-04-11 14:33:11
0 跟贴 0

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

机器之心Pro 2024-04-01 15:29:05
0 跟贴 0
Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

量子位 2024-03-04 16:53:32
0 跟贴 0

独角兽被微软挖角，新团队首曝光！情感AI嵌入机器人，超大内存升级情感体验

新智元 2024-05-28 13:06:33
2 跟贴 2
微软要推OEM版Xbox，为Xbox Everywhere疯魔

三易生活 2024-05-28 19:06:23
2 跟贴 2
微软彻底要疯了！爆下一代Xbox能运行Steam还允许第三方生产主机

任天堂Switch游戏大全 2024-05-26 12:39:43
77 跟贴 77
无条件支持俄“历史性领土”！你到底是哪国人？

二虎涛哥 2024-05-28 12:51:31
0 跟贴 0
英特尔三星在芯片领域酝酿大招，要用玻璃芯片干翻台积电

雷科技 2024-05-27 23:30:40
0 跟贴 0
Mamba架构第一次做大！混合Transformer，打败Transformer

量子位 2024-03-29 15:47:47
0 跟贴 0
三年提升百倍能效！AMD公布疯狂芯片计划：硬刚英伟达

雷科技 2024-05-27 10:19:47
39 跟贴 39
打破240年以来先例！特朗普律师放出狠话：赢了大选先抄拜登的家

小希说剧呀 2024-05-28 02:40:20
6 跟贴 6
马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

新智元 2024-05-27 12:51:00
12 跟贴 12
特朗普的伟大逆袭

阳阳想流浪 2024-05-28 16:40:28
0 跟贴 0
主机变PC？微软未来不独自生产Xbox，会授权第三方厂商生产

杰夫视点 2024-05-27 19:11:10
7 跟贴 7
巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

钛媒体APP 2024-01-13 11:35:24
0 跟贴 0
AI智能体的炒作与现实：GPT-4都撑不起，现实任务成功率不到15%

机器之心Pro 2024-05-28 19:11:48
3 跟贴 3
金价从每克225元涨至600多元 8年前借的3斤黄金怎么还？

北青网-北京青年报 2024-05-28 10:46:03
5557 跟贴 5557
这个扭秧歌的华人大叔，干了家10万亿公司

华商韬略 2024-01-23 10:25:08
0 跟贴 0
C罗发布海报庆祝破纪录金靴：我不追逐纪录，纪录追随我

直播吧 2024-05-28 06:18:09
8312 跟贴 8312
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
762 跟贴 762
外媒：下一代Xbox与前代截然不同或能运行Steam

Steam社区 2024-05-26 11:33:53
1 跟贴 1
麦当劳绝望的外卖员餐就在眼前但是取不走

悠闲葡萄 2024-05-24 15:09:54
120 跟贴 120
绿军4-0横扫步行者进总决赛双探花合砍55分

网易体育 2024-05-28 10:37:41
3812 跟贴 3812
非洲小国摩洛哥出口欧洲的汽车超过中国，年出口额达到129亿欧

妖鹿山小钻风 2024-05-28 17:16:32
3009 跟贴 3009
女子电子厂上班晒真实收入：工作28天日均12个小时，工资到手发了6300多块

六子吃凉粉 2024-05-28 13:50:46
6960 跟贴 6960
清华、华为等提出iVideoGPT：专攻交互式世界模型

机器之心Pro 2024-05-28 19:08:58
0 跟贴 0
以军装甲部队进入加沙地带南部城市拉法市中心

央视新闻客户端 2024-05-28 17:06:07
11172 跟贴 11172
最新！江苏发布分时电价政策

现代快报 2024-05-28 10:46:40
2214 跟贴 2214
字节掀桌，和BAT赌明天

市界 2024-05-27 18:11:20
43 跟贴 43
新一代注意力机制Lightning Attention-2：无限序列长度

机器之心Pro 2024-01-18 14:41:20
2 跟贴 2
美大选前社媒上虚假账户激增十倍！大部分支持特朗普

北美商业电讯 2024-05-27 16:34:49
0 跟贴 0
拼多多成功的底层逻辑：赌贫民大幅度增加，赌对了

玛丽姬丝 2024-05-28 19:38:19
2711 跟贴 2711
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
212 跟贴 212
魔兽世界国服开服进度增加，主播招募开启，两件绝版开放获取方式

游戏农工 2024-05-28 00:02:10
56 跟贴 56
珠江口部分海域军事演习

央视军事 2024-05-28 09:06:18
7988 跟贴 7988

李湘携女儿回北京，深山内拜访艺术大师，合影曝光王诗龄很谦卑

李湘携女儿回北京，深山内拜访艺术大师，合影曝光王诗龄很谦卑

缘浅娱深

2024-05-28 17:07:22

赖清德服软，不到24小时，大陆代表团抵台湾省，解放军举动很罕见

赖清德服软，不到24小时，大陆代表团抵台湾省，解放军举动很罕见

影孖看世界

2024-05-28 19:36:04

小米SU7各地区销量排行

电动知家

2024-05-28 11:00:40

将近40岁满脸褶，却尬演18岁少女，是谁给了她“强行装嫩”的勇气

将近40岁满脸褶，却尬演18岁少女，是谁给了她“强行装嫩”的勇气

娱乐圈十三太保

2024-05-28 13:56:53

昆凌罕晒三胎正面照，2岁妹妹干家务好软萌，嘴唇微翘超像周杰伦

昆凌罕晒三胎正面照，2岁妹妹干家务好软萌，嘴唇微翘超像周杰伦

娱絮

2024-05-27 20:32:36

拼多多成功的底层逻辑：赌贫民大幅度增加，赌对了

拼多多成功的底层逻辑：赌贫民大幅度增加，赌对了

玛丽姬丝

2024-05-28 19:38:19

无人驾驶车辆导致堵车，萝卜快跑被投诉到留言板……

无人驾驶车辆导致堵车，萝卜快跑被投诉到留言板……

三言科技

2024-05-27 22:00:41

非洲小国摩洛哥出口欧洲的汽车超过中国，年出口额达到129亿欧

非洲小国摩洛哥出口欧洲的汽车超过中国，年出口额达到129亿欧

小星球探索

2024-05-28 17:16:32

女子电子厂上班晒真实收入：工作28天日均12个小时，工资到手发了6300多块

女子电子厂上班晒真实收入：工作28天日均12个小时，工资到手发了6300多块

六子吃凉粉

2024-05-28 13:50:46

刚刚！广州，打响第一枪！

中国基金报

2024-05-28 19:22:46

官方确认已不幸离世，年仅31岁.

官方确认已不幸离世，年仅31岁.

华人星光

2024-05-28 15:23:08

霍启刚三兄弟罕同框，出席装修公司开业，36岁霍启仁帅气稳重！

霍启刚三兄弟罕同框，出席装修公司开业，36岁霍启仁帅气稳重！

古希腊掌管月桂的神

2024-05-28 19:37:38

中纪委明确：嫖娼的党员，要一律开除

中纪委明确：嫖娼的党员，要一律开除

法律读品

2024-05-28 19:59:04

抢疯了！“APP都挤崩了”！原价38元被炒到420元，有人3天收入50多万元？

抢疯了！“APP都挤崩了”！原价38元被炒到420元，有人3天收入50多万元？

每日经济新闻

2024-05-28 16:58:27

国投证券更名后首场策略会，高善文称房产估值进合理区间，股市转向“牛心熊胆”

国投证券更名后首场策略会，高善文称房产估值进合理区间，股市转向“牛心熊胆”

财联社

2024-05-28 17:34:19

那些跳桥自杀的人没等到伟大复兴的好日子

那些跳桥自杀的人没等到伟大复兴的好日子

深度财线

2024-05-28 10:05:15

俄军占领乌克兰18%的领土，就可以半场开香槟宣布胜利了吗？

俄军占领乌克兰18%的领土，就可以半场开香槟宣布胜利了吗？

历史总在押韵

2024-05-27 00:02:04

炸裂！比亚迪大招：续航超2000公里！王传福：中国品牌改写全球汽车油耗史！

炸裂！比亚迪大招：续航超2000公里！王传福：中国品牌改写全球汽车油耗史！

证券时报e公司

2024-05-28 22:10:56

暴跌96%！阿里一季度净利不足10亿元，跟腾讯的419亿拉开差距了

暴跌96%！阿里一季度净利不足10亿元，跟腾讯的419亿拉开差距了

知道宏观

2024-05-28 14:30:30

刘强东彻底愤怒：有年薪百万高管当天清退，上万代打卡员工被清查

刘强东彻底愤怒：有年薪百万高管当天清退，上万代打卡员工被清查

影像温度

2024-05-28 16:33:56

追踪人工智能动态

9451文章数 175295关注度

往期回顾全部

科技要闻

4月中国手机需求回升 iPhone出货量增长52%

头条要闻

安徽坍塌居民楼结构脆弱专家称其"像积木搭在墙上"

头条要闻

安徽坍塌居民楼结构脆弱专家称其"像积木搭在墙上"

体育要闻

克莱伯：我希望能够出战G4 我的状态将在热身后决定

娱乐要闻

昆凌晒三胎正面照，2岁妹妹超像周杰伦

财经要闻

东方通收购藏雷花6亿买来"业绩变脸"

汽车要闻

三联屏/纯电续航318km 岚图FREE 318官图发布

态度原创

本地

旅游

手机

教育

公开课

本地新闻

食味印象｜歙县限定！枇杷味儿的清甜初夏

旅游要闻

画面曝光！五台山保安与游客起冲突有人用手捂头

手机要闻

华为三喜临门：折叠屏市场领跑，畅享70S配置清晰，系统焕新升级

教育要闻

【中招咨询】一文看懂北京八中教育集团招生政策！

公开课

近视只是视力差？小心并发症

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版