网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

微软打破Decoder-Only架构！大幅降低GPU内存需求

2024-05-13 13:27:00　来源: 量子位

北京举报

0

分享至

西风发自凹非寺
量子位 | 公众号 QbitAI

微软&清华最新研究，打破GPT系列开创的Decoder-Only架构——

提出Decoder-Decoder新型架构，名为YOCO（You Only Cache Once）。

YOCO仅缓存一次键值对，可大幅降低GPU内存需求，且保留全局注意力能力。

一张图来看YOCO和标准Transformer的比较。

在处理512K上下文长度时，标准Transformer内存使用是YOCO的6.4倍，预填充延迟是YOCO的30.3倍，而YOCO的吞吐量提升到标准Transformer的9.6倍。

去年一张“大语言模型进化树”动图在学术圈疯转，模型架构还只有三大类：Decoder-Only、Encoder-Only、Encoder-Decoder。

那么这个新出的Decoder-Decoder架构到底长啥样？

嗯，如网友所言，要读的论文又增加了。

话不多说，一起来看。

打破Decoder-Only

YOCO整体架构设计如下，分为自解码器（Self-Decoder）和交叉解码器（Cross-Decoder）两部分。

具体来说，YOCO由L个块堆叠而成，其中前L/2层是自解码器，其余模块是交叉解码器。

自解码器利用高效自注意力（efficient self-attention）机制来获取键值（KV）缓存：

接收输入序列的嵌入表示，并使用高效自注意力来生成中间向量表示；使用因果掩码（causal masking）保证解码的自回归特性；自解码器的输出用于生成全局KV缓存。

而交叉解码器使用交叉注意力（cross-attention）来重用自解码器生成的共享KV缓存：

在自解码器生成的KV缓存基础上进行堆叠，以获得最终的输出向量；同样使用因果掩码来维持自回归生成；允许交叉解码器层间高效地重用KV缓存，减少了对GPU内存的需求。

总的来说，自解码器和交叉解码器的模块设计与Transformer的解码器层类似，包含交错注意力和前馈网络子层。不过，研究人员还进行了预RMSNorm、SwiGLU和分组查询注意力等改进。

两部分之间的区别在于注意力模块。

自解码器使用高效自注意力，如滑动窗口注意力（Sliding-Window Attention）或门控保留（gated retention）。

而交叉解码器使用标准的多头交叉注意力，Query向量通过注意力与自解码器产生的全局键值缓存相关联。

推理大幅度省省省

实验阶段，研究人员将YOCO模型与同体量的Transformer模型进行比较。

分析维度有四个：语言建模评估、与Transformer比较的可扩展性、长上下文评估、推理优势。

语言建模评估

研究人员训练了一个3B参数的YOCO语言模型，并根据训练token数量（1T和1.6T）进行评估。

在LM Eval Harness的多个下游任务上，YOCO与Transformer模型OpenLLaMA-3B-v2、StableLM-base-alpha-3B-v2、StableLM-3B-4E1T打得有来有回。

可扩展性对比

接着，研究人员在160M到13B参数规模范围内，分别训练了YOCO（门控保留和滑动窗口注意力版本）和Transformer语言模型。

对比了它们在验证集上的语言模型损失，YOCO的表现与Transformer基本持平：

结果证明YOCO在模型大小扩展方面具有很强的可扩展性。

长上下文评估

将3B的YOCO模型扩展到上下文为1M，在“大海捞针”等长序列的needle retrieval任务上，YOCO-3B-1M的准确率接近100%。

在多针检索任务上，YOCO-3B-1M的性能优于一些超3B的Transformer模型：

此外，YOCO模型在长序列上的NLL随着上下文长度的增加而一致下降，表明YOCO能够有效地利用长距离依赖信息进行语言建模：

综上，可见YOCO在性能上完全不输Transformer，关键来看YOCO在推理效率上取得的显著提升。

推理优势

研究人员评估了YOCO在GPU内存占用、prefilling延迟、吞吐量和服务容量等方面的优势，评估上下文范围为32K至1M。

如下图所示，与Transformer相比，YOCO大幅度降低了GPU内存占用，且YOCO的内存消耗随上下文长度增加，增长幅度很小。

例如，在1M长度下，整体推理内存使用量仅为12.4GB，而传统的Transformer则占用了9.38倍的GPU内存。

下面展示了token的KV缓存对GPU内存的占用情况。

YOCO模型只缓存一层全局的键值对，因此与Transformer模型相比，它需要的内存约少了L（指模型的层数）倍。

例如，YOCO模型可以使用1GB的GPU内存来处理128K token。而具有GQA的Transformer 65B大小模型，仅能支持1.6K token。

也就是说，模型越大，YOCO可以节省更多。

在预填充阶段，模型并行编码输入token。对于512K和1M长度的输入，Transformer分别需要大约180秒和300秒。Transformer的计算复杂度为O(N^2)，处理长上下文需要大量的浮点运算操作。

相比之下，YOCO的预填充时间为O(N)，随序列长度线性增长。

YOCO将Transformer的512K上下文预填充时间从180秒减少到不到6秒。

预填充阶段可以在进入交叉解码器之前提前退出。因此，即使对于短上下文，预填充延迟的加速至少是两倍。例如，对于32K长度，YOCO比Transformer快2.87倍。

吞吐量表示模型每秒可以处理多少个token，涵盖了预填充和生成时间。如下图所示，与Transformer相比，YOCO在不同上下文长度下实现了更高的吞吐量。

以512K查询为例，Transformer的吞吐量为4.5 token/秒，而YOCO达到了43.1token/秒，即实现了9.6倍的加速。

吞吐量提高的原因如前所述，YOCO减少了预填充所需的时间。其次，由于内存消耗减少，因此可以在推理时使用更大的批量大小，这也有助于提高吞吐量。

详细细节，感兴趣的家人们可以查看原论文。

论文链接：https://arxiv.org/abs/2405.05254

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

2.5%KV缓存保持大模型90%性能，大模型金字塔式信息汇聚模式探秘

量子位 2024-06-14 09:30:07
0 跟贴 0
匿名论文提出奇招！增强大模型长文本能力居然还能这么做

量子位 2024-02-02 15:56:14
0 跟贴 0

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

机器之心Pro 2024-06-03 17:03:11
0 跟贴 0

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

机器之心Pro 2024-02-20 15:15:48
0 跟贴 0
从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

量子位 2024-05-21 09:51:02
0 跟贴 0

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

机器之心Pro 2024-03-07 16:00:01
0 跟贴 0

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

机器之心Pro 2024-04-01 15:29:05
18 跟贴 18
长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

机器之心Pro 2024-04-11 14:33:11
0 跟贴 0

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

量子位 2024-03-04 16:53:32
0 跟贴 0
1分钟内完成报销核对，微软AI Day现场展示Copilot生产力革命

量子位 2024-06-16 15:51:05
0 跟贴 0
微软的反面：错过了AI时代最大机遇的亚马逊

华尔街见闻官方 2024-06-14 21:53:52
119 跟贴 119
解释一下昨天视频内容、美国智库调查报告以及几个国际新闻

北方老陈 2024-06-14 17:24:30
213 跟贴 213
Mamba架构第一次做大！混合Transformer，打败Transformer

量子位 2024-03-29 15:47:47
1 跟贴 1
蔡崇信“预言”：微软与OpenAI未来极有可能会分道扬镳

每日经济新闻 2024-06-15 19:28:10
9 跟贴 9
特朗普生日当天，重返国会山，民主党骂声一片：纵火犯重返现场

冲哥瞰天下 2024-06-15 19:11:09
1 跟贴 1
都不是省油灯，拜登儿子获罪，81岁总统飞回老家会面，特朗普发声

谷火平 2024-06-14 16:14:29
10 跟贴 10
面对英伟达的挑战，中国的国产算力地图正在形成

宁南山 2024-06-14 16:06:36
317 跟贴 317
巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

钛媒体APP 2024-01-13 11:35:24
109 跟贴 109
小叔子差点导致我们公司破产，婆婆和老公还想护着他，想都别想

动画大本营 2024-06-15 15:08:20
1 跟贴 1
美大选好戏开锣，特朗普爆出猛料，舆论瞬间引爆，下任总统稳了？

傲骨真新 2024-06-16 08:15:00
0 跟贴 0
一觉醒来，美大选再反转！下任总统毫无悬念？特朗普或直接躺赢

排头军史官方 2024-06-13 19:41:51
0 跟贴 0
卷入犯罪风波后，特朗普高调重返国会山，民主党人：怎么还敢来

红星资讯站 2024-06-15 11:45:56
0 跟贴 0
美大选反转出乎意料！最后关头，特朗普突然爆出猛料，舆论燃爆

烽火出鞘 2024-06-15 18:05:08
0 跟贴 0
美国大暴乱一夜回到200年前，特朗普真要把美国带到世界第二？

璱麝音乐 2024-06-15 14:25:35
0 跟贴 0
陈百祥再演祝枝山，尽管全片有百位明星，最亮眼的还是客串的他

娱圈儿彩虹屁up 2024-06-12 18:47:27
0 跟贴 0
娱乐性表演级别拳击，打头那一下太侮辱人了，泰森拿他都没办法！

哈哈看生活 2024-06-16 08:28:12
0 跟贴 0
这么讨债的是个高手

浪人爱追剧 2024-06-15 17:44:30
0 跟贴 0
钻了18年空子的乱港老贼，终于付出沉重代价，香港的天早就变了

阿尔法军情 2024-06-12 15:07:30
1 跟贴 1
汪小菲马筱梅参加华谊晚宴，马筱梅全程盯着吴彦祖眼神暧昧惹争议

百味伴读 2024-06-16 13:31:27
0 跟贴 0
这个扭秧歌的华人大叔，干了家10万亿公司

华商韬略 2024-01-23 10:25:08
1434 跟贴 1434
毁灭遇到了新的克星魔兽争霸xiaoy解说120 彩色

魔兽解说xiaoy 2024-06-13 11:42:38
17 跟贴 17
判了！美国总统大选在即，拜登儿子被判有罪，特朗普“扳回一城”

立伟说 2024-06-15 15:42:02
1 跟贴 1
美国巨兽当众挑衅拳王泰森，结果被打的惨不忍睹，拳迷：解气！

飓风格斗社 2024-06-15 17:13:38
0 跟贴 0
压力测试的位面系统真是让人惊喜

福乐游戏趣谈 2024-06-13 14:19:26
0 跟贴 0
美国竞选即将接近尾声，还记得上届特朗普的票选吗？绝地大反转！

车海风云 2024-06-14 06:05:20
0 跟贴 0
AI“带飞”韩国半导体：5月芯片出口价格创纪录上涨！

财联社 2024-06-14 17:14:27
0 跟贴 0
大师级巫医出现魔兽争霸xiaoy解说fly sini

魔兽解说xiaoy 2024-06-16 10:22:39
0 跟贴 0
随着许家印的没落，其女儿的生活也被曝光，奢侈程度令人咋舌

天闻地知 2024-06-14 14:07:23
311 跟贴 311
哈马斯指挥官被斩首，以色列又到川普“挺住，等我上台”时刻

移光幻影 2024-06-12 12:13:12
100 跟贴 100
一觉醒来，拜登遭晴天霹雳！美大选局势反转，特朗普或笑到最后

凌晨观点 2024-06-16 10:30:00
0 跟贴 0

回顾：男子订婚，未婚妻美得冒泡，颜值差太大，网友炸锅：我反对

回顾：男子订婚，未婚妻美得冒泡，颜值差太大，网友炸锅：我反对

佑宛故事汇

2024-06-15 17:19:54

1960年，王光美和女儿在北戴河海滩

1960年，王光美和女儿在北戴河海滩

视点历史

2024-06-13 17:33:24

台湾问题根本不是武统与和统的问题了，而是以下这两方面问题

台湾问题根本不是武统与和统的问题了，而是以下这两方面问题

星辰故事屋

2024-05-24 20:01:38

拜登预感不妙，美国开始撤侨？岛内彻底乱了，赖清德只剩死路一条

拜登预感不妙，美国开始撤侨？岛内彻底乱了，赖清德只剩死路一条

日风的故事屋

2024-06-16 17:53:13

纳达尔土豪身份尽显！在法网首轮佩戴800万奢侈手表，无愧三巨头

纳达尔土豪身份尽显！在法网首轮佩戴800万奢侈手表，无愧三巨头

搏击江湖

2024-06-16 10:24:30

北美人都被印度人逼疯了！

趣说世界哈

2024-06-14 07:31:27

山东河南等地出现了，这样的反常现象，你们发现了吗

山东河南等地出现了，这样的反常现象，你们发现了吗

阿莱美食汇

2024-06-16 06:31:00

欧洲杯最难看球衣评选！阿迪大套娃，法国丑炸天

欧洲杯最难看球衣评选！阿迪大套娃，法国丑炸天

法制社会报

2024-06-15 18:12:09

反内耗的顶配人设：天津孩子

INSIGHT视界

2024-06-15 22:33:28

中国最年轻女县长张琪：清华博士，才貌双全扎根基层，背景震惊

中国最年轻女县长张琪：清华博士，才貌双全扎根基层，背景震惊

知鉴明史

2024-06-15 17:58:23

热热热35℃＋，上海今夏首个高温日诞生！出梅有望了？

热热热35℃＋，上海今夏首个高温日诞生！出梅有望了？

再吃一口

2024-06-16 13:35:10

上海这夜，耍大牌周也和勒肉张碧晨，都败给了“全裹”出镜的高叶

上海这夜，耍大牌周也和勒肉张碧晨，都败给了“全裹”出镜的高叶

一娱三分地

2024-06-16 08:55:03

太意外了，仁爱礁坐滩军舰之所以没有快速解体，居然是它在搞鬼！

太意外了，仁爱礁坐滩军舰之所以没有快速解体，居然是它在搞鬼！

老妖的针见

2024-06-14 14:20:02

马科斯拒不退让，军方接到新任务，菲学者警告政府别介入台海冲突

马科斯拒不退让，军方接到新任务，菲学者警告政府别介入台海冲突

笔墨V

2024-06-16 17:55:52

归化专家：目前全球活跃在各级联赛U10队伍以上华裔球员近200位

归化专家：目前全球活跃在各级联赛U10队伍以上华裔球员近200位

直播吧

2024-06-16 16:41:13

广东引援计划出炉！朱芳雨逗留北京斡旋，杜锋摊牌！周琦谈判暂缓

广东引援计划出炉！朱芳雨逗留北京斡旋，杜锋摊牌！周琦谈判暂缓

祝晓塬

2024-06-16 16:47:11

整活，英乙球队AFC温布尔登喊话穆西亚拉：现在回来也不晚的

整活，英乙球队AFC温布尔登喊话穆西亚拉：现在回来也不晚的

懂球帝

2024-06-16 11:12:07

下周这个论坛，A股屏息以待

每日经济新闻

2024-06-16 11:37:14

绝了，姆巴佩还没亮相！皇马内讧爆发，魔笛带头反驳，为梅西正名

绝了，姆巴佩还没亮相！皇马内讧爆发，魔笛带头反驳，为梅西正名

阿泰希特

2024-06-15 21:08:21

回顾：湖北女子带娃回家，被前夫和现任打，一脚干翻俩：真解气

回顾：湖北女子带娃回家，被前夫和现任打，一脚干翻俩：真解气

佑宛故事汇

2024-06-15 17:12:07

追踪人工智能动态

9538文章数 175380关注度

往期回顾全部

科技要闻

iPhone 16会杀死大模型APP吗？

头条要闻

母亲去世次日 14岁男孩用其手机买球星卡欠下9万债务

头条要闻

母亲去世次日 14岁男孩用其手机买球星卡欠下9万债务

体育要闻

没人永远年轻但青春如此无敌还是离谱了些

娱乐要闻

上影节红毯：倪妮好松弛，娜扎吸睛

财经要闻

打断妻子多根肋骨上市公司创始人被公诉

汽车要闻

售17.68万-21.68万元极狐阿尔法S5正式上市

态度原创

教育

健康

数码

本地

军事航空

教育要闻

全面把握学生学习状态，提升人才培养质量

晚餐不吃or吃七分饱，哪种更减肥？

数码要闻

一加 Pad Pro 平板配套键盘与手写笔通过 FCC 认证：腕托支持 NFC

本地新闻

粽情一夏｜海河龙舟赛，竟然成了外国人的大party!

军事要闻

以军宣布在加沙南部实行"战术暂停"

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版