网易首页 > 网易号 > 正文 申请入驻

大模型推理效率无损提升3倍,滑铁卢大学、北大等机构发布EAGLE

0
分享至

机器之心专栏

机器之心编辑部

大语言模型(LLM)被越来越多应用于各种领域。然而,它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则:每个词(token)的生成都需要进行一次前向传播,需要访问数十亿至数千亿参数的 LLM。这导致传统自回归解码的速度较慢。

近日,滑铁卢大学、加拿大向量研究院、北京大学等机构联合发布 EAGLE,旨在提升大语言模型的推理速度,同时保证模型输出文本的分布一致。这种方法外推 LLM 的第二顶层特征向量,能够显著提升生成效率。

  • 技术报告:https://sites.google.com/view/eagle-llm
  • 代码(支持商用 Apache 2.0):https://github.com/SafeAILab/EAGLE

EAGLE 具有以下特点:

  • 比普通自回归解码(13B)快 3 倍;
  • 比 Lookahead 解码(13B)快 2 倍;
  • 比 Medusa 解码(13B)快 1.6 倍;
  • 可以证明在生成文本的分布上与普通解码保持一致;
  • 可以在 RTX 3090 上进行训练(1-2 天内)和测试;
  • 可以与 vLLM、DeepSpeed、Mamba、FlashAttention、量化和硬件优化等其他平行技术结合使用。

,时长00:15

加速自回归解码的一种方法是投机采样(speculative sampling)。这种技术使用一个更小的草稿模型,通过标准自回归生成来猜测接下来的多个词。随后,原始 LLM 并行验证这些猜测的词(只需要进行一次前向传播进行验证)。如果草稿模型准确预测了 α 词,原始 LLM 的一次前向传播就可以生成 α+1 个词。

在投机采样中,草稿模型的任务是基于当前词序列预测下一个词。使用一个参数数量显著更少的模型完成这个任务极具挑战性,通常会产生次优结果。此外,标准投机采样方法中的草稿模型独立预测下一个词而不利用原始 LLM 提取的丰富语义信息,导致潜在的效率低下。

这个局限启发了 EAGLE 的开发。EAGLE 利用原始 LLM 提取的上下文特征(即模型第二顶层输出的特征向量)。EAGLE 建立在以下第一性原理之上:

特征向量序列是可压缩的,所以根据前面的特征向量预测后续特征向量比较容易。

EAGLE 训练了一个轻量级插件,称为自回归头(Auto-regression Head),与词嵌入层一起,基于当前特征序列从原始模型的第二顶层预测下一个特征。然后使用原始 LLM 的冻结分类头来预测下一个词。特征比词序列包含更多信息,使得回归特征的任务比预测词的任务简单得多。总之,EAGLE 在特征层面上进行外推,使用一个小型自回归头,然后利用冻结的分类头生成预测的词序列。与投机采样、Medusa 和 Lookahead 等类似的工作一致,EAGLE 关注的是每次提示推理的延迟,而不是整体系统吞吐量。

EAGLE——一种增强大语言模型生成效率的方法

上图显示了 EAGLE 与标准投机采样、Medusa 以及 Lookahead 关于输入输出的区别。下图展示了 EAGLE 的工作流程。在原始 LLM 的前向过程中,EAGLE 从第二顶层收集特征。自回归头以这些特征以及此前生成的词的词嵌入作为输入,开始猜下一个词。随后,使用冻结的分类头(LM Head)确定下一个词的分布,使 EAGLE 能够从这个分布中进行采样。通过多次重复采样,EAGLE 进行了类似树状的生成过程,如下图右侧所示。在这个例子中,EAGLE 的三次前向传播 “猜” 出了 10 个词组成的树。

EAGLE 使用轻量级的自回归头来预测原始 LLM 的特征。为了确保生成文本分布的一致性,EAGLE 随后验证预测的树状结构。这个验证过程可以使用一次前向传播完成。通过这个预测和验证的循环,EAGLE 能够快速生成文本词。

训练自回归头代价很小。EAGLE 使用 ShareGPT 数据集进行训练,该数据集包含不到 70,000 轮对话。自回归头的可训练参数数量也很少。如上图中的蓝色部分所示,大多数组件都是冻结的。唯一要额外训练的是自回归头,这是一个单层 Transformer 结构,具有 0.24B-0.99B 参数。即使是 GPU 资源不足的情况下,也可以训练自回归头。例如,Vicuna 33B 的自回归头可以在 8 卡 RTX 3090 服务器上在 24 小时内完成训练。

为什么使用词嵌入来预测特征?

Medusa 仅使用第二顶层的特征来预测下一个词,下下个词......与 Medusa 不同,EAGLE 还动态地将当前采样得到的词嵌入作为自回归头输入的一部分来进行预测。这额外的信息帮助 EAGLE 处理抽样过程中不可避免的随机性。考虑下图中的例子,假设提示词是 “I”。LLM 给出了 “I” 后面跟着 “am” 或 “always” 的概率。Medusa 不考虑是抽样了 “am” 还是 “always”,直接预测 “I” 下下个词的概率。因此,Medusa 的目标是,在只给定 “I” 的基础上,预测 “I am” 或 “I always” 的下一个词。由于抽样过程的随机性,Medusa 的相同输入 “I” 可能有不同的下下个词输出 “ready” 或 “begin”,导致输入和输出之间缺乏一致的映射。相比之下,EAGLE 的输入包括了抽样结果的词嵌入,确保了输入和输出之间的一致映射。这种区别使 EAGLE 能够考虑抽样过程建立的上下文,进而更准确地预测后续词。

树状生成结构

与投机采样、Lookahead 和 Medusa 等其他猜测 - 验证框架不同,EAGLE 在 “猜词” 阶段采用类似树状的生成结构,进而实现了更高的解码效率。如图所示,标准投机采样和 Lookahead 的生成过程是线性或链式的。Medusa 的方法由于在猜测阶段无法构建上下文,故通过笛卡尔积生成树,导致相邻层之间形成全连接图。这种方法经常导致无意义的组合,例如 “I am begin”。对比之下,EAGLE 创建了一个更稀疏的树结构。这种稀疏的树结构防止形成无意义的序列,将计算资源集中在更合理的词组合上。

多轮投机采样

标准投机采样方法在进行 “猜词” 的过程中保持了分布的一致性。为了适应树状猜词场景,EAGLE 将这种方法扩展成了多轮递归形式。下面呈现了多轮投机采样的伪代码。在树状生成过程中,EAGLE 记录了每个抽样词对应的概率。通过多轮投机采样,EAGLE 确保最终生成的每个词的分布与原始 LLM 的分布保持一致。

更多实验结果

下图展示了 EAGLE 在 Vicuna 33B 上关于不同任务中的加速效果。涉及大量固定模板的 “编程”(coding)任务显示出最佳的加速性能。

欢迎大家体验 EAGLE,并通过 GitHub issue 反馈建议:https://github.com/SafeAILab/EAGLE/issues

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳光明房价暴跌真相!十大小区最高腰斩50%,有人借钱还房贷

深圳光明房价暴跌真相!十大小区最高腰斩50%,有人借钱还房贷

林子说事
2026-07-01 16:49:50
乌军持续袭击一个月后,普京向全俄民众宣布,俄已到命运攸关时刻

乌军持续袭击一个月后,普京向全俄民众宣布,俄已到命运攸关时刻

新姐看世界
2026-06-30 17:11:20
美国大满贯冷门不断,日本连赢四场,全是3-0,锁定一张八强门票

美国大满贯冷门不断,日本连赢四场,全是3-0,锁定一张八强门票

野渡舟山人
2026-07-01 16:53:11
“别让女儿学舞蹈了”,荷花奖得主在酒馆兼职舞女,家长看蒙了

“别让女儿学舞蹈了”,荷花奖得主在酒馆兼职舞女,家长看蒙了

泽泽先生
2026-06-30 19:47:39
美国军队痛哭流涕,伊朗战争的绝境,实际上是上了三个国家的当

美国军队痛哭流涕,伊朗战争的绝境,实际上是上了三个国家的当

农夫史记
2026-06-09 20:11:08
A股罕见!67家公司紧急发声!寒武纪跌超5%

A股罕见!67家公司紧急发声!寒武纪跌超5%

金融界
2026-07-01 12:08:55
江苏将新建一座超大型机场,明年正式开工

江苏将新建一座超大型机场,明年正式开工

今日搞笑分享
2026-07-01 16:45:37
五星巴西,经济搞不好,足球凭什么永远是第一?

五星巴西,经济搞不好,足球凭什么永远是第一?

余丰慧
2026-06-30 20:14:16
《火遮眼》已盈利4000万,谢苗坚持了20天,还在卖力跑路演

《火遮眼》已盈利4000万,谢苗坚持了20天,还在卖力跑路演

光影新天地
2026-07-01 13:37:49
“机器人伴侣”订单破1万台,仅限成人购买!Pro版16.98万,Ultra男女版各99万、88万,公司CEO回应:量产、技术难度较高

“机器人伴侣”订单破1万台,仅限成人购买!Pro版16.98万,Ultra男女版各99万、88万,公司CEO回应:量产、技术难度较高

每日经济新闻
2026-06-30 21:08:04
没有这种食物,你的肌肉将消失!医生:55岁后恢复肌力的8种食物

没有这种食物,你的肌肉将消失!医生:55岁后恢复肌力的8种食物

垚垚分享健康
2026-06-30 21:25:03
1换7!自由市场第1天,湖人大大大地震!13人签约

1换7!自由市场第1天,湖人大大大地震!13人签约

慢歌轻步谣
2026-07-01 17:07:40
1换1!休赛期第一笔交易!曝总冠军球队可能解体

1换1!休赛期第一笔交易!曝总冠军球队可能解体

篮球实战宝典
2026-06-30 22:26:26
安吉丽娜·朱莉离婚十年罕见剖白:我再没恋爱,现在想重新活一次

安吉丽娜·朱莉离婚十年罕见剖白:我再没恋爱,现在想重新活一次

赴一场山海啊
2026-07-01 01:08:02
Windhorst:勇士将在明早尝试签下自由球员勒布朗-詹姆斯

Windhorst:勇士将在明早尝试签下自由球员勒布朗-詹姆斯

林子说事
2026-07-01 10:47:33
2号线停运大半年,成都东西两极的房价,快要冰火两重天了?

2号线停运大半年,成都东西两极的房价,快要冰火两重天了?

林子说事
2026-07-01 16:08:25
儿媳过生日我转6666,结果被儿子退回,我去儿子家一看,当场愣住

儿媳过生日我转6666,结果被儿子退回,我去儿子家一看,当场愣住

千秋文化
2026-06-26 19:48:58
自由人队斯图尔特当选2026总裁杯MVP

自由人队斯图尔特当选2026总裁杯MVP

北青网-北京青年报
2026-07-01 19:50:13
多家检测机构拒绝个人申请纸尿裤甲酰胺检测

多家检测机构拒绝个人申请纸尿裤甲酰胺检测

财闻
2026-06-30 20:56:42
正式官宣!山东男篮更换教练,闵鹿蕾助手加入,全力冲击前四

正式官宣!山东男篮更换教练,闵鹿蕾助手加入,全力冲击前四

去山野间追风
2026-07-01 15:59:32
2026-07-01 20:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13408文章数 142685关注度
往期回顾 全部

科技要闻

Claude Code被曝“植入木马”识别中国用户

头条要闻

特斯拉撞护栏起火 路过车主拼命把特斯拉女司机救出来

头条要闻

特斯拉撞护栏起火 路过车主拼命把特斯拉女司机救出来

体育要闻

卖球衣救子的门将,把德国扑出了世界杯

娱乐要闻

张凌赫:我连心疼你都隔着时差

财经要闻

新氧贷款:宣传年化15%,实际顶格24%

汽车要闻

半程收官 上汽集团销量突破200万辆

态度原创

教育
本地
亲子
时尚
手机

教育要闻

已知AB-A=58, 求A=?B=?

本地新闻

强烈建议,全国高校都向这所大学看齐!

亲子要闻

云南文山:托幼一体化破解幼儿入园衔接难题

Meiinpsn的穿衣风格,清新又叛逆

手机要闻

华为Mate 80 RS非凡大师手机开启1000元优惠活动,10999元起

无障碍浏览 进入关怀版