网易首页 > 网易号 > 正文 申请入驻

大模型推理无损加速6.5倍!EAGLE-3碾压一切、延续Scaling Law能力

0
分享至


自回归解码已然成为大语言模型的推理标准。大语言模型每次前向计算需要访问它全部的参数,但只能得到一个 token,导致其生成昂贵且缓慢。

近日,EAGLE 团队的新作《EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test》通过一系列优化解锁了投机采样的 Scaling Law 能力,可以将大语言模型的推理速度提高 6.5 倍,同时不改变大语言模型的输出分布,确保无损。同时,随着训练数据的增加,加速比还能进一步提高。

  • 论文标题:EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test
  • arXiv 地址:https://arxiv.org/abs/2503.01840
  • 项目地址:https://github.com/SafeAILab/EAGLE
  • SGLang 版本:https://github.com/sgl-project/sglang/pull/4247

EAGLE-3 的加速效果(DeepSeek-R1-Distill-LLaMA 8B 在数学推理数据集 GSM8K 上测试,其他模型在多轮对话数据集 MT-bench 上测试):

不同方法的生成速度对比:

背景

投机采样使用一个小的模型快速生成草稿,一次生成多个 token。目标大语言模型通过一次前向计算并行验证草稿的正确性,输出正确的草稿,并确保无损。EAGLE 系列是投机采样的最快实现。

EAGLE-1 在更有规律的特征层面而不是 token 层面进行自回归,同时输入采样结果(超前一个时间步的 token)消除了不确定性,明显提升了草稿模型的准确率。EAGLE-2 利用草稿模型的置信度近似接受率,据此动态地调整草稿树的结构,进一步提升了投机采样的效率。

机器之心之前已经报道了 EAGLE-1 和 EAGLE-2 的工作:

  • EAGLE-1:大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE
  • EAGLE-2:无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

最新的大模型通过使用越来越多的训练数据以取得更好的性能。比如说,对于 LLaMA 系列 7B(8B)大小的模型,LLaMA 1、LLaMA 2 和 LLaMA 3 分别使用了 1T、2T、15T token 训练数据,模型结构和推理成本基本不变的前提下各项指标取得了明显提升。

EAGLE-3 的作者们希望通过增加草稿模型的训练数据量以提高接受率和加速比(蓝色曲线)。遗憾的是, EAGLE-1 从训练数据增加中得到的提升非常有限(红色曲线)。

EAGLE-1 和 EAGLE-3 的加速比随着训练数据的增加而变化的趋势:

动机

EAGLE 在特征层进行自回归,再使用目标模型的分类头得到草稿 token。这种方式利用了目标模型的中间结果和信息,相比 token 层自回归有更好的性能。因为草稿模型的最终任务是预测草稿 token,EAGLE 的损失函数包括两部分,一部分是特征预测损失,另一部分是 token 预测损失。特征预测损失也可以被认为是一种约束,限制了模型的表达能力。

EAGLE-3 的作者们进行了实验验证,观察第一个草稿 token 的接受率 0-α,在数据集较小时,特征预测损失在训练数据较少时可以提高性能,但严重损害了草稿模型的 scaling up 能力。

不过,不使用特征预测损失会导致生成后续草稿 token 时的输入偏离训练分布,导致第二个草稿 token 的接受率 1-α 严重下降。为了解决这一问题,EAGLE-3 使用 “训练时测试” 模拟多步生成,从而兼顾了模型的 scaling up 能力和生成多个草稿 token 的能力

EAGLE、Medusa 等投机采样方法都重用目标模型的最后一层特征作为草稿模型的提示,但 EAGLE-3 的作者们发现这存在缺陷。大语言模型的最后一层特征经过线性变换就能得到下一个 token 的分布。对于满秩的分类头,最后一层特征和下一个 token 的分布一一对应。最后一层特征只有下一个 token 的信息,失去了目标模型的全局性质。

因此,EAGLE-3 不再使用目标模型的最后一层特征作为辅助信息,而是混合目标模型的低层、中层、高层信息来作为草稿模型的输入。

方法

与其他投机采样方法一致,EAGLE-3 交替执行草稿阶段和验证阶段。

草稿阶段以下图为例。在预填充或者上一个验证阶段,EAGLE-3 记录模型的低、中、高层特征序列,分别记为 l、m 和 h,拼接 k 维向量 l、m 和 h 得到 3k 维向量,然后通过一个全连接层将其降维到 k 维,就得到融合了不同层级信息的特征 g,其中 k 为目标模型的隐藏层维度。目标是生成以 “How can I” 为前缀的草稿 token 序列,只输入 g_how 和 g_can,草稿模型无法感知随机的采样过程。

因此 EAGLE-3 引入采样结果 I 的词向量嵌入 e_I。将 g 与对应的超前一个时间步的嵌入 e 拼接,即 g_how 与 e_can 拼接,g_can 和 e_I 拼接。将拼接后的向量通过全连接层降到 k 维,并将其输入进一个单层的 transformer 得到 a。然后,将 a 输入分类头,采样得到第一个草稿 token “do”。

在 step 1,以 “How can” 为前缀时,EAGLE-3 重用了来自目标模型的 g_how 和 g_can。

在 step 2,前缀是 “How can I”。理想的方式是重用来自目标模型的 g_how、g_can 和 g_I。但这是不可能的,因为 token “I” 还没有被目标模型检查,无法获取 g_I。EAGLE-3 用上一个 step 草稿模型的输出 a_I 替代 g_I,拼接 a_I 与采样结果 “do” 的词向量嵌入作为草稿模型 step2 的输入。

在 step 3,同样无法获得 g_do,所以使用 a_do 代替,拼接 a_do 与 e_it 作为草稿模型的输入。之后的 step 同理。

实验

EAGLE-3 在多轮对话、代码、数学推理、指令遵循、总结五项任务上分别使用 MT-bench、Humaneval、GSM8K、Alpaca、CNN/DM 数据集进行了实验,并与 7 种先进的投机采样方法(SpS、PLD、Medusa、Lookahead、Hydra、EAGLE、EAGLE-2)进行了比较。

该实验分别在 Vicuna (V), LLaMA-Instruct 3.1 (L31), LLaMA-Instruct 3.3 (L33), DeepSeek-R1-Distill-LLaMA (DSL) 上进行。

表格中的 Speedup 为加速比,τ 为平均接受长度,也就是目标模型每次前向计算能生成的 token 数。EAGLE-3 每次前向计算能生成大约 4-7 个 token,而自回归解码每次生成 1 个 token,因此 EAGLE-3 明显加速了大语言模型的生成,加速比为3.1x-6.5x

在所有任务和模型上,EAGLE-3 的加速比和平均接受长度都是最高的,明显优于其他方法。

应用

EAGLE-3 发布第一天就被集成到 SGLang 中。在生产级框架中,EAGLE-3 也有数倍加速效果。以下实验由 SGLang 团队提供并以 LLaMA 3.1 8B(batch size=1, 1x H100)为例。

投机采样往往被认为在大 batch size 下会降低吞吐量。但是在 SGLang 这一生产级框架下,EAGLE-3 在 batch size 为 64 时仍可以提高 38% 的吞吐量,而 EAGLE 在 batch size 为 24 时就导致吞吐量下降。这里 1.00x 以 SGLang (w/o speculative) 的吞吐量作为基准。以下实验由 SGLang 团队提供并以 LLaMA 3.1 8B(1x H100)为例。

作者介绍

李堉晖:北京大学智能学院硕士,滑铁卢大学访问学者,受张弘扬老师和张超老师指导,研究方向为大模型加速和对齐。

魏芳芸:微软亚研院研究员,研究方向为具身智能、图像生成和 AI agents。

张超:北京大学智能学院研究员,研究方向为计算机视觉和大模型加速。

张弘扬:滑铁卢大学计算机学院、向量研究院助理教授,研究方向为大模型推理加速、AI 安全和世界模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“廉价版”特斯拉正式开售!

“廉价版”特斯拉正式开售!

电动知家
2026-01-26 10:37:49
老人最奇葩的10种行为,最后一种能把你吓一跳,希望你是个例外

老人最奇葩的10种行为,最后一种能把你吓一跳,希望你是个例外

情感大使馆
2025-12-26 10:37:28
2010年,俄罗斯超级富二代当街暴打普京女婿,被捕后几乎家破人亡

2010年,俄罗斯超级富二代当街暴打普京女婿,被捕后几乎家破人亡

禾所思
2024-10-22 15:23:53
后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

后悔也晚了!大批F35逼到家门口,伊朗却发现红旗9和歼10还未到位

书纪文谭
2026-01-23 19:37:18
拒绝交易新控卫!火箭队目标浮出水面,只为练兵?争冠要等明年

拒绝交易新控卫!火箭队目标浮出水面,只为练兵?争冠要等明年

熊哥爱篮球
2026-01-26 21:46:54
43岁张萌身材吊打同龄人:真正的顶级自律不是痛苦而是“上瘾”

43岁张萌身材吊打同龄人:真正的顶级自律不是痛苦而是“上瘾”

可乐谈情感
2026-01-25 14:12:12
美军“林肯”号航母打击群已抵达印度洋,F-15E战斗机、C-17运输机正在集结!以色列也正伺机攻击;伊朗:已做好应对最坏情况的准备

美军“林肯”号航母打击群已抵达印度洋,F-15E战斗机、C-17运输机正在集结!以色列也正伺机攻击;伊朗:已做好应对最坏情况的准备

每日经济新闻
2026-01-25 00:43:52
印度希望中国无偿转让锂电池技术!被中国拒绝后,印度或无法接受

印度希望中国无偿转让锂电池技术!被中国拒绝后,印度或无法接受

老范谈史
2026-01-26 20:42:54
湖人迎补强良机!曝3届全明星或被买断,湖人成头号下家

湖人迎补强良机!曝3届全明星或被买断,湖人成头号下家

夜白侃球
2026-01-26 20:32:08
外媒:中国驳斥马斯克说法!

外媒:中国驳斥马斯克说法!

电动知家
2026-01-24 15:33:08
1982年河南200枪支失窃,多年未破,一退休干警查出真相,遭灭口

1982年河南200枪支失窃,多年未破,一退休干警查出真相,遭灭口

阿胡
2024-08-31 11:55:02
小舅子群里安排过年聚餐,我秒回:房已卖,正和你姐飞马尔代夫

小舅子群里安排过年聚餐,我秒回:房已卖,正和你姐飞马尔代夫

晓艾故事汇
2026-01-10 09:09:29
新干线上外国乘客的行李箱掉下砸到日本女性头部,语言不通无法和解造成列车晚点

新干线上外国乘客的行李箱掉下砸到日本女性头部,语言不通无法和解造成列车晚点

日本物语
2026-01-25 20:32:37
蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

蒙古国首都骚乱再起,社会矛盾愈发尖锐,反华到底图啥

素衣读史
2026-01-24 17:12:53
美以联手追踪镇压伊朗抗议的责任人,目标名单每分钟扩大

美以联手追踪镇压伊朗抗议的责任人,目标名单每分钟扩大

桂系007
2026-01-26 03:51:49
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

长得漂亮却坏事做尽,3次入狱,被摘除4处器官的她,如今过得怎样

喜欢历史的阿繁
2026-01-26 01:02:52
古特雷斯下课, 秘书长候选人诞生, 对华态度坚决, 中方看破美国心思

古特雷斯下课, 秘书长候选人诞生, 对华态度坚决, 中方看破美国心思

阿天爱旅行
2026-01-26 13:15:00
汪小菲专心陪马筱梅待产!玥儿箖箖在奶奶家吃饭香,很爱北京的雪

汪小菲专心陪马筱梅待产!玥儿箖箖在奶奶家吃饭香,很爱北京的雪

乐悠悠娱乐
2026-01-26 17:11:30
贾国龙最新发声:回归一线,不再打造个人IP!预计近半年西贝亏损将超6亿元

贾国龙最新发声:回归一线,不再打造个人IP!预计近半年西贝亏损将超6亿元

封面新闻
2026-01-26 09:47:06
2026-01-27 02:44:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12193文章数 142549关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

头条要闻

印度尼帕病毒现跨区域传播 世卫:或引起全球大流行

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

亲子
时尚
房产
艺术
家居

亲子要闻

“生孩子老了就这下场”,母亲用按摩机被女儿网暴,网友看不下去

甜了10年,超多暧昧细节,全网求他俩原地结婚

房产要闻

突发!三亚官宣,调整安居房政策!

艺术要闻

沙特急刹车,NEOM规模大缩水,线性摩天楼留小段

家居要闻

流韵雅居,让复杂变纯粹

无障碍浏览 进入关怀版