网易首页 > 网易号 > 正文 申请入驻

昇腾EAGLE-3微调和推理技术优化:实现推理时延下降20%

0
分享至

来源:市场资讯

(来源:华为计算)

投机解码(Speculative Decoding)是解决模型推理中自回归(Autoregressive, AR)瓶颈的关键技术之一,其中,对于原本不支持MTP投机解码的模型,EAGLE-3是当前效果较优且更为普适的投机解码技术。

昇腾针对EAGLE-3做了深度优化,降低了20%的推理时延:

(1)微调方面,我们通过系统性的消融实验,构建并优化了高采信率草稿模型端到端训练的完整pipeline,显著提升吞吐效率并降低推理延迟。

(2)推理技术方面,通过EAGLE-3与旋转量化、MTP draft model归一、PCP/DCP等多种推理特性深度融合,构建了全链路优化的推理架构。

本文将全面介绍这些关键技术及落地成果。

EAGLE-3是什么?

以EAGLE-3为代表的投机解码技术构建了“轻量级草稿模型(Draft Model)预推+主模型(Target Model)并行验证”的高效协作范式。该技术通过引入一个高度优化的草稿模型,基于输入序列与目标大模型深层融合的上下文特征,批量生成k个候选token(支持动态长度调节),随后主模型再并行验证全部候选token的合理性——通过一次并行推理即可完成多个token的校验,验证通过则直接批量输出,失败项则由主模型精准补全,确保输出无损且语义一致。


该机制实现了“极低草稿预测开销+单次主模型验证”的高效组合,使得生成k个token的总延迟仅略高于一次主模型自回归解码,却可实现近k倍的吞吐增益。

尤其在昇腾NPU,该技术充分释放了硬件在算力维度的代际优势,将原本被闲置的冗余计算资源高效转化为并行推理能力,大幅降低推理延迟。

EAGLE-3微调优化:实现综合采信率提升

EAGLE-3是达成低时延的核心优化能力,但如何训出高采信率的草稿模型,并总结可靠的pipeline是达成最佳实践的关键。主要涉及两方面:

训练语料如何选择及配比?

社区通用的一些数据集及配比在特定场景下的接收率有限,甚至无法提供加速。

草稿模型及训练如何调优?

草稿模型本身是一个轻量级模型,同样也是基于自回归模式,为了进一步提高和压榨提升量,如何调配、优化参数使其进一步提高学习能力是关键。

昇腾关键优化

为了实现EAGLE-3模型的推理采信率提升,在如下方面做了如下优化:

数据调优:利用混合策略构建高质量数据集

草稿模型学习的是大模型的输出分布,因此训练语料要和实际推理语料尽可能保持同分布,避免出现“水土不服”的场景。我们采用混合策略,构建了一个高质量的混合数据集,相比社区通用的训练数据集,能够显著增强草稿模型在数学、代码生成、多轮对话等多领域的综合能力。

草稿模型调优:消融实验实现最佳参数配置寻优

草稿模型的学习能力强弱、loss收敛情况与其结构参数、训练参数相关,我们针对全流程多个参数进行了消融实验,如intermediate_size、num_hidden_layers、num_key_value_heads等参数,在不影响草稿模型额外开销的基础上得到最优参数配置。

通过以上的2点主要优化,昇腾让“草稿模型”学得更准,构建了从结构设计、参数调优到数据策略的完整优化闭环。

优化结果

在投机步数为3步时,针对以下模型,实测结果接收长度均超过业界开源权重水平,证明了优化的有效性:


EAGLE-3和各种推理特性叠加

降低整体时延20%

支持EAGLE-3带旋转量化推理

旋转量化(以QuaRot/RotorQuant为代表)与投机解码(Speculative Decoding,含EAGLE-3/MTP)的深度融合,是vLLM Ascend平台针对大模型高效推理的关键技术组合。该方案通过量化压缩显存瓶颈与推测执行提升算力效率的双轮驱动,在昇腾硬件与GLM-5等大模型(W4A8量化)场景下,实现了精度、吞吐、时延、部署成本的全方位优化,其核心价值可从以下维度系统阐述:

精度保障:抑制量化噪声,稳固投机生成质量

旋转量化通过正交矩阵变换(如Hadamard旋转)预处理权重与激活分布,均衡数值动态范围、消除离群值,从根源降低W4A8等低比特量化引入的误差。在投机解码链路中:

主模型(验证器):经旋转量化后,验证阶段的判别精度更高,能更准确接受/回退草稿token,减少误判导致的生成退化与重复验证开销。

草稿模型(Proposer,如EAGLE-3/MTP):量化噪声更小,候选序列的准确率与一致性显著提升,直接提高投机接受率、减少回退重试,强化长文本生成的连贯性。

协同适配W4A8:与GLM-5的权重4比特、激活8比特策略深度协同,旋转预处理进一步稳定激活分布,让低比特量化在MoE稀疏架构下仍保持逼近全精度的推理效果。

显存效率:双重压缩,支撑超大模型单机部署

旋转量化压缩:权重/激活经旋转后量化更高效,W4A8可将700B+级模型显存占用降低75%,配合KV Cache量化,彻底突破单节点显存瓶颈。

投机解码减负:草稿模型(小参数量化版)替代主模型步进生成,大幅减少每步激活与KV Cache读写,与旋转量化形成显存占用的“双重压降”,支撑GLM-5等超大模型在昇腾单服务器(如Atlas 800T A3)高效部署。

算力增益:量化加速与推测执行的协同放大

量化降低计算强度:W4A8量化将矩阵乘算力需求降至FP16的1/4~1/8,旋转算子可与昇腾硬件指令深度融合,量化计算无显著额外开销。

投机提升有效算力:主模型单次验证可并行接受N个草稿token,等效将生成步长放大N倍。

协同效应:量化释放的算力直接供给投机的并行验证与草稿生成,在vLLM-Ascend的统一调度下形成“量化提速→算力富余→更高并行度→更大吞吐”的正向循环,端到端时延降低40%~70%、吞吐提升3~8倍。

工程与系统:统一架构,适配自主创新硬件优化

vLLM-Ascend统一代码归一:旋转量化、W4A8、EAGLE-3/MTP共用底层算子、KV管理与调度框架,优化一次全链路受益,降低维护与迁移成本。

昇腾软硬协同:旋转量化与投机解码均针对昇腾NPU的张量计算、多精度流水线与HCCL通信深度优化,量化内核与推测调度无跨框架开销。

可扩展与兼容:统一抽象接口支持快速适配新量化(如W4A16)与新模型(如deepseekv4),同时可以支持新投机算法(如dflash)的快速适配。

部署价值:降本增效,推进大模型规模化落地

硬件成本减半:超大模型从多卡集群降至单服务器部署,长序列低时延场景部署成本降低50%+。

高并发稳定服务:量化+投机的组合在高并发下保持低时延、高吞吐、高稳定性,满足企业级实时交互需求。

旋转量化与投机解码的结合,是大模型推理的系统性优化范式。它以旋转量化保精度、压显存,以投机解码提算力、增吞吐,并通过vLLM Ascend的统一架构与昇腾硬件深度协同,完美适配GLM-5等模型的W4A8量化需求。该方案在不牺牲生成质量的前提下,实现了超大模型单机部署、推理效率数倍提升、部署成本显著降低的核心目标。

支持EAGLE-3和MTP draft model归一

为提升系统架构的统一性、可维护性与迭代效率,vLLM对EAGLE-3 speculative decoding与MTP multi-token prediction两类加速推理方案采用统一代码架构实现。在抽象层定义标准化接口与执行流程,将提议生成、序列校验、采样控制、批处理调度、KV缓存管理等通用逻辑进行归一化封装,EAGLE-3与MTP仅在具体候选生成策略与特征融合方式上实现差异化逻辑。

该设计通过代码归一实现了多方面收益:一是架构复用,上层生成框架无需感知底层加速策略差异,降低模块耦合与代码冗余;二是优化共享,批处理、张量并行、树解码等核心优化只需实现一次,即可同时作用于两类加速模式,避免重复开发与性能不一致问题;三是维护统一,异常处理、边界校验、日志埋点与调试逻辑保持一致,显著降低测试与运维成本;四是扩展高效,后续新增同类加速算法时,只需基于统一接口实现核心生成逻辑,无需改造主干流程,大幅提升框架迭代速度。

整体而言,归一化代码实现既保证了EAGLE-3与MTP在功能上的独立性与灵活性,又充分发挥了统一架构在工程效率、系统稳定性与性能一致性上的优势。


支持PCP/DCP叠加EAGLE-3

PCP与DCP与投机解码的结合,是长序列分布式推理的关键范式:

算力与显存双优化:PCP/DCP切分上下文,降低单卡显存占用;投机解码减少主模型调用次数,提升有效算力利用率。

稳定性与扩展性:统一接口设计支持快速迭代新投机算法(如Medusa),兼容MoE模型与量化方案,适配昇腾生态vLLM。

端到端性能提升:在长序列生成场景中,可显著降低TTFT(Time To First Token)与TPOT(Time Per Output Token),实现高并发下的低时延稳定服务。

在vLLM-Ascend推理架构中,PCP(Prefill Context Parallel,预填充上下文并行)与DCP(Decode Context Parallel,解码上下文并行)均已实现对投机推理机制的完整支持,可与EAGLE-3、MTP等多候选生成策略高效协同工作。PCP通过在预填充阶段对长上下文进行分片并行处理,降低单卡计算与缓存压力,为草稿模型生成提供稳定且低延迟的特征输入;DCP则在解码阶段实现分布式并行验证,提升投机候选序列的校验吞吐。二者与投机解码结合后,能够充分利用多卡算力资源,在长序列场景下进一步缓解显存瓶颈、提升端到端生成效率,同时兼容旋转量化、W4A8等低比特量化方案,保障模型在大规模分布式部署中的推理性能与精度稳定性。

如何使用和效果

vllm-ascend开启EAGLE-3,只需要在启动命令行中加入

--speculative-config '{"num_speculative_tokens": 3, "method": "EAGLE-3"}

结尾

昇腾始终以技术创新为核心,聚焦大模型推理效率提升与规模化落地痛点,基于Eagle3技术构建了从微调优化到多特性融合的全链路推理解决方案。从高采信率草稿模型的训练优化,到与旋转量化、PCP/DCP等技术的深度协同,再到代码架构的归一化设计,每一步优化都围绕“降时延、提吞吐、保精度、降成本”的核心目标,最终实现推理时延20%的显著突破,为自主创新算力平台赋能大模型应用提供了坚实支撑。未来,昇腾将持续深耕开源生态,不断迭代优化技术方案,推动更多高效推理技术的落地与普及,助力大模型在各行业实现更广泛、更高效的应用,释放自主创新算力的核心价值

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
下半年正财稳固,偏财也有意外之喜,收入渠道多样的三大生肖

下半年正财稳固,偏财也有意外之喜,收入渠道多样的三大生肖

毅谈生肖
2026-05-12 10:41:40
白鹿遭审判!《奔跑吧》最新收视率直接崩盘,网友要求她退出节目

白鹿遭审判!《奔跑吧》最新收视率直接崩盘,网友要求她退出节目

萌神木木
2026-05-09 15:04:15
王仕鹏孙悦杨鸣齐开口!京粤生死战谁能笑到最后,三人观点出奇一致

王仕鹏孙悦杨鸣齐开口!京粤生死战谁能笑到最后,三人观点出奇一致

慢歌轻步谣
2026-05-11 13:46:16
央视镜头全给了她!詹姆斯沦为陪衬,这姐才是NBA的神?

央视镜头全给了她!詹姆斯沦为陪衬,这姐才是NBA的神?

观星娱记
2026-05-10 10:24:34
一位日本老兵的自述:南京城沦陷后,城内妇女都有着怎样的遭遇

一位日本老兵的自述:南京城沦陷后,城内妇女都有着怎样的遭遇

云霄纪史观
2026-05-11 17:41:21
若湖人0-4被雷霆横扫,詹姆斯今年夏季有4个选择

若湖人0-4被雷霆横扫,詹姆斯今年夏季有4个选择

毒舌NBA
2026-05-12 05:22:31
跑不掉了!女子扇网约车司机耳光,长相曝光,恐面临巨额赔偿

跑不掉了!女子扇网约车司机耳光,长相曝光,恐面临巨额赔偿

小鋭有话说
2026-05-11 14:48:54
省长发布会实录:四川凭什么挑大梁?

省长发布会实录:四川凭什么挑大梁?

雨前顾问
2026-05-11 17:06:18
最新!广东发布第三批以县城为重要载体的新型城镇化建设试点名单

最新!广东发布第三批以县城为重要载体的新型城镇化建设试点名单

21世纪经济报道
2026-05-11 20:17:57
中美之间似乎正在复制美日广场协议,美元继续升值对美国是灾难

中美之间似乎正在复制美日广场协议,美元继续升值对美国是灾难

掉了颗大白兔糖
2026-05-05 15:18:03
林诗栋跳上球台庆祝引日本网友热议,后者称“这种行为就该罚出场”

林诗栋跳上球台庆祝引日本网友热议,后者称“这种行为就该罚出场”

懂球帝
2026-05-11 15:10:21
有人说:打麻将和性生活是县城的底色?

有人说:打麻将和性生活是县城的底色?

灯锦年
2026-04-21 12:32:46
李自成为何打不下开封?因为他遇到了明末最硬骨头,藩王朱恭枵

李自成为何打不下开封?因为他遇到了明末最硬骨头,藩王朱恭枵

铭记历史呀
2026-05-11 16:51:15
极速变脸!张本智和赛前:要跟中国队算总账 赛后:2年后再算账吧

极速变脸!张本智和赛前:要跟中国队算总账 赛后:2年后再算账吧

风过乡
2026-05-12 07:38:44
一个冰冷现实:中印冲突正全方位升级,中国越避让,印度越对抗

一个冰冷现实:中印冲突正全方位升级,中国越避让,印度越对抗

时光漫游志
2026-05-12 06:09:49
大暴雨马上到广州!还会降温

大暴雨马上到广州!还会降温

鲁中晨报
2026-05-12 07:22:02
梁靖崑为何能逆转张本智和?张继科点评一针见血,日乒一哥成笑柄

梁靖崑为何能逆转张本智和?张继科点评一针见血,日乒一哥成笑柄

体育大学僧
2026-05-11 09:10:31
董明珠拿下极氪“代言人”,震惊行业!

董明珠拿下极氪“代言人”,震惊行业!

品牌头版
2026-05-11 18:00:53
曼联卡洛斯带伤奋战终如愿,重返英格兰大名单!红魔忧虑考察新援

曼联卡洛斯带伤奋战终如愿,重返英格兰大名单!红魔忧虑考察新援

罗米的曼联博客
2026-05-12 10:47:45
上海人为什么不买增程和插混?

上海人为什么不买增程和插混?

童济仁的汽车评论
2026-05-11 18:23:05
2026-05-12 11:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3175472文章数 7337关注度
往期回顾 全部

科技要闻

纳德拉法庭爆料:拒当“AI时代的IBM”

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

头条要闻

牛弹琴:特朗普要来了 可以肯定这不是一次寻常的访问

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

刘涛晒妈祖诞辰活动照 评论区变许愿池

财经要闻

特朗普要来了,我们且淡定

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

时尚
本地
教育
游戏
公开课

推广|| 你们都想要的绝美白衬衫,链接来了!

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

高考想要本科直接就业,该如何报考

Xbox实体游戏新封面曝光!《刺客信条:黑旗re》等

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版