大模型推理加速新方案：EAGLE 3.1解决深度推测不稳定难题|算法|草稿|上下文|eagle

大模型推理加速新方案：EAGLE 3.1解决深度推测不稳定难题

2026-05-27 03:12:19　来源: 算力游侠

北京举报

分享至

EAGLE系列推测解码算法在研究和生产系统中已被广泛部署。该团队与vLLM团队、TorchSpec团队联合推出EAGLE 3.1版本，针对推测解码在复杂场景下的性能衰减问题进行了系统性修复。

推测解码技术在受控环境中表现良好，但在不同对话模板、长上下文输入或分布外系统提示词等场景下，性能往往出现明显下降。EAGLE团队将这一问题归因于"注意力漂移"现象——随着推测深度增加，草稿模型逐渐将注意力从汇聚标记（sink tokens）转向自身生成的标记。

团队识别出两个根本原因。其一，融合输入表示随着高层隐藏状态主导草稿模型输入而日益失衡；其二，由于未归一化的残差路径，隐藏状态幅度在推测步骤中持续增大。这两种效应叠加，导致草稿模型在更深推测深度下稳定性逐步下降。

EAGLE 3.1引入两项关键架构改进：在目标隐藏状态之后、全连接层之前进行全连接归一化（FC normalization）；将归一化后的隐藏状态反馈至下一步解码。从机制上看，这种后归一化设计使方法更接近于跨解码步骤递归调用草稿模型，而非简单地向目标模型追加额外层。

这些改进显著提升了多场景部署的鲁棒性。与EAGLE 3相比，EAGLE 3.1在训练到推理的泛化、长上下文稳定性、对话模板与系统提示词变化适应性，以及多样化服务环境下的接受长度稳定性方面均有提升。在长上下文工作负载中，EAGLE 3.1的接受长度可达EAGLE 3的两倍。

TorchSpec现为EAGLE 3.1及未来推测解码算法提供高效训练支持，通过降低训练开销和简化实验流程，加速下一代推测解码的研究与部署迭代。基于TorchSpec和vLLM，团队还训练并开源了Kimi K2.6的EAGLE 3.1草稿模型，作为真实服务模型上部署EAGLE 3.1的完整示例。

EAGLE 3.1以配置驱动方式集成至vLLM，作为现有EAGLE 3实现的扩展。集成内容包括全连接归一化支持、归一化后隐藏状态反馈，以及移除相关冗余组件。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

大模型推理加速新方案：EAGLE 3.1解决深度推测不稳定难题

狂飙19%！美光科技市值破万亿美元

食客吃完面往剩汤中加6勺辣椒酱 被店家不打码发网上

食客吃完面往剩汤中加6勺辣椒酱 被店家不打码发网上

上赛季差点降入英甲，下赛季要踢英超了

台媒贴脸！S妈被问大S嗑药当场沉默

中国铝行业爆单 下一个“煤炭”大周期？

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

态度原创

蒋中正篆书有功夫却欠传统韵味，初学者为何觉得古人书法丑

外泌体抗衰，什么时候能用上？

苹果visionOS 26.6开发者预览版Beta 1发布

生与命相依 旧公寓改造

多国接到撤离警告 俄升级对乌报复性打击

食客吃完面往剩汤中加6勺辣椒酱被店家不打码发网上

食客吃完面往剩汤中加6勺辣椒酱被店家不打码发网上

中国铝行业爆单下一个“煤炭”大周期？

涉水加强福特烈马亚马逊限量版上市售价39.98万

生与命相依旧公寓改造

多国接到撤离警告俄升级对乌报复性打击