EAGLE系列推测解码算法在研究和生产系统中已被广泛部署。该团队与vLLM团队、TorchSpec团队联合推出EAGLE 3.1版本,针对推测解码在复杂场景下的性能衰减问题进行了系统性修复。
推测解码技术在受控环境中表现良好,但在不同对话模板、长上下文输入或分布外系统提示词等场景下,性能往往出现明显下降。EAGLE团队将这一问题归因于"注意力漂移"现象——随着推测深度增加,草稿模型逐渐将注意力从汇聚标记(sink tokens)转向自身生成的标记。
![]()
团队识别出两个根本原因。其一,融合输入表示随着高层隐藏状态主导草稿模型输入而日益失衡;其二,由于未归一化的残差路径,隐藏状态幅度在推测步骤中持续增大。这两种效应叠加,导致草稿模型在更深推测深度下稳定性逐步下降。
EAGLE 3.1引入两项关键架构改进:在目标隐藏状态之后、全连接层之前进行全连接归一化(FC normalization);将归一化后的隐藏状态反馈至下一步解码。从机制上看,这种后归一化设计使方法更接近于跨解码步骤递归调用草稿模型,而非简单地向目标模型追加额外层。
![]()
这些改进显著提升了多场景部署的鲁棒性。与EAGLE 3相比,EAGLE 3.1在训练到推理的泛化、长上下文稳定性、对话模板与系统提示词变化适应性,以及多样化服务环境下的接受长度稳定性方面均有提升。在长上下文工作负载中,EAGLE 3.1的接受长度可达EAGLE 3的两倍。
TorchSpec现为EAGLE 3.1及未来推测解码算法提供高效训练支持,通过降低训练开销和简化实验流程,加速下一代推测解码的研究与部署迭代。基于TorchSpec和vLLM,团队还训练并开源了Kimi K2.6的EAGLE 3.1草稿模型,作为真实服务模型上部署EAGLE 3.1的完整示例。
EAGLE 3.1以配置驱动方式集成至vLLM,作为现有EAGLE 3实现的扩展。集成内容包括全连接归一化支持、归一化后隐藏状态反馈,以及移除相关冗余组件。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.