网易首页 > 网易号 > 正文 申请入驻

选择性知识蒸馏精准过滤:推测解码加速器AdaSPEC来了

0
分享至



本文共同第一作者为加州大学伯克利分校的博士生胡越舟与清华大学的本科生郭佳鑫,通讯作者为佐治亚理工学院的副教授赵拓。

推测解码(Speculative Decoding, SD)通过使用一个较小的草稿模型(draft model)生成候选预测,再由更大的目标模型(target model)进行验证,从而显著加速大语言模型(LLM)的推理过程。SD 的加速效果在很大程度上取决于两者之间的对齐程度。

目前,最先进的对齐方法是使用知识蒸馏(Knowledge Distillation, KD)在所有 token 上最小化 KL 散度。然而,最小化全局 KL 散度并不意味着 token 的接受率最大化。由于小模型容量受限,草稿模型往往难以完整吸收目标模型的知识,导致直接使用蒸馏方法的性能提升受限。在极限场景下,草稿模型和目标模型的巨大尺寸差异甚至可能导致训练不收敛。

为了解决这一问题,佐治亚理工、清华大学与加州大学伯克利分校的研究团队提出AdaSPEC,一种引入选择性 token 过滤机制的创新蒸馏方法。AdaSPEC 利用参考模型(reference model)识别并过滤出难以学习的 token,使蒸馏过程更聚焦于「易学习」的部分,从而让草稿模型在有限容量下更好地对齐目标模型。

这种选择性蒸馏策略在不降低生成质量的前提下,显著提升了整体 token 接受率。我们在多个任务(算术推理、指令跟随、代码生成与文本摘要)和不同规模模型组合(31M/1.4B、350M/2.7B)上进行了系统评估。结果表明,AdaSPEC 在所有任务上均超越当前最优的 DistillSpec 方法,token 接受率最高提升达 15%。



  • 论文标题:AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
  • 论文链接:https://arxiv.org/abs/2510.19779
  • Github 链接:https://github.com/yuezhouhu/adaspec

研究背景

大型语言模型(LLM)在推理和生成任务中表现卓越,但其自回归解码机制导致推理延迟高、计算开销大,成为实际部署的主要瓶颈。传统加速方法如模型压缩、量化或知识蒸馏虽能提升速度,但往往以牺牲生成质量为代价。

近年来,推测解码(Speculative Decoding, SD)提供了一条新路径:通过一个轻量级「草稿模型」并行生成多个候选 token,再由原始「主模型」批量验证,从而减少主模型的前向调用次数。理论上,SD 可在不损失生成质量的前提下显著加速推理。然而,其实际效果高度依赖草稿模型与主模型的预测一致性 —— 若草稿模型生成的候选 token 频繁被主模型拒绝,加速收益将大打折扣。

当前一种做法是使用知识蒸馏(KD)让草稿模型模仿主模型的输出分布。但草稿模型通常比主模型小一个数量级,容量有限,强行拟合所有 token(尤其是罕见或上下文敏感的「难学 token」)不仅效率低下,还可能挤占其学习「易学 token」 的能力,反而降低整体接受率。

针对这一问题,研究团队提出 AdaSPEC—— 一种面向推测解码的选择性知识蒸馏方法。AdaSPEC 的核心思想是:让草稿模型专注于学习那些它真正能掌握且对接受率贡献大的「易学 token」,主动忽略难以拟合的 token。通过两阶段训练(先识别难 token,再在蒸馏中过滤),AdaSPEC 更高效地利用草稿模型的有限容量,显著提升其与主模型的一致性。

实验表明,AdaSPEC 在多种模型和任务上 consistently 提高 token 接受率(最高提升 15%),在保持生成质量的同时,有效释放了推测解码的加速潜力。

方法概述

AdaSPEC 的核心思想是:在蒸馏阶段(如下图 1)识别并过滤难以学习的 token,让知识迁移更聚焦、更有效。



1、Selective KD 核心机制

通过引入参考模型(reference model),自动筛除训练样本中「难以对齐」的 token,仅在「易学习」子集上进行蒸馏,从根本上缓解 draft–target 不匹配问题。

2、双阶段训练框架

AdaSPEC 首先在参考模型上执行初步蒸馏,得到参考模型。随后使用参考模型过滤微调数据集,并在过滤后的子集上优化草稿模型。该方法显著减少无效学习与梯度噪声,既保持生成质量,又有效提升 token 接受率。

3、通用适配性与轻量实现

AdaSPEC 具备极高的模块化兼容性与结构清晰的设计,可无缝结合 EAGLE、vLLM 等高级推测解码框架。核心实现不到百行,思路直观、代码简洁,能直接适配任意 Transformer 架构的草稿–目标模型组合,便于研究者与开发者快速上手。

实验评估

研究团队在多个模型家族(Pythia、CodeGen、Phi-2 等)和多种任务(GSM8K、Alpaca、MBPP、CNN/DailyMail、XSUM)上进行了系统验证,在不同模型规模与任务类型下均展现出一致且稳健的提升效果,体现了方法的鲁棒性与广泛适用性。主要实验结果表明:

  • Token 接受率全线超越基线方法 DistillSpec:在 GSM8K 上提升 5–6%,在 MBPP 上最高提升 15%。
  • 实际加速显著:经微调后使用 vLLM 框架测速,end2end 推理速度提升可达 10–20%。
  • 进一步兼容提升:结合 EAGLE 框架微调,生成速度再提高 7.5%。



总结与展望

AdaSPEC 为推测解码提供了一种精准、高效、通用且具有广泛适用性的加速新范式。它通过「选择性蒸馏 + 自适应过滤」实现了 draft–target 的动态对齐,为未来 LLM 高效推理的研究与工业部署开辟了新方向。

当前工作仍有两个拓展方向值得探索:

  1. 进一步研究 token 难度的动态估计机制,实现更细粒度的选择性蒸馏;
  2. 将 AdaSPEC 应用于多模态与推理型大模型中,以验证其跨模态适配能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被告律师称另有隐情:郭某或遭自己人误伤丧命,网友笑喷

被告律师称另有隐情:郭某或遭自己人误伤丧命,网友笑喷

热点菌本君
2025-11-14 14:04:47
这里正在发生真正的种族灭绝,他们却开启了休假模式

这里正在发生真正的种族灭绝,他们却开启了休假模式

以色列计划Pro
2025-11-13 21:42:59
吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

吴石的后人有点意思:明明父亲是烈士,儿子吴韶成在河南格外低调

小虎新车推荐员
2025-11-14 14:54:30
柬埔寨“太子集团”首度发声:否认从事非法活动,辩称12.7万枚比特币4年多前被黑客窃取

柬埔寨“太子集团”首度发声:否认从事非法活动,辩称12.7万枚比特币4年多前被黑客窃取

红星新闻
2025-11-13 19:47:43
28年前直播香港回归4位主持:2人去世1人自甘堕落,仅她笑到最后

28年前直播香港回归4位主持:2人去世1人自甘堕落,仅她笑到最后

揽星河的笔记
2025-11-14 13:07:48
“天上人间”的瓜!

“天上人间”的瓜!

书中自有颜如玉
2025-11-14 07:57:34
祝贺上海海港:击败北京国安,锁定中超顶级翼卫!孙祥再次立大功

祝贺上海海港:击败北京国安,锁定中超顶级翼卫!孙祥再次立大功

国足风云
2025-11-14 14:00:28
82岁妓女离世前捐出60万,离世后无人送葬,邻居打开遗物后傻眼了

82岁妓女离世前捐出60万,离世后无人送葬,邻居打开遗物后傻眼了

温情邮局
2025-10-21 11:39:29
利物浦1.36亿打水漂?新援灾难表现带到世预赛!2失良机+球荒15场

利物浦1.36亿打水漂?新援灾难表现带到世预赛!2失良机+球荒15场

我爱英超
2025-11-15 06:53:18
反超,樊振东赢了!

反超,樊振东赢了!

鲁中晨报
2025-11-14 14:27:02
四个省级政府领导班子调整

四个省级政府领导班子调整

上海法治声音
2025-11-13 14:26:04
91年帮女领导扛米面上楼,她递手帕让我擦汗,低声说晚上给你加餐

91年帮女领导扛米面上楼,她递手帕让我擦汗,低声说晚上给你加餐

晓艾故事汇
2025-11-13 08:28:12
微胖女生的穿搭秘诀,白色短款上衣配卡其色瑜伽裤,随性又自在

微胖女生的穿搭秘诀,白色短款上衣配卡其色瑜伽裤,随性又自在

小乔古装汉服
2025-11-13 18:17:03
摩根声援C罗:反抗别人拉他却染红 晒梅西5秒3次肘击视频质疑双标

摩根声援C罗:反抗别人拉他却染红 晒梅西5秒3次肘击视频质疑双标

我爱英超
2025-11-14 22:37:50
400万亿什么时候来?等待我们的是什么?

400万亿什么时候来?等待我们的是什么?

混知房产
2025-11-13 20:41:06
最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

最强帮手已出现!中国转头就对高市早苗提了终极要求,她不敢答应

云鹏叙事
2025-11-14 10:26:55
巧立名目发布汽车销量榜单,“易车榜”等账号被通报处置

巧立名目发布汽车销量榜单,“易车榜”等账号被通报处置

界面新闻
2025-11-12 13:00:40
“5G之战爆发”,27国不许用华为,中方掀桌,为何先拿德国开刀?

“5G之战爆发”,27国不许用华为,中方掀桌,为何先拿德国开刀?

军机Talk
2025-11-14 10:51:48
中小学和幼儿园停止室外课程及户外活动!刚刚,南京启动预警

中小学和幼儿园停止室外课程及户外活动!刚刚,南京启动预警

鲁中晨报
2025-11-14 14:23:01
葡萄牙足协前主席:如果我还在任,我绝不会选马丁内斯当教练

葡萄牙足协前主席:如果我还在任,我绝不会选马丁内斯当教练

懂球帝
2025-11-15 05:32:06
2025-11-15 07:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

头条要闻

中方连发六张双语海报@高市早苗 媒体:总该看懂了吧

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

数码
教育
健康
家居
公开课

数码要闻

小米发布Xiaomi Miloco,探索大模型驱动全屋智能生活

教育要闻

TTS新传论文带读:“感性是一个媒介”(来积累答题语料了)

金振口服液助力科学应对呼吸道疾病

家居要闻

现代简逸 寻找生活的光

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版