同一个大模型,换个解码方法,在H100上跑数学推理直接快了9.64倍。这不是下一代芯片的功劳,而是加州大学圣地亚哥分校Hao AI Lab新提出的投机解码手法——JetSpec。更反直觉的是,它靠的不是更贵的小模型,而是彻底改造了小模型的预测方式。
投机解码这个思路并不新鲜:用一个小型草稿模型快速生成多个候选token,再由主模型一次性审核挑出正确的。理想很美,但现实总掉链子。Hao AI Lab直接点破两种主流方法的死穴:自回归型草稿方法“预测得越长,后续越容易出错,大量计算最终被丢弃”;块扩散型方法则“生成的多个预测经常互相打架,做出来的候选树根本没法用”。听起来是不是很像那种让实习生先写十版方案、结果十版互相矛盾、老板还得重写的经典困局?
![]()
JetSpec对症下药的路子很清晰:把草稿模型的预测从“顺序猜测”改成“并行树状预测”。官方说法是“并行树草案”,本质上是在同一时刻生成一棵相互兼容的候选token树,而不是一条可能走歪的长链。这就同时解开了自回归型的“预测浪费”和块扩散型的“候选矛盾”,让主模型在审核时面对的不再是支离破碎的提案,而是一套逻辑自洽的备选集合。整个机制不需要改变主模型权重,推理质量一丝不降,加速却实打实落袋。
![]()
具体加速有多猛?公开数据拉出来一条条看:
· 数学推理任务:Qwen3-8B在NVIDIA H100上跑MATH-500基准,JetSpec冲到9.64倍的速度提升,碾压现有投机解码方案。
· 复杂对话能力:同一模型在MT-Bench上加速4.58倍,聊天场景照样受益。
![]()
· 工程落地表现:Hao AI Lab直接把JetSpec整合进推理引擎vLLM,用NVIDIA B200跑Qwen3-8B,持续输出超过每秒1000个token。看一眼对比动图就知道,常规版Qwen3-8B还在一个字一个字往外蹦时,JetSpec版已经像机关枪一样整段喷涌。
而且团队没有藏着掖着,一口气把适配六种模型的专用草稿模型丢上了HuggingFace:Qwen3-8B、Qwen3 30B A3B、Qwen3.6 35B A3B、gpt-oss-20b、Gemma 4 26B A4B IT、Step 3.7 Flash。论文、代码同样全开,从原理到部署锅碗瓢盆全部端上桌。这种直接把加速插件量产化的姿态,比那些只放论文不交代码的“加速方案”硬气太多。
投机的本意是赌,但旧方法赌得太憋屈。JetSpec用并行树把“下注”变成“铺路”,每一条分支都是切实可走的。当别人还在踩着自回归的刹车或块扩散的堵车,这套方法已经把推理通道改造成了多车道高速。对于所有苦大模型延迟久矣的团队来说,这大概是近期最让人想立刻插上试试的加速方案。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.