AI推理速度暴增9.64倍加州大学团队打破投机解码瓶颈|数学|引擎|新论文

AI推理速度暴增9.64倍加州大学团队打破投机解码瓶颈

分享至

同一个大模型，换个解码方法，在H100上跑数学推理直接快了9.64倍。这不是下一代芯片的功劳，而是加州大学圣地亚哥分校Hao AI Lab新提出的投机解码手法——JetSpec。更反直觉的是，它靠的不是更贵的小模型，而是彻底改造了小模型的预测方式。

投机解码这个思路并不新鲜：用一个小型草稿模型快速生成多个候选token，再由主模型一次性审核挑出正确的。理想很美，但现实总掉链子。Hao AI Lab直接点破两种主流方法的死穴：自回归型草稿方法“预测得越长，后续越容易出错，大量计算最终被丢弃”；块扩散型方法则“生成的多个预测经常互相打架，做出来的候选树根本没法用”。听起来是不是很像那种让实习生先写十版方案、结果十版互相矛盾、老板还得重写的经典困局？

JetSpec对症下药的路子很清晰：把草稿模型的预测从“顺序猜测”改成“并行树状预测”。官方说法是“并行树草案”，本质上是在同一时刻生成一棵相互兼容的候选token树，而不是一条可能走歪的长链。这就同时解开了自回归型的“预测浪费”和块扩散型的“候选矛盾”，让主模型在审核时面对的不再是支离破碎的提案，而是一套逻辑自洽的备选集合。整个机制不需要改变主模型权重，推理质量一丝不降，加速却实打实落袋。

具体加速有多猛？公开数据拉出来一条条看：

· 数学推理任务：Qwen3-8B在NVIDIA H100上跑MATH-500基准，JetSpec冲到9.64倍的速度提升，碾压现有投机解码方案。

· 复杂对话能力：同一模型在MT-Bench上加速4.58倍，聊天场景照样受益。

· 工程落地表现：Hao AI Lab直接把JetSpec整合进推理引擎vLLM，用NVIDIA B200跑Qwen3-8B，持续输出超过每秒1000个token。看一眼对比动图就知道，常规版Qwen3-8B还在一个字一个字往外蹦时，JetSpec版已经像机关枪一样整段喷涌。

而且团队没有藏着掖着，一口气把适配六种模型的专用草稿模型丢上了HuggingFace：Qwen3-8B、Qwen3 30B A3B、Qwen3.6 35B A3B、gpt-oss-20b、Gemma 4 26B A4B IT、Step 3.7 Flash。论文、代码同样全开，从原理到部署锅碗瓢盆全部端上桌。这种直接把加速插件量产化的姿态，比那些只放论文不交代码的“加速方案”硬气太多。

投机的本意是赌，但旧方法赌得太憋屈。JetSpec用并行树把“下注”变成“铺路”，每一条分支都是切实可走的。当别人还在踩着自回归的刹车或块扩散的堵车，这套方法已经把推理通道改造成了多车道高速。对于所有苦大模型延迟久矣的团队来说，这大概是近期最让人想立刻插上试试的加速方案。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.