网易首页 > 网易号 > 正文 申请入驻

AI推理速度暴增9.64倍 加州大学团队打破投机解码瓶颈

0
分享至

同一个大模型,换个解码方法,在H100上跑数学推理直接快了9.64倍。这不是下一代芯片的功劳,而是加州大学圣地亚哥分校Hao AI Lab新提出的投机解码手法——JetSpec。更反直觉的是,它靠的不是更贵的小模型,而是彻底改造了小模型的预测方式。

投机解码这个思路并不新鲜:用一个小型草稿模型快速生成多个候选token,再由主模型一次性审核挑出正确的。理想很美,但现实总掉链子。Hao AI Lab直接点破两种主流方法的死穴:自回归型草稿方法“预测得越长,后续越容易出错,大量计算最终被丢弃”;块扩散型方法则“生成的多个预测经常互相打架,做出来的候选树根本没法用”。听起来是不是很像那种让实习生先写十版方案、结果十版互相矛盾、老板还得重写的经典困局?


JetSpec对症下药的路子很清晰:把草稿模型的预测从“顺序猜测”改成“并行树状预测”。官方说法是“并行树草案”,本质上是在同一时刻生成一棵相互兼容的候选token树,而不是一条可能走歪的长链。这就同时解开了自回归型的“预测浪费”和块扩散型的“候选矛盾”,让主模型在审核时面对的不再是支离破碎的提案,而是一套逻辑自洽的备选集合。整个机制不需要改变主模型权重,推理质量一丝不降,加速却实打实落袋。


具体加速有多猛?公开数据拉出来一条条看:

· 数学推理任务:Qwen3-8B在NVIDIA H100上跑MATH-500基准,JetSpec冲到9.64倍的速度提升,碾压现有投机解码方案。

· 复杂对话能力:同一模型在MT-Bench上加速4.58倍,聊天场景照样受益。


· 工程落地表现:Hao AI Lab直接把JetSpec整合进推理引擎vLLM,用NVIDIA B200跑Qwen3-8B,持续输出超过每秒1000个token。看一眼对比动图就知道,常规版Qwen3-8B还在一个字一个字往外蹦时,JetSpec版已经像机关枪一样整段喷涌。

而且团队没有藏着掖着,一口气把适配六种模型的专用草稿模型丢上了HuggingFace:Qwen3-8B、Qwen3 30B A3B、Qwen3.6 35B A3B、gpt-oss-20b、Gemma 4 26B A4B IT、Step 3.7 Flash。论文、代码同样全开,从原理到部署锅碗瓢盆全部端上桌。这种直接把加速插件量产化的姿态,比那些只放论文不交代码的“加速方案”硬气太多。

投机的本意是赌,但旧方法赌得太憋屈。JetSpec用并行树把“下注”变成“铺路”,每一条分支都是切实可走的。当别人还在踩着自回归的刹车或块扩散的堵车,这套方法已经把推理通道改造成了多车道高速。对于所有苦大模型延迟久矣的团队来说,这大概是近期最让人想立刻插上试试的加速方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两次同学聚会让我彻底看明白:退休金超6000的老人,没你想的多

两次同学聚会让我彻底看明白:退休金超6000的老人,没你想的多

匹夫来搞笑
2026-06-15 17:57:18
零差评的6部历史剧,《康熙王朝》垫底,看完榜首其他都是浮云

零差评的6部历史剧,《康熙王朝》垫底,看完榜首其他都是浮云

小Q侃电影
2026-06-27 21:56:02
河南省委书记看望王妙丽

河南省委书记看望王妙丽

政知新媒体
2026-06-27 21:56:14
徐帆回应离婚才9个月,68岁冯小刚和养女贴脸拍照亲密 ,关系很好

徐帆回应离婚才9个月,68岁冯小刚和养女贴脸拍照亲密 ,关系很好

沧海一书客
2026-05-31 18:08:08
用了十年的手机号不敢换,中国社会正在为昂贵的沉默成本买单

用了十年的手机号不敢换,中国社会正在为昂贵的沉默成本买单

混沌录
2026-06-27 17:26:14
委内瑞拉18岁新星贝罗特兰在地震中遇难,其女友也不幸身亡

委内瑞拉18岁新星贝罗特兰在地震中遇难,其女友也不幸身亡

懂球帝
2026-06-27 07:05:15
铁路操碎了心!买了7月4日凌晨火车票,页面红字提醒3日晚上候车

铁路操碎了心!买了7月4日凌晨火车票,页面红字提醒3日晚上候车

火山詩话
2026-06-26 09:49:54
巨亏850亿!曾经的“全球霸主”尼康,只用20年把自己“作死”!

巨亏850亿!曾经的“全球霸主”尼康,只用20年把自己“作死”!

青眼财经
2026-06-11 08:00:20
受权发布|全国人民代表大会常务委员会决定免职的名单

受权发布|全国人民代表大会常务委员会决定免职的名单

新华社
2026-06-26 23:10:05
墨西哥奈卡水晶洞穴,严禁任何人进入,里面到底有多危险?

墨西哥奈卡水晶洞穴,严禁任何人进入,里面到底有多危险?

观察宇宙
2026-06-27 10:34:41
台军演习刚结束,美国务院喊话大陆,台海一旦交战,结果就两个字

台军演习刚结束,美国务院喊话大陆,台海一旦交战,结果就两个字

潇湘烟雨水
2026-06-27 13:49:40
佛得角门将如愿,超级黑马将战阿根廷!梅西一口气剑指10大纪录

佛得角门将如愿,超级黑马将战阿根廷!梅西一口气剑指10大纪录

桃叶渡春
2026-06-27 20:16:56
单届3次帽子戏法,本届世界杯帽子戏法为1986年以来最多

单届3次帽子戏法,本届世界杯帽子戏法为1986年以来最多

懂球帝
2026-06-27 03:53:28
今夜,美股拉升!“七姐妹”大反攻,存储芯片、光通信集体暴跌

今夜,美股拉升!“七姐妹”大反攻,存储芯片、光通信集体暴跌

中国基金报
2026-06-27 02:20:34
世界杯淘汰赛对阵更新,西班牙阿根廷十分有利,德国法国荷兰相争

世界杯淘汰赛对阵更新,西班牙阿根廷十分有利,德国法国荷兰相争

嗨皮看球
2026-06-27 15:21:32
人生下半场:做生活的迟到者

人生下半场:做生活的迟到者

十点读书
2026-06-26 21:00:27
医生发现:每天早起后先喝水的人,用不了半年,身体迎来5大改变

医生发现:每天早起后先喝水的人,用不了半年,身体迎来5大改变

坠入二次元的海洋
2026-06-27 12:04:05
没完了?3次截胡湖人,如今顶级防守大闸考虑离队,火箭又要抢人

没完了?3次截胡湖人,如今顶级防守大闸考虑离队,火箭又要抢人

大卫的篮球故事
2026-06-27 20:08:44
央视刘芳菲:两任爱人一死缓一惨死,原来这才是她最正确的决定

央视刘芳菲:两任爱人一死缓一惨死,原来这才是她最正确的决定

飘飘然的娱乐汇
2026-06-26 19:40:06
医生:能吃能喝的糖尿病人,基本在63岁,就已经不做这5件事了!

医生:能吃能喝的糖尿病人,基本在63岁,就已经不做这5件事了!

高中医健康说
2026-06-26 16:49:11
2026-06-27 22:47:00
字节漫游指南
字节漫游指南
有态度网友ytd
261文章数 91关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

张雪公布“东鹏特饮事件”原视频

头条要闻

张雪公布“东鹏特饮事件”原视频

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

家居
教育
本地
公开课
军事航空

家居要闻

绿意盎然 自然之境

教育要闻

看到高考后这魔幻的一幕, 我终于明白:孩子的内驱力是怎么消失的?

本地新闻

世界杯球迷节:比球赛更好玩的派对

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版