网易首页 > 网易号 > 正文 申请入驻

Unsloth 给 Qwen3.6 上了MTP,本地推理速度起飞,消费级显卡轻松跑

0
分享至

前文:


话音刚落,就看到 Unsloth 放出了 Qwen3.6-27B-MTP-GGUF 和 Qwen3.6-35B-A3B-MTP-GGUF

先放出它们的显存需求


unsloth/Qwen3.6-27B-MTP-GGUF unsloth/Qwen3.6-35B-A3B-MTP-GGUF 简介

先把概念捋清楚:什么是 MTP?

传统大模型解码是「一次预测一个 token」,串行往后吐字,慢得让人着急

MTP 的思路是:训练时让模型同时学会预测未来好几个 token,推理时拿这几个预测当 draft(草稿),一次性塞回主模型校验。校验通过的就直接接受,不通过的回退到正常生成

说白了,这是把 投机解码(Speculative Decoding) 从「需要额外训一个小模型当 draft」简化成了「主模型自己当 draft」,省心、省显存

Qwen3.6 这一代在训练阶段就内置了 MTP

unsloth 把这部分权重也量化进了 GGUF,再加上 llama.cpp 端的 kernel 支持,就有了今天这个 1.5–2 倍 解码加速的成果

核心亮点:

  • 解码速度 ~1.5-2x 提升 :这是 unsloth 官方给的数字,实测有人在 1 张 5090 上跑 Qwen3.6-27B Q4_0,从 63.72 tok/s 直接干到 105.47 tok/s (详见后文 PR 实测数据)

  • 草稿接受率 ~80%: MTP 自己当 draft,省去了维护小模型的麻烦,接受率比传统 EAGLE/Medusa 那套通常还高

  • 预填充略有代价 :MTP 头会让 prompt 处理阶段多吃点算力,长上下文场景请权衡

  • 覆盖两个尺寸 :27B 稠密 + 35B-A3B(256 专家 / 激活 8+1),消费级显卡和服务器都能挑

安装

前置:必须用这个特定分支的 llama.cpp(主仓的 PR 还没合,写这篇时是 PR #22673)

apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y


git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

CPU / Mac Metal 用户把 -DGGML_CUDA=ON 改成 -DGGML_CUDA=OFF

使用

跑 27B 版本(推荐配置):

export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF-MTP"


./llama.cpp/llama-server \
-hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL \
-ngl 99 -c 8192 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3

跑 35B-A3B(MoE)版本:

export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF-MTP"


./llama.cpp/llama-server \
-hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
-ngl 99 -c 8192 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3

两个关键参数解释:

  • --spec-type mtp :启用 MTP 投机解码

  • --spec-draft-n-max 3 :每次最多猜 3 个 token,再多收益边际递减

⚠️ 有两个坑提前说:

  • -np > 1 (并行槽位)暂不支持

  • --mmproj (多模态)暂不支持

也就是说,目前 MTP 主要适合单用户、本地纯文本场景,多并发 server 部署得等后续更新

实测

社区里已经有人在 1 张 5090 上跑了实测,用的是 Qwen3.6-27B + Q4_0 量化、KV cache 也走 Q4_0、prompt 是「写一个 flappy bird 克隆」

开启 MTP:

prompt eval: 253.34 tok/s
eval (decode): 105.47 tok/s
draft acceptance rate: 79.7% (4169 / 5229)
total: 5929 tokens / 56.1s

关闭 MTP(相同模型、相同配置):

prompt eval: 174.20 tok/s
eval (decode): 63.72 tok/s
total: 6587 tokens / 103.2s

解码从 63.72 提到 105.47,整整快了 65%,草稿接受率接近 80%——这说明 MTP 头训得很扎实,「猜得准」是大头

至于预填充,这一组数据看着 MTP 还更快,但这通常是因为缓存差异;按 unsloth 官方说法和 MTP 原理,长上下文 prefill 阶段会因为多算了一份 MTP 头而略有损耗,10% 上下的开销是合理预期

老章观点:

  • 本地单用户日常对话 / 写代码 这类「解码占大头」的场景,MTP 几乎是白送的速度,没理由不开

  • 长文档总结 / RAG 检索后回答 这种 prompt 动辄几万 token 的场景,prefill 拖累会被放大,需要权衡

  • 5090 跑 27B 都能 100+ tok/s,4090 / 3090 用户也基本能踩到「日常无感」线

  • MoE 的 35B-A3B 只激活 3B,显存占用比 27B 稠密版还友好(实际 4bit 量化下大概 20G 出头),单卡 24G 就能上

一个小细节:为什么 unsloth 这次值得关注?

之前我们用 GGUF,基本就是「量化 + 跑」两件事

这次 unsloth 把 训练时就要保留的 MTP 头权重也一并量化打包,这意味着:

模型原生 MTP 头  →  GGUF 量化保留  →  llama.cpp kernel 适配  →  端侧投机解码

整条链路打通了,普通用户不需要懂什么 EAGLE、Medusa、Lookahead,一行参数就能开

这就是 unsloth 的价值——把模型团队埋的金矿,挖出来给普通人用


总结

如果你:

  • 在本地跑 Qwen3.6 系列

  • 主要是单用户对话、代码生成场景

  • 用得起 24G+ 显存的 N 卡(或 Mac M 系列)

那这个 MTP 版的 GGUF 基本是无脑切,65% 的解码提速是肉眼可见的爽

如果你:

  • 跑长文档 RAG / 大量 prefill 任务

  • 需要多并发 server

  • 用 mmproj 多模态

那再等等,等 PR 合并主线、并发支持补齐再用

.6 .cpp

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
媒体人:麦基、斯佩尔曼两位大爷态度让人无语,幸亏其他球员争气

媒体人:麦基、斯佩尔曼两位大爷态度让人无语,幸亏其他球员争气

懂球帝
2026-05-12 23:09:04
32GB + 1TB!新机官宣:5月15日,全面开售!

32GB + 1TB!新机官宣:5月15日,全面开售!

科技堡垒
2026-05-11 11:40:47
日俄战争中的沙俄宣传画 被神话的俄军无敌形象 个个所向披靡

日俄战争中的沙俄宣传画 被神话的俄军无敌形象 个个所向披靡

那些看得见的老照片
2026-05-11 07:00:06
损失难以估量!世界杯若失去中国观众,国际足联将直面3大压力

损失难以估量!世界杯若失去中国观众,国际足联将直面3大压力

云舟史策
2026-05-11 07:10:07
离谱!巴萨传奇捅马蜂窝,直言执教皇马没问题,球迷彻底怒了

离谱!巴萨传奇捅马蜂窝,直言执教皇马没问题,球迷彻底怒了

澜归序
2026-05-13 04:26:33
知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

风月得自难寻
2026-05-12 06:25:42
新加坡网友发帖:“我接受不了自己以游客身份进入中国”。

新加坡网友发帖:“我接受不了自己以游客身份进入中国”。

荆楚寰宇文枢
2026-04-11 17:21:54
中美关系的潜力、张力、角力|谁在“只有特朗普”的对华政策决策圈中发挥作用

中美关系的潜力、张力、角力|谁在“只有特朗普”的对华政策决策圈中发挥作用

澎湃新闻
2026-05-12 07:26:27
河北省委常委、宣传部部长常斌,履新!蕲春县委书记胡安元,拟任新职!

河北省委常委、宣传部部长常斌,履新!蕲春县委书记胡安元,拟任新职!

一口娱乐
2026-05-13 11:19:18
俄罗斯是真眼馋!中国大量东风导弹将要退役,可以出口换外汇吗?

俄罗斯是真眼馋!中国大量东风导弹将要退役,可以出口换外汇吗?

潮鹿逐梦
2026-05-06 16:44:26
创业板指、深成指双双翻红,沪指跌幅收窄至0.1%

创业板指、深成指双双翻红,沪指跌幅收窄至0.1%

每日经济新闻
2026-05-13 09:53:07
人生赢家!前中超外援成沙特联赛过人王:在中国沙特净赚7个亿

人生赢家!前中超外援成沙特联赛过人王:在中国沙特净赚7个亿

邱泽云
2026-05-12 17:19:25
上海地铁打人爆火!两老人施暴女孩,官方怒批倚老卖老,追责难逃

上海地铁打人爆火!两老人施暴女孩,官方怒批倚老卖老,追责难逃

奇思妙想草叶君
2026-05-12 02:14:56
让人忽视的“712炮战”:3400吨炮弹1天打完,被西点军校收录复盘

让人忽视的“712炮战”:3400吨炮弹1天打完,被西点军校收录复盘

鹤羽说个事
2026-05-12 22:37:31
A股午评:深证成指半日涨0.36%,HBM、绿色电力、培育钻石等概念走强

A股午评:深证成指半日涨0.36%,HBM、绿色电力、培育钻石等概念走强

界面新闻
2026-05-13 11:34:31
无忧传媒创始人凌晨发朋友圈 配图文字:无情无义的人不能交往

无忧传媒创始人凌晨发朋友圈 配图文字:无情无义的人不能交往

快科技
2026-05-12 16:13:29
小宝与王某雷,谁探访花的数量更多?

小宝与王某雷,谁探访花的数量更多?

挪威森林
2026-01-31 12:15:26
比现有快40%!美光256GB DDR5速度破9200MT/s :功耗直降40%

比现有快40%!美光256GB DDR5速度破9200MT/s :功耗直降40%

快科技
2026-05-13 10:01:05
14亿中国人有希望看世界杯了!国际足联愿向央视五折出售转播权

14亿中国人有希望看世界杯了!国际足联愿向央视五折出售转播权

林子说事
2026-05-13 01:07:45
越来越多的县城,只剩下体制内经济了!

越来越多的县城,只剩下体制内经济了!

黯泉
2026-05-13 11:15:55
2026-05-13 12:35:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3396文章数 11150关注度
往期回顾 全部

数码要闻

闪铸Creator 5系列3D打印机预售,政府补贴价3699.2元起

头条要闻

特朗普访华随行名单:次子夫妇、鲁比奥随行 夫人缺席

头条要闻

特朗普访华随行名单:次子夫妇、鲁比奥随行 夫人缺席

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

巩俐用中文宣布戛纳开幕,彰显国际地位

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

艺术
游戏
时尚
教育
健康

艺术要闻

贺羽 2026油画写生新作

单机成"时代弃子"!重磅IP新作恐怕无了 得卖1500万份

没八卦、纯素人、不惊艳,可她赢麻了

教育要闻

课堂中的脑科学:《教师不可不知的脑科学知识》让教学真正“扎根脑中”!

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版