网易首页 > 网易号 > 正文 申请入驻

Qwen3.6-35B,量化、蒸馏版本推荐

0
分享至

一文中我已经把这个模型和部署(原版 + 量化版)介绍的很清楚了,闲逛又发现几个版本(4bit 量化版、推理加速版、Claude Opus 蒸馏版)很亮眼,推荐给大家。

第一路:三个 4bit 量化版本

Qwen3.6 发布还没捂热,社区已经搞出了三个 4bit 量化版本

目标很明确:把显存需求压下来,让消费级显卡能跑起来

1. cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit

AWQ(Activation-aware Weight Quantization)量化,可以用 vLLM 0.19 直接拉起来

网友测试 2x4060 可以跑出 83tok/s


2. QuantTrio/Qwen3.6-35B-A3B-AWQ

同样是 AWQ 量化,这个版本出自 QuantTrio 团队,量化后模型大小约 24GB

有详细的 vLLM 启动脚本,支持 MTP(Multi-Token Prediction)推测解码

启动命令参考:

vllm serve QuantTrio/Qwen3.6-35B-A3B-AWQ \
--served-model-name MY_MODEL \
--max-model-len 32768 \
--gpu-memory-utilization 0.9 \
--tensor-parallel-size 4 \
--enable-expert-parallel \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
--trust-remote-code

注意 TP=8 时要加--enable-expert-parallel,否则专家参数分片不均匀会出问题。

效果在线


3. RedHatAI/Qwen3.6-35B-A3B-NVFP4

这个来自 Red Hat AI 团队,用的是 NVFP4 格式——权重和激活都量化到 FP4

用 llm-compressor 工具做的量化

初步评测结果有个小惊喜:

模型

GSM8K Platinum 准确率

Qwen3.6-35B-A3B(原版)

95.62%

Qwen3.6-35B-A3B-NVFP4

96.28%

恢复率

100.69%

量化后准确率居然还涨了一点点

当然 Red Hat 团队也说了这只是初步结果,更严格的评测还在进行中

三个量化版本怎么选?

版本

量化格式

特点

推荐场景

cyankiwi

AWQ 4bit

快速可用

想尝鲜、快速验证

QuantTrio

AWQ

文档详细、附启动脚本

生产部署参考

RedHatAI

NVFP4

权重 + 激活双量化、官方团队出品

追求更极致压缩

三个版本都兼容 vLLM 0.19+,直接vllm serve就能跑

第二路:DFlash 推理加速版

DFlash 我介绍过两次了,老读者应该不陌生

简单回顾一下:DFlash 是一种基于块扩散模型(Block Diffusion)的推测解码方法。传统推测解码(比如 EAGLE-3)的草稿模型还是自回归的,一次只能预测一个 token。DFlash 换了个思路——用一个轻量的扩散模型,一次并行生成一整个 block 的 token

核心技巧在于:DFlash 不让小模型从零开始预测,而是从目标大模型的隐层特征中提取上下文信息,注入到草稿模型的每一层 KV Cache 中。这样即使草稿模型很小,也能"借用"大模型的推理能力。

在 Qwen3-8B 上的实测数据:

基准测试

原版

EAGLE-3 加速

DFlash 加速

GSM8K

2.13×

5.20×

MATH-500

2.18×

6.17×

HumanEval

2.48×

5.20×

MBPP

2.27×

4.75×

EAGLE-3 大概 2-2.5 倍加速,DFlash 直接拉到 5-6 倍

而且这是完全无损的——输出跟原版一模一样

现在 z-lab 团队第一时间跟进了 Qwen3.6:

❝ z-lab/Qwen3.6-35B-A3B-DFlash

需要注意的是,这个草稿模型还在训练中(目前 2000 步),所以效果还会继续提升。

使用方式也很简单,vLLM 一行命令:

vllm serve Qwen/Qwen3.6-35B-A3B \
--speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' \
--attention-backend flash_attn \
--max-num-batched-tokens 32768

SGLang 也已经支持了:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--speculative-algorithm DFLASH \
--speculative-draft-model-path z-lab/Qwen3.6-35B-A3B-DFlash \
--speculative-num-draft-tokens 16 \
--tp-size 1 \
--attention-backend fa3 \
--mem-fraction-static 0.75 \
--trust-remote-code

早期测试的接受长度(Accept Length)数据:

数据集

接受长度

GSM8K

6.5

Math500

7.2

HumanEval

6.2

MBPP

5.6

MT-Bench

5.0

接受长度越高意味着加速比越大

Math500 上平均每次能接受 7.2 个 token,这个数字相当可观


第三路:Claude Opus 4.6 蒸馏版

这条路线大家也应该很熟悉了,我一直在追

Jackrong 在 Qwen3.5 上做的 Claude Opus 蒸馏系列我介绍过 V2 和 V3,每一版都有明显提升

现在社区开发者 hesamation 把这套思路搬到了 Qwen3.6 上:

❝ hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

核心思路:保留 Qwen3.6 强大的 Agentic Coding 底座,同时注入 Claude Opus 4.6 风格的结构化推理能力

训练方式是用 LoRA 做有监督微调(SFT),然后合并回完整模型

训练数据来自三个公开数据集:

数据集

样本量

用途

nohurry/Opus-4.6-Reasoning-3000x-filtered

3,900

Claude Opus 推理轨迹

Jackrong/Qwen3.5-reasoning-700x

700

精选 Qwen 推理样本

Roman1111111/claude-opus-4.6-10000x

9,633

更多 Claude Opus 推理示例

总共约 14,000 条数据,规模不大,但质量很高——都是经过筛选的链式推理(Chain-of-Thought)示例。

训练配置:

配置项

微调方法

LoRA(仅 Attention 模块)

LoRA rank / alpha

32 / 32

梯度累积

32

训练轮次

2

最终训练 loss

最大序列长度

初步评测数据很亮眼:

基准测试

Base 模型

蒸馏后

提升

MMLU-Pro(70 题子集)

42.86%

75.71%+32.85pp

当然,作者也说了这只是 70 道题的小规模测试(14 个学科各 5 题),应该当做 smoke test 看,不是完整评测。但 +32.85 个百分点的提升还是很说明问题的——Claude Opus 的推理数据确实能显著增强模型的结构化推理能力。

值得注意的是,这个微调是纯文本的。Qwen3.6 底座虽然自带视觉编码器,但这轮训练没有用到图像/视频数据,所以多模态能力基本就是继承自 base model。

三路并行,选哪个?

需求

推荐方案

显存有限,想跑 Qwen3.6

AWQ/NVFP4 量化版

追求推理速度,愿意多占点显存

DFlash 加速版

需要更强的推理/分析能力

Claude Opus 蒸馏版

又想快又想省显存

量化版 + DFlash(理论可叠加,待验证)

这三条路线其实不冲突

量化解决的是"跑得起"的问题

DFlash 解决的是"跑得快"的问题

蒸馏解决的是"跑得好"的问题

我的看法

  1. 评测数据普遍不够充分。蒸馏版只跑了 70 道 MMLU-Pro 题,NVFP4 版只有一个 GSM8K 分数,量化版基本没有独立评测。社区还需要更多人来做严格的 benchmark

  2. DFlash 版本还在训练中。2000 步的草稿模型效果肯定不是最终水平,现阶段的性能数据参考价值有限

  3. Qwen3.6 的 base model 本身也是新出的。官方 benchmark 看着很强,但实际使用中的表现还需要时间检验

总的来说,开源 AI 社区围绕一个模型形成了量化→加速→蒸馏的完整优化链,每条路线都有独立团队在推进。

这种分布式协作的效率和活力,可能比任何单个模型的发布都更值得关注

.6

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
花27万元拍下周口太昊陵庙会摊位的“标王”摊主已盈利,当事人:每天工作十多个小时卖猪蹄数千只,明年会继续竞拍

花27万元拍下周口太昊陵庙会摊位的“标王”摊主已盈利,当事人:每天工作十多个小时卖猪蹄数千只,明年会继续竞拍

极目新闻
2026-04-19 22:39:27
王毅通告全世界,53国获零关税特权,唯独一国没得到,中方选边站

王毅通告全世界,53国获零关税特权,唯独一国没得到,中方选边站

触摸史迹
2026-04-20 03:39:03
秦岚 x 黑丝要人命

秦岚 x 黑丝要人命

TVB的四小花
2026-04-20 01:48:17
绿军123-91大胜76人!我不得不承认5个现实:东部冠军悬念不大

绿军123-91大胜76人!我不得不承认5个现实:东部冠军悬念不大

毒舌NBA
2026-04-20 04:55:07
一辆20万的新车,卡扣断了,修不起;89元的零件 逼人换13万电池包

一辆20万的新车,卡扣断了,修不起;89元的零件 逼人换13万电池包

娱乐圈的笔娱君
2026-04-20 02:07:08
哇塞,这大体格太完美了,谁娶了她,定能旺三代

哇塞,这大体格太完美了,谁娶了她,定能旺三代

东方不败然多多
2026-04-19 18:01:19
57岁好莱坞女星太敢说:自曝生猛夫妻生活,不用生娃更尽兴

57岁好莱坞女星太敢说:自曝生猛夫妻生活,不用生娃更尽兴

橙星文娱
2026-04-18 16:47:02
WTI原油期货开盘大涨7%

WTI原油期货开盘大涨7%

财联社
2026-04-20 06:03:42
间谍就在我们身边!4月16日,央视报道了一个让人后背发凉的新闻

间谍就在我们身边!4月16日,央视报道了一个让人后背发凉的新闻

丁丁鲤史纪
2026-04-19 19:43:57
什么原因?仅仅一百五十年,江阴靖江长江江面居然缩窄了80%

什么原因?仅仅一百五十年,江阴靖江长江江面居然缩窄了80%

抽象派大师
2026-04-20 01:27:38
魏建军发布会现场痛批营销团队5分钟:无法转化工程师成果“相当于犯罪”

魏建军发布会现场痛批营销团队5分钟:无法转化工程师成果“相当于犯罪”

三言科技
2026-04-18 20:55:06
机关事业单位“紧日子”来临,2026年起,这些费用一律不再报销

机关事业单位“紧日子”来临,2026年起,这些费用一律不再报销

复转这些年
2026-04-19 19:13:36
震惊!儿媳失业近一年,每天只买菜做饭,河南婆婆吐槽劝儿子离婚

震惊!儿媳失业近一年,每天只买菜做饭,河南婆婆吐槽劝儿子离婚

火山詩话
2026-04-19 09:20:26
塔图姆25+11+7布朗26分,费城双枪打铁,绿军大胜76人刷爆纪录

塔图姆25+11+7布朗26分,费城双枪打铁,绿军大胜76人刷爆纪录

钉钉陌上花开
2026-04-20 05:20:14
打蛇打七寸!中国全面断供开始,日本多行业停摆,高市真慌了

打蛇打七寸!中国全面断供开始,日本多行业停摆,高市真慌了

来科点谱
2026-04-19 07:17:32
足坛悲喜夜:拜仁夺冠,阿森纳巴黎翻车,穆帅神换人绝杀

足坛悲喜夜:拜仁夺冠,阿森纳巴黎翻车,穆帅神换人绝杀

二爷台球解说
2026-04-20 05:46:11
73场造13球 荷兰新带刀后卫已成曼城今夏重点引援目标 3豪门来抢

73场造13球 荷兰新带刀后卫已成曼城今夏重点引援目标 3豪门来抢

零度眼看球
2026-04-20 07:30:58
不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

不欢迎中国人的7个国家,不待见写在脸上,中国游客仍蜂拥而至

史行途
2026-04-20 00:15:27
5300万芬尼遭DNP!火蜜讽斯通又出败笔 巴克利吐槽乌度卡毫无战术

5300万芬尼遭DNP!火蜜讽斯通又出败笔 巴克利吐槽乌度卡毫无战术

颜小白的篮球梦
2026-04-20 07:00:23
在美以高压下,伊朗内部出现多起极端事件

在美以高压下,伊朗内部出现多起极端事件

高博新视野
2026-04-18 06:00:18
2026-04-20 07:44:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3334文章数 11137关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

特朗普:美伊20日将举行谈判 再不接受协议就轰炸伊朗

头条要闻

特朗普:美伊20日将举行谈判 再不接受协议就轰炸伊朗

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

房产
艺术
数码
亲子
军事航空

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

艺术要闻

蒲华写水仙,清健妩媚

数码要闻

荣耀手表4更新又跳票?官方回应来了

亲子要闻

孩子总打喷嚏、起疹子,时过敏吗?

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版