网易首页 > 网易号 > 正文 申请入驻

Qwen3.6-35B-A3B开源了,本地部署教程

0
分享至

刚刚,Qwen3.6-开源了 Qwen3.6-35B-A3B

比较失望,不是我,还有众多网友期待的 Qwen3.6-27B


简介

Qwen3.6-35B-A3B 是一个 MoE 架构的小身材大能量选手:35B 参数总量,但实际推理只激活 3B

这意味着什么?运行它的算力消耗,大概只相当于一个 3B 稠密模型,但效果能打 27B、30B 的稠密大模型


Qwen3.6-35B-A3B 综合评测得分

这次开源的核心亮点:

  • Agentic Coding 能力大幅提升 :前端工作流和仓库级代码推理,明显上了一个台阶

  • Thinking Preservation(思维保留) :全新特性,可以在多轮对话中保留历史推理链,迭代开发场景下减少重复思考开销

  • 原生多模态 :视觉 + 语言双修,不是缝合怪,内置了视觉编码器

  • 超长上下文 :原生支持 262,144 tokens,开启 YaRN 后可扩展到 100 万 tokens

架构揭秘:35B 总量 / 3B 激活,怎么做到的?

Qwen3.6 用的是一种混合架构——把 Gated DeltaNet(线性注意力)Gated Attention(标准注意力) 交替堆叠,不是纯 Transformer,也不是纯线性注意力,而是两者的融合体

再配上 MoE(混合专家)层:

  • 256 个专家 ,每次推理只激活 8 个路由专家 + 1 个共享专家

  • 40 层堆叠,隐层维度 2048

这套架构的好处是:推理时大量专家处于"休眠"状态,算力需求极低;但模型的总参数量带来了丰富的知识密度。说白了,钱都花在学习上,推理时省着用

性能实测:Agent 编程这项,真的飞了

先上核心评测数据,对比选手是同规模的 Qwen3.5-35B-A3B(前代)、Gemma4-31B、Qwen3.5-27B(稠密 27B):

评测基准

Qwen3.5-27B

Gemma4-31B

Qwen3.5-35BA3B

Qwen3.6-35BA3B

SWE-bench Verified

75.0

52.0

70.0

73.4

Terminal-Bench 2.0

41.6

42.9

40.5

51.5

QwenWebBench(前端)

1068

1197

978

1397

Claw-Eval Avg

64.3

48.5

65.4

68.7

Terminal-Bench 从 40.5 跳到 51.5,提升了 11 个百分点

QwenWebBench(前端代码生成)直接从 978 干到 1397,基本上是把上一代甩出了一条街

我个人最感兴趣的是 QwenWebBench 这个指标——它评测的是生成网页/小游戏/数据可视化等实际前端任务,这个分数说明 Qwen3.6 在"一句话生成 App"这类场景里有了质的飞跃

多模态这边也不差:视觉问答在空间智能方面(RefCOCO: 92.0,ODInW13: 50.8)甚至超过了 Claude Sonnet 4.5,文档理解和 OCR 类任务也处于 SOTA 水平。

部署

本人还在龟速下载中,先看看几个推理引擎下部署指南

地址:modelscope.cn/models/Qwen/Qwen3.6-35B-A3B


推荐方案一:SGLang(高吞吐生产场景)


uv pip install sglang[all]


# 启动服务(8 卡,262K 上下文)
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3

加速推理可以开 MTP(多 token 预测):

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 --tp-size 8 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4

推荐方案二:vLLM

uv pip install vllm --torch-backend=auto


vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3

如果只做文本推理,不需要视觉能力,加上 --language-model-only 可以省下视觉编码器的显存给 KV Cache 用,吞吐量更高

使用

最重要的新特性:preserve_thinking,强烈推荐 Agent 场景开启。

默认情况下,模型每轮只保留最新一条消息的推理过程。开启 preserve_thinking=True 之后,历史轮次的推理链都会被保留并复用,对多步任务特别有用——减少重复思考,KV Cache 利用率也更高。

from openai import OpenAI

client = OpenAI(
api_key="DASHSCOPE_API_KEY",
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
model="qwen3.6-flash",
messages=[{"role": "user", "content": "帮我分析这个 Python 项目结构"}],
extra_body={
"enable_thinking": True,
"preserve_thinking": True, # Agent 场景开启
},
stream=True,
)

关掉思维链(非思考模式) 也很简单,日常对话场景速度更快:

extra_body={
"chat_template_kwargs": {"enable_thinking": False},
}
❝ 注意:Qwen3.6 不再支持 /think/nothink 软切换指令,需要通过参数控制。
Coding Agent 工具集成

Qwen3.6-35B-A3B 可以直接对接三款主流 Coding Agent:

方案一:Qwen Code(推荐,专为 Qwen 系列优化)

npm install -g @qwen-code/qwen-code@latest
qwen
# 进入后运行 /auth 配置 API Key

方案二:OpenClaw(开源,支持自部署)

curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY=
openclaw dashboard

方案三:Claude Code + Qwen API(惊喜组合)

Qwen 支持 Anthropic API 协议,意味着可以直接用 Claude Code 套壳调用 Qwen 模型:

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=

claude

这个玩法挺有意思的:Claude Code 的 UI 体验 + Qwen 的模型能力,而且 API 费用走阿里云那边,比 Anthropic 便宜不少

本地运行:Mac / PC 也能跑(Unsloth GGUF)

Unsloth 已经跑通了 Qwen3.6-35B-A3B 的 GGUF 量化版本,用 llama.cpp 在本地跑完全可行

他们用自家的 Dynamic 2.0 量化方案——对重要层做精度补偿,效果比普通 Q4 强不少

官方说 22GB 内存的 Mac 就能跑


内存需求参考(RAM + VRAM 合计):

量化精度

所需内存

Q2 极限压缩

~17 GB

Q4_K_XL(推荐)

~23 GB

Q5

~30 GB

Q6

~38 GB

BF16 全精度

~70 GB


❝ ⚠️ 重要提示:目前 Qwen3.6 的 GGUF 版本不支持 Ollama,因为视觉编码器(mmproj)需要单独加载文件,Ollama 暂时处理不了这个。请用 llama.cpp 兼容后端(Unsloth Studio 或 llama-server)。

方案一:Unsloth Studio(图形界面,新手友好)

一行命令安装,自动搞定 llama.cpp 环境:

# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh


# 启动 Web UI
unsloth studio -H 0.0.0.0 -p 8888

打开浏览器访问 http://localhost:8888,搜索 Qwen3.6 下载对应量化版本,参数会自动配好,还有思维链开关,对小白极其友好。

方案二:llama-server 命令行

适合需要自定义参数或接入 Agent 工具的场景:

./llama.cpp/llama-server \
--model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
--mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \
--alias "unsloth/Qwen3.6-35B-A3B" \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.00 \
--ctx-size 16384 \
--port 8001

注意两个文件都要下载:模型主体 .gguf + 视觉编码器 mmproj-F16.gguf,缺一不可。

启动后用 OpenAI 兼容 API 调用:

from openai import OpenAI

client = OpenAI(
base_url="http://127.0.0.1:8001/v1",
api_key="sk-no-key-required",
)

completion = client.chat.completions.create(
model="unsloth/Qwen3.6-35B-A3B",
messages=[{"role": "user", "content": "帮我写个贪吃蛇游戏"}],
)
print(completion.choices[0].message.content)

切换思维链模式也很简单,在启动参数里加一行:

# 关闭思维链(更快,日常对话)
--chat-template-kwargs '{"enable_thinking":false}'


# 开启思维链(更强,复杂推理)
--chat-template-kwargs '{"enable_thinking":true}'

llama-server 拉起来之后,同样可以对接 Claude Code 或 Qwen Code,把本地量化模型当 Agent 后端用,完全离线,不花一分 API 费

总结

Qwen3.6-35B-A3B 是一个让人难以挑剔的开源 MoE 模型

  • ✅ 3B 激活参数,推理成本极低,个人显卡也能跑

  • ✅ Agent 编程能力显著提升,QwenWebBench 大幅领先前代

  • ✅ 原生多模态,视觉理解能力对标 Claude Sonnet 4.5

  • ✅ preserve_thinking 新特性,多步 Agent 场景如虎添翼

  • ✅ 262K 原生上下文,YaRN 后可扩展到 100 万

  • ⚠️ 不再支持 /think /nothink 软切换,需要注意迁移成本

  • ⚠️ 完整精度部署仍需多卡,但 Unsloth GGUF 量化版 22GB Mac 可跑

  • ⚠️ GGUF 版本暂不支持 Ollama,需用 llama.cpp 或 Unsloth Studio

有需要在自己服务器上部署 Coding Agent 的朋友,这个应该是目前性价比最高的开源选择了

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南京审计大学偷拍者被开除后续!疑知情校友曝猛料,顾某是惯犯

南京审计大学偷拍者被开除后续!疑知情校友曝猛料,顾某是惯犯

小徐讲八卦
2026-05-13 11:54:03
才火1个月就凉了?莫氏鸡煲无人排队,网友:迟早的事!

才火1个月就凉了?莫氏鸡煲无人排队,网友:迟早的事!

雷科技
2026-05-11 18:05:22
90岁大爷哭诉:我有百万存款和两套房,但唯一心愿却想早点离开

90岁大爷哭诉:我有百万存款和两套房,但唯一心愿却想早点离开

烙任情感
2026-05-13 12:01:52
赛力斯电池包碰撞场景脱离专利获授权 可在碰撞时使电池包与车体分离

赛力斯电池包碰撞场景脱离专利获授权 可在碰撞时使电池包与车体分离

金融界
2026-05-12 12:09:20
牛肉不能常吃?医生提醒:这4种人尽量少碰,吃牛肉也是有禁忌的

牛肉不能常吃?医生提醒:这4种人尽量少碰,吃牛肉也是有禁忌的

芹姐说生活
2026-05-12 16:19:59
特朗普来北京了

特朗普来北京了

不惑猪的频道
2026-05-13 14:32:00
女子推搡哨兵后续:知情人爆料,官媒发声,恐不止坐牢这么简单

女子推搡哨兵后续:知情人爆料,官媒发声,恐不止坐牢这么简单

坠入二次元的海洋
2026-05-13 16:27:16
“手擀”是商标,面是机器做的!产品已下架

“手擀”是商标,面是机器做的!产品已下架

南方都市报
2026-05-13 19:16:39
女版杨瀚森?李月汝WNBA新季首次全场被弃用 飞翼吞首败

女版杨瀚森?李月汝WNBA新季首次全场被弃用 飞翼吞首败

醉卧浮生
2026-05-13 10:06:14
追觅科技控制百余家企业

追觅科技控制百余家企业

金融界
2026-05-13 16:05:44
5月13日,人社部2026年养老金调整通知公布了吗?几个信号很关键

5月13日,人社部2026年养老金调整通知公布了吗?几个信号很关键

社保小达人
2026-05-13 09:42:56
传真机丨浙江瑞安某中学5名学生怀孕?当地警方回应

传真机丨浙江瑞安某中学5名学生怀孕?当地警方回应

爱看头条
2026-05-13 16:00:09
特朗普访华,带上儿子儿媳全是自己人

特朗普访华,带上儿子儿媳全是自己人

三叔的装备空间
2026-05-13 10:08:03
宋祖儿瘦成纸片人,罗云熙瘦成大头娃娃,病态审美要卷土重来了?

宋祖儿瘦成纸片人,罗云熙瘦成大头娃娃,病态审美要卷土重来了?

八卦南风
2026-05-12 15:09:36
为嫁50亿富豪抛弃同居5年的周一围,今成笑柄

为嫁50亿富豪抛弃同居5年的周一围,今成笑柄

青杉依旧啊啊
2026-04-27 14:03:21
广厦官方:孙铭徽将在今晚对阵山西的比赛中复出;已伤缺94天

广厦官方:孙铭徽将在今晚对阵山西的比赛中复出;已伤缺94天

懂球帝
2026-05-13 18:45:09
5月13日俄乌:乌克兰正向美国传授战争之道

5月13日俄乌:乌克兰正向美国传授战争之道

山河路口
2026-05-13 18:51:46
特朗普专机即将飞向北京,噩耗传来,他最担心的一幕还是发生了

特朗普专机即将飞向北京,噩耗传来,他最担心的一幕还是发生了

牛锅巴小钒
2026-05-13 18:40:28
山楂是天然血管清道夫,中年常喝这3款茶,血管干净不堵塞

山楂是天然血管清道夫,中年常喝这3款茶,血管干净不堵塞

开心美食白科
2026-05-12 22:26:05
正式官宣!国乒亚运名单8人敲定,樊振东被弃用已确定,王皓发声

正式官宣!国乒亚运名单8人敲定,樊振东被弃用已确定,王皓发声

7号观察室
2026-05-13 09:58:19
2026-05-13 19:56:50
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3399文章数 11150关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

盘中最高4041.99点!创业板创历史新高

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

本地
教育
时尚
公开课
军事航空

本地新闻

用苏绣的方式,打开江西婺源

教育要闻

新课标・新教材・新课堂|5月15日苏州姑苏公益师训会暨小学语文跨区域教学研讨即将启幕

老钱风失宠了?这个风格突然爆火,夏天穿太高级了!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版