Qwen3.6-35B-A3B开源了，本地部署教程|推理|模态|编程|key|上下文|编码器|电子表格

Qwen3.6-35B-A3B开源了，本地部署教程

2026-04-16 23:40:48　来源: Ai学习的老章

北京举报

分享至

刚刚，Qwen3.6-开源了 Qwen3.6-35B-A3B

比较失望，不是我，还有众多网友期待的 Qwen3.6-27B

简介

Qwen3.6-35B-A3B 是一个 MoE 架构的小身材大能量选手：35B 参数总量，但实际推理只激活 3B

这意味着什么？运行它的算力消耗，大概只相当于一个 3B 稠密模型，但效果能打 27B、30B 的稠密大模型

Qwen3.6-35B-A3B 综合评测得分

这次开源的核心亮点：

Agentic Coding 能力大幅提升 ：前端工作流和仓库级代码推理，明显上了一个台阶
Thinking Preservation（思维保留） ：全新特性，可以在多轮对话中保留历史推理链，迭代开发场景下减少重复思考开销
原生多模态 ：视觉 + 语言双修，不是缝合怪，内置了视觉编码器
超长上下文 ：原生支持 262,144 tokens，开启 YaRN 后可扩展到 100 万 tokens

架构揭秘：35B 总量 / 3B 激活，怎么做到的？

Qwen3.6 用的是一种混合架构——把 Gated DeltaNet（线性注意力） 和 Gated Attention（标准注意力） 交替堆叠，不是纯 Transformer，也不是纯线性注意力，而是两者的融合体

再配上 MoE（混合专家）层：

256 个专家 ，每次推理只激活 8 个路由专家 + 1 个共享专家
40 层堆叠，隐层维度 2048

这套架构的好处是：推理时大量专家处于"休眠"状态，算力需求极低；但模型的总参数量带来了丰富的知识密度。说白了，钱都花在学习上，推理时省着用

性能实测：Agent 编程这项，真的飞了

先上核心评测数据，对比选手是同规模的 Qwen3.5-35B-A3B（前代）、Gemma4-31B、Qwen3.5-27B（稠密 27B）：

评测基准

Qwen3.5-27B

Gemma4-31B

Qwen3.5-35BA3B

Qwen3.6-35BA3B

SWE-bench Verified

75.0

52.0

70.0

73.4

Terminal-Bench 2.0

41.6

42.9

40.5

51.5

QwenWebBench（前端）

1068

1197

978

1397

Claw-Eval Avg

64.3

48.5

65.4

68.7

Terminal-Bench 从 40.5 跳到 51.5，提升了 11 个百分点

QwenWebBench（前端代码生成）直接从 978 干到 1397，基本上是把上一代甩出了一条街

我个人最感兴趣的是 QwenWebBench 这个指标——它评测的是生成网页/小游戏/数据可视化等实际前端任务，这个分数说明 Qwen3.6 在"一句话生成 App"这类场景里有了质的飞跃

多模态这边也不差：视觉问答在空间智能方面（RefCOCO: 92.0，ODInW13: 50.8）甚至超过了 Claude Sonnet 4.5，文档理解和 OCR 类任务也处于 SOTA 水平。

部署

本人还在龟速下载中，先看看几个推理引擎下部署指南

地址：modelscope.cn/models/Qwen/Qwen3.6-35B-A3B

推荐方案一：SGLang（高吞吐生产场景）

uv pip install sglang[all]


 # 启动服务（8 卡，262K 上下文）
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

加速推理可以开 MTP（多 token 预测）：

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 --tp-size 8 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

推荐方案二：vLLM

uv pip install vllm --torch-backend=auto


 vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

如果只做文本推理，不需要视觉能力，加上 --language-model-only 可以省下视觉编码器的显存给 KV Cache 用，吞吐量更高

使用

最重要的新特性：preserve_thinking，强烈推荐 Agent 场景开启。

默认情况下，模型每轮只保留最新一条消息的推理过程。开启 preserve_thinking=True 之后，历史轮次的推理链都会被保留并复用，对多步任务特别有用——减少重复思考，KV Cache 利用率也更高。

from openai import OpenAI

 client = OpenAI(
    api_key="DASHSCOPE_API_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

 completion = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[{"role": "user", "content": "帮我分析这个 Python 项目结构"}],
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True,  # Agent 场景开启
    },
    stream=True,
)

关掉思维链（非思考模式） 也很简单，日常对话场景速度更快：

extra_body={
    "chat_template_kwargs": {"enable_thinking": False},
}

❝ 注意：Qwen3.6 不再支持 /think/nothink 软切换指令，需要通过参数控制。

Coding Agent 工具集成

Qwen3.6-35B-A3B 可以直接对接三款主流 Coding Agent：

方案一：Qwen Code（推荐，专为 Qwen 系列优化）

npm install -g @qwen-code/qwen-code@latest
qwen
# 进入后运行 /auth 配置 API Key

方案二：OpenClaw（开源，支持自部署）

curl -fsSL https://molt.bot/install.sh | bash
export DASHSCOPE_API_KEY= 
        
openclaw dashboard

方案三：Claude Code + Qwen API（惊喜组合）

Qwen 支持 Anthropic API 协议，意味着可以直接用 Claude Code 套壳调用 Qwen 模型：

npm install -g @anthropic-ai/claude-code

 export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN= 
 

 claude

这个玩法挺有意思的：Claude Code 的 UI 体验 + Qwen 的模型能力，而且 API 费用走阿里云那边，比 Anthropic 便宜不少

本地运行：Mac / PC 也能跑（Unsloth GGUF）

Unsloth 已经跑通了 Qwen3.6-35B-A3B 的 GGUF 量化版本，用 llama.cpp 在本地跑完全可行

他们用自家的 Dynamic 2.0 量化方案——对重要层做精度补偿，效果比普通 Q4 强不少

官方说 22GB 内存的 Mac 就能跑

内存需求参考（RAM + VRAM 合计）：

量化精度

所需内存

Q2 极限压缩

~17 GB

Q4_K_XL（推荐）

~23 GB

~30 GB

~38 GB

BF16 全精度

~70 GB

❝ ⚠️ 重要提示：目前 Qwen3.6 的 GGUF 版本不支持 Ollama，因为视觉编码器（mmproj）需要单独加载文件，Ollama 暂时处理不了这个。请用 llama.cpp 兼容后端（Unsloth Studio 或 llama-server）。

方案一：Unsloth Studio（图形界面，新手友好）

一行命令安装，自动搞定 llama.cpp 环境：

# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh


 # 启动 Web UI
unsloth studio -H 0.0.0.0 -p 8888

打开浏览器访问 http://localhost:8888，搜索 Qwen3.6 下载对应量化版本，参数会自动配好，还有思维链开关，对小白极其友好。

方案二：llama-server 命令行

适合需要自定义参数或接入 Agent 工具的场景：

./llama.cpp/llama-server \
    --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Qwen3.6-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --ctx-size 16384 \
    --port 8001

注意两个文件都要下载：模型主体 .gguf + 视觉编码器 mmproj-F16.gguf，缺一不可。

启动后用 OpenAI 兼容 API 调用：

from openai import OpenAI

 client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)

 completion = client.chat.completions.create(
    model="unsloth/Qwen3.6-35B-A3B",
    messages=[{"role": "user", "content": "帮我写个贪吃蛇游戏"}],
)
print(completion.choices[0].message.content)

切换思维链模式也很简单，在启动参数里加一行：

# 关闭思维链（更快，日常对话）
--chat-template-kwargs '{"enable_thinking":false}'


 # 开启思维链（更强，复杂推理）
--chat-template-kwargs '{"enable_thinking":true}'

llama-server 拉起来之后，同样可以对接 Claude Code 或 Qwen Code，把本地量化模型当 Agent 后端用，完全离线，不花一分 API 费

总结

Qwen3.6-35B-A3B 是一个让人难以挑剔的开源 MoE 模型：

✅ 3B 激活参数，推理成本极低，个人显卡也能跑
✅ Agent 编程能力显著提升，QwenWebBench 大幅领先前代
✅ 原生多模态，视觉理解能力对标 Claude Sonnet 4.5
✅ preserve_thinking 新特性，多步 Agent 场景如虎添翼
✅ 262K 原生上下文，YaRN 后可扩展到 100 万
⚠️ 不再支持 /think /nothink 软切换，需要注意迁移成本
⚠️ 完整精度部署仍需多卡，但 Unsloth GGUF 量化版 22GB Mac 可跑
⚠️ GGUF 版本暂不支持 Ollama，需用 llama.cpp 或 Unsloth Studio

有需要在自己服务器上部署 Coding Agent 的朋友，这个应该是目前性价比最高的开源选择了

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.