网易首页 > 网易号 > 正文 申请入驻

Qwen3.6-35B 量化版,vLLM本地部署,性能实测

0
分享至

一文中我把这个模型和本地部署(原版以及 GGUF)讲清楚了,但是它 70 多个 GB 的模型文件,我的 4090 吃起来很费劲。

昨天我又向大家介绍了 ,包括 4bit 量化版、推理加速版、Claude Opus 蒸馏版,模型文件压到 20GB 左右就舒服多了


我更喜欢的事 vLLM 启动,兼顾速度与并发,内网其他业务系统也能用到

我之前部署了 Qwen3.5-35B 的这个量化版本,vLLM 0.17 部署它很完美

关闭思考之后的性能测试,单并发可以到 148Token/s

PS:以下测试均为关闭思考后的结果 Qwen3.6关闭思考方式没变


虽然官方建议是 vLLM 0.19 起步,但是我发现 0.17 也可以拉起 Qwen3.6-35B

启动脚本:

set -euo pipefail

MODEL_DIR="/data/models/Qwen3.6-35B-A3B-AWQ-4bit"
CONTAINER_NAME="qwen35-35b-a3b-int4"
PORT=3004

docker rm -f "${CONTAINER_NAME}" 2>/dev/null || true

docker run -d \
--name "${CONTAINER_NAME}" \
--gpus '"device=1,2"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v "${MODEL_DIR}":/model \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
--restart unless-stopped \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 24 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--host 0.0.0.0 \
--port 8000

100K 上下文的显存占用


性能测试,稍微弱于 Qwen3.5 一丢丢,微乎其微


,用它启动 Qwen3.6-35B-A5B,性能又弱了一丢丢。。。


内网没办法做 toolcall 测试,我只是简单对比了一下它们的编程能力


代码量上,3.5 大约 477 行,3.6 大约 256 行

3.5 明显更长,用 CSS 动画实现,但长出来的很多部分其实是解释、重复和前后不一致的内容,不是真正有效的实现,没次刷新页面才能短暂看到燃放瞬间。


3.6 的想法更单纯,就是用 Cancas 把烟花升空、爆开、消散这一整套过程连续画出来,甚至还用了数据计算模拟重力,所以方向更清楚,最大的问题是画面位置弄错了,所以我实际打开时几乎就是黑屏


半斤八两吧,初版都有 bug,指出问题重新生成

最后看下生成速度 150 左右 tokens 每秒 还是很赏心悦目的

本文核心是性能测试,实际体验,要再用用

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
41岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她在追求什么

41岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她在追求什么

林雁飞
2026-03-13 12:53:50
麦克马纳斯:丁俊晖非常厉害 他比赵心童还要出色

麦克马纳斯:丁俊晖非常厉害 他比赵心童还要出色

罗克
2026-04-20 13:26:22
粟裕包围胡琏主力,毛主席急电:快撤,这是陷阱!粟裕大赞高明

粟裕包围胡琏主力,毛主席急电:快撤,这是陷阱!粟裕大赞高明

史之铭
2026-04-18 03:28:33
59岁江珊无单位无退休工资,一场罢演,让她一辈子为生计奔波

59岁江珊无单位无退休工资,一场罢演,让她一辈子为生计奔波

揽星河的笔记
2026-04-06 18:05:19
意甲提前大结局 争冠和争4已毫无悬念 科莫两连败退出争4

意甲提前大结局 争冠和争4已毫无悬念 科莫两连败退出争4

智道足球
2026-04-20 08:29:18
创下近百年最差纪录!近13轮仅拿5分全英超垫底 热刺真的要降级?

创下近百年最差纪录!近13轮仅拿5分全英超垫底 热刺真的要降级?

体坛八点半的那些事儿
2026-04-20 19:37:02
刘思齐改嫁生四子,用长子名字纪念毛岸英,为何抚恤金拖到1990年才送到她手里?

刘思齐改嫁生四子,用长子名字纪念毛岸英,为何抚恤金拖到1990年才送到她手里?

历史回忆室
2026-04-20 16:16:17
女骑手两年暴涨35%,女司机猛增75%,中年女人为何抢着跑车?

女骑手两年暴涨35%,女司机猛增75%,中年女人为何抢着跑车?

老特有话说
2026-04-17 17:19:57
女子吐槽“老公养的盆栽”,太丑了,网友:不懂,别乱说话

女子吐槽“老公养的盆栽”,太丑了,网友:不懂,别乱说话

观察鉴娱
2026-04-19 16:03:01
美国与伊朗已就延长停火达成“原则性协议”

美国与伊朗已就延长停火达成“原则性协议”

新华社
2026-04-15 19:24:12
马筱梅哭诉婆婆家没房间,68岁张兰一张健身照回击:少卖惨多读书

马筱梅哭诉婆婆家没房间,68岁张兰一张健身照回击:少卖惨多读书

未曾青梅
2026-04-19 22:11:35
33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

33岁章泽天风格大变!穿艳俗纱裙、副乳突出,比实际年龄成熟10岁

阿讯说天下
2026-04-18 14:53:39
英超黑马主帅官宣离队:53分纪录背后的跳槽逻辑

英超黑马主帅官宣离队:53分纪录背后的跳槽逻辑

绿茵狂热者
2026-04-19 19:53:36
我妈93岁,独居自理,她的长寿秘诀就六个字:别老想着走动!

我妈93岁,独居自理,她的长寿秘诀就六个字:别老想着走动!

蝉吟槐蕊
2026-04-19 06:23:45
奢靡淫逸的白马会所:性交易泛滥,富婆挥金如土,最终一夜覆灭

奢靡淫逸的白马会所:性交易泛滥,富婆挥金如土,最终一夜覆灭

阅微札记
2026-02-26 11:35:08
土皇帝?许家印18大喜好曝光:只喝恒大冰泉+吃进口水果 最爱辽参

土皇帝?许家印18大喜好曝光:只喝恒大冰泉+吃进口水果 最爱辽参

念洲
2026-04-20 11:34:37
假货卖家把LV商标转30度,AI怎么抓?

假货卖家把LV商标转30度,AI怎么抓?

码上闲叙
2026-04-20 10:13:48
张康阳现状证明,不怕富二代躺平就怕有野心,仅5年千亿身价归零

张康阳现状证明,不怕富二代躺平就怕有野心,仅5年千亿身价归零

青杉依旧啊啊
2026-03-19 22:10:26
苏联背后的操控!蓄意扩大朝鲜战争,让中美两国苦不堪言

苏联背后的操控!蓄意扩大朝鲜战争,让中美两国苦不堪言

南极狼人
2026-04-17 20:18:46
2026年买手机,先看2025款:芯片荒下的逆向选择

2026年买手机,先看2025款:芯片荒下的逆向选择

灰度测试中
2026-04-19 18:10:50
2026-04-20 20:15:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3337文章数 11138关注度
往期回顾 全部

科技要闻

华为Pura90逆周期定价,4699元起,未涨价

头条要闻

小学生遭多名中小学生施暴搜家 家长以"入室抢劫"报案

头条要闻

小学生遭多名中小学生施暴搜家 家长以"入室抢劫"报案

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

艺术
房产
时尚
亲子
数码

艺术要闻

王羲之《换鹅帖》尚在人间,惊艳无比!

房产要闻

大规模商改住!海口西海岸,这波项目要赢麻了!

今年最流行的衣服竟然是它?高级又气质!

亲子要闻

上海首家儿童运动医学中心成立,推行微创优先、医护康一体化服务

数码要闻

华为新内存技术来了,Mate X7用户6月有福

无障碍浏览 进入关怀版