网易首页 > 网易号 > 正文 申请入驻

刚刚,阿里发布Qwen3 技术报告,还有官方量化模型文件

0
分享至


大家好,我是 Ai 学习的老章

Qwen3 我写过 3 篇文章

昨天阿里发布了Qwen3的技术报告


来源:https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

最近 Qwen3 还发布了 Qwen3 的量化版本(GGUF、AWQ、GPTQ),可以通过 Ollama、LM Studio、SGLang 和 vLLM 高效本地部署。

量化技术降低了模型大小和计算需求,使高级 AI 在消费级硬件上也能运行
关于量化,请移步:

有网友测试ollama直接启动官方量化版本Qwen3-32B,模型文件只有 19GB

之前我测试过,至少需要 4 张 24GB 的 4090 才能跑起来

量化版,目测只需要 1 张卡就行了?

ollama run: http://hf.co/Qwen/Qwen3-32B-GGUF:Q4_K_M


下面实测看看

1 卡跑 Qwen/Qwen3-32B-AWQ

模型文件:https://modelscope.cn/models/Qwen/Qwen3-32B-AWQ/files


有很多量化版本,这里我选择 AWQ,这是一种感知量化技术,核心特征是激活值引导的智能量化,使用精度敏感型任务

下载

mkdir qwen3-32-awq cd qwen3-32-awq modelscope download --model Qwen/Qwen3-32B-AWQ --local_dir .

这个版本可以使用 SGLang 启动

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-32B-AWQ --reasoning-parser qwen3

我更喜欢 vLLM

但是我用单卡 4090 完全无法启动,遭遇 OOM,显存不够用

按官方建议修改max-model-lengpu-memory-utilization都不行。

官方建议:

  • 第一个是--max-model-len。默认max_position_embedding40960,因此 serving 的最大长度也是这个值,导致对内存的要求更高。将其减少到适合自己的长度通常有助于解决 OOM 问题。

  • 另一个参数是--gpu-memory-utilization。vLLM 将预先分配此数量的 GPU 内存。默认情况下,它是0.9。这也是 vLLM 服务总是占用大量内存的原因。如果处于 Eager 模式(默认情况下不是),则可以将其升级以解决 OOM 问题。否则,将使用 CUDA 图形,这将使用不受 vLLM 控制的 GPU 内存,应该尝试降低它。如果它不起作用,尝试--enforce-eager,这可能会减慢推理速度,或减少--max-model-len

然后用两张 4090 也需要修改max-model-len和启动enforce-eager才能正常启动

CUDA_VISIBLE_DEVICES=4,5 vllm serve . --serverd-model Qwen3-32B-AWQ --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 2 --max-model-len 16384 --enforce-eager

推理速度很慢,18t/s 的样子

不过能把 4 张卡压缩到 2 张卡,已经很量化了

启动之后阿里有推理的建议配置,仅供参考:

  1. 采样参数

  • 对于思考模式(enable_thinking=True),使用Temperature=0.6,TopP=0.95,TopK=20, 和MinP=0不要使用贪心解码,因为它可能导致性能下降和无尽的重复。

  • 对于非思考模式(enable_thinking=False),我们建议使用Temperature=0.7,TopP=0.8,TopK=20, 和MinP=0

  • 对于支持的框架,可以在 0 到 2 之间调整presence_penalty参数以减少无尽的重复。对于量化模型,强烈建议将此值设为 1.5。然而,使用更高的值可能会偶尔导致语言混杂并轻微降低模型性能。

足够的输出长度:对于大多数查询,推荐使用 32,768 个令牌的输出长度。对于高度复杂问题的基准测试,例如数学和编程竞赛中的问题,建议将最大输出长度设为 38,912 个令牌。这为模型提供了足够的空间来生成详细且全面的回答,从而提高其整体性能。

标准化输出格式:在进行基准测试时,建议使用提示来标准化模型输出。

  • 数学问题:在提示中包含“请逐步推理,并将最终答案放在\boxed{}内。”

  • 选择题:向提示中添加以下 JSON 结构以标准化回答:“请仅用选项字母在answer字段中显示您的选择,例如,"answer": "C"。”

历史记录中不包含思考内容:在多轮对话中,历史模型输出应仅包括最终输出部分,不需要包含思考内容。这已在提供的 Jinja2 聊天模板中实现。然而,对于不直接使用 Jinja2 聊天模板的框架,开发者需要确保遵循这一最佳实践。

最后推荐一个最近我在学习的课程


制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
今天起,全面启动改造!进站有调整

今天起,全面启动改造!进站有调整

上观新闻
2025-11-11 14:18:21
男子追赶偷狗贼遭棒击并被毒针射死,15年后一主犯仍在逃,受害者儿子:想为父亲申报见义勇为

男子追赶偷狗贼遭棒击并被毒针射死,15年后一主犯仍在逃,受害者儿子:想为父亲申报见义勇为

极目新闻
2025-11-11 09:22:54
“央行规定5万,建行加码到1万”?律师取钱被追问用途 已拒绝建行道歉,并控告违法行为

“央行规定5万,建行加码到1万”?律师取钱被追问用途 已拒绝建行道歉,并控告违法行为

大风新闻
2025-11-10 17:49:08
演都不演了?李连杰、洪金宝变化突出,疑“血液净化”,牵连成龙

演都不演了?李连杰、洪金宝变化突出,疑“血液净化”,牵连成龙

阿笎评论哥
2025-11-11 11:57:29
农户23年前响应号召种下300亩杨树,成材后发现被纳入保护区禁止采伐,官方回应

农户23年前响应号召种下300亩杨树,成材后发现被纳入保护区禁止采伐,官方回应

极目新闻
2025-11-11 14:19:28
环球小姐“硬刚”主办方,那个辱骂墨西哥小姐的总监原来劣迹斑斑……

环球小姐“硬刚”主办方,那个辱骂墨西哥小姐的总监原来劣迹斑斑……

新民周刊
2025-11-10 19:48:04
终于见到本人了 没有传说中那么漂亮 不是保安护驾 感觉就是一路人甲

终于见到本人了 没有传说中那么漂亮 不是保安护驾 感觉就是一路人甲

动物奇奇怪怪
2025-11-11 11:02:37
疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

澳洲红领巾
2025-11-11 11:25:36
中方就菲律宾遭受台风灾害向菲人民提供紧急人道主义援助

中方就菲律宾遭受台风灾害向菲人民提供紧急人道主义援助

环球网资讯
2025-11-11 14:29:04
200元补贴!上万深圳人将接到这一电话

200元补贴!上万深圳人将接到这一电话

深圳晚报
2025-11-11 12:39:54
德军司令:柏林已做好“开战准备”

德军司令:柏林已做好“开战准备”

环球时报国际
2025-11-11 00:09:28
全运会大爆冷!头号种子1:4被淘汰,无缘4强,陈幸同逆转晋级4强

全运会大爆冷!头号种子1:4被淘汰,无缘4强,陈幸同逆转晋级4强

国乒二三事
2025-11-11 14:17:37
中央考核巡查组已进驻山西、黑龙江、辽宁、江苏、江西、海南、重庆、云南、甘肃、新疆

中央考核巡查组已进驻山西、黑龙江、辽宁、江苏、江西、海南、重庆、云南、甘肃、新疆

新京报政事儿
2025-11-11 11:56:48
巴菲特谢幕信:已捐出13亿美元股票,不再写年度股东信,感叹活到95岁是幸运

巴菲特谢幕信:已捐出13亿美元股票,不再写年度股东信,感叹活到95岁是幸运

每日经济新闻
2025-11-11 06:17:07
沉默6天后,中国航天传来新消息,神舟二十号返回任务有序推进!

沉默6天后,中国航天传来新消息,神舟二十号返回任务有序推进!

鱼缸里的假山
2025-11-11 11:48:49
琉球群岛地位未定,中方在联合国亮明态度,日媒破防

琉球群岛地位未定,中方在联合国亮明态度,日媒破防

头条爆料007
2025-11-10 22:03:53
湖南人民医院事件后续,偷拍者身份已曝光,曾医生有口难辩

湖南人民医院事件后续,偷拍者身份已曝光,曾医生有口难辩

平老师666
2025-11-10 23:42:34
中国银行等多家银行宣布将关停部分App

中国银行等多家银行宣布将关停部分App

每日经济新闻
2025-11-11 08:36:48
“承诺给300万美元”!俄方:成功挫败英乌策反俄飞行员并劫持米格-31战机企图

“承诺给300万美元”!俄方:成功挫败英乌策反俄飞行员并劫持米格-31战机企图

环球网资讯
2025-11-11 13:58:25
16级大风+大暴雨!具有灾难性破坏力!今年最大的台风要来了

16级大风+大暴雨!具有灾难性破坏力!今年最大的台风要来了

深圳晚报
2025-11-11 07:59:35
2025-11-11 16:04:49
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3192文章数 11068关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

欧洲高颜值王室访华:曾与高中老师结婚 二婚嫁入王室

头条要闻

欧洲高颜值王室访华:曾与高中老师结婚 二婚嫁入王室

体育要闻

维金斯0.4秒空接暴扣绝杀 热火险胜骑士

娱乐要闻

何超莲窦骁真的没离婚?

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

本地
数码
房产
公开课
军事航空

本地新闻

这届干饭人,已经把博物馆吃成了食堂

数码要闻

小米双11战报公布:多款产品获销量冠军 卢伟冰回应

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版