大家好,我是 Ai 学习的老章
我个人是 Qwen 的粉丝,单 Qwen3,我就写过数篇文章,它总是我开源模型中各种规模的首选。
阿里 _Qwen3_ 令人失望?[1]_Qwen3_ 果真拉垮了吗?实测[2]阿里 _Qwen3_ 模型更新,吉卜力风格 get[3]_Qwen3_ 对比 DeepSeek R1、Gemma3、Llama4[4]刚刚,阿里发布_Qwen3_ 技术报告,还有官方量化模型文件[5]DeepSeek-R1-0528 蒸馏 _Qwen3_:8B 大模型,双 4090 本地部署,深得我心[6]
刚刚,阿里针对 Qwen3-235B-A22B 进行了「微不足道」的小更新
目前最新版本是 Qwen3-235B-A22B-2507
新模型停止使用混合思考模式,分别训练指令和思考模型,以便获得最佳质量:
在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等一般能力方面有显著提升。
在多种语言的长尾知识覆盖方面有大幅提高。
在主观和开放式任务中与用户偏好的对齐度明显提高,能够提供更有帮助的响应和更高质量的文本生成。
在256K 长上下文理解方面的能力得到增强。
对比Kimi-K2[7],新版模型,全面碾压!
在知识、推理、编程、多语言能力和用户偏好对齐上全面领先 GPT-4o 和 Deepseek-V3,接近或超越 Claude Opus 4 和 ,尤其在数学推理和用户偏好上优势显著
Qwen 网页端已默认支持:https://chat.qwen.ai
模型结构方面,对比
总体上小 4.25 倍,但有更多的层(变压器块);235B vs 1 万亿
活动参数少 1.5 倍(22B vs. 32B)
MoE 层中的专家要少得多(128 比 384);此外,专家也稍微小一些
不使用共享专家(但其他方面也有 8 个活跃专家)
每隔一层交替使用密集层和 MoE 块(变压器块)
使用分组查询注意机制而不是多头潜在注意机制
本地部署 FP16 至少需要 500GB 显存,虽然很大,但是比 700GB 的 DeepSeek 和 1000GB 的 K2 就少太多了
Qwen3-235b-2507 也发布了 FP8 版,仅需 240GB
部署脚本:
SGLang:
python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144vLLM:
vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144使用推荐参数: Temperature=0.7, TopP=0.8, TopK=20, and MinP=0.
我现在只等量化版就本地部署实测一下
压力给到 Unsloth
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
参考资料
阿里 Qwen3 令人失望?: https://mp.weixin.qq.com/s/HOZVHCj8onwOEM0PIhSqZw
Qwen3 果真拉垮了吗?实测: https://mp.weixin.qq.com/s/QLOkxay5qzxCIt39rm7QQA
阿里 Qwen3 模型更新,吉卜力风格get: https://mp.weixin.qq.com/s/l5MdSYXrZEHJ2X1wUhI-QA
Qwen3 对比DeepSeek R1、Gemma3、Llama4: https://mp.weixin.qq.com/s/7tXEaQZdzQOejzX0TE2LUw
[5]
刚刚,阿里发布Qwen3 技术报告,还有官方量化模型文件: https://mp.weixin.qq.com/s/2M8DktZClexERav0A_hPTg
[6]
DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型,双 4090本地部署,深得我心: https://mp.weixin.qq.com/s/0OccSyhDPnIrzMZSXbh8pw
[7]
如何运行Kimi K2 这个庞然大物(API & 本地部署): https://mp.weixin.qq.com/s/Et4oV7hKWaNJql2baGbpKw
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.