智谱GLM-4.5-Air量化大模型，本地部署，实测|编程|glm|air|结构图

智谱GLM-4.5-Air量化大模型，本地部署，实测

分享至

大家好，我是 Ai 学习的老章

之前对智谱 AI 的关注比较少，最近发布的的 GLM4.6 非常能打

GLM-4.6 的代码生成能力已达到国际领先水平，与 Claude Sonnet 4 模型持平，是国内目前表现最优的编程专用模型，在综合性能评估中位列全球第四，与阿里巴巴旗下 Qwen3-Max-Preview 模型并列中国区榜首，同时摘得全球开源模型桂冠。

国内大模型开源这一块，除了 DeepSeek 和 Qwen，其实智谱也很能打的

之前偶尔关注智谱，是看到美国商务部把它列为实体清单，还有 OpenAI 点名它是全球战略的竞争对手

OpenAI 旗下 Global Affairs 账号近日发布专题博文《Chinese Progress at the Front》，罕见聚焦中国 AI 企业发展动态。文中明确将 2019 年成立的智谱 AI 定义为 "中国大模型领域新锐代表"，强调其通过良性竞争构建的技术生态，已成为中国打造自主 AI 体系的核心力量。

但是 GLM-4.6 本地部署还是有点成本太高

原版 714GB、FP8 版本模型文件也 355GB 了

倒是 GLM-4.5-AIR 有了比较靠谱的量化版本——GLM-4.5-Air-AWQ-4bit，它的模型文件只有 64GB 不到（GLM-4.5、GLM-4.5-Air、GLM-4.5-Air-FP8 的模型文件大小分别是 717GB、221GB、113GB）

国内镜像：https://modelscope.cn/models/cpatonn-mirror/GLM-4.5-Air-AWQ/files

GLM-4.5系列模型是为智能代理设计的基础模型，GLM-4.5-Air 采用了更紧凑的设计，总共有1060 亿参数，120 亿活跃参数。在 12 个行业标准基准测试中的全面评估中，GLM-4.5-Air 在保持卓越效率的同时，也取得了具有竞争力的59.8分。

本地部署

下载模型：modelscope download --model cpatonn-mirror/GLM-4.5-Air-AWQ --local_dir ./dir

vllm 启动模型，我用一张 141GB 的 H200 显卡拉起模型，启动脚本如下：

启动很顺利

先来做一个性能测试，速度还行，加大 max-num-seqs 还能把总平均 Token 生成速度拉更高，这也是用vllm启动safetensors，而非选择llama.cpp启动GGUF的好处。

简单看下代码和现实世界理解能力：用大模型生成人体器官结构图

GLM-4.5-air

ChatGPT
GLM-4.6DeepSeek-V3.2

看官方测评数据和市面上的评价，GLM-4.5-Air 总体看性价比还是很高的，比肩而立 DeepSeek-R1 了，运行成本却低 N 多档次

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.