先说结论
GLM-5.1 是智谱的新一代旗舰模型,744B 参数(40B 激活),MIT 开源协议,主打"长时间自主任务"。官方数据很漂亮:SWE-Bench Pro 拿了 58.4 分,超过了 Claude Opus 4.6(57.3)、GPT-5.4(57.7)和 Gemini 3.1 Pro(54.2),成为开源模型新标杆。
但我实测下来,感受和跑分之间有一道鸿沟。
先说好的,再说问题。
GLM-5.1 的核心卖点 1. 长时间自主任务,这是真正的亮点
过去的模型——包括 GLM-5——有个通病:开局猛如虎,跑着跑着就没招了。给再多时间也白搭,到了瓶颈就开始原地踏步。
GLM-5.1 最大的突破在于:运行时间越长,结果越好。
官方给了三个场景来证明这一点,我逐个解读:
场景一:向量数据库优化,600+ 轮迭代
VectorDBBench 是一个开源编程挑战,让模型用 Rust 构建高性能近似最近邻搜索数据库。之前最好的成绩是 Claude Opus 4.6 在 50 轮工具调用内达到的 3,547 QPS。
GLM-5.1 换了个玩法:不限制轮次,让模型自主决定什么时候提交新版本、下一步试什么。结果是经过 600+ 次迭代、6000+ 次工具调用,最终达到 21,500 QPS——是 50 轮限制下最佳成绩的6 倍。
优化过程呈现典型的阶梯式跃升:大约第 90 轮,模型从全表扫描切换到 IVF 聚簇探测 + f16 向量压缩,QPS 跳到 6.4k;大约第 240 轮,引入两阶段流水线(u8 预筛选 + f16 重排),QPS 跳到 13.4k。整个过程中出现了 6 次这样的结构性转变,每次都是模型分析自己的性能日志后主动发起的。
![]()
VectorDBBench 优化过程,600+ 轮迭代从 3.5k 到 21.5k QPS
场景二:GPU 核优化,1000+ 轮
KernelBench Level 3 包含 50 个问题,要求模型把 PyTorch 参考实现优化成更快的 GPU kernel。作为参考,torch.compile 默认设置能达到 1.15 倍加速,max-autotune 能达到 1.49 倍。
GLM-5.1 最终达到了3.6 倍加速,并且在实验后期还在持续进步。Claude Opus 4.6 在这个任务上更强,达到 4.2 倍,但 GLM-5.1 比 GLM-5 有质的飞跃——GLM-5 早早就见顶了。
场景三:8 小时构建 Linux 桌面环境
这个最夸张。给模型一个提示词:用网页技术构建一个 Linux 风格桌面环境。没有模板代码,没有设计稿,没有中间指导。
大多数模型——包括早期版本的 GLM——很快就放弃了:搞个静态任务栏加一两个占位窗口,就宣布完成了。
GLM-5.1 套了一个简单的外循环:每轮执行完后,模型审视自己的输出,找出可以改进的地方——缺少的功能、粗糙的样式、有 bug 的交互——然后继续。这个循环跑了 8 个小时。
最终成果是一个完整的、视觉一致的浏览器端桌面环境:文件浏览器、终端、文本编辑器、系统监控器、计算器、游戏……每个新增功能都集成在统一的 UI 中,样式越来越精致,交互越来越流畅。
这才是 GLM-5.1 真正让我眼前一亮的地方——不是单次对话有多强,而是持续工作有多持久。
2. SWE-Bench Pro 开源第一
来看看官方测评数据:
![]()
GLM-5.1 完整 Benchmark 对比表
重点数据拎出来看:
Benchmark
GLM-5.1
GLM-5
Qwen3.6-Plus
Claude Opus 4.6
GPT-5.4
SWE-Bench Pro
58.4
55.1
56.6
57.3
57.7
NL2Repo
42.7
35.9
37.9
49.8
41.3
Terminal-Bench 2.0
63.5
56.2
61.6
65.4
CyberGym
68.7
48.3
66.6
BrowseComp
68.0
62.0
HLE
31.0
30.5
28.8
36.7
39.8
AIME 2026
95.3
95.4
95.1
95.6
98.7
GPQA-Diamond
86.2
86.0
90.4
91.3
92.0
几个关键发现:
编程(SWE-Bench Pro)确实是开源第一,58.4 的成绩超越了所有闭源模型,MIT 协议开源,这个含金量很高
CyberGym 网络安全任务表现惊艳,68.7 超过 Opus 4.6 的 66.6,从 GLM-5 的 48.3 到 5.1 的 68.7,提升了 42%
BrowseComp 浏览器任务也是开源最强,68.0 vs GLM-5 的 62.0
数学推理并没有显著提升,AIME 2026 几乎和 GLM-5 持平(95.3 vs 95.4),和 GPT-5.4 的 98.7 还有差距
NL2Repo 仓库生成还是 Opus 4.6 最强,49.8 vs GLM-5.1 的 42.7
一句话总结:GLM-5.1 在编程和 Agent 任务上确实达到了顶级水准,但在纯推理(数学、科学)方面依然不是最强的。
![]()
SWE-Bench Pro 对比柱状图
开源 vs 闭源差距正在缩小 3. 第三方竞技场评测
除了官方跑分,第三方竞技场的表现也很抢眼:
Design Arena(设计竞技场):
GLM 5 Turbo 和 GLM-5.1 分别拿到第 2 和第 4 名,Elo 评分 1355 和 1352。开源模型里前 4 名全是 GLM 家族的,和 Anthropic 的 Opus 4.6、Sonnet 4.6 在同一档位。
![]()
Design Arena 排名
Text Arena(文本竞技场):
GLM-5.1 是当前开源模型第一名,超越 GLM-5 +11 分,超越 Kimi K2.5 Thinking +15 分。
具体强项:
长文本查询:开源第一(总排第四)
生命科学/物理/社会科学:开源第一(总排第五)
娱乐/体育/媒体:开源第一(总排第八)
编程:开源第一(总排第十)
对比三代 GLM 模型(4.7 → 5 → 5.1),GLM-5.1 相比 GLM-5 的最大进步:
编程 +28 名
长文本查询 +23 名
软件/IT 服务 +22 名
娱乐/体育/媒体 +17 名
但有意思的是,GLM-5 在某些领域反而比 5.1 更强:
医疗健康 +24 名
法律/政务 +6 名
数学 +2 名
这说明 GLM-5.1 是一次"有取舍的升级",重点强化了编程和 Agent 能力,在其他一些通用任务上做了让步。
个人实测:跑分归跑分,实际归实际
说完漂亮的数据,来说说我自己的真实感受。
我拿最常用的测试题来试:阅读理解 + SVG 代码生成 + 审美。
先测了 GLM-5(发稿时官网还没有 5.1),结果让我失望——连"4 次背影"这个阅读理解都没搞对:
![]()
GLM-5 没有理解到 4 次背影
GLM 5 Turbo 好一点,理解力上去了,但代码写得差点意思,排版也很差:
![]()
GLM 5 Turbo 的代码生成排版很粗糙
怎么连 Claude Sonnet 3.7 都比不过呢?注意⚠️是 Sonnet,是 3.7!
然后 Ollama 倒是放出了 5.1 的云端版本,可以免费使用:
![]()
Ollama 支持 GLM-5.1 云端调用
测了一下,也很失望。
最起码的阅读理解都没做好,懒得预览了:
![]()
GLM-5.1 通过 Ollama 的测试结果,阅读理解不达标
GLM-5.1 SVG 代码生成效果
目前实际体感,GLM-5.1 在我这个测试上不如 Qwen3.6-Plus:
![]()
Qwen3.6-Plus 的 SVG 生成效果明显更好
更何况 Qwen3.6-Plus 还能在 OpenCode 中免费调用,加上 Skills 加持,体验好太多:
![]()
OpenCode 中免费调用 Qwen3.6-Plus + Skills 加持
我的理解是:GLM-5.1 的长处在于长时间、多轮次的 Agent 任务(SWE-Bench 那种需要反复读代码、改代码、跑测试的场景),在单次对话的"快速生成"能力上,目前表现确实没有跑分那么惊艳。
模型架构与参数
简单过一下参数:
参数规模:744B 总参数,40B 激活参数(MoE 架构)
上下文窗口:200K token
开源协议:MIT(商用友好)
模型格式:BF16 全精度 + FP8 量化版
权重下载:HuggingFace / ModelScope
GLM-5.1 和 GLM-5 同架构(和 DeepSeek V3.2 也是同结构),主要的改进体现在训练数据和训练策略上,特别是强化了工具调用、推理历史重建和工具消息渲染。
本地部署全攻略
这是大家最关心的部分。GLM-5.1 的 744B 参数,全精度需要1.65TB磁盘空间,所以本地部署基本上只能用量化版本或者 FP8。下面按不同场景分别介绍。
方案一:vLLM 部署(推荐,生产环境)
vLLM 0.19.0+ 已经支持 GLM-5.1。
![]()
vLLM 部署 GLM-5.1
Docker 一键启动(最省事):
docker run --gpus all \
-p 8000:8000 \
--ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
vllm/vllm-openai:glm51 zai-org/GLM-5.1-FP8 \
--tensor-parallel-size 8 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5.1-fp8
CUDA 13 以上的用vllm/vllm-openai:glm51-cu130镜像。
从源码安装:
uv venv
source .venv/bin/activate
uv pip install "vllm==0.19.0" --torch-backend=auto
uv pip install "transformers>=5.4.0"
注意:FP8 模型需要额外安装 DeepGEMM。
FP8 模型在 8×H200(或 H20)上运行:
vllm serve zai-org/GLM-5.1-FP8 \
--tensor-parallel-size 8 \
--speculative-config.method mtp \
--speculative-config.num_speculative_tokens 3 \
--tool-call-parser glm47 \
--reasoning-parser glm45 \
--enable-auto-tool-choice \
--served-model-name glm-5.1-fp8
几个注意点:
思考模式默认开启,不需要额外参数。想关闭的话加
"chat_template_kwargs": {"enable_thinking": false}支持 OpenAI 格式的工具调用
支持投机解码(MTP),实测输出吞吐量可达 526 tok/s(8k/1k,8×H200)
Python 客户端调用:
方案二:SGLang 部署(高并发场景)from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1",
)# 思考模式(默认开启)
resp = client.chat.completions.create(
model="glm-5.1-fp8",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "用 Python 实现快速排序"},
],
temperature=1,
max_tokens=4096,
)
print("思考过程:", resp.choices[0].message.reasoning)
print("回答:", resp.choices[0].message.content)
SGLang 0.5.10+ 支持 GLM-5.1。支持的硬件非常广泛:NVIDIA H100、H200、B200、GB300,还有 AMD MI300X/MI325X/MI355X。
![]()
SGLang 部署 GLM-5.1
FP8 + H200 + 全功能启动:
SGLANG_ENABLE_SPEC_V2=1 sglang serve \
--model-path zai-org/GLM-5.1-FP8 \
--tp 8 \
--reasoning-parser glm45 \
--tool-call-parser glm47 \
--speculative-algorithm EAGLE \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--mem-fraction-static 0.85
不同硬件的 TP(Tensor Parallel)配置:
硬件
FP8
BF16
H100
tp=16
tp=32
H200
tp=8
tp=16
B200
tp=8
tp=16
GB300
tp=4
MI300X/MI325X
tp=8
MI355X
tp=8
注意:BF16 全精度需要的 GPU 数量是 FP8 的2 倍。如果你有 8 张 H200,FP8 刚好够用;全精度需要 16 张。
SGLang 还有几个独特优势:
DP Attention:高并发下用数据并行注意力,吞吐量更高(低并发场景关掉,会影响延迟)
投机解码(EAGLE):显著降低交互延迟
GLM-5.1 和 DeepSeek V3.2 同架构,SGLang 对两者的优化技术是通用的(MTP、DSA kernel、Context Parallel 等)
一行命令搞定:
ollama run glm-5.1:cloud
这是最低门槛的体验方式,不需要本地 GPU。但正如我前面实测的,效果嘛……老实说有点拉胯。
方案四:Unsloth 量化版(消费级硬件的希望)
Unsloth 提供了各种精度的 GGUF 量化版本,这才是普通人本地跑的正确姿势。
![]()
Unsloth 提供的 GLM-5.1 量化方案
模型文件:unsloth/GLM-5.1-GGUF
各精度模型大小对比:
![]()
不同量化精度的模型文件大小
关键数据:
Dynamic 2-bit(UD-IQ2_M):约 236GB → 可以在256GB 统一内存的 Mac上跑,也可以在 1×24GB GPU + 256GB 内存上跑(MoE 卸载)
Dynamic 1-bit:约 200GB → 可以塞进 220GB 内存
8-bit:需要 805GB 内存
完整模型(BF16):1.65TB
Unsloth 用的是 Dynamic 2.0 量化技术——重要层会自动升到 8-bit 或 16-bit,低位量化掉精度损失的地方集中在不太重要的层上,整体效果比均匀量化好不少。
Unsloth Studio 一键运行(推荐新手):
Mac/Linux 安装:
curl -fsSL https://unsloth.ai/install.sh | sh
Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
启动 Studio:
unsloth studio -H 0.0.0.0 -p 8888
然后浏览器打开http://localhost:8888,搜索 GLM-5.1,选择量化版本下载即可。推荐选UD-Q2_K_XL(动态 2-bit),平衡体积和精度。
llama.cpp 命令行运行:
先编译 llama.cpp(Mac 用户把-DGGML_CUDA=ON改成-DGGML_CUDA=OFF,Metal 加速默认开启):
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j \
--clean-first --target llama-cli llama-server
下载模型:
pip install -U huggingface_hub
hf download unsloth/GLM-5.1-GGUF \
--local-dir unsloth/GLM-5.1-GGUF \
--include "*UD-IQ2_M*"
运行(通用指令模式):
./llama.cpp/llama-cli \
-hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
--ctx-size 16384 \
--temp 0.7 \
--top-p 1.0
运行(工具调用模式):
./llama.cpp/llama-cli \
-hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
--ctx-size 16384 \
--temp 1.0 \
--top-p 0.95
部署为 OpenAI 兼容 API 服务:
./llama.cpp/llama-server \
--model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \
--alias "unsloth/GLM-5.1" \
--temp 1.0 \
--top-p 0.95 \
--ctx-size 16384 \
--port 8001
然后就可以用 OpenAI SDK 调用了:
from openai import OpenAIclient = OpenAI(
base_url="http://127.0.0.1:8001/v1",
api_key="sk-no-key-required",
)
completion = client.chat.completions.create(
model="unsloth/GLM-5.1",
messages=[{"role": "user", "content": "用 Python 写个贪吃蛇游戏"}],
)
print(completion.choices[0].message.content)
小贴士:
--ctx-size 16384是上下文长度,最大支持 202,752,按需调整--threads 32可以指定 CPU 线程数--n-gpu-layers 2控制 GPU 卸载层数,显存不够就调小默认开启思考模式,想关闭加
--chat-template-kwargs '{"enable_thinking":false}'
除了上面四种主流方式,还支持:
xLLM(v0.8.0+):支持华为昇腾 NPU,国产化部署的选择
Transformers(v0.5.3+):HuggingFace 原生推理
KTransformers(v0.5.3+):KV Cache 优化,适合长上下文场景
如果不想自己部署,直接用官方 API 也行。
cURL 调用:
curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-api-key" \
-d '{
"model": "glm-5.1",
"messages": [
{"role": "user", "content": "帮我写一段Python快速排序"}
],
"thinking": {"type": "enabled"},
"max_tokens": 4096,
"temperature": 1.0
}'
Python SDK 调用:
# 安装 SDK
# pip install zai-sdk
from zai import ZaiClientclient = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
model="glm-5.1",
messages=[
{"role": "user", "content": "帮我写一段 Python 快速排序"},
],
thinking={"type": "enabled"},
max_tokens=4096,
temperature=1.0,
)
print(response.choices[0].message)
兼容 OpenAI SDK(推荐!迁移成本为零):
from openai import OpenAIclient = OpenAI(
api_key="your-Z.AI-api-key",
base_url="https://api.z.ai/api/paas/v4/",
)
completion = client.chat.completions.create(
model="glm-5.1",
messages=[
{"role": "user", "content": "帮我写一段 Python 快速排序"},
],
)
print(completion.choices[0].message.content)
改个 base_url 和 api_key 就行,原来用 OpenAI SDK 的代码几乎不用动。
另外,GLM-5.1 也可以在 Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等主流编程 Agent 中使用。对 GLM Coding Plan 订阅用户,高峰时段(北京时间 14:00-18:00)消耗 3 倍额度,非高峰 2 倍;4 月底前非高峰按 1 倍计费,算是一个限时优惠。
和同类开源模型的横向对比
维度
GLM-5.1
Qwen3.6-Plus
Kimi K2.5
DeepSeek-V3.2
参数
744B(40B 激活)
未公开
未公开
未公开
开源协议
MIT
Apache 2.0
MIT
MIT
编程(SWE-Bench Pro)
58.4
56.6
53.8
数学(AIME 2026)
95.3
95.1
94.5
95.1
Agent(τ³-Bench)
70.6
70.7
66.0
69.2
工具调用(MCP-Atlas)
71.8
74.1
63.8
62.2
网络安全(CyberGym)
68.7
41.3
17.3
长时间任务
✅ 核心优势
未验证
未验证
未验证
本地部署门槛
高(2-bit 需 236GB)
相对低
中等
中等
GLM-5.1 的定位非常清晰:Agent 工程的旗舰模型。如果你需要一个能在 Claude Code 里跑几个小时自动修 bug 的模型,GLM-5.1 是当前开源最佳选择。
但如果你要的是日常对话、通用问答,Qwen3.6-Plus 目前体验更好、门槛更低。两者并不矛盾,场景不同选择不同。
总结
优点:
SWE-Bench Pro 58.4 分,开源模型第一,超越所有闭源模型
长时间自主任务的持久力是独一份的核心竞争力(600+ 轮迭代、8 小时持续开发)
MIT 开源协议,商用零负担
部署生态完善:vLLM、SGLang、Ollama、Unsloth、llama.cpp、KTransformers 全覆盖
兼容 OpenAI API 格式,迁移成本低
兼容 Claude Code、OpenCode 等主流编程 Agent
不足:
单次对话的表现和跑分之间有落差(至少在我的测试题上是这样)
纯推理能力(数学/科学)相比 GPT-5.4 和 Gemini 3.1 Pro 还有差距
本地部署门槛高,即使 2-bit 量化也需要 236GB 内存
和 GLM-5 相比,医疗/法律/数学领域反而有退步
适合谁:
需要长时间自动化编程任务的团队(CI/CD 自动修复、代码迁移、大规模重构)
在 Claude Code / OpenCode 等 Agent 框架中寻找开源替代品的开发者
有 H200/H100 集群的企业,想要私有化部署顶级编程模型
Mac Studio 256GB 用户可以试试 Unsloth 量化版
不太适合:
日常聊天和通用问答(Qwen3.6-Plus 体验更好)
只有 16GB/32GB 内存的轻量用户(模型太大了)
对数学/科学推理有极高要求的场景
官方链接汇总:
博客:https://z.ai/blog/glm-5.1
模型权重:https://huggingface.co/zai-org/GLM-5.1
API 文档:https://docs.z.ai/guides/llm/glm-5.1
vLLM 教程:https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md
SGLang 教程:https://cookbook.sglang.io/autoregressive/GLM/GLM-5.1
Unsloth 量化版:https://huggingface.co/unsloth/GLM-5.1-GGUF
技术报告:https://arxiv.org/abs/2602.15763
.1
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.