GLM 5.1 开源了，Claude Opus 又被“碾压”了|调用|编程|sdk|key|glm|产品经理|python

分享至

先说结论

GLM-5.1 是智谱的新一代旗舰模型，744B 参数（40B 激活），MIT 开源协议，主打"长时间自主任务"。官方数据很漂亮：SWE-Bench Pro 拿了 58.4 分，超过了 Claude Opus 4.6（57.3）、GPT-5.4（57.7）和 Gemini 3.1 Pro（54.2），成为开源模型新标杆。

但我实测下来，感受和跑分之间有一道鸿沟。

先说好的，再说问题。

GLM-5.1 的核心卖点 1. 长时间自主任务，这是真正的亮点

过去的模型——包括 GLM-5——有个通病：开局猛如虎，跑着跑着就没招了。给再多时间也白搭，到了瓶颈就开始原地踏步。

GLM-5.1 最大的突破在于：运行时间越长，结果越好。

官方给了三个场景来证明这一点，我逐个解读：

场景一：向量数据库优化，600+ 轮迭代

VectorDBBench 是一个开源编程挑战，让模型用 Rust 构建高性能近似最近邻搜索数据库。之前最好的成绩是 Claude Opus 4.6 在 50 轮工具调用内达到的 3,547 QPS。

GLM-5.1 换了个玩法：不限制轮次，让模型自主决定什么时候提交新版本、下一步试什么。结果是经过 600+ 次迭代、6000+ 次工具调用，最终达到 21,500 QPS——是 50 轮限制下最佳成绩的6 倍。

优化过程呈现典型的阶梯式跃升：大约第 90 轮，模型从全表扫描切换到 IVF 聚簇探测 + f16 向量压缩，QPS 跳到 6.4k；大约第 240 轮，引入两阶段流水线（u8 预筛选 + f16 重排），QPS 跳到 13.4k。整个过程中出现了 6 次这样的结构性转变，每次都是模型分析自己的性能日志后主动发起的。

VectorDBBench 优化过程，600+ 轮迭代从 3.5k 到 21.5k QPS

场景二：GPU 核优化，1000+ 轮

KernelBench Level 3 包含 50 个问题，要求模型把 PyTorch 参考实现优化成更快的 GPU kernel。作为参考，torch.compile 默认设置能达到 1.15 倍加速，max-autotune 能达到 1.49 倍。

GLM-5.1 最终达到了3.6 倍加速，并且在实验后期还在持续进步。Claude Opus 4.6 在这个任务上更强，达到 4.2 倍，但 GLM-5.1 比 GLM-5 有质的飞跃——GLM-5 早早就见顶了。

场景三：8 小时构建 Linux 桌面环境

这个最夸张。给模型一个提示词：用网页技术构建一个 Linux 风格桌面环境。没有模板代码，没有设计稿，没有中间指导。

大多数模型——包括早期版本的 GLM——很快就放弃了：搞个静态任务栏加一两个占位窗口，就宣布完成了。

GLM-5.1 套了一个简单的外循环：每轮执行完后，模型审视自己的输出，找出可以改进的地方——缺少的功能、粗糙的样式、有 bug 的交互——然后继续。这个循环跑了 8 个小时。

最终成果是一个完整的、视觉一致的浏览器端桌面环境：文件浏览器、终端、文本编辑器、系统监控器、计算器、游戏……每个新增功能都集成在统一的 UI 中，样式越来越精致，交互越来越流畅。

这才是 GLM-5.1 真正让我眼前一亮的地方——不是单次对话有多强，而是持续工作有多持久。

2. SWE-Bench Pro 开源第一

来看看官方测评数据：

GLM-5.1 完整 Benchmark 对比表

重点数据拎出来看：

Benchmark

GLM-5.1

GLM-5

Qwen3.6-Plus

Claude Opus 4.6

GPT-5.4

SWE-Bench Pro

58.4

55.1

56.6

57.3

57.7

NL2Repo

42.7

35.9

37.9

49.8

41.3

Terminal-Bench 2.0

63.5

56.2

61.6

65.4

CyberGym

68.7

48.3

66.6

BrowseComp

68.0

62.0

HLE

31.0

30.5

28.8

36.7

39.8

AIME 2026

95.3

95.4

95.1

95.6

98.7

GPQA-Diamond

86.2

86.0

90.4

91.3

92.0

几个关键发现：

编程（SWE-Bench Pro）确实是开源第一，58.4 的成绩超越了所有闭源模型，MIT 协议开源，这个含金量很高
CyberGym 网络安全任务表现惊艳，68.7 超过 Opus 4.6 的 66.6，从 GLM-5 的 48.3 到 5.1 的 68.7，提升了 42%
BrowseComp 浏览器任务也是开源最强，68.0 vs GLM-5 的 62.0
数学推理并没有显著提升，AIME 2026 几乎和 GLM-5 持平（95.3 vs 95.4），和 GPT-5.4 的 98.7 还有差距
NL2Repo 仓库生成还是 Opus 4.6 最强，49.8 vs GLM-5.1 的 42.7

一句话总结：GLM-5.1 在编程和 Agent 任务上确实达到了顶级水准，但在纯推理（数学、科学）方面依然不是最强的。

SWE-Bench Pro 对比柱状图开源 vs 闭源差距正在缩小 3. 第三方竞技场评测

除了官方跑分，第三方竞技场的表现也很抢眼：

Design Arena（设计竞技场）：

GLM 5 Turbo 和 GLM-5.1 分别拿到第 2 和第 4 名，Elo 评分 1355 和 1352。开源模型里前 4 名全是 GLM 家族的，和 Anthropic 的 Opus 4.6、Sonnet 4.6 在同一档位。

Design Arena 排名

Text Arena（文本竞技场）：

GLM-5.1 是当前开源模型第一名，超越 GLM-5 +11 分，超越 Kimi K2.5 Thinking +15 分。

具体强项：

长文本查询：开源第一（总排第四）
生命科学/物理/社会科学：开源第一（总排第五）
娱乐/体育/媒体：开源第一（总排第八）
编程：开源第一（总排第十）

Text Arena 排名

对比三代 GLM 模型（4.7 → 5 → 5.1），GLM-5.1 相比 GLM-5 的最大进步：

编程 +28 名
长文本查询 +23 名
软件/IT 服务 +22 名
娱乐/体育/媒体 +17 名

但有意思的是，GLM-5 在某些领域反而比 5.1 更强：

医疗健康 +24 名
法律/政务 +6 名
数学 +2 名

三代 GLM 模型能力对比

这说明 GLM-5.1 是一次"有取舍的升级"，重点强化了编程和 Agent 能力，在其他一些通用任务上做了让步。

个人实测：跑分归跑分，实际归实际

说完漂亮的数据，来说说我自己的真实感受。

我拿最常用的测试题来试：阅读理解 + SVG 代码生成 + 审美。

先测了 GLM-5（发稿时官网还没有 5.1），结果让我失望——连"4 次背影"这个阅读理解都没搞对：

GLM-5 没有理解到 4 次背影

GLM 5 Turbo 好一点，理解力上去了，但代码写得差点意思，排版也很差：

GLM 5 Turbo 的代码生成排版很粗糙

怎么连 Claude Sonnet 3.7 都比不过呢？注意⚠️是 Sonnet，是 3.7！

然后 Ollama 倒是放出了 5.1 的云端版本，可以免费使用：

Ollama 支持 GLM-5.1 云端调用

测了一下，也很失望。

最起码的阅读理解都没做好，懒得预览了：

GLM-5.1 通过 Ollama 的测试结果，阅读理解不达标GLM-5.1 SVG 代码生成效果

目前实际体感，GLM-5.1 在我这个测试上不如 Qwen3.6-Plus：

Qwen3.6-Plus 的 SVG 生成效果明显更好

更何况 Qwen3.6-Plus 还能在 OpenCode 中免费调用，加上 Skills 加持，体验好太多：

OpenCode 中免费调用 Qwen3.6-Plus + Skills 加持

我的理解是：GLM-5.1 的长处在于长时间、多轮次的 Agent 任务（SWE-Bench 那种需要反复读代码、改代码、跑测试的场景），在单次对话的"快速生成"能力上，目前表现确实没有跑分那么惊艳。

模型架构与参数

简单过一下参数：

参数规模：744B 总参数，40B 激活参数（MoE 架构）
上下文窗口：200K token
开源协议：MIT（商用友好）
模型格式：BF16 全精度 + FP8 量化版
权重下载：HuggingFace / ModelScope

GLM-5.1 和 GLM-5 同架构（和 DeepSeek V3.2 也是同结构），主要的改进体现在训练数据和训练策略上，特别是强化了工具调用、推理历史重建和工具消息渲染。

本地部署全攻略

这是大家最关心的部分。GLM-5.1 的 744B 参数，全精度需要1.65TB磁盘空间，所以本地部署基本上只能用量化版本或者 FP8。下面按不同场景分别介绍。

方案一：vLLM 部署（推荐，生产环境）

vLLM 0.19.0+ 已经支持 GLM-5.1。

vLLM 部署 GLM-5.1

Docker 一键启动（最省事）：

docker run --gpus all \
  -p 8000:8000 \
  --ipc=host \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:glm51 zai-org/GLM-5.1-FP8 \
    --tensor-parallel-size 8 \
    --tool-call-parser glm47 \
    --reasoning-parser glm45 \
    --enable-auto-tool-choice \
    --served-model-name glm-5.1-fp8

CUDA 13 以上的用vllm/vllm-openai:glm51-cu130镜像。

从源码安装：

uv venv
source .venv/bin/activate
uv pip install "vllm==0.19.0" --torch-backend=auto
uv pip install "transformers>=5.4.0"

注意：FP8 模型需要额外安装 DeepGEMM。

FP8 模型在 8×H200（或 H20）上运行：

vllm serve zai-org/GLM-5.1-FP8 \
     --tensor-parallel-size 8 \
     --speculative-config.method mtp \
     --speculative-config.num_speculative_tokens 3 \
     --tool-call-parser glm47 \
     --reasoning-parser glm45 \
     --enable-auto-tool-choice \
     --served-model-name glm-5.1-fp8

几个注意点：

思考模式默认开启，不需要额外参数。想关闭的话加"chat_template_kwargs": {"enable_thinking": false}
支持 OpenAI 格式的工具调用
支持投机解码（MTP），实测输出吞吐量可达 526 tok/s（8k/1k，8×H200）

Python 客户端调用：

from openai import OpenAI

 client = OpenAI(
    api_key="EMPTY",
    base_url="http://localhost:8000/v1",
)

 # 思考模式（默认开启）
resp = client.chat.completions.create(
    model="glm-5.1-fp8",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "用 Python 实现快速排序"},
    ],
    temperature=1,
    max_tokens=4096,
)
print("思考过程：", resp.choices[0].message.reasoning)
print("回答：", resp.choices[0].message.content)

方案二：SGLang 部署（高并发场景）

SGLang 0.5.10+ 支持 GLM-5.1。支持的硬件非常广泛：NVIDIA H100、H200、B200、GB300，还有 AMD MI300X/MI325X/MI355X。

SGLang 部署 GLM-5.1

FP8 + H200 + 全功能启动：

SGLANG_ENABLE_SPEC_V2=1 sglang serve \
  --model-path zai-org/GLM-5.1-FP8 \
  --tp 8 \
  --reasoning-parser glm45 \
  --tool-call-parser glm47 \
  --speculative-algorithm EAGLE \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --mem-fraction-static 0.85

不同硬件的 TP（Tensor Parallel）配置：

硬件

FP8

BF16

H100

tp=16

tp=32

H200

tp=8

tp=16

B200

tp=8

tp=16

GB300

tp=4

MI300X/MI325X

tp=8

MI355X

tp=8

注意：BF16 全精度需要的 GPU 数量是 FP8 的2 倍。如果你有 8 张 H200，FP8 刚好够用；全精度需要 16 张。

SGLang 还有几个独特优势：

DP Attention：高并发下用数据并行注意力，吞吐量更高（低并发场景关掉，会影响延迟）
投机解码（EAGLE）：显著降低交互延迟
GLM-5.1 和 DeepSeek V3.2 同架构，SGLang 对两者的优化技术是通用的（MTP、DSA kernel、Context Parallel 等）

方案三：Ollama 云端（最简单，免费）

一行命令搞定：

ollama run glm-5.1:cloud

Ollama 运行 GLM-5.1

这是最低门槛的体验方式，不需要本地 GPU。但正如我前面实测的，效果嘛……老实说有点拉胯。

方案四：Unsloth 量化版（消费级硬件的希望）

Unsloth 提供了各种精度的 GGUF 量化版本，这才是普通人本地跑的正确姿势。

Unsloth 提供的 GLM-5.1 量化方案

模型文件：unsloth/GLM-5.1-GGUF

各精度模型大小对比：

不同量化精度的模型文件大小

关键数据：

Dynamic 2-bit（UD-IQ2_M）：约 236GB → 可以在256GB 统一内存的 Mac上跑，也可以在 1×24GB GPU + 256GB 内存上跑（MoE 卸载）
Dynamic 1-bit：约 200GB → 可以塞进 220GB 内存
8-bit：需要 805GB 内存
完整模型（BF16）：1.65TB

Unsloth 用的是 Dynamic 2.0 量化技术——重要层会自动升到 8-bit 或 16-bit，低位量化掉精度损失的地方集中在不太重要的层上，整体效果比均匀量化好不少。

Unsloth Studio 一键运行（推荐新手）：

Mac/Linux 安装：

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

启动 Studio：

unsloth studio -H 0.0.0.0 -p 8888

然后浏览器打开http://localhost:8888，搜索 GLM-5.1，选择量化版本下载即可。推荐选UD-Q2_K_XL（动态 2-bit），平衡体积和精度。

llama.cpp 命令行运行：

先编译 llama.cpp（Mac 用户把-DGGML_CUDA=ON改成-DGGML_CUDA=OFF，Metal 加速默认开启）：

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j \
    --clean-first --target llama-cli llama-server

下载模型：

pip install -U huggingface_hub
hf download unsloth/GLM-5.1-GGUF \
    --local-dir unsloth/GLM-5.1-GGUF \
    --include "*UD-IQ2_M*"

运行（通用指令模式）：

./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 1.0

运行（工具调用模式）：

./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95

部署为 OpenAI 兼容 API 服务：

./llama.cpp/llama-server \
    --model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \
    --alias "unsloth/GLM-5.1" \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001

然后就可以用 OpenAI SDK 调用了：

from openai import OpenAI


 client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)
completion = client.chat.completions.create(
    model="unsloth/GLM-5.1",
    messages=[{"role": "user", "content": "用 Python 写个贪吃蛇游戏"}],
)
print(completion.choices[0].message.content)

小贴士：

--ctx-size 16384是上下文长度，最大支持 202,752，按需调整
--threads 32可以指定 CPU 线程数
--n-gpu-layers 2控制 GPU 卸载层数，显存不够就调小
默认开启思考模式，想关闭加--chat-template-kwargs '{"enable_thinking":false}'

其他部署方案

除了上面四种主流方式，还支持：

xLLM（v0.8.0+）：支持华为昇腾 NPU，国产化部署的选择
Transformers（v0.5.3+）：HuggingFace 原生推理
KTransformers（v0.5.3+）：KV Cache 优化，适合长上下文场景

API 调用

如果不想自己部署，直接用官方 API 也行。

cURL 调用：

curl -X POST "https://api.z.ai/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
    "model": "glm-5.1",
    "messages": [
        {"role": "user", "content": "帮我写一段Python快速排序"}
    ],
    "thinking": {"type": "enabled"},
    "max_tokens": 4096,
    "temperature": 1.0
}'

Python SDK 调用：

# 安装 SDK
# pip install zai-sdk

 from zai import ZaiClient

 client = ZaiClient(api_key="your-api-key")
response = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {"role": "user", "content": "帮我写一段 Python 快速排序"},
    ],
    thinking={"type": "enabled"},
    max_tokens=4096,
    temperature=1.0,
)
print(response.choices[0].message)

兼容 OpenAI SDK（推荐！迁移成本为零）：

from openai import OpenAI


 client = OpenAI(
    api_key="your-Z.AI-api-key",
    base_url="https://api.z.ai/api/paas/v4/",
)
completion = client.chat.completions.create(
    model="glm-5.1",
    messages=[
        {"role": "user", "content": "帮我写一段 Python 快速排序"},
    ],
)
print(completion.choices[0].message.content)

改个 base_url 和 api_key 就行，原来用 OpenAI SDK 的代码几乎不用动。

另外，GLM-5.1 也可以在 Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid 等主流编程 Agent 中使用。对 GLM Coding Plan 订阅用户，高峰时段（北京时间 14:00-18:00）消耗 3 倍额度，非高峰 2 倍；4 月底前非高峰按 1 倍计费，算是一个限时优惠。

和同类开源模型的横向对比

维度

GLM-5.1

Qwen3.6-Plus

Kimi K2.5

DeepSeek-V3.2

参数

744B（40B 激活）

未公开

开源协议

MIT

Apache 2.0

MIT

编程（SWE-Bench Pro）

58.4

56.6

53.8

数学（AIME 2026）

95.3

95.1

94.5

95.1

Agent（τ³-Bench）

70.6

70.7

66.0

69.2

工具调用（MCP-Atlas）

71.8

74.1

63.8

62.2

网络安全（CyberGym）

68.7

41.3

17.3

长时间任务

✅ 核心优势

未验证

本地部署门槛

高（2-bit 需 236GB）

相对低

中等

GLM-5.1 的定位非常清晰：Agent 工程的旗舰模型。如果你需要一个能在 Claude Code 里跑几个小时自动修 bug 的模型，GLM-5.1 是当前开源最佳选择。

但如果你要的是日常对话、通用问答，Qwen3.6-Plus 目前体验更好、门槛更低。两者并不矛盾，场景不同选择不同。

总结

优点：

SWE-Bench Pro 58.4 分，开源模型第一，超越所有闭源模型
长时间自主任务的持久力是独一份的核心竞争力（600+ 轮迭代、8 小时持续开发）
MIT 开源协议，商用零负担
部署生态完善：vLLM、SGLang、Ollama、Unsloth、llama.cpp、KTransformers 全覆盖
兼容 OpenAI API 格式，迁移成本低
兼容 Claude Code、OpenCode 等主流编程 Agent

不足：

单次对话的表现和跑分之间有落差（至少在我的测试题上是这样）
纯推理能力（数学/科学）相比 GPT-5.4 和 Gemini 3.1 Pro 还有差距
本地部署门槛高，即使 2-bit 量化也需要 236GB 内存
和 GLM-5 相比，医疗/法律/数学领域反而有退步

适合谁：

需要长时间自动化编程任务的团队（CI/CD 自动修复、代码迁移、大规模重构）
在 Claude Code / OpenCode 等 Agent 框架中寻找开源替代品的开发者
有 H200/H100 集群的企业，想要私有化部署顶级编程模型
Mac Studio 256GB 用户可以试试 Unsloth 量化版

不太适合：

日常聊天和通用问答（Qwen3.6-Plus 体验更好）
只有 16GB/32GB 内存的轻量用户（模型太大了）
对数学/科学推理有极高要求的场景

官方链接汇总：

博客：https://z.ai/blog/glm-5.1
模型权重：https://huggingface.co/zai-org/GLM-5.1
API 文档：https://docs.z.ai/guides/llm/glm-5.1
vLLM 教程：https://github.com/vllm-project/recipes/blob/main/GLM/GLM5.md
SGLang 教程：https://cookbook.sglang.io/autoregressive/GLM/GLM-5.1
Unsloth 量化版：https://huggingface.co/unsloth/GLM-5.1-GGUF
技术报告：https://arxiv.org/abs/2602.15763

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.