![]()
Hi,我是洛小山,你学习 AI 的搭子。
今天想和你聊聊 GLM-5。
不过我不打算从跑分开始聊。
我想先让你看看它做了什么,然后再聊它是什么。
01|我用 GLM-5 做了个工具
做这个工具的起因是 Pencil。
Pencil 是一个面向 Agent 的设计工具,AI 可以直接操作画布。
最近我越来越觉得… AI 的应用,更应该给 AI 用。
我平时经常画流程图和架构图,每次都手动拖来拖去。如果有个画布工具接了 MCP 协议,AI 就能直接帮我画。
想到就试。我用 GLM-5 做了 xsdraw。
基于 Excalidraw 的手绘风格画布,本地运行,接 MCP。
在 Cherry Studio 里对 AI 说一句话,它就能在画布上生成架构图、流程图、Mermaid 图表。
看看录屏:
第一次画错了,然后清屏,再画,再动嘴改色…
不但调度是GLM-5,连…这个项目,也是 GLM-5 写的。
一次生成的效果
![]()
这个 MCP 有 16 个工具,能覆盖大部分使用场景。
![]()
我让 GLM-5 从零到交付,花了大约 3 个小时。
你可能会想:不就是 AI 写代码吗?
不是的。
现在 AI 的 VibeCoding,已经不局限于一句话生成 XXX 了。
要让 AI 理解一个项目结构,设计架构、写 PRD、实现功能、调试协议、根据反馈扩展能力、交付完整文档…
这种超长程的 VibeCoding,或者才能拉开身位。
02|3 个小时发生了什么
推翻了 1 次架构,扩了 3 轮功能,然后 Debug 调整了 7 次。
最终,生成了这个应用,基于 excalidraw 实现,MIT 开源。
https://github.com/itshen/xsdraw
我挑几个节点讲一讲实现路径。
先理解项目,再写 PRD
我先让 Excalidraw 看一下整个仓库,然后把 API 捋出来。
它先出了项目分析,然后按我的要求约束写了 PRD。
![]()
![]()
先实现 API,再想办法做别的。
于是,基础架构搭好之后,画布上出了第一张图。
![]()
箭头不跟着节点走,它每次都在调整方案,第三次才改对。
能定位方向,但具体实现上试错偏多。
![]()
到这里,工具已经能通过 REST API 画图了。
此时,图穷匕见。
我要的不是 API 服务,我要的是 MCP 服务,能在 Cherry Studio 里直接用。
所以我让它改成 MCP 的版本。
![]()
GLM-5 参考了我之前做的 MCP 项目,在已有基础上改成 Streamable HTTP 协议。
它把工具从 4 个扩到 16 个,增删改查、自动布局、画布检查全补上了。
![]()
3 小时后交付:MCP 服务器、前端桥接、一键启动脚本、README、配置指南、16 个 MCP 工具。
03|怎么从跑分里看出一个模型的架构
跑分有一种读法是有价值的:不看绝对分数,看赢输的模式。
一个模型赢在哪、输在哪,暴露的是它的架构选型。
GLM-5 的基本信息:总参数 744B,激活 40B(这个比例意味着 MoE 架构),预训练数据 28.5T。
用了异步 RL 框架 Slime 和 DeepSeek Sparse Attention(DSA)。
先看 8 项横评,文化自信起来,都要对标御三家了。
![]()
前几天 Kimi 对标御三家,智谱也开始对标御三家了。
8 项里赢 2 平 2 ,略落后 4 项。
BrowseComp 75.9(Opus 67.8)、HLE w/ Tools 50.4(Opus 43.4)。这两项考的都是多步规划。
模型自己决定做什么、用什么工具、按什么顺序。
SWE-bench Verified 77.8(Opus 80.9),SWE-bench Multilingual 73.3(Opus 77.5),Terminal-Bench 56.2(Opus 59.3),Vending Bench $4,432(Opus $4,967)。
前两项考的是精确代码修改,后两项涉及复杂执行和长期运营。
赢在规划,输在执行精度和长期稳定性。
为什么会出现这个模式?三个技术选型决定的。
第一个:MoE 架构。
GLM-5 总共 744B 参数,但每次只激活 40B,剩下的参数分布在不同的「专家组」里。
模型遇到不同类型的子任务时,会自动选择激活对应的专家组来处理。
这对 Agent 工作流有天然优势。
一个 Agent 要做的事情类型很杂:分析需求、选择工具、读报错日志、定位 bug…
但 SWE-bench 要求模型精确找到出问题的那几行,做最小改动。
这种任务需要所有参数集中处理同一个上下文,这就意味需要一个专家看得足够深。然而 GLM-5 每次只激活 40B,Opus 大概率更多。
差的那 2-3 个点可能的根源在这里。
MoE 的取舍:切换能力强,穿透深度弱。
第二个:Slime 异步 RL。
Slime 是智谱自研的异步 RL 训练框架。官方描述是「substantially improves training throughput and efficiency, enabling more fine-grained post-training iterations」。
提高了 RL 训练的吞吐量和效率,让更精细的后训练迭代成为可能。
![]()
RL 训练在 Agent 场景里训练的是多步决策能力,记忆术说模型「读报错 → 猜原因 → 验证 → 修复 → 再验证」这种多步链条上做训练。
异步框架让这类长轨迹训练跑得更快,能做更多轮迭代。
迭代次数多了,模型在多步任务上的决策质量就上去了。
这直接解释了 BrowseComp 和 HLE w/ Tools 的表现,因为这两个测试的核心就是多步规划。
第三个:DeepSeek Sparse Attention(DSA)。
这个技术来自 DeepSeek-V3.2 的论文(arXiv: 2512.02556),GLM-5 把它集成了进来。
标准注意力机制的计算量和上下文长度是平方关系。
意味着内容长度翻一倍,计算量翻四倍。
128K 上下文的推理成本会非常高。
DSA 的做法是:用一个轻量的索引器(Lightning Indexer)给所有历史 token 打分,然后只挑出最相关的 2048 个 token 做完整的注意力计算,其余跳过。
计算复杂度从 O(L²) 降到 O(L·k),k 固定为 2048。
对 Coding Agent 来说,这解决了一个很实际的问题:长程开发会话产生大量的上下文。
没有 DSA 这类优化,要么砍掉早期对话(丢信息),要么全量计算(太慢太贵)。
DSA 让模型在长会话中既能够保持信息完整,又控制住计算成本。
三个选型叠在一起:MoE 管子任务切换,Slime RL 管多步决策,DSA 管长上下文。
这个就是持续多步的 Agent 任务的目标。
理解了这三层,再看后面的数据。
![]()
前端构建成功率 98.0%,Opus 93.0%。
换算一下:100 个前端任务,GLM-5 失败 2 个,Opus 失败 7 个。
前端有成熟的范式:组件结构、CSS 模式、状态管理都有标准方案。
模型要做的主要是「按已知模式生成新代码」。
MoE 的多专家切换在这类任务上效率高,RL 训练让模型更稳定地遵循流程,两个优势叠加。
后端正确率两家都在 26% 左右。
26%,这个数字才是全篇最值得关注的。
因为后端的核心挑战是约束不可见。
一个 API 设计可能逻辑清晰,但因为中间件的鉴权策略而报错。
模型生成的代码本身看不出问题,问题可能会出现在它没看到的地方。
模型需要同时理解当前代码和整个系统的状态,Opus 也只有 26%。
两家打平,说明 DSA 的长上下文能力在一定程度上补偿了 MoE 激活参数少的劣势。
虽然看不够深入,但能看得广度更深一些。
长周期任务分两项:大型仓库探索 GLM-5 65.6% 略微跑赢 Opus 64.5%;然后多步链式任务 52.3%,Opus 61.6%,差 9 个点。
仓库探索靠的是在海量文件里找信息,DSA 的长上下文策略就能生效了。
多步链式任务要求每一步的输出精确传递给下一步,误差会累积。这 9 个点就是 MoE 激活参数受限在另一个场景里的体现,我觉得也是目前开源和闭源之间最清晰的分界线。
回到开头的问题:跑分的赢输模式能看出什么?
GLM-5 的能力和短板,和这三个技术选型高度相关。
MoE 给了子任务切换的效率,代价是单点穿透力弱;
Slime RL 通过更高效的训练强化了多步决策能力;
DSA 给了长上下文的容量,让前面两个的优势能在长会话里持续发挥。
04|使用体感和成本
有一说一,我在 xsdraw 这个项目上的体感是:GLM-5 已经能 Hold 住这么大的工程了。
遵守流程约束,先看项目结构再动手,遇到问题看日志定位根因,架构推翻后做增量调整。3 小时的长程上下文保持良好。
我一般会用 Gemini 3 Pro 写前端,然后用 Claude 写业务逻辑。
现在,国产模型也有组合了。
K2.5 适合快速出原型、前端页面、视觉 demo。
GLM-5 适合多文件协同、长会话工程、需要持续调试的系统级任务。
工具箱里该放两把不同的锤子。
不过,可能是因为算力的问题,这个就是太慢了。
真的慢。每次响应等待时间明显比 Sonnet 长不少。
3 小时里至少 半个小时是在等它思考和生成上。
再说说价格。
用 AI 写代码,成本一直是个绕不过去的问题。
我的 Cursor 账单:Pro+ 套餐 $60/月,按量付费用到 $100/$150。
![]()
OpenRouter 的 Claude Code,最近一个月光 Claude 已经花了 1,500 块钱
![]()
GLM Coding Pro 多少钱? 149 。
![]()
兼容 Claude Code、OpenCode、Cursor…等主流编程工具。
我因为一瓶旺仔牛奶入坑,然后…
![]()
哦对了,智谱的套餐现在还卖不够,每天10:00还会售罄。
现在好像已经断货了。
我第一次看到模型断货的…
只能说庆幸早买了…
只是股票没上车…骂骂咧咧 QUQ
![]()
终|开源阵营的版本答案
Opus 4.6 发布的时候,Anthropic 展示的是多 Agent 并行协作,连续运行数小时,从零构建编译器级别的复杂系统。GPT-5.3 Codex 也一样。
写代码是单次对话的事,做工程是持续数天的事。
闭源模型已经在这个方向上跑了很远。开源模型呢?之前打的都是性价比。
GLM-5 是开源阵营第一个在「工程可交付性」上对齐顶尖闭源模型的选手。
全系 MIT 开源。本地部署、私有化运行、自由修改。
对需要数据隐私和成本控制的开发者来说,又有了一个真正能干活的开源选项。
这才是重点。
如果你也需要找一个能做系统级 Vibe Coding 的开源模型,可以试试。
关于我
我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。
我不追热点,只分享那些能真正改变我们工作模式的观察和工具。
如果你也在做 AI 产品,欢迎关注我,我们一起进化。
本文知识产权归洛小山所有。
未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.