我用 GLM-5 写了一个完整的工具，然后我想聊聊长程 Vibe Coding|代码|上下文|glm|正式版模型

我用 GLM-5 写了一个完整的工具，然后我想聊聊长程 Vibe Coding

2026-02-12 23:42:10　来源: 洛小山

广东举报

分享至

Hi，我是洛小山，你学习 AI 的搭子。

今天想和你聊聊 GLM-5。

不过我不打算从跑分开始聊。

我想先让你看看它做了什么，然后再聊它是什么。

01｜我用 GLM-5 做了个工具

做这个工具的起因是 Pencil。

Pencil 是一个面向 Agent 的设计工具，AI 可以直接操作画布。

最近我越来越觉得… AI 的应用，更应该给 AI 用。

我平时经常画流程图和架构图，每次都手动拖来拖去。如果有个画布工具接了 MCP 协议，AI 就能直接帮我画。

想到就试。我用 GLM-5 做了 xsdraw。

基于 Excalidraw 的手绘风格画布，本地运行，接 MCP。

在 Cherry Studio 里对 AI 说一句话，它就能在画布上生成架构图、流程图、Mermaid 图表。

看看录屏：

第一次画错了，然后清屏，再画，再动嘴改色…

不但调度是GLM-5，连…这个项目，也是 GLM-5 写的。

一次生成的效果

这个 MCP 有 16 个工具，能覆盖大部分使用场景。

我让 GLM-5 从零到交付，花了大约 3 个小时。

你可能会想：不就是 AI 写代码吗？

不是的。

现在 AI 的 VibeCoding，已经不局限于一句话生成 XXX 了。

要让 AI 理解一个项目结构，设计架构、写 PRD、实现功能、调试协议、根据反馈扩展能力、交付完整文档…

这种超长程的 VibeCoding，或者才能拉开身位。

02｜3 个小时发生了什么

推翻了 1 次架构，扩了 3 轮功能，然后 Debug 调整了 7 次。

最终，生成了这个应用，基于 excalidraw 实现，MIT 开源。

https://github.com/itshen/xsdraw

我挑几个节点讲一讲实现路径。

先理解项目，再写 PRD

我先让 Excalidraw 看一下整个仓库，然后把 API 捋出来。

它先出了项目分析，然后按我的要求约束写了 PRD。

先实现 API，再想办法做别的。

于是，基础架构搭好之后，画布上出了第一张图。

箭头不跟着节点走，它每次都在调整方案，第三次才改对。

能定位方向，但具体实现上试错偏多。

到这里，工具已经能通过 REST API 画图了。

此时，图穷匕见。

我要的不是 API 服务，我要的是 MCP 服务，能在 Cherry Studio 里直接用。

所以我让它改成 MCP 的版本。

GLM-5 参考了我之前做的 MCP 项目，在已有基础上改成 Streamable HTTP 协议。

它把工具从 4 个扩到 16 个，增删改查、自动布局、画布检查全补上了。

3 小时后交付：MCP 服务器、前端桥接、一键启动脚本、README、配置指南、16 个 MCP 工具。

03｜怎么从跑分里看出一个模型的架构

跑分有一种读法是有价值的：不看绝对分数，看赢输的模式。

一个模型赢在哪、输在哪，暴露的是它的架构选型。

GLM-5 的基本信息：总参数 744B，激活 40B（这个比例意味着 MoE 架构），预训练数据 28.5T。

用了异步 RL 框架 Slime 和 DeepSeek Sparse Attention（DSA）。

先看 8 项横评，文化自信起来，都要对标御三家了。

前几天 Kimi 对标御三家，智谱也开始对标御三家了。

8 项里赢 2 平 2 ，略落后 4 项。

BrowseComp 75.9（Opus 67.8）、HLE w/ Tools 50.4（Opus 43.4）。这两项考的都是多步规划。

模型自己决定做什么、用什么工具、按什么顺序。

SWE-bench Verified 77.8（Opus 80.9），SWE-bench Multilingual 73.3（Opus 77.5），Terminal-Bench 56.2（Opus 59.3），Vending Bench $4,432（Opus $4,967）。

前两项考的是精确代码修改，后两项涉及复杂执行和长期运营。

赢在规划，输在执行精度和长期稳定性。

为什么会出现这个模式？三个技术选型决定的。

第一个：MoE 架构。

GLM-5 总共 744B 参数，但每次只激活 40B，剩下的参数分布在不同的「专家组」里。

模型遇到不同类型的子任务时，会自动选择激活对应的专家组来处理。

这对 Agent 工作流有天然优势。

一个 Agent 要做的事情类型很杂：分析需求、选择工具、读报错日志、定位 bug…

但 SWE-bench 要求模型精确找到出问题的那几行，做最小改动。

这种任务需要所有参数集中处理同一个上下文，这就意味需要一个专家看得足够深。然而 GLM-5 每次只激活 40B，Opus 大概率更多。

差的那 2-3 个点可能的根源在这里。

MoE 的取舍：切换能力强，穿透深度弱。

第二个：Slime 异步 RL。

Slime 是智谱自研的异步 RL 训练框架。官方描述是「substantially improves training throughput and efficiency, enabling more fine-grained post-training iterations」。

提高了 RL 训练的吞吐量和效率，让更精细的后训练迭代成为可能。

RL 训练在 Agent 场景里训练的是多步决策能力，记忆术说模型「读报错 → 猜原因 → 验证 → 修复 → 再验证」这种多步链条上做训练。

异步框架让这类长轨迹训练跑得更快，能做更多轮迭代。

迭代次数多了，模型在多步任务上的决策质量就上去了。

这直接解释了 BrowseComp 和 HLE w/ Tools 的表现，因为这两个测试的核心就是多步规划。

第三个：DeepSeek Sparse Attention（DSA）。

这个技术来自 DeepSeek-V3.2 的论文（arXiv: 2512.02556），GLM-5 把它集成了进来。

标准注意力机制的计算量和上下文长度是平方关系。

意味着内容长度翻一倍，计算量翻四倍。

128K 上下文的推理成本会非常高。

DSA 的做法是：用一个轻量的索引器（Lightning Indexer）给所有历史 token 打分，然后只挑出最相关的 2048 个 token 做完整的注意力计算，其余跳过。

计算复杂度从 O(L²) 降到 O(L·k)，k 固定为 2048。

对 Coding Agent 来说，这解决了一个很实际的问题：长程开发会话产生大量的上下文。

没有 DSA 这类优化，要么砍掉早期对话（丢信息），要么全量计算（太慢太贵）。

DSA 让模型在长会话中既能够保持信息完整，又控制住计算成本。

三个选型叠在一起：MoE 管子任务切换，Slime RL 管多步决策，DSA 管长上下文。

这个就是持续多步的 Agent 任务的目标。

理解了这三层，再看后面的数据。

前端构建成功率 98.0%，Opus 93.0%。

换算一下：100 个前端任务，GLM-5 失败 2 个，Opus 失败 7 个。

前端有成熟的范式：组件结构、CSS 模式、状态管理都有标准方案。

模型要做的主要是「按已知模式生成新代码」。

MoE 的多专家切换在这类任务上效率高，RL 训练让模型更稳定地遵循流程，两个优势叠加。

后端正确率两家都在 26% 左右。

26%，这个数字才是全篇最值得关注的。

因为后端的核心挑战是约束不可见。

一个 API 设计可能逻辑清晰，但因为中间件的鉴权策略而报错。

模型生成的代码本身看不出问题，问题可能会出现在它没看到的地方。

模型需要同时理解当前代码和整个系统的状态，Opus 也只有 26%。

两家打平，说明 DSA 的长上下文能力在一定程度上补偿了 MoE 激活参数少的劣势。

虽然看不够深入，但能看得广度更深一些。

长周期任务分两项：大型仓库探索 GLM-5 65.6% 略微跑赢 Opus 64.5%；然后多步链式任务 52.3%，Opus 61.6%，差 9 个点。

仓库探索靠的是在海量文件里找信息，DSA 的长上下文策略就能生效了。

多步链式任务要求每一步的输出精确传递给下一步，误差会累积。这 9 个点就是 MoE 激活参数受限在另一个场景里的体现，我觉得也是目前开源和闭源之间最清晰的分界线。

回到开头的问题：跑分的赢输模式能看出什么？

GLM-5 的能力和短板，和这三个技术选型高度相关。

MoE 给了子任务切换的效率，代价是单点穿透力弱；

Slime RL 通过更高效的训练强化了多步决策能力；

DSA 给了长上下文的容量，让前面两个的优势能在长会话里持续发挥。

04｜使用体感和成本

有一说一，我在 xsdraw 这个项目上的体感是：GLM-5 已经能 Hold 住这么大的工程了。

遵守流程约束，先看项目结构再动手，遇到问题看日志定位根因，架构推翻后做增量调整。3 小时的长程上下文保持良好。

我一般会用 Gemini 3 Pro 写前端，然后用 Claude 写业务逻辑。

现在，国产模型也有组合了。

K2.5 适合快速出原型、前端页面、视觉 demo。

GLM-5 适合多文件协同、长会话工程、需要持续调试的系统级任务。

工具箱里该放两把不同的锤子。

不过，可能是因为算力的问题，这个就是太慢了。

真的慢。每次响应等待时间明显比 Sonnet 长不少。

3 小时里至少半个小时是在等它思考和生成上。

再说说价格。

用 AI 写代码，成本一直是个绕不过去的问题。

我的 Cursor 账单：Pro+ 套餐 $60/月，按量付费用到 $100/$150。

OpenRouter 的 Claude Code，最近一个月光 Claude 已经花了 1,500 块钱

GLM Coding Pro 多少钱？ 149 。

兼容 Claude Code、OpenCode、Cursor…等主流编程工具。

我因为一瓶旺仔牛奶入坑，然后…

哦对了，智谱的套餐现在还卖不够，每天10:00还会售罄。

现在好像已经断货了。

我第一次看到模型断货的…

只能说庆幸早买了…

只是股票没上车…骂骂咧咧 QUQ

终｜开源阵营的版本答案

Opus 4.6 发布的时候，Anthropic 展示的是多 Agent 并行协作，连续运行数小时，从零构建编译器级别的复杂系统。GPT-5.3 Codex 也一样。

写代码是单次对话的事，做工程是持续数天的事。

闭源模型已经在这个方向上跑了很远。开源模型呢？之前打的都是性价比。

GLM-5 是开源阵营第一个在「工程可交付性」上对齐顶尖闭源模型的选手。

全系 MIT 开源。本地部署、私有化运行、自由修改。

对需要数据隐私和成本控制的开发者来说，又有了一个真正能干活的开源选项。

这才是重点。

如果你也需要找一个能做系统级 Vibe Coding 的开源模型，可以试试。

关于我

我是洛小山，一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点，只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品，欢迎关注我，我们一起进化。

本文知识产权归洛小山所有。

未经授权，禁止抓取本文内容，用于模型训练以及二次创作等用途。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

我用 GLM-5 写了一个完整的工具，然后我想聊聊长程 Vibe Coding

DeepSeek发布多模态论文又连夜删除

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

美国也搞起"人肉代购" "去墨西哥买中国车"教程疯传

无奈！约基奇：这要在塞尔维亚 全队早被炒了

马筱梅产后身材恢复超好 现身户外直播

GPU神话松动，AI真正的战场变了

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

曝iPhone18Pro相机史诗级升级，这次你期待吗？

高考作文遇见反躺平：提倡奋斗，反对躺平

这个夏天，彩色裤子又火了！

干细胞治烧烫伤面临这些“瓶颈”

伊朗：持续推进海上封锁的行为不可容忍

无奈！约基奇：这要在塞尔维亚全队早被炒了

马筱梅产后身材恢复超好现身户外直播

限时9.67万起吉利星越L/星瑞i-HEV智擎混动上市