从GLM-4.5到GLM-5，我见证了一个模型从码农晋升为架构师|调用|编程|程序员|glm|工作流|编译器|正式版模型

分享至

上周发了一篇关于OpenRouter上神秘模型Pony的文章，还给大家留了个抢红包的竞猜问题：Pony到底是谁？

现在答案终于揭晓了，那就是智谱的GLM-5。

「Pony」是小马，2026农历马年，生肖彩蛋。智谱以匿名方式把GLM-5放到OpenRouter上做了一次公测。

这事还挺有意思的。一个没署名的模型，首日跑了400亿token、20.6万次请求。绝大多数用它的开发者都觉得「这水平不像GLM-4.7，太像Opus了」。

但Pony是谁，不是这篇文章的重点。

重点是我用它做了什么、感受到了什么。以及，这件事放在行业大背景下意味着什么。

节前国内AI公司是真卷。2月6号智谱匿名放出Pony Alpha，2月7号字节就发了Seedance 2.0，AI视频生成直接拉到了全球第一梯队。一个卷编程，一个卷视频，前后脚发布。我这觉得我写不过来了...

我从GLM-4.5开始，每一代都写了评测文章。

每次写完都觉得「开源模型又进了一步」。但这次GLM-5给我的感受完全不一样。不是进了一步，是换了个身份。

以前GLM系列在我的工作流里是「执行者」——Opus当大脑做规划，GLM做具体的编码工作。便宜、听话、够用。

GLM-5让我第一次觉得：它也能当大脑了。

Vibe Coding过时了？

写GLM-5之前，得先聊一个刚发生的事。

2月8号，Karpathy发了个帖子。就是那个提出「Vibe Coding」概念的人——去年这个词火得一塌糊涂，基本成了AI编程的代名词。对着AI说一句话，代码就出来了，不用管细节，跟着感觉走。

但他自己说，Vibe Coding正在过时。取而代之的是一个新概念：Agentic Engineering。

什么意思？

Vibe Coding是你告诉AI「帮我写这个功能」，AI写完你看看行不行。本质上还是人在驱动，AI在执行。

Agentic Engineering不一样。你给AI一个目标，它自己拆任务、自己规划步骤、自己写代码、自己测试、遇到bug自己修、遇到方向不对自己调整。可能跑几小时甚至几天。人类变成了架构师和监督者，AI变成了真正干活的工程团队。

这不是Karpathy一个人的判断。看看最近两周发生了什么：

Anthropic发布Opus 4.6的时候，官方案例是什么？16个Claude实例并行工作两周，写了10万行Rust代码的C编译器，能编译Linux内核。花了2万美元。

OpenAI发布GPT-5.3 Codex的时候，强调的是什么？AI参与了自己的训练过程。不是写个贪吃蛇，是调试训练流程、管理部署、诊断测试结果。

两家都不再说「一句话生成网页」了。都在说Agent、长任务、系统工程。

Anthropic甚至在1月21号发了一份「2026 Agentic Coding趋势报告」，总结了8大趋势。其中一个发现挺扎心的：AI出现在60%的开发工作中，但开发者能完全委托给AI的任务只有0-20%。

差距就在于「系统工程能力」——不是写单个函数的能力，而是理解整个系统、规划架构、处理模块间依赖、在出错时自我纠正的能力。

说白了，AI编程正在分成两条路：

一条是「审美编程」，以Gemini 3.0 Pro为代表。截图转代码、一句话出漂亮页面、视觉驱动。它做出来的前端确实好看，这没什么好否认的。

另一条是「系统工程」，以Opus和Codex为代表。后端架构、编译器、微服务、长时间运行的Agent任务。不好看，但能用。

这两条路都有价值。但行业重心正在从前者转向后者。

在这个背景下，GLM-5选了后者。

快速回顾：GLM怎么一步步走到这的

给没看过之前文章的读者补个课。

GLM-4.5（2025年7月）：智谱的第一个真正能打的开源模型。当时我的评价是「能用的开源平替」。编程能力和Sonnet有差距，但日常任务够用，关键是便宜。

GLM-4.6（2025年10月）：提升了不少，上下文窗口从128K扩到200K。我写过一篇「Claude Code账号被封？试试GLM-4.6完美平替」，当时确实帮很多人解决了问题。

GLM-4.7（2025年12月）：这代变化挺大。SWE-bench Verified达到73.8%，直逼一线。我测了5个案例，感受是审美、Coding和Agentic能力都达到了Claude Sonnet 4.5无差的水平。当时我的结论是「开源模型的新标杆」。

每次写完评测我都觉得「应该到顶了吧」。然后下一代又让我改口。

但从4.5到4.7，质的变化不大。每代都是在同一个维度上做增量——代码写得更好、bug更少、审美更好看。像一个程序员从初级升到高级，活干得越来越漂亮，但还是在执行层面。

GLM-5不一样。

GLM-5：换了个身份

先看规格。

744B参数，MoE（混合专家）架构，每次推理激活40B参数。相比GLM-4.7（355B/激活32B），规模翻了一倍，预训练数据从23T增加到28.5T。

再看成绩。

在Artificial Analysis综合榜单上，GLM-5排名全球第四、开源第一。

编程能力：SWE-bench Verified拿了77.8%（Opus 4.5是80.9%，差3个百分点），Terminal-Bench 2.0拿了56.2%（Opus 4.5是59.3%，差距也不大）。这两个榜都是开源最高。

但更让我意外的是Agent能力。8个榜单里，GLM-5有两个拿了全场第一——不是开源第一，是包括Opus、Gemini、GPT在内的所有模型里的第一：BrowseComp（联网检索与信息理解）75.9分，比Opus 4.5的67.8高出一截；Humanity's Last Exam带工具调用版本50.4分，同样是全场最高。

MCP-Atlas（工具调用与多步骤任务）、τ²-Bench（复杂多工具场景）也都是开源第一，和闭源模型几乎打平。

还有个挺有意思的Vending Bench 2——让模型经营一年虚拟自动售货机生意。GLM-5最终账户余额4432美元，超过了GPT-5.2的3591美元，和Opus 4.5的4967美元差距不大。

但benchmark说到底只是考试成绩。真正让我改变看法的，是用Pony Alpha那几天的体感。

实测：从那个红白机项目说起

上周我发那篇Pony文章的时候，做了一个测试——把之前用Opus 4.6做的红白机游戏厅网站（4700多行代码），丢给Pony（也就是GLM-5），让它重构成iPhone App。

为什么说这个任务难？因为网站和App是完全不同的技术体系。网页版跑在浏览器里，App跑在手机上，底层语言不一样、界面框架不一样、游戏模拟器的实现方式也不一样。133款游戏的ROM文件（就是游戏卡带的数据）和封面图，要从网络加载改成本地管理。整个东西等于推倒重来。

不是翻译代码，是重新设计。

GLM-5跑了2个多小时。我中途插手不到10次。

跑完我去看了生成的代码，说实话有点吃惊。

最终产出6500多行代码，比原来的网页版还多了将近2000行。

但代码量不是重点，重点是它做的几个关键决策。

第一个决策：模拟器核心怎么做。红白机游戏能在手机上跑，靠的是「模拟器」——用软件模拟出一台1983年的游戏机。网页版直接用了别人写好的模拟器库，拿来就能用。最偷懒的做法是在iOS上也找一个现成的替代品。GLM-5没这么干。它选了一个更难但更对的方案：用C语言从零写了一个模拟器。CPU计算、图像渲染、声音处理，全部自己实现。

第二个决策：画面怎么渲染。它没有用最简单的CPU逐像素画图，而是选了Metal（苹果的GPU加速方案），性能好得多。还额外写了一个CRT复古滤镜——加了老电视机的弧面效果、扫描线和边缘暗角，让游戏画面看起来就像接在一台老电视上。

第三个决策：触控手柄怎么做。手机上没有实体手柄，得做虚拟的。它做了精确的方向识别——手指在十字键上滑动时能同时识别上和右（对角线输入），中间区域设了「死区」防止误触。

整个项目没有用任何第三方库，全部从零搭建。

当然它也有明显的「AI风格」问题——133款游戏的信息全部写死在代码里（1600多行），正常人会用配置文件来管理。收藏功能只有界面没有存储。这些是产品打磨的问题，不是设计能力的问题。

这个任务让我印象深刻的不是速度，是它做决策的方式。

先理解整个系统的依赖关系，再决定从零搭建模拟器而不是找现成库，再选GPU加速而不是最简单的方案，再把代码按职责分层组织。这是一个「架构师」的思路，不是一个「码农」的思路。

上次写GLM-4.7的时候，我的原话是「审美、Coding和Agentic能力都达到了Claude Sonnet 4.5无差的水平」。注意，对标的是Sonnet。

这次GLM-5，对标的是Opus。

实测案例二：一句话触发13步写作工作流

红白机项目是编程任务。我想看看GLM-5在非编程场景下的Agent能力怎么样。

关注我的老粉应该都知道，我平时用Claude Code写公众号文章，有一套完整的自动化工作流——13个步骤，从信息搜索、竞品扫描、选题讨论、风格学习、初稿创作、三遍审校、标题矩阵、传播力审查，一直到配图生成。整套流程写在一个1000多字的CLAUDE.md里，每一步都有明确的规则和工具调用要求。

我只输入了一句话：「帮我写一篇介绍Seedance 2.0的公众号文章」。

然后我就看着它自己跑。

GLM-5做的第一件事不是开始写。它读完CLAUDE.md之后，第一反应是：「根据公众号写作流程，我需要先搜索seedance 2.0的相关信息，然后进行选题讨论，不能直接写文章。」

这个细节很重要。以前的模型收到「帮我写一篇文章」，默认动作就是开始写。GLM-5读懂了规则，知道这套流程的第一步是搜索，不是动笔。

接下来它搜索信息的时候，WebFetch请求失败了（连不上火山引擎的页面）。它没卡住，自动转向本地知识库，用Grep和Glob找到了之前存的Seedance 2.0调研简报。然后去36kr和Hacker News做了竞品扫描。

信息搜索完，它进入选题讨论——提供了4个方向，每个都有标题、核心角度、工作量评估、大纲和优劣势分析。我选了「实战体验型」。

选完之后它也没急着写。先去读了SHARED-RULES.md（审校规则），又读了两篇历史文章学风格，还搜了个人素材库。然后才开始写初稿，写完保存到草稿文件夹。

初稿写完，它自动开始三遍审校。我看着它一段一段地改——删了15行加了14行、删了19行加了9行。改完之后生成了12个标题变体供我选择。

然后做传播力审查：转发动机检查打了4个勾（让我显得懂行、对朋友有用、验证我的观点、情绪共鸣），第一读者模拟标记了一处「可能想划走」的位置（竞品对比部分稍长）。

我选完标题，它又自动调用了wechat-image配图技能，规划了封面图+4张正文配图的方案，调用Gemini API生成图片、上传ImgBB图床——光这一步就跑了12分钟、20多次工具调用。

最终交付了一篇约2000字的完整文章，5张配图（封面+4张正文图），所有图片都是网络链接，可以直接复制到飞书用。从我输入那句话到拿到成品，总共大概28分钟。13步流程，一步没跳。

这个测试让我想起一个比喻。以前的AI编程是「你说一步，它做一步」，像导航软件——每到一个路口告诉你左转右转。GLM-5更像一个经验丰富的司机，你说「去机场」，它自己知道走哪条路、哪里该拐弯、遇到堵车怎么绕。

两个案例加在一起，我觉得GLM-5和之前几代最大的不同就一个词：持久力。

之前用GLM-4.7接Claude Code，还是会出现上下文丢失、指令遵循变差的问题。这是很多agentic模型都有的通病，跑着跑着就「忘了自己在干什么」。GLM-5在这方面的改进我觉得是最关键的——2小时重构6500行代码、28分钟走完13步写作流程，全程没有丢失上下文，没有跳步。

这意味着你可以给它一个大任务，让它跑半小时、一小时甚至更久。不是那种「你盯着它干完一个函数」的用法，是真正的自动化工程。Anthropic那个16个Claude写编译器的案例，换成GLM-5，理论上也能做类似的事情。区别是——GLM-5是开源的，不需要付Opus的钱。

不只是「平替」了

从GLM-4.5开始写评测，我一直用的词是「平替」。性价比高、够用、便宜。隐含的意思是：不如Opus，但能凑合。

GLM-5让我觉得这个词不太准确了。它和Opus还有差距，但已经不是「凑合用」的水平。

综合榜全球第四、开源第一。编程榜单和Opus差3个百分点，Agent榜单有两个拿了全场第一。官方的说法是「使用体感逼近Opus 4.5」——注意，是逼近，不是追平。整体上Opus仍然更强，但差距已经肉眼可见地缩小了。

但在我最常用的场景——接入Claude Code做项目级开发——GLM-5的表现已经让我觉得「很多任务不用每次都切回Opus了」。

价格差距就更明显了。Opus每百万token输入$5、输出$25。GLM编程订阅最低20元/月。

之前我的工作流是「Opus当大脑规划，GLM当手脚执行」。现在很多场景下，GLM-5自己也能规划、也能执行。不是所有场景，但比以前多多了。

从GLM-4.5到GLM-5，大概一年半的时间。

4.5是能用的初级程序员。4.6是靠谱的中级程序员。4.7是让人惊喜的高级程序员。

GLM-5不再是程序员了。它是架构师。

不是说它写的每一行代码都完美，没有模型能做到。但它思考问题的方式变了。以前你得告诉它「写一个函数，输入是什么，输出是什么」。现在你可以说「我要解决这个问题」，它自己来设计怎么解。

这正好呼应了整个行业的趋势。Karpathy说Vibe Coding过时了，AI编程正在进入Agentic Engineering时代。Opus和Codex选了这条路。GLM-5是开源界最早一批跟上来的。

如果你需要的是一句话生成漂亮网页，选别的也行。如果你需要一个能接入Claude Code/OpenClaw/OpenCode帮你做工程的模型，20元/月，GLM-5值得试试。

Agentic Engineering时代，开源阵营终于有了自己的架构师。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.