上周发了一篇关于OpenRouter上神秘模型Pony的文章,还给大家留了个抢红包的竞猜问题:Pony到底是谁?
现在答案终于揭晓了,那就是智谱的GLM-5。
「Pony」是小马,2026农历马年,生肖彩蛋。智谱以匿名方式把GLM-5放到OpenRouter上做了一次公测。
![]()
这事还挺有意思的。一个没署名的模型,首日跑了400亿token、20.6万次请求。绝大多数用它的开发者都觉得「这水平不像GLM-4.7,太像Opus了」。
![]()
但Pony是谁,不是这篇文章的重点。
重点是我用它做了什么、感受到了什么。以及,这件事放在行业大背景下意味着什么。
节前国内AI公司是真卷。2月6号智谱匿名放出Pony Alpha,2月7号字节就发了Seedance 2.0,AI视频生成直接拉到了全球第一梯队。一个卷编程,一个卷视频,前后脚发布。 我这觉得我写不过来了...
我从GLM-4.5开始,每一代都写了评测文章。
每次写完都觉得「开源模型又进了一步」。但这次GLM-5给我的感受完全不一样。不是进了一步,是换了个身份。
以前GLM系列在我的工作流里是「执行者」——Opus当大脑做规划,GLM做具体的编码工作。便宜、听话、够用。
GLM-5让我第一次觉得:它也能当大脑了。
Vibe Coding过时了?
写GLM-5之前,得先聊一个刚发生的事。
2月8号,Karpathy发了个帖子。就是那个提出「Vibe Coding」概念的人——去年这个词火得一塌糊涂,基本成了AI编程的代名词。对着AI说一句话,代码就出来了,不用管细节,跟着感觉走。
但他自己说,Vibe Coding正在过时。取而代之的是一个新概念:Agentic Engineering。
![]()
什么意思?
Vibe Coding是你告诉AI「帮我写这个功能」,AI写完你看看行不行。本质上还是人在驱动,AI在执行。
Agentic Engineering不一样。你给AI一个目标,它自己拆任务、自己规划步骤、自己写代码、自己测试、遇到bug自己修、遇到方向不对自己调整。可能跑几小时甚至几天。人类变成了架构师和监督者,AI变成了真正干活的工程团队。
这不是Karpathy一个人的判断。看看最近两周发生了什么:
Anthropic发布Opus 4.6的时候,官方案例是什么?16个Claude实例并行工作两周,写了10万行Rust代码的C编译器,能编译Linux内核。花了2万美元。
OpenAI发布GPT-5.3 Codex的时候,强调的是什么?AI参与了自己的训练过程。不是写个贪吃蛇,是调试训练流程、管理部署、诊断测试结果。
两家都不再说「一句话生成网页」了。都在说Agent、长任务、系统工程。
Anthropic甚至在1月21号发了一份「2026 Agentic Coding趋势报告」,总结了8大趋势。其中一个发现挺扎心的:AI出现在60%的开发工作中,但开发者能完全委托给AI的任务只有0-20%。
差距就在于「系统工程能力」——不是写单个函数的能力,而是理解整个系统、规划架构、处理模块间依赖、在出错时自我纠正的能力。
说白了,AI编程正在分成两条路:
一条是「审美编程」,以Gemini 3.0 Pro为代表。截图转代码、一句话出漂亮页面、视觉驱动。它做出来的前端确实好看,这没什么好否认的。
另一条是「系统工程」,以Opus和Codex为代表。后端架构、编译器、微服务、长时间运行的Agent任务。不好看,但能用。
这两条路都有价值。但行业重心正在从前者转向后者。
在这个背景下,GLM-5选了后者。
快速回顾:GLM怎么一步步走到这的
给没看过之前文章的读者补个课。
GLM-4.5(2025年7月):智谱的第一个真正能打的开源模型。当时我的评价是「能用的开源平替」。编程能力和Sonnet有差距,但日常任务够用,关键是便宜。
GLM-4.6(2025年10月):提升了不少,上下文窗口从128K扩到200K。我写过一篇「Claude Code账号被封?试试GLM-4.6完美平替」,当时确实帮很多人解决了问题。
GLM-4.7(2025年12月):这代变化挺大。SWE-bench Verified达到73.8%,直逼一线。我测了5个案例,感受是审美、Coding和Agentic能力都达到了Claude Sonnet 4.5无差的水平。当时我的结论是「开源模型的新标杆」。
每次写完评测我都觉得「应该到顶了吧」。然后下一代又让我改口。
但从4.5到4.7,质的变化不大。每代都是在同一个维度上做增量——代码写得更好、bug更少、审美更好看。像一个程序员从初级升到高级,活干得越来越漂亮,但还是在执行层面。
GLM-5不一样。
GLM-5:换了个身份
先看规格。
744B参数,MoE(混合专家)架构,每次推理激活40B参数。相比GLM-4.7(355B/激活32B),规模翻了一倍,预训练数据从23T增加到28.5T。
再看成绩。
![]()
在Artificial Analysis综合榜单上,GLM-5排名全球第四、开源第一。
编程能力:SWE-bench Verified拿了77.8%(Opus 4.5是80.9%,差3个百分点),Terminal-Bench 2.0拿了56.2%(Opus 4.5是59.3%,差距也不大)。这两个榜都是开源最高。
但更让我意外的是Agent能力。8个榜单里,GLM-5有两个拿了全场第一——不是开源第一,是包括Opus、Gemini、GPT在内的所有模型里的第一:BrowseComp(联网检索与信息理解)75.9分,比Opus 4.5的67.8高出一截;Humanity's Last Exam带工具调用版本50.4分,同样是全场最高。
![]()
MCP-Atlas(工具调用与多步骤任务)、τ²-Bench(复杂多工具场景)也都是开源第一,和闭源模型几乎打平。
还有个挺有意思的Vending Bench 2——让模型经营一年虚拟自动售货机生意。GLM-5最终账户余额4432美元,超过了GPT-5.2的3591美元,和Opus 4.5的4967美元差距不大。
但benchmark说到底只是考试成绩。真正让我改变看法的,是用Pony Alpha那几天的体感。
实测:从那个红白机项目说起
上周我发那篇Pony文章的时候,做了一个测试——把之前用Opus 4.6做的红白机游戏厅网站(4700多行代码),丢给Pony(也就是GLM-5),让它重构成iPhone App。
![]()
为什么说这个任务难?因为网站和App是完全不同的技术体系。网页版跑在浏览器里,App跑在手机上,底层语言不一样、界面框架不一样、游戏模拟器的实现方式也不一样。133款游戏的ROM文件(就是游戏卡带的数据)和封面图,要从网络加载改成本地管理。整个东西等于推倒重来。
不是翻译代码,是重新设计。
GLM-5跑了2个多小时。我中途插手不到10次。
跑完我去看了生成的代码,说实话有点吃惊。
最终产出6500多行代码,比原来的网页版还多了将近2000行。
但代码量不是重点,重点是它做的几个关键决策。
第一个决策:模拟器核心怎么做。红白机游戏能在手机上跑,靠的是「模拟器」——用软件模拟出一台1983年的游戏机。网页版直接用了别人写好的模拟器库,拿来就能用。最偷懒的做法是在iOS上也找一个现成的替代品。GLM-5没这么干。它选了一个更难但更对的方案:用C语言从零写了一个模拟器。CPU计算、图像渲染、声音处理,全部自己实现。
![]()
第二个决策:画面怎么渲染。它没有用最简单的CPU逐像素画图,而是选了Metal(苹果的GPU加速方案),性能好得多。还额外写了一个CRT复古滤镜——加了老电视机的弧面效果、扫描线和边缘暗角,让游戏画面看起来就像接在一台老电视上。
第三个决策:触控手柄怎么做。手机上没有实体手柄,得做虚拟的。它做了精确的方向识别——手指在十字键上滑动时能同时识别上和右(对角线输入),中间区域设了「死区」防止误触。
![]()
![]()
![]()
整个项目没有用任何第三方库,全部从零搭建。
当然它也有明显的「AI风格」问题——133款游戏的信息全部写死在代码里(1600多行),正常人会用配置文件来管理。收藏功能只有界面没有存储。这些是产品打磨的问题,不是设计能力的问题。
这个任务让我印象深刻的不是速度,是它做决策的方式。
先理解整个系统的依赖关系,再决定从零搭建模拟器而不是找现成库,再选GPU加速而不是最简单的方案,再把代码按职责分层组织。这是一个「架构师」的思路,不是一个「码农」的思路。
上次写GLM-4.7的时候,我的原话是「审美、Coding和Agentic能力都达到了Claude Sonnet 4.5无差的水平」。注意,对标的是Sonnet。
这次GLM-5,对标的是Opus。
实测案例二:一句话触发13步写作工作流
红白机项目是编程任务。我想看看GLM-5在非编程场景下的Agent能力怎么样。
关注我的老粉应该都知道,我平时用Claude Code写公众号文章,有一套完整的自动化工作流——13个步骤,从信息搜索、竞品扫描、选题讨论、风格学习、初稿创作、三遍审校、标题矩阵、传播力审查,一直到配图生成。整套流程写在一个1000多字的CLAUDE.md里,每一步都有明确的规则和工具调用要求。
我只输入了一句话:「帮我写一篇介绍Seedance 2.0的公众号文章」。
然后我就看着它自己跑。
![]()
GLM-5做的第一件事不是开始写。它读完CLAUDE.md之后,第一反应是:「根据公众号写作流程,我需要先搜索seedance 2.0的相关信息,然后进行选题讨论,不能直接写文章。」
这个细节很重要。以前的模型收到「帮我写一篇文章」,默认动作就是开始写。GLM-5读懂了规则,知道这套流程的第一步是搜索,不是动笔。
接下来它搜索信息的时候,WebFetch请求失败了(连不上火山引擎的页面)。它没卡住,自动转向本地知识库,用Grep和Glob找到了之前存的Seedance 2.0调研简报。然后去36kr和Hacker News做了竞品扫描。
信息搜索完,它进入选题讨论——提供了4个方向,每个都有标题、核心角度、工作量评估、大纲和优劣势分析。我选了「实战体验型」。
选完之后它也没急着写。先去读了SHARED-RULES.md(审校规则),又读了两篇历史文章学风格,还搜了个人素材库。然后才开始写初稿,写完保存到草稿文件夹。
![]()
初稿写完,它自动开始三遍审校。我看着它一段一段地改——删了15行加了14行、删了19行加了9行。改完之后生成了12个标题变体供我选择。
然后做传播力审查:转发动机检查打了4个勾(让我显得懂行、对朋友有用、验证我的观点、情绪共鸣),第一读者模拟标记了一处「可能想划走」的位置(竞品对比部分稍长)。
我选完标题,它又自动调用了wechat-image配图技能,规划了封面图+4张正文配图的方案,调用Gemini API生成图片、上传ImgBB图床——光这一步就跑了12分钟、20多次工具调用。
最终交付了一篇约2000字的完整文章,5张配图(封面+4张正文图),所有图片都是网络链接,可以直接复制到飞书用。从我输入那句话到拿到成品,总共大概28分钟。13步流程,一步没跳。
![]()
这个测试让我想起一个比喻。以前的AI编程是「你说一步,它做一步」,像导航软件——每到一个路口告诉你左转右转。GLM-5更像一个经验丰富的司机,你说「去机场」,它自己知道走哪条路、哪里该拐弯、遇到堵车怎么绕。
两个案例加在一起,我觉得GLM-5和之前几代最大的不同就一个词:持久力。
之前用GLM-4.7接Claude Code,还是会出现上下文丢失、指令遵循变差的问题。这是很多agentic模型都有的通病,跑着跑着就「忘了自己在干什么」。GLM-5在这方面的改进我觉得是最关键的——2小时重构6500行代码、28分钟走完13步写作流程,全程没有丢失上下文,没有跳步。
这意味着你可以给它一个大任务,让它跑半小时、一小时甚至更久。不是那种「你盯着它干完一个函数」的用法,是真正的自动化工程。Anthropic那个16个Claude写编译器的案例,换成GLM-5,理论上也能做类似的事情。区别是——GLM-5是开源的,不需要付Opus的钱。
不只是「平替」了
从GLM-4.5开始写评测,我一直用的词是「平替」。性价比高、够用、便宜。隐含的意思是:不如Opus,但能凑合。
GLM-5让我觉得这个词不太准确了。它和Opus还有差距,但已经不是「凑合用」的水平。
综合榜全球第四、开源第一。编程榜单和Opus差3个百分点,Agent榜单有两个拿了全场第一。官方的说法是「使用体感逼近Opus 4.5」——注意,是逼近,不是追平。整体上Opus仍然更强,但差距已经肉眼可见地缩小了。
但在我最常用的场景——接入Claude Code做项目级开发——GLM-5的表现已经让我觉得「很多任务不用每次都切回Opus了」。
价格差距就更明显了。Opus每百万token输入$5、输出$25。GLM编程订阅最低20元/月。
之前我的工作流是「Opus当大脑规划,GLM当手脚执行」。现在很多场景下,GLM-5自己也能规划、也能执行。不是所有场景,但比以前多多了。
从GLM-4.5到GLM-5,大概一年半的时间。
4.5是能用的初级程序员。4.6是靠谱的中级程序员。4.7是让人惊喜的高级程序员。
GLM-5不再是程序员了。它是架构师。
不是说它写的每一行代码都完美,没有模型能做到。但它思考问题的方式变了。以前你得告诉它「写一个函数,输入是什么,输出是什么」。现在你可以说「我要解决这个问题」,它自己来设计怎么解。
这正好呼应了整个行业的趋势。Karpathy说Vibe Coding过时了,AI编程正在进入Agentic Engineering时代。Opus和Codex选了这条路。GLM-5是开源界最早一批跟上来的。
如果你需要的是一句话生成漂亮网页,选别的也行。如果你需要一个能接入Claude Code/OpenClaw/OpenCode帮你做工程的模型,20元/月,GLM-5值得试试。
Agentic Engineering时代,开源阵营终于有了自己的架构师。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.