网易首页 > 网易号 > 正文 申请入驻

从GLM-4.5到GLM-5,我见证了一个模型从码农晋升为架构师

0
分享至

上周发了一篇关于OpenRouter上神秘模型Pony的文章,还给大家留了个抢红包的竞猜问题:Pony到底是谁?

现在答案终于揭晓了,那就是智谱的GLM-5。

「Pony」是小马,2026农历马年,生肖彩蛋。智谱以匿名方式把GLM-5放到OpenRouter上做了一次公测。


这事还挺有意思的。一个没署名的模型,首日跑了400亿token、20.6万次请求。绝大多数用它的开发者都觉得「这水平不像GLM-4.7,太像Opus了」。


但Pony是谁,不是这篇文章的重点。

重点是我用它做了什么、感受到了什么。以及,这件事放在行业大背景下意味着什么。

节前国内AI公司是真卷。2月6号智谱匿名放出Pony Alpha,2月7号字节就发了Seedance 2.0,AI视频生成直接拉到了全球第一梯队。一个卷编程,一个卷视频,前后脚发布。 我这觉得我写不过来了...

我从GLM-4.5开始,每一代都写了评测文章。

每次写完都觉得「开源模型又进了一步」。但这次GLM-5给我的感受完全不一样。不是进了一步,是换了个身份。

以前GLM系列在我的工作流里是「执行者」——Opus当大脑做规划,GLM做具体的编码工作。便宜、听话、够用。

GLM-5让我第一次觉得:它也能当大脑了。

Vibe Coding过时了?

写GLM-5之前,得先聊一个刚发生的事。

2月8号,Karpathy发了个帖子。就是那个提出「Vibe Coding」概念的人——去年这个词火得一塌糊涂,基本成了AI编程的代名词。对着AI说一句话,代码就出来了,不用管细节,跟着感觉走。

但他自己说,Vibe Coding正在过时。取而代之的是一个新概念:Agentic Engineering


什么意思?

Vibe Coding是你告诉AI「帮我写这个功能」,AI写完你看看行不行。本质上还是人在驱动,AI在执行。

Agentic Engineering不一样。你给AI一个目标,它自己拆任务、自己规划步骤、自己写代码、自己测试、遇到bug自己修、遇到方向不对自己调整。可能跑几小时甚至几天。人类变成了架构师和监督者,AI变成了真正干活的工程团队。

这不是Karpathy一个人的判断。看看最近两周发生了什么:

Anthropic发布Opus 4.6的时候,官方案例是什么?16个Claude实例并行工作两周,写了10万行Rust代码的C编译器,能编译Linux内核。花了2万美元。

OpenAI发布GPT-5.3 Codex的时候,强调的是什么?AI参与了自己的训练过程。不是写个贪吃蛇,是调试训练流程、管理部署、诊断测试结果。

两家都不再说「一句话生成网页」了。都在说Agent、长任务、系统工程。

Anthropic甚至在1月21号发了一份「2026 Agentic Coding趋势报告」,总结了8大趋势。其中一个发现挺扎心的:AI出现在60%的开发工作中,但开发者能完全委托给AI的任务只有0-20%。

差距就在于「系统工程能力」——不是写单个函数的能力,而是理解整个系统、规划架构、处理模块间依赖、在出错时自我纠正的能力。

说白了,AI编程正在分成两条路:

一条是「审美编程」,以Gemini 3.0 Pro为代表。截图转代码、一句话出漂亮页面、视觉驱动。它做出来的前端确实好看,这没什么好否认的。

另一条是「系统工程」,以Opus和Codex为代表。后端架构、编译器、微服务、长时间运行的Agent任务。不好看,但能用。

这两条路都有价值。但行业重心正在从前者转向后者。

在这个背景下,GLM-5选了后者。

快速回顾:GLM怎么一步步走到这的

给没看过之前文章的读者补个课。

GLM-4.5(2025年7月):智谱的第一个真正能打的开源模型。当时我的评价是「能用的开源平替」。编程能力和Sonnet有差距,但日常任务够用,关键是便宜。

GLM-4.6(2025年10月):提升了不少,上下文窗口从128K扩到200K。我写过一篇「Claude Code账号被封?试试GLM-4.6完美平替」,当时确实帮很多人解决了问题。

GLM-4.7(2025年12月):这代变化挺大。SWE-bench Verified达到73.8%,直逼一线。我测了5个案例,感受是审美、Coding和Agentic能力都达到了Claude Sonnet 4.5无差的水平。当时我的结论是「开源模型的新标杆」。

每次写完评测我都觉得「应该到顶了吧」。然后下一代又让我改口。

但从4.5到4.7,质的变化不大。每代都是在同一个维度上做增量——代码写得更好、bug更少、审美更好看。像一个程序员从初级升到高级,活干得越来越漂亮,但还是在执行层面。

GLM-5不一样。

GLM-5:换了个身份

先看规格。

744B参数,MoE(混合专家)架构,每次推理激活40B参数。相比GLM-4.7(355B/激活32B),规模翻了一倍,预训练数据从23T增加到28.5T。

再看成绩。


在Artificial Analysis综合榜单上,GLM-5排名全球第四、开源第一。

编程能力:SWE-bench Verified拿了77.8%(Opus 4.5是80.9%,差3个百分点),Terminal-Bench 2.0拿了56.2%(Opus 4.5是59.3%,差距也不大)。这两个榜都是开源最高。

但更让我意外的是Agent能力。8个榜单里,GLM-5有两个拿了全场第一——不是开源第一,是包括Opus、Gemini、GPT在内的所有模型里的第一:BrowseComp(联网检索与信息理解)75.9分,比Opus 4.5的67.8高出一截;Humanity's Last Exam带工具调用版本50.4分,同样是全场最高。


MCP-Atlas(工具调用与多步骤任务)、τ²-Bench(复杂多工具场景)也都是开源第一,和闭源模型几乎打平。

还有个挺有意思的Vending Bench 2——让模型经营一年虚拟自动售货机生意。GLM-5最终账户余额4432美元,超过了GPT-5.2的3591美元,和Opus 4.5的4967美元差距不大。

但benchmark说到底只是考试成绩。真正让我改变看法的,是用Pony Alpha那几天的体感。

实测:从那个红白机项目说起

上周我发那篇Pony文章的时候,做了一个测试——把之前用Opus 4.6做的红白机游戏厅网站(4700多行代码),丢给Pony(也就是GLM-5),让它重构成iPhone App。


为什么说这个任务难?因为网站和App是完全不同的技术体系。网页版跑在浏览器里,App跑在手机上,底层语言不一样、界面框架不一样、游戏模拟器的实现方式也不一样。133款游戏的ROM文件(就是游戏卡带的数据)和封面图,要从网络加载改成本地管理。整个东西等于推倒重来。

不是翻译代码,是重新设计。

GLM-5跑了2个多小时。我中途插手不到10次。

跑完我去看了生成的代码,说实话有点吃惊。

最终产出6500多行代码,比原来的网页版还多了将近2000行。

但代码量不是重点,重点是它做的几个关键决策。

第一个决策:模拟器核心怎么做。红白机游戏能在手机上跑,靠的是「模拟器」——用软件模拟出一台1983年的游戏机。网页版直接用了别人写好的模拟器库,拿来就能用。最偷懒的做法是在iOS上也找一个现成的替代品。GLM-5没这么干。它选了一个更难但更对的方案:用C语言从零写了一个模拟器。CPU计算、图像渲染、声音处理,全部自己实现。


第二个决策:画面怎么渲染。它没有用最简单的CPU逐像素画图,而是选了Metal(苹果的GPU加速方案),性能好得多。还额外写了一个CRT复古滤镜——加了老电视机的弧面效果、扫描线和边缘暗角,让游戏画面看起来就像接在一台老电视上。

第三个决策:触控手柄怎么做。手机上没有实体手柄,得做虚拟的。它做了精确的方向识别——手指在十字键上滑动时能同时识别上和右(对角线输入),中间区域设了「死区」防止误触。




整个项目没有用任何第三方库,全部从零搭建。

当然它也有明显的「AI风格」问题——133款游戏的信息全部写死在代码里(1600多行),正常人会用配置文件来管理。收藏功能只有界面没有存储。这些是产品打磨的问题,不是设计能力的问题。

这个任务让我印象深刻的不是速度,是它做决策的方式。

先理解整个系统的依赖关系,再决定从零搭建模拟器而不是找现成库,再选GPU加速而不是最简单的方案,再把代码按职责分层组织。这是一个「架构师」的思路,不是一个「码农」的思路。

上次写GLM-4.7的时候,我的原话是「审美、Coding和Agentic能力都达到了Claude Sonnet 4.5无差的水平」。注意,对标的是Sonnet。

这次GLM-5,对标的是Opus。

实测案例二:一句话触发13步写作工作流

红白机项目是编程任务。我想看看GLM-5在非编程场景下的Agent能力怎么样。

关注我的老粉应该都知道,我平时用Claude Code写公众号文章,有一套完整的自动化工作流——13个步骤,从信息搜索、竞品扫描、选题讨论、风格学习、初稿创作、三遍审校、标题矩阵、传播力审查,一直到配图生成。整套流程写在一个1000多字的CLAUDE.md里,每一步都有明确的规则和工具调用要求。

我只输入了一句话:「帮我写一篇介绍Seedance 2.0的公众号文章」。

然后我就看着它自己跑。


GLM-5做的第一件事不是开始写。它读完CLAUDE.md之后,第一反应是:「根据公众号写作流程,我需要先搜索seedance 2.0的相关信息,然后进行选题讨论,不能直接写文章。」

这个细节很重要。以前的模型收到「帮我写一篇文章」,默认动作就是开始写。GLM-5读懂了规则,知道这套流程的第一步是搜索,不是动笔。

接下来它搜索信息的时候,WebFetch请求失败了(连不上火山引擎的页面)。它没卡住,自动转向本地知识库,用Grep和Glob找到了之前存的Seedance 2.0调研简报。然后去36kr和Hacker News做了竞品扫描。

信息搜索完,它进入选题讨论——提供了4个方向,每个都有标题、核心角度、工作量评估、大纲和优劣势分析。我选了「实战体验型」。

选完之后它也没急着写。先去读了SHARED-RULES.md(审校规则),又读了两篇历史文章学风格,还搜了个人素材库。然后才开始写初稿,写完保存到草稿文件夹。


初稿写完,它自动开始三遍审校。我看着它一段一段地改——删了15行加了14行、删了19行加了9行。改完之后生成了12个标题变体供我选择。

然后做传播力审查:转发动机检查打了4个勾(让我显得懂行、对朋友有用、验证我的观点、情绪共鸣),第一读者模拟标记了一处「可能想划走」的位置(竞品对比部分稍长)。

我选完标题,它又自动调用了wechat-image配图技能,规划了封面图+4张正文配图的方案,调用Gemini API生成图片、上传ImgBB图床——光这一步就跑了12分钟、20多次工具调用。

最终交付了一篇约2000字的完整文章,5张配图(封面+4张正文图),所有图片都是网络链接,可以直接复制到飞书用。从我输入那句话到拿到成品,总共大概28分钟。13步流程,一步没跳。


这个测试让我想起一个比喻。以前的AI编程是「你说一步,它做一步」,像导航软件——每到一个路口告诉你左转右转。GLM-5更像一个经验丰富的司机,你说「去机场」,它自己知道走哪条路、哪里该拐弯、遇到堵车怎么绕。

两个案例加在一起,我觉得GLM-5和之前几代最大的不同就一个词:持久力

之前用GLM-4.7接Claude Code,还是会出现上下文丢失、指令遵循变差的问题。这是很多agentic模型都有的通病,跑着跑着就「忘了自己在干什么」。GLM-5在这方面的改进我觉得是最关键的——2小时重构6500行代码、28分钟走完13步写作流程,全程没有丢失上下文,没有跳步。

这意味着你可以给它一个大任务,让它跑半小时、一小时甚至更久。不是那种「你盯着它干完一个函数」的用法,是真正的自动化工程。Anthropic那个16个Claude写编译器的案例,换成GLM-5,理论上也能做类似的事情。区别是——GLM-5是开源的,不需要付Opus的钱。

不只是「平替」了

从GLM-4.5开始写评测,我一直用的词是「平替」。性价比高、够用、便宜。隐含的意思是:不如Opus,但能凑合。

GLM-5让我觉得这个词不太准确了。它和Opus还有差距,但已经不是「凑合用」的水平。

综合榜全球第四、开源第一。编程榜单和Opus差3个百分点,Agent榜单有两个拿了全场第一。官方的说法是「使用体感逼近Opus 4.5」——注意,是逼近,不是追平。整体上Opus仍然更强,但差距已经肉眼可见地缩小了。

但在我最常用的场景——接入Claude Code做项目级开发——GLM-5的表现已经让我觉得「很多任务不用每次都切回Opus了」。

价格差距就更明显了。Opus每百万token输入$5、输出$25。GLM编程订阅最低20元/月。

之前我的工作流是「Opus当大脑规划,GLM当手脚执行」。现在很多场景下,GLM-5自己也能规划、也能执行。不是所有场景,但比以前多多了。

从GLM-4.5到GLM-5,大概一年半的时间。

4.5是能用的初级程序员。4.6是靠谱的中级程序员。4.7是让人惊喜的高级程序员。

GLM-5不再是程序员了。它是架构师。

不是说它写的每一行代码都完美,没有模型能做到。但它思考问题的方式变了。以前你得告诉它「写一个函数,输入是什么,输出是什么」。现在你可以说「我要解决这个问题」,它自己来设计怎么解。

这正好呼应了整个行业的趋势。Karpathy说Vibe Coding过时了,AI编程正在进入Agentic Engineering时代。Opus和Codex选了这条路。GLM-5是开源界最早一批跟上来的。

如果你需要的是一句话生成漂亮网页,选别的也行。如果你需要一个能接入Claude Code/OpenClaw/OpenCode帮你做工程的模型,20元/月,GLM-5值得试试。

Agentic Engineering时代,开源阵营终于有了自己的架构师。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
媒体发的内容,越来越“精致”了!

媒体发的内容,越来越“精致”了!

走读新生
2026-02-10 17:23:59
女演员自曝投资失败,从800平大房子搬进80平出租屋:把所有钱放股市,赔了几百万

女演员自曝投资失败,从800平大房子搬进80平出租屋:把所有钱放股市,赔了几百万

大象新闻
2026-02-12 11:45:10
太心酸了!42岁著名女歌手江苏走穴,宾客只顾吃席没人搭理

太心酸了!42岁著名女歌手江苏走穴,宾客只顾吃席没人搭理

小徐讲八卦
2026-02-12 12:13:20
2月12日冬奥会金牌榜,中国队爆冷,男子速滑选手宁忠岩创造历史

2月12日冬奥会金牌榜,中国队爆冷,男子速滑选手宁忠岩创造历史

娱说瑜悦
2026-02-12 15:30:04
中国人均GDP已达日本的41%,30年前是1.3%

中国人均GDP已达日本的41%,30年前是1.3%

凯利经济观察
2026-02-12 00:14:45
没了!再见,杨瀚森,主帅正式摊牌:没那么多时间给年轻人

没了!再见,杨瀚森,主帅正式摊牌:没那么多时间给年轻人

球童无忌
2026-02-12 15:28:35
13岁体操冠军傅佳丽遭虐待致跳楼,央媒跟进教练被立案

13岁体操冠军傅佳丽遭虐待致跳楼,央媒跟进教练被立案

聚焦真实瞬间
2026-02-12 18:02:43
全球最贵!10岁马来西亚男孩100美元买下域名“AI.com”,33年后卖出7000万美元

全球最贵!10岁马来西亚男孩100美元买下域名“AI.com”,33年后卖出7000万美元

台州交通广播
2026-02-12 00:21:21
罗永浩怼段永平“懂个屁”,这个全是“破烂”的时代

罗永浩怼段永平“懂个屁”,这个全是“破烂”的时代

不正确
2026-02-11 22:53:03
谢贤前女友爆猛料!和谢贤还有联系,称谢霆锋娶张柏芝是因为王菲

谢贤前女友爆猛料!和谢贤还有联系,称谢霆锋娶张柏芝是因为王菲

离离言几许
2026-02-12 00:03:14
国际雪联公开阴阳谷爱凌:无缘金牌是报应!遭投诉后只发邮件道歉

国际雪联公开阴阳谷爱凌:无缘金牌是报应!遭投诉后只发邮件道歉

念洲
2026-02-12 11:35:10
近八成日本人表示,已无必要改善中日关系,高市早苗乐了

近八成日本人表示,已无必要改善中日关系,高市早苗乐了

吃货的分享
2026-02-12 15:45:13
罗永浩回应贾樟柯用Seedance2.0做短片:接下来拍、做电影只需要导演一个人了

罗永浩回应贾樟柯用Seedance2.0做短片:接下来拍、做电影只需要导演一个人了

金融界
2026-02-12 13:55:24
暴跌!内存价格闪崩!

暴跌!内存价格闪崩!

中国半导体论坛
2026-02-12 20:15:38
万万没想到,毕福剑败光的体面,如今却被29岁“丑女儿”挣回来了

万万没想到,毕福剑败光的体面,如今却被29岁“丑女儿”挣回来了

小徐讲八卦
2026-02-12 16:25:04
钟南山:会用证据让全世界服气

钟南山:会用证据让全世界服气

第一财经资讯
2026-02-12 18:13:00
高市早苗大获全胜之后,我们一些人真该好好反思

高市早苗大获全胜之后,我们一些人真该好好反思

少年一白
2026-02-11 02:54:53
太意外!38岁中国教练率意大利击败中国队夺金牌,曾婉拒回国执教

太意外!38岁中国教练率意大利击败中国队夺金牌,曾婉拒回国执教

法老不说教
2026-02-12 17:05:59
NBA宣布!你好,霍华德!正式杀回扣篮大赛

NBA宣布!你好,霍华德!正式杀回扣篮大赛

篮球实战宝典
2026-02-12 19:48:32
朝鲜第四代接班人或进入筹备阶段,韩国情报机构释放关键信号

朝鲜第四代接班人或进入筹备阶段,韩国情报机构释放关键信号

土澳的故事
2026-02-12 21:11:15
2026-02-13 03:04:49
AI进化论花生 incentive-icons
AI进化论花生
AI博主,AppStore付费榜第一的小猫补光灯app开发者
138文章数 61关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

手机
旅游
房产
健康
公开课

手机要闻

科技记者古尔曼:预计苹果将在未来几周内推出iPhone 17e以及M4芯片版iPad Air

旅游要闻

五大顶流萌团C位出道 上海全新文旅IP“海上萌主”春节亮相

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版