GLM-5深夜登场，这是国产开源模型首次逼平Claude Opus 4.5。|模拟器|正式版模型|glm|编程|opus

分享至

　　深夜，GLM-5来了。

　　还是老样子，发布即开源。

　　而且前几天，OpenRouter平台不是有一个Pony Alpha的匿名模型很火吗。

　　大家一度在猜是DeepSeek V4还是GLM-5，结果今天基本答案也揭晓了。

　　这大马，基本就是明示了。

　　到了今天，2026年的主旋律我觉得真的就已经就定下了，无论是国内还是海外。

　　 Coding与视频齐飞，人类共AI一色。

　　这应该就是2026年AI领域最核心的两个主航道了，在这两之上，其实就是Agent。

　　这几天真的感觉过年一样，太热闹了，上周GPT-5.3 codex和Claude Opus 4.6中门对狙，后脚Seedance 2.0席卷全球，而现在，战场又拉回了Coding这边。

　　 GLM-5，作为一个全新的大版本号，我想说，升级幅度还是很大的，真的可以比肩Claude Opus 4.5，我不开玩笑。

　　我其实已经提前三天拿到了GLM-5的API，这几天在我用Codex开发的时候，也把GLM-5同步接入到了Claude code里同步开发进行对比。

　　虽然作为智谱一直以来的拥簇，很想吹一下GLM-5跟Seedance 2.0一样全球第一，但是我觉得还是实事求是。

　　在我这几天的使用过程中，我个人体感是，GLM-5跟GPT-5.3-codex这种变态肯定还是有一些距离（后面有case会展示），但是在真正产品的开发和解决BUG的能力上，我觉得是能摸一下GPT-5.2-codex和Claude Opus 4.5了。

　　不要觉得这好像是一件很容易的事，Coding国内落后的其实一直都比较远，能追上Opus 4.5的能力，其实已经非常非常非常牛逼了。

　　前几天，在GPT-5.3-codex和Opus 4.6中门对狙的文章里，我在评论区里评论说，要是DeepSeek能赶上Opus 4.5，我高低得给它磕两个。

　　我是没想到，我现在可能得给智谱磕两个了。

　　非常坦诚的讲，在我日常开发过程中，我可能还是会选择GPT-5.3-codex + codex的组合，但是，我也深刻的清楚，并不是所有人，都有条件去买ChatGPT的会员的。

　　那如果你用不了GPT-5.3-codex的话，那我无比真诚的建议你，不用犹豫，就用GLM-5就行，这就是国内，你现在能用上的，最好、最棒、性价比最高的大模型。

　　Claude Code + GLM-5，是你无需魔法，国内可用，最低门槛体验AI Coding魅力的组合。

　　先老规矩，看下跑分和性能。

　　首先，GLM-5从355B（32B激活）扩展到744B参数（40B激活），参数量大了一倍，智能提升确实挺多，而且成本没有加特别多。

　　跑分上，目前在Artificial Analysis上仅次于那两个大爹，开源第1。

　　然后整体能力上。

　　相较于GLM-4.7，GLM-5全线能力基本都有了大幅提升，而且逼近Opus 4.5。

　　有一个比较有特点的，就是BrowseComp基准，这个我之前也说过，测的是Agent在网上搜索信息的能力，GLM-5得分75.9，直接超第二名普通的GPT-5.2有10个点，这个已经非常强了。

　　而另外两个最顶级的模型没放在里面，一个是GPT-5.2 Pro得分是77.9，Opus 4.6得分是84，GLM-5其实已经逼近最一线的水平了，能跟GPT-5.2 Pro打个平手，这事本身就挺强的了。

　　然后其他的，比如现实场景下改仓库代码的测试机SWE-bench，终端环境中agent能力的基准Terminal-Bench 2.0，agent工具使用的τ²-Bench，还有测试模型调用MCP能力的MCP-Atlas基准上，基本比Opus都只差那么临门一脚了。

　　说实话，一个国产模型，还开源出去，能到这个水平，已经非常非常让人自豪了。

　　同时在我看好的系统工程能力、长任务能力，在跑分上也能得到印证。

　　比如下面图上的Long-horizon基准，也就是长链条复杂任务，就能充分体现模型自主进行Agent长程多步规划和执行的能力。

　　这个跑分看下来就很清晰了，也和我实测下来的感受一致，在真正需要做大开发的时候，它的长程任务上，确实是对标Opus 4.5的存在。

　　GLM-5的上下文窗口和GLM-4.7一样，目前还是200k的上下文窗口，输出是128K。

　　不过GLM-5有一个非常离谱的一点，就是这玩意我试下来，非常的省token，就是干活的感觉，非常精准，跟GPT-5.3-codex有的一拼，这点有多重要用过Opus 4.6的都懂，那上下文和消耗量，简直了。

　　然后就是价格上，一个是API价格，真的，国产模型，这价格便宜的让人心疼。

　　Opus 4.5和4.6，都是$5/$25每百万token（输入/输出）。

　　而GLM-5大概只有Claude的七分之一。

　　很香，真的香。

　　另一方面那自然是不得不提的Coding Plan了，也是现在玩Vibe Coding的主流用法，基本都是买包月套餐，对标Claude Max和ChatGPT Pro的。

　　价格是Claude Max套餐的2/3，Token额度是他们的3倍。

　　甚至因为卖的过于火爆，算力不够，前两个套餐额度，直接被抢空了。。。

　　没错，一个包月套餐，被抢空了。。。

　　这个太离谱了。

　　白天的时候大家可以蹲一蹲，网址在此：

　　https://bigmodel.cn/glm-coding

　　当你有了GLM-5的权限之后，想用的话，我最推荐的还是在Claude Code里面用。

　　因为Claude Code就是目前确实最通用的Coding Agent产品，Codex是单纯的例外，主要跟GPT适配的太好。

　　而在Claude code里接入GLM-5挺简单的。

　　这一点智谱做的很好，他们做了一个Coding Tool Helper工具就是可以快速将你的GLM编码套餐加载到你使用的编码工具中。

　　直接打开终端，然后输入：

　　npx@z_ai/coding-helper

　　你就正常登录。

　　目前支持的编码工具 Claude Code、OpenCode、Crush、Factory Droid。

　　跟着配置就好，配置好以后，我们运行Claude Code。

　　你就可以使用GLM-5了。

　　我也做了几个case，给大家直观的感受一下，GLM-5的能力。

　　前天我拿到GLM-5的资格的时候，正好有个需求要开发，就是一个全平台分发文章的需求。

　　做自媒体的朋友们应该知道，文章写完不是真正的结束，而是刚刚开始。

　　我一般写完微信公众号文章需要把文章同步分发到其他平台，这是个很大的工作量，而且有的编辑器还不一样，会出现乱码，文本格式丢失问题，我真。。。

　　之前是用一个开源工具自己改的，但是其实没有那么好用，所以最近其实一直想自己开发一个。

　　所以，我当时就想，不如用GLM-5 Coding一个这样的全平台内容同步分发的这么个小产品吧。

　　开发完以后，发现效果居然还不错。

　　就是下面图中的这样，大概的功能就是把我微信公众号的文章链接放进去，然后点击想要同步的平台，就可以同步过去。

　　当时开发的时候其实Prompt给的巨简单。

　　点击同步后，打开目标平台发布页面，自动填充内容

　　当时给过去以后，GLM-5的体感上，其实就比之前GLM-4.7强很多了。

　　按惯例，他先提供给我了一些关键设计让我去选择。

　　我也秉持着先开发一个最小MVP的原则去的。

　　所以选的都比较谨慎。

　　接着GLM-5就给了超详细的规划。

　　速度不慢，很快就搞定了。

　　总体的完成度和实用性很好，不过因为最开始最小MVP的原则，分发的平台有点少，后续我直接让他添加其他的平台，两轮就完成了。

　　整体其实都还可以，但是在使用的时候，遇到了一个BUG。

　　就是我放入公众号链接后，让他提取标题、封面、正文，他标题和封面倒是可以成功提取出来，但是关键部分，也就是正文提取内容总是不全，会缺失一大截，图片也获取不到。

　　改了两三轮，还是有BUG，然后我上Opus 4.5，居然也没改成功。。。

　　最后打开了GPT-5.3-codex，一轮，完成了。。。

　　GLM-5跟Opus 4.5的差距没那么大，其实是有道理的。

　　说实话，主要还是，GPT-5.3-codex这玩意真的强的有点变态。

　　所以这个case，其实就是GLM-5做的整体规划和方案设计，然后最后遇到一个棘手的BUG上Codex解决的，整体体验上，我录制了一遍效果展示的视频，总体体验下来还是挺不错的。

　　然后还有另一个我觉得特别好玩的case。

　　就是，看到公司同事终于在用电脑模拟器，打欢乐斗地主。。。

　　当时他吐槽说，要是有记牌器就好了。。。

　　于是，我就想，这是个好思路，虽然不会帮他作弊，但是可以试一下大模型的能力。

　　上GLM-5试了一下，这个开发过程，还真的有点意思。

　　用的提示词很简单，就一句话。

　　“我正在我的电脑上玩欢乐斗地主PC模拟器版本，帮我写一个记牌插件。”

　　反正我是完全不知道怎么实现，更不知道怎么跟PC模拟器打通。。。

　　我就说了这么一个需求，GLM-5，他会自己进行更深入的咨询，包括识别方式、技术路线、功能需求，都会一一和我确认。

　　比如在实现方式上，他提供自动识别记牌、手动点击记牌等方案让我选择，每个方案还会给出不同的技术实现路线。

　　还有功能需求的确定，我这里选择了基础记牌。

　　第一轮对话下来，记牌器整体框架都搭建好了。

　　虽然我选择的是自动识别模式，但他很贴心地把自动开发和手动开发两种模式都做了。

　　手动模式第一轮其实就直接开发完了，就可以用了。

　　它的使用逻辑是需要我自己去看对方出什么牌，我就点击那张牌，牌数会自动减一。

　　但是这个逻辑太蠢了，一点都不自动，一点也不AI。

　　对方打一个牌，我还得手动点点点，这也太呆逼了。

　　所以我还是想要用自动识别模式，但第一轮对话后自动识别功能并没成功。

　　他这里自动识别的操作逻辑是这样的。

　　游戏开始的时候，我手动勾选出牌区域，他就会自动识别这个区域出的所有牌，并自动记牌。

　　但实际上，我选中出牌区域后，它没法识别出的牌。明明这边都打起来了，它这边一直等待识别。。。

　　我让它进一步修改。但是这样的bug它并没有一次改出来，改了一版后同样报错。

　　这个时候，它自己选择添加了调试功能。

　　我看了一下，应该是这个功能实现的链路主要有两部分，屏幕勾选区域截图，截图扑克牌识别，所以他需要调试确定哪个环节出了问题。

　　这一步，可能是模拟器的原因，还涉及到比较复杂的跟屏幕的交互和监控，所以我得帮他一起测试一下。

　　他显示出我勾选区域的截图，也有OCR结果，这样我一下就能明白到底是哪个环节出了问题。

　　然后我就发现，每隔半秒截图的功能没问题，核心问题是，OCR一直识别不出结果。

　　bug找到了，后面的活就方便了，我就交给他直接搞了。

　　GLM-5自己开发了一套方案，他给出的识别方案是这样的，给每张牌都上传模板。

　　就像这样。

　　然后他会对游戏页面截图进行灰度处理、二值化，然后和模板进行模式匹配，从而实现识别。

　　这个灰度处理和二值化，说实话我没听懂，我也怕GLM-5给我的不是最优解，所以打开了Opus 4.6和GPT-5.3-codex，让他们也同时出一套解决方案看看有没有更优解。

　　没想到跟GLM-5出的方案，是一模一样的，搞得还真没毛病。

　　这突然一下显得我有点小肚鸡肠，不信任GLM-5了= =

　　模板处理完之后，很快，他就把这个系统开发完了。

　　由于我注册的是新号，估计新手村对面是人机，出牌特别快。我本来还担心识别速度会跟不上。

　　没想到，识别效果出乎意料的好。除了大小王识别有点问题，其他全都能准确识别，哪怕是接连出顺子，也能精准识别。

　　相当牛逼了。。。

　　要知道，这真的不是那种普通的前端网页，这个实现方式，还是稍微有那么点复杂的。

　　GLM-5，完成的非常的好。

　　大小王的识别问题我初步想了一下，是因为上传的模板中，字母是一样的，只是颜色不一样。

　　图片经过灰度处理后大小王不就一样了吗，那肯定分不清。不过大小王还是比较好记的，所以也没管这个。

　　而且，这是我一两个小时不到就做出来的东西，而且是已经可以实战用上的东西，这个效率，还是相当恐怖的。。。

　　同时，这里我也提醒大家上网打牌的时候，特别是现在这个阶段，在网上用真钱去做一些游戏的时候，真的要谨慎一点，因为你不知道对面会不会像我一样，随手Vibe Coding一个外挂。。。

　　除了这两个之外，我还随手，复刻了一个QQ农场。

　　而且还有很多细节，比如如果我不收已经熟了的作物他会枯萎，然后农场里还会随机长出杂草、虫子。

　　相当有意思。

　　在数据存储上，还知道用浏览器LocalStorage作为数据存储，这是一个典型的前端单机游戏存储方案，很适合这种轻量级项目，大概的流程就是下面这个样子。

　　而且这个QQ农场消耗的token，也就十三万。。。

　　太离谱了。

　　从这些case其实已经非常客观的能看出来，GLM-5的开发能力，还是很强的，在一些规划、架构能力上，是真的可以比肩Opus 4.5的，虽然在精准的BUG修改上，离现在最变态的GPT-5.3-codex还有一些差距，但是我已经非常非常开心了。

　　而且还有个场景，GLM-5做的也很好，就是构建Skills。

　　这个其实也挺考验模型的理解和执行能力的。

　　我很喜欢用咱们的老演员yt-dlp测试GLM-5打包Skills的能力。

　　帮我把这个开源工具https://github.com/yt-dlp/yt-dlp打包成一个Skill，只要我后续给出视频链接，就可以帮我下载视频。

　　GLM-5封装的基本没有任何问题，一轮效果，B站视频就能成功下载了。

　　而下载youtube视频，它也精准的提出了，需要我给一个Cookies，他才能帮我下载，我依稀记得，当时用Opus 4.5打包这个Skills，对话了6、7轮，改了N版，他也没告诉我要Cookies这事，就在那自己傻逼兮兮的告诉我改好了，可以下了，一下又报错。。。

　　看着此情此景，回想半年前。

　　那时候，如果你问我，国产大模型能不能在Coding领域跟OpenAI和Anthropic正面刚，我会说很难。

　　差距太大了，不是一点半点，是那种让人绝望的差距。

　　但现在，GLM-5出来了，确实能摸到Opus 4.5的水平。虽然跟最新的Opus 4.6和GPT-5.3-codex还有差距，但这个差距已经从代差缩小到了可以追赶的范围。

　　这是一个很重要的变化。

　　而且更重要的是，GLM-5是开源的，价格更是Claude的N分之1。

　　能力接近，开源免费，价格便宜。

　　而开源，更是意味着，B端能用上，企业能用上。

　　AI编程这件事，在国内，门槛真的，正在急剧降低。

　　以前你想用顶级的AI编程能力，得买ChatGPT的会员，得有魔法，得付得起那个价格。

　　现在不用了。

　　GLM-5给了你一个平替选择，虽然在全球领域，他距离那个老变态，他还不是最好的，但已经是跻身T1行列了，而且人人也都能用得起。

　　这会让更多人开始尝试AI编程，会让更多人感受到AI的魅力。

　　而当更多人用起来之后，社区会更活跃，反馈会更多，模型会迭代更快。

　　这是一个正向循环。

　　这也代表，我们在人才、在算力、在资金各方面都缺少的地不是，是能追上的。

　　当然，追上不代表胜利。

　　OpenAI和Anthropic还在快速迭代，下一个版本可能又把差距拉开。

　　但至少，我们已经进入了同一个赛道，在同一个维度上竞争。

　　这就是进步。

　　我非常非常推荐大家，去试试GLM-5吧，真的还不错。

　　站在今天这个节点，我其实很想说跟冯骥一样的话：

　　我真的很庆幸，这个开源模型。

　　来自智谱，来自中国。

　　在ds和sd之后的另外一个Coding世界里，也有了中国身位。

　　惟愿。

　　国运昌隆。

　　以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

　　>/ 作者：卡兹克、林机梦逗、tashi

　　>/ 投稿或爆料，请联系邮箱：wzglyay@virxact.com

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

GLM-5深夜登场，这是国产开源模型首次逼平Claude Opus 4.5。

马斯克：星舰每年将发射超过10000颗卫星

8岁男童大年初五在虎跳峡坠崖遇难 游客目击事发全程

8岁男童大年初五在虎跳峡坠崖遇难 游客目击事发全程

75673人见证！迈阿密0-3：梅西孙兴慜过招

裴世矩养侄为刃 看懂两次放行裴行俨！

特朗普新加征关税税率从10%提升至15%

续航1810km！smart精灵#6 EHD超级电混2026年上市

态度原创

留学版图重构！小众留学热度攀升，这届家长想开了：不执着名校，只在乎孩子平安毕业

哈尔滨冰雪大世界梦幻冰雪馆今日开园

兰姐坐飞机报喜！将带小马宝和仨娃回北京

新玩家入手PS5懵了：游戏还得买了才能玩？

8岁男童大年初五在虎跳峡坠崖遇难游客目击事发全程

8岁男童大年初五在虎跳峡坠崖遇难游客目击事发全程

裴世矩养侄为刃看懂两次放行裴行俨！