网易首页 > 网易号 > 正文 申请入驻

GLM-5深夜登场,这是国产开源模型首次逼平Claude Opus 4.5。

0
分享至

   深夜,GLM-5来了。

   还是老样子,发布即开源。

  

   而且前几天,OpenRouter平台不是有一个Pony Alpha的匿名模型很火吗。

  

   大家一度在猜是DeepSeek V4还是GLM-5,结果今天基本答案也揭晓了。

   这大马,基本就是明示了。

  

   到了今天,2026年的主旋律我觉得真的就已经就定下了,无论是国内还是海外。

   Coding与视频齐飞,人类共AI一色。

   这应该就是2026年AI领域最核心的两个主航道了,在这两之上,其实就是Agent。

   这几天真的感觉过年一样,太热闹了,上周GPT-5.3 codex和Claude Opus 4.6中门对狙,后脚Seedance 2.0席卷全球,而现在,战场又拉回了Coding这边。

   GLM-5,作为一个全新的大版本号,我想说,升级幅度还是很大的,真的可以比肩Claude Opus 4.5,我不开玩笑。

   我其实已经提前三天拿到了GLM-5的API,这几天在我用Codex开发的时候,也把GLM-5同步接入到了Claude code里同步开发进行对比。

   虽然作为智谱一直以来的拥簇,很想吹一下GLM-5跟Seedance 2.0一样全球第一,但是我觉得还是实事求是。

   在我这几天的使用过程中,我个人体感是,GLM-5跟GPT-5.3-codex这种变态肯定还是有一些距离(后面有case会展示),但是在真正产品的开发和解决BUG的能力上,我觉得是能摸一下GPT-5.2-codex和Claude Opus 4.5了。

   不要觉得这好像是一件很容易的事,Coding国内落后的其实一直都比较远,能追上Opus 4.5的能力,其实已经非常非常非常牛逼了。

  前几天,在GPT-5.3-codex和Opus 4.6中门对狙的文章里,我在评论区里评论说,要是DeepSeek能赶上Opus 4.5,我高低得给它磕两个。

  

  我是没想到,我现在可能得给智谱磕两个了。

  非常坦诚的讲,在我日常开发过程中,我可能还是会选择GPT-5.3-codex + codex的组合,但是,我也深刻的清楚,并不是所有人,都有条件去买ChatGPT的会员的。

  那如果你用不了GPT-5.3-codex的话,那我无比真诚的建议你,不用犹豫,就用GLM-5就行,这就是国内,你现在能用上的,最好、最棒、性价比最高的大模型。

  Claude Code + GLM-5,是你无需魔法,国内可用,最低门槛体验AI Coding魅力的组合。

  先老规矩,看下跑分和性能。

  首先,GLM-5从355B(32B激活)扩展到744B参数(40B激活),参数量大了一倍,智能提升确实挺多,而且成本没有加特别多。

  跑分上,目前在Artificial Analysis上仅次于那两个大爹,开源第1。

  

  然后整体能力上。

  

  相较于GLM-4.7,GLM-5全线能力基本都有了大幅提升,而且逼近Opus 4.5。

  有一个比较有特点的,就是BrowseComp基准,这个我之前也说过,测的是Agent在网上搜索信息的能力,GLM-5得分75.9,直接超第二名普通的GPT-5.2有10个点,这个已经非常强了。

  而另外两个最顶级的模型没放在里面,一个是GPT-5.2 Pro得分是77.9,Opus 4.6得分是84,GLM-5其实已经逼近最一线的水平了,能跟GPT-5.2 Pro打个平手,这事本身就挺强的了。

  然后其他的,比如现实场景下改仓库代码的测试机SWE-bench,终端环境中agent能力的基准Terminal-Bench 2.0,agent工具使用的τ²-Bench,还有测试模型调用MCP能力的MCP-Atlas基准上,基本比Opus都只差那么临门一脚了。

  说实话,一个国产模型,还开源出去,能到这个水平,已经非常非常让人自豪了。

  同时在我看好的系统工程能力、长任务能力,在跑分上也能得到印证。

  比如下面图上的Long-horizon基准,也就是长链条复杂任务,就能充分体现模型自主进行Agent长程多步规划和执行的能力。

  

  这个跑分看下来就很清晰了,也和我实测下来的感受一致,在真正需要做大开发的时候,它的长程任务上,确实是对标Opus 4.5的存在。

  GLM-5的上下文窗口和GLM-4.7一样,目前还是200k的上下文窗口,输出是128K。

  不过GLM-5有一个非常离谱的一点,就是这玩意我试下来,非常的省token,就是干活的感觉,非常精准,跟GPT-5.3-codex有的一拼,这点有多重要用过Opus 4.6的都懂,那上下文和消耗量,简直了。

  然后就是价格上,一个是API价格,真的,国产模型,这价格便宜的让人心疼。

  

  Opus 4.5和4.6,都是$5/$25每百万token(输入/输出)。

  而GLM-5大概只有Claude的七分之一。

  很香,真的香。

  另一方面那自然是不得不提的Coding Plan了,也是现在玩Vibe Coding的主流用法,基本都是买包月套餐,对标Claude Max和ChatGPT Pro的。

  

  价格是Claude Max套餐的2/3,Token额度是他们的3倍。

  甚至因为卖的过于火爆,算力不够,前两个套餐额度,直接被抢空了。。。

  没错,一个包月套餐,被抢空了。。。

  这个太离谱了。

  白天的时候大家可以蹲一蹲,网址在此:

  https://bigmodel.cn/glm-coding

  当你有了GLM-5的权限之后,想用的话,我最推荐的还是在Claude Code里面用。

  因为Claude Code就是目前确实最通用的Coding Agent产品,Codex是单纯的例外,主要跟GPT适配的太好。

  而在Claude code里接入GLM-5挺简单的。

  这一点智谱做的很好,他们做了一个Coding Tool Helper工具就是可以快速将你的GLM编码套餐加载到你使用的编码工具中。

  直接打开终端,然后输入:

  npx@z_ai/coding-helper

  你就正常登录。

  

  目前支持的编码工具 Claude Code、OpenCode、Crush、Factory Droid。

  

  跟着配置就好,配置好以后,我们运行Claude Code。

  你就可以使用GLM-5了。

  

  我也做了几个case,给大家直观的感受一下,GLM-5的能力。

  前天我拿到GLM-5的资格的时候,正好有个需求要开发,就是一个全平台分发文章的需求。

  做自媒体的朋友们应该知道,文章写完不是真正的结束,而是刚刚开始。

  我一般写完微信公众号文章需要把文章同步分发到其他平台,这是个很大的工作量,而且有的编辑器还不一样,会出现乱码,文本格式丢失问题,我真。。。

  

  之前是用一个开源工具自己改的,但是其实没有那么好用,所以最近其实一直想自己开发一个。

  所以,我当时就想,不如用GLM-5 Coding一个这样的全平台内容同步分发的这么个小产品吧。

  开发完以后,发现效果居然还不错。

  就是下面图中的这样,大概的功能就是把我微信公众号的文章链接放进去,然后点击想要同步的平台,就可以同步过去。

  

  当时开发的时候其实Prompt给的巨简单。

  点击同步后,打开目标平台发布页面,自动填充内容

  当时给过去以后,GLM-5的体感上,其实就比之前GLM-4.7强很多了。

  按惯例,他先提供给我了一些关键设计让我去选择。

  我也秉持着先开发一个最小MVP的原则去的。

  

  所以选的都比较谨慎。

  接着GLM-5就给了超详细的规划。

  

  速度不慢,很快就搞定了。

  总体的完成度和实用性很好,不过因为最开始最小MVP的原则,分发的平台有点少,后续我直接让他添加其他的平台,两轮就完成了。

  

  整体其实都还可以,但是在使用的时候,遇到了一个BUG。

  就是我放入公众号链接后,让他提取标题、封面、正文,他标题和封面倒是可以成功提取出来,但是关键部分,也就是正文提取内容总是不全,会缺失一大截,图片也获取不到。

  

  改了两三轮,还是有BUG,然后我上Opus 4.5,居然也没改成功。。。

  最后打开了GPT-5.3-codex,一轮,完成了。。。

  GLM-5跟Opus 4.5的差距没那么大,其实是有道理的。

  说实话,主要还是,GPT-5.3-codex这玩意真的强的有点变态。

  所以这个case,其实就是GLM-5做的整体规划和方案设计,然后最后遇到一个棘手的BUG上Codex解决的,整体体验上,我录制了一遍效果展示的视频,总体体验下来还是挺不错的。

  

  然后还有另一个我觉得特别好玩的case。

  就是,看到公司同事终于在用电脑模拟器,打欢乐斗地主。。。

  当时他吐槽说,要是有记牌器就好了。。。

  于是,我就想,这是个好思路,虽然不会帮他作弊,但是可以试一下大模型的能力。

  上GLM-5试了一下,这个开发过程,还真的有点意思。

  用的提示词很简单,就一句话。

  “我正在我的电脑上玩欢乐斗地主PC模拟器版本,帮我写一个记牌插件。”

  反正我是完全不知道怎么实现,更不知道怎么跟PC模拟器打通。。。

  我就说了这么一个需求,GLM-5,他会自己进行更深入的咨询,包括识别方式、技术路线、功能需求,都会一一和我确认。

  比如在实现方式上,他提供自动识别记牌、手动点击记牌等方案让我选择,每个方案还会给出不同的技术实现路线。

  

  还有功能需求的确定,我这里选择了基础记牌。

  

  第一轮对话下来,记牌器整体框架都搭建好了。

  虽然我选择的是自动识别模式,但他很贴心地把自动开发和手动开发两种模式都做了。

  

  手动模式第一轮其实就直接开发完了,就可以用了。

  它的使用逻辑是需要我自己去看对方出什么牌,我就点击那张牌,牌数会自动减一。

  但是这个逻辑太蠢了,一点都不自动,一点也不AI。

  对方打一个牌,我还得手动点点点,这也太呆逼了。

  所以我还是想要用自动识别模式,但第一轮对话后自动识别功能并没成功。

  他这里自动识别的操作逻辑是这样的。

  游戏开始的时候,我手动勾选出牌区域,他就会自动识别这个区域出的所有牌,并自动记牌。

  

  但实际上,我选中出牌区域后,它没法识别出的牌。明明这边都打起来了,它这边一直等待识别。。。

  

  我让它进一步修改。但是这样的bug它并没有一次改出来,改了一版后同样报错。

  这个时候,它自己选择添加了调试功能。

  我看了一下,应该是这个功能实现的链路主要有两部分,屏幕勾选区域截图,截图扑克牌识别,所以他需要调试确定哪个环节出了问题。

  

  这一步,可能是模拟器的原因,还涉及到比较复杂的跟屏幕的交互和监控,所以我得帮他一起测试一下。

  他显示出我勾选区域的截图,也有OCR结果,这样我一下就能明白到底是哪个环节出了问题。

  然后我就发现,每隔半秒截图的功能没问题,核心问题是,OCR一直识别不出结果。

  bug找到了,后面的活就方便了,我就交给他直接搞了。

  GLM-5自己开发了一套方案,他给出的识别方案是这样的,给每张牌都上传模板。

  就像这样。

  

  然后他会对游戏页面截图进行灰度处理、二值化,然后和模板进行模式匹配,从而实现识别。

  这个灰度处理和二值化,说实话我没听懂,我也怕GLM-5给我的不是最优解,所以打开了Opus 4.6和GPT-5.3-codex,让他们也同时出一套解决方案看看有没有更优解。

  没想到跟GLM-5出的方案,是一模一样的,搞得还真没毛病。

  这突然一下显得我有点小肚鸡肠,不信任GLM-5了= =

  模板处理完之后,很快,他就把这个系统开发完了。

  由于我注册的是新号,估计新手村对面是人机,出牌特别快。我本来还担心识别速度会跟不上。

  没想到,识别效果出乎意料的好。除了大小王识别有点问题,其他全都能准确识别,哪怕是接连出顺子,也能精准识别。

  

  相当牛逼了。。。

  要知道,这真的不是那种普通的前端网页,这个实现方式,还是稍微有那么点复杂的。

  GLM-5,完成的非常的好。

  大小王的识别问题我初步想了一下,是因为上传的模板中,字母是一样的,只是颜色不一样。

  图片经过灰度处理后大小王不就一样了吗,那肯定分不清。不过大小王还是比较好记的,所以也没管这个。

  而且,这是我一两个小时不到就做出来的东西,而且是已经可以实战用上的东西,这个效率,还是相当恐怖的。。。

  同时,这里我也提醒大家上网打牌的时候,特别是现在这个阶段,在网上用真钱去做一些游戏的时候,真的要谨慎一点,因为你不知道对面会不会像我一样,随手Vibe Coding一个外挂。。。

  除了这两个之外,我还随手,复刻了一个QQ农场。

  

  而且还有很多细节,比如如果我不收已经熟了的作物他会枯萎,然后农场里还会随机长出杂草、虫子。

  相当有意思。

  在数据存储上,还知道用浏览器LocalStorage作为数据存储,这是一个典型的前端单机游戏存储方案,很适合这种轻量级项目,大概的流程就是下面这个样子。

  

  而且这个QQ农场消耗的token,也就十三万。。。

  

  太离谱了。

  从这些case其实已经非常客观的能看出来,GLM-5的开发能力,还是很强的,在一些规划、架构能力上,是真的可以比肩Opus 4.5的,虽然在精准的BUG修改上,离现在最变态的GPT-5.3-codex还有一些差距,但是我已经非常非常开心了。

  而且还有个场景,GLM-5做的也很好,就是构建Skills。

  这个其实也挺考验模型的理解和执行能力的。

  我很喜欢用咱们的老演员yt-dlp测试GLM-5打包Skills的能力。

  帮我把这个开源工具https://github.com/yt-dlp/yt-dlp打包成一个Skill,只要我后续给出视频链接,就可以帮我下载视频。

  GLM-5封装的基本没有任何问题,一轮效果,B站视频就能成功下载了。

  

  而下载youtube视频,它也精准的提出了,需要我给一个Cookies,他才能帮我下载,我依稀记得,当时用Opus 4.5打包这个Skills,对话了6、7轮,改了N版,他也没告诉我要Cookies这事,就在那自己傻逼兮兮的告诉我改好了,可以下了,一下又报错。。。

  

  看着此情此景,回想半年前。

  那时候,如果你问我,国产大模型能不能在Coding领域跟OpenAI和Anthropic正面刚,我会说很难。

  差距太大了,不是一点半点,是那种让人绝望的差距。

  但现在,GLM-5出来了,确实能摸到Opus 4.5的水平。虽然跟最新的Opus 4.6和GPT-5.3-codex还有差距,但这个差距已经从代差缩小到了可以追赶的范围。

  这是一个很重要的变化。

  而且更重要的是,GLM-5是开源的,价格更是Claude的N分之1。

  能力接近,开源免费,价格便宜。

  而开源,更是意味着,B端能用上,企业能用上。

  AI编程这件事,在国内,门槛真的,正在急剧降低。

  以前你想用顶级的AI编程能力,得买ChatGPT的会员,得有魔法,得付得起那个价格。

  现在不用了。

  GLM-5给了你一个平替选择,虽然在全球领域,他距离那个老变态,他还不是最好的,但已经是跻身T1行列了,而且人人也都能用得起。

  这会让更多人开始尝试AI编程,会让更多人感受到AI的魅力。

  而当更多人用起来之后,社区会更活跃,反馈会更多,模型会迭代更快。

  这是一个正向循环。

  这也代表,我们在人才、在算力、在资金各方面都缺少的地不是,是能追上的。

  当然,追上不代表胜利。

  OpenAI和Anthropic还在快速迭代,下一个版本可能又把差距拉开。

  但至少,我们已经进入了同一个赛道,在同一个维度上竞争。

  这就是进步。

  我非常非常推荐大家,去试试GLM-5吧,真的还不错。

  站在今天这个节点,我其实很想说跟冯骥一样的话:

  我真的很庆幸,这个开源模型。

  来自智谱,来自中国。

  在ds和sd之后的另外一个Coding世界里,也有了中国身位。

  惟愿。

  国运昌隆。

  以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

  >/ 作者:卡兹克、林机梦逗、tashi

  >/ 投稿或爆料,请联系邮箱:wzglyay@virxact.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“初中女生被老人索赔22万”,家长最新回应:对方已撤诉,不希望再占用公共资源

“初中女生被老人索赔22万”,家长最新回应:对方已撤诉,不希望再占用公共资源

封面新闻
2026-02-22 00:27:04
21岁,又一个天才新人出道!

21岁,又一个天才新人出道!

贵圈真乱
2026-02-22 11:06:51
最后夺金点!谷爱凌决赛时间确定 极端情况下或取消 中国无缘金牌

最后夺金点!谷爱凌决赛时间确定 极端情况下或取消 中国无缘金牌

念洲
2026-02-22 08:42:17
三亚至深圳最高票价达14460元

三亚至深圳最高票价达14460元

第一财经资讯
2026-02-22 12:34:38
曝前国脚要挟俱乐部:居然索要千万高薪,曾短暂效力泰山队

曝前国脚要挟俱乐部:居然索要千万高薪,曾短暂效力泰山队

姜大叔侃球
2026-02-22 12:23:30
特朗普:关税从10%升至15%!但不针对中国

特朗普:关税从10%升至15%!但不针对中国

魏家东
2026-02-22 08:29:23
《Medicine》127篇论文暴雷!作者全部来自中国

《Medicine》127篇论文暴雷!作者全部来自中国

双链生信
2026-02-21 16:38:48
从感冒到离世仅5天!唐山“钓帝”安大爷去世,儿子:太快了没来得及留遗言,父亲本打算开春去钓鱼

从感冒到离世仅5天!唐山“钓帝”安大爷去世,儿子:太快了没来得及留遗言,父亲本打算开春去钓鱼

芒果都市
2026-02-22 12:31:26
美国空军交付全球首台5兆瓦微型核反应堆

美国空军交付全球首台5兆瓦微型核反应堆

cnBeta.COM
2026-02-22 07:34:18
堵堵堵!正月初六,湖南返深简直是“红色预警”,三条高速全红…

堵堵堵!正月初六,湖南返深简直是“红色预警”,三条高速全红…

火山詩话
2026-02-22 10:51:54
总领馆:贝加尔湖事故幸存者身体状况良好!当地提前回暖,温度破百年纪录;目击者:幸存男子坐在后排,在车辆入水瞬间冲出

总领馆:贝加尔湖事故幸存者身体状况良好!当地提前回暖,温度破百年纪录;目击者:幸存男子坐在后排,在车辆入水瞬间冲出

每日经济新闻
2026-02-21 20:45:08
美国U-2侦察机全球共被击落7架,其中5架败于我军之手,百岁院士张履谦披露详情

美国U-2侦察机全球共被击落7架,其中5架败于我军之手,百岁院士张履谦披露详情

极目新闻
2026-02-21 21:45:52
中国游客遗体被打捞出,俄外长致哀

中国游客遗体被打捞出,俄外长致哀

观察者网
2026-02-22 15:35:13
关窗!少出门!上海周边多地区已重度污染!即将影响上海,将持续到

关窗!少出门!上海周边多地区已重度污染!即将影响上海,将持续到

新民晚报
2026-02-22 14:26:20
美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

美方扶持的4位中国富豪开始露头了:在华疯狂捞金,扭头捐给美国

来科点谱
2026-02-22 07:06:28
湛江妈祖事件真相!当地村民称不是抬不动轿子,而是根本不敢走啊

湛江妈祖事件真相!当地村民称不是抬不动轿子,而是根本不敢走啊

火山詩话
2026-02-21 14:13:36
3-1崩盘重演?林诗栋关键分再失误,王皓严肃盯梢男队梯队危机

3-1崩盘重演?林诗栋关键分再失误,王皓严肃盯梢男队梯队危机

卿子书
2026-02-22 07:10:54
香港身份烂尾潮已来!12万内地中产,正在被精准收割

香港身份烂尾潮已来!12万内地中产,正在被精准收割

社会日日鲜
2026-02-22 04:38:12
昆明海埂大坝“游客比海鸥还多”,管理方:建议乘坐公共交通前往

昆明海埂大坝“游客比海鸥还多”,管理方:建议乘坐公共交通前往

上游新闻
2026-02-21 13:43:15
1882年施工,2026年封顶!144年,圣家堂终于封顶!今天我们讲讲它的故事….

1882年施工,2026年封顶!144年,圣家堂终于封顶!今天我们讲讲它的故事….

英国那些事儿
2026-02-21 22:36:56
2026-02-22 17:35:00
数字生命卡兹克 incentive-icons
数字生命卡兹克
反复横跳于不同的AI领域,努力分享一些很酷的AI干货
461文章数 545关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

8岁男童大年初五在虎跳峡坠崖遇难 游客目击事发全程

头条要闻

8岁男童大年初五在虎跳峡坠崖遇难 游客目击事发全程

体育要闻

75673人见证!迈阿密0-3:梅西孙兴慜过招

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
旅游
亲子
游戏
公开课

教育要闻

留学版图重构!小众留学热度攀升,这届家长想开了:不执着名校,只在乎孩子平安毕业

旅游要闻

哈尔滨冰雪大世界梦幻冰雪馆今日开园

亲子要闻

兰姐坐飞机报喜!将带小马宝和仨娃回北京

新玩家入手PS5懵了:游戏还得买了才能玩?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版