网易首页 > 网易号 > 正文 申请入驻

智谱最强模型发布!编程对齐Claude Opus 4.5,七家国产芯片已火速适配

国产模型正面硬刚Opus 4.5

0
分享至

来源:市场资讯

(来源:智东西)


智东西

作者 陈骏达

编辑 李水青

破案了,前两天在开发者社区爆火的“Pony Alpha”,就是智谱的GLM-5!

智东西2月12日报道,今天,智谱发布了其最新一代基础模型GLM-5,这是一个拥有744B参数(40B激活)的模型,为GLM-4.5的两倍多。在Artificial Analysis榜单中,GLM-5位居全球第四、开源第一。

GLM-5的预训练数据从23T提升至28.5T。智谱在技术报告中写道:“Scaling(规模化)仍然是提高AGI智能效率的最重要方式之一。”


智谱称,GLM-5在编程能力上实现了对Claude Opus 4.5的对齐,在主流基准测试中取得开源模型SOTA分数。在SWE-bench-Verified和Terminal Bench 2.0中,GLM-5分别获得77.8和56.2的开源模型SOTA分数,性能超过Gemini 3 Pro。


架构方面,GLM-5集成了DeepSeek的DSA稀疏注意力架构,能降低部署成本,同时保证了上下文容量。

在新模型发布后,智谱的股价今天已经上涨了26%。本周,智谱股价累计上涨约70%,市值目前已经达到1756.62亿港币(约合人民币1551.62亿元)。


GLM-5上线后,我们第一时间给它出了几道带有逻辑陷阱的的网红测试题。第一道题目是这样的:我要去洗车,洗车的地方离家就100米,我是开车去呢,还是走着去呢?

不少主流大模型其实都会在这道题目上“翻车”,不过GLM-5一眼就看穿了里头的陷阱。它分析道,肯定得开车去,因为洗的是车而不是人。最后,它还提出一个天才方案,可以先开车去,然后走回家休息,洗完了再去取车,这样就不用在旁边干等着吸尾气了。


紧接着我们尝试了另一个问题:父亲和母亲可以结婚吗?在这道题目上,由于我们的问题中给的限定不多,GLM-5拆解出了更为具体的两种情况,分析内容合理,还知道这题目里也藏着逻辑误区——父母通常情况下就是夫妻关系,所以他们不仅是可以结婚,而是已经结婚的状态。


我们最后又试着问了它这个问题:“今年才知道,亲生父母结婚时候没有叫我,我很难过怎么办?”收到消息后,GLM-5就好像马上切换到了心理咨询模式,贴心地安慰起用户,彻底绕进了题目里的陷阱——亲生父母结婚的时候,孩子大概率还没出生呢。


也有不少网友上手体验了GLM-5。比如,这位网友就让自己的OpenClaw Agent用不同模型进行了一次SwiftUI编程测试,GLM-5的表现要优于Minimax M2.1。


还有一位网友让GLM-5、GLM4.7和Opus 4.6进行了3D网页的开发,这位网友认为GLM-5的升级很大,与Opus 4.6有一些品味方面的差异。


在博客中,智谱称,GLM-5的上线得到众多国产芯片保障,GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。


面向开发者群体,智谱的模型一般以GLM Coding Plan的方式对外提供服务。不过由于使用量快速提升,为保障服务质量,智谱决定调整套餐价格,整体涨幅自30%起。

GLM-5已在Hugging Face和魔搭社区上开源,模型权重以MIT许可证发布。GLM-5也支持开发者平台api.z.ai和BigModel.cn,兼容Claude Code和OpenClaw。普通用户也可以在Z.ai免费试用。

开源链接:

https://huggingface.co/zai-org/GLM-5

API调用:

https://bigmodel.cn/

一、性能较GLM-4.7平均增幅超过20%,Z Code智能体开发环境发布

在博客中,智谱提到,大模型正从写代码、写前端,进化到写工程、完成大任务,即从“Vibe Coding”变革为“Agentic Engineering”。

智谱内部的内部Claude Code评估结果显示,GLM-5在前端、后端、长程任务等编程开发任务上超越GLM-4.7(平均增幅超过20%),能自主完成Agentic长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近Opus 4.5。

此前,我们已在OpenRouter上测试了以“Pony Alpha”这一马甲现身的GLM-5。这一模型在复杂编程领域的表现确实有明显可感的提升。

比如,我们曾试着让GLM-5复刻知名游戏《星露谷物语》。拿到提示词后,模型会像项目经理一样,分析了我们提示词中的核心需求,梳理出需要设计的八大系统与配色方案,以指导后期的开发。

之后,模型还会像架构师一样规划项目的整体架构,并打造出一个初步可玩的游戏界面。


当我们提出“进一步丰富游戏”这样的模糊需求时,GLM可以自行规划,并打造出完成度更高的游戏。

也有开发者用GLM-5打造了横版解谜游戏、Agent交互世界、论文版“抖音”等应用。这些应用有些已经开放下载,有些则提交应用商店审核。

面向编程场景,智谱还推出了Z Code智能体开发环境。用户只需把需求说清楚,模型会自动拆解任务,多智能体并发完成代码、跑命令、调试、预览和提交等开发全流程。在Z Code上,用户甚至可以用手机远程指挥桌面端Agent。

值得一提的是,Z Code也是全程由GLM模型参与开发的。

二、可一键接入OpenClaw,还能直出Word文档、PDF

除了编程之外,GLM-5也可作为通用Agent助手的基座模型。

在OpenClaw中接入GLM-5后,用户可以让GLM-5帮你搜索网站、定时整理资讯、发布推文、编程等。

智谱已经推出了AutoGLM版本的OpenClaw,支持官网一键完成OpenClaw与飞书机器人的一体化配置。

GLM-5还拥有更强的复杂系统工程和长程智能体能力,可将文本或素材直接转换为docx、pdf和xlsx文件。

在Z.ai和智谱清言上,用户可以让GLM-5直接输出产品需求文档、教案、试卷、电子表格、财务报告、流程表、菜单等文档。

GLM-5在Agent能力上实现开源SOTA,在BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和τ²-Bench(复杂多工具场景下的规划和执行)中,均取得开源SOTA。


在衡量模型经营能力的Vending Bench 2中,GLM-5也获得开源SOTA。Vending Bench 2要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5最终账户余额达到4432美元,经营表现接近Claude Opus 4.5,展现了不错的长期规划和资源管理能力。


强化学习是提升智能体能力的重要方式。智谱在GLM-5中采用了全新的“Slime”框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率。

此外,智谱还提出了异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。

结语:编程模型押注工程级能力

从“写代码”到“做工程”,大模型的能力边界正在被不断推远。越来越多的大模型已经不满足于仅仅出个简易的Demo,而是想要在长序列任务、复杂系统规划与多步骤执行上实现突破。

这种能力的进化,或许会使模型不再只是开发流程中的辅助工具,而开始具备承担完整工程环节的潜力。围绕长程规划、复杂推理与多智能体协作的能力提升,或将成为未来一段时间内编程模型升级的重点方向。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

华国锋孙女华真,目前担任苏富比亚洲区副主席,此前系李云迪妻子

老杉说历史
2026-02-03 00:39:20
字母哥等来最强火枪手!托马斯20投34分,美媒:毫不费力

字母哥等来最强火枪手!托马斯20投34分,美媒:毫不费力

大眼瞄世界
2026-02-12 20:12:09
谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,真敢说

谢贤前女友CoCo直播爆猛料,大谈谢霆锋和张柏芝结婚内幕,真敢说

叶叙说
2026-02-12 10:02:48
巴拿马迅速让步,同意归还港口但提出前提条件

巴拿马迅速让步,同意归还港口但提出前提条件

走过海棠
2026-02-11 19:46:32
“上海客厅”倒闭了,上海人的年夜饭尴尬了......

“上海客厅”倒闭了,上海人的年夜饭尴尬了......

从前这些事
2026-02-12 02:50:17
买手机不要太小气:三款近乎完美的手机,性能拉满、续航翻倍

买手机不要太小气:三款近乎完美的手机,性能拉满、续航翻倍

小柱解说游戏
2026-02-13 01:44:15
骑士五连胜!米切尔30+3+5,赛后哈登一把搂着施罗德,庆祝胜利

骑士五连胜!米切尔30+3+5,赛后哈登一把搂着施罗德,庆祝胜利

担酒
2026-02-12 10:34:09
中国十大奢侈菜,我赌你没吃过

中国十大奢侈菜,我赌你没吃过

风烟食录
2026-02-12 06:21:27
蒙面YouTuber超市内冒充ICE特工?随机抓人盘问:“你合法吗?”“哪里出生?” 或有精神疾病…

蒙面YouTuber超市内冒充ICE特工?随机抓人盘问:“你合法吗?”“哪里出生?” 或有精神疾病…

纽约时间
2026-02-11 23:33:30
离过年只剩6天,被骂11年“最丑星二代”的女儿,靠成龙逆袭争光

离过年只剩6天,被骂11年“最丑星二代”的女儿,靠成龙逆袭争光

动物奇奇怪怪
2026-02-13 04:07:17
这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

这就是回家要脱裤子才能上床的原因!网友:看完天都塌了!

夜深爱杂谈
2026-02-07 19:05:55
成本3元卖上千!国内3大假酒重灾区曝光,这些致命陷阱千万别踩

成本3元卖上千!国内3大假酒重灾区曝光,这些致命陷阱千万别踩

阅微札记
2026-02-12 22:25:53
特斯拉多名核心高管离职,知情人士称马斯克“不再受到所有人喜爱”

特斯拉多名核心高管离职,知情人士称马斯克“不再受到所有人喜爱”

金融界
2026-02-12 12:30:27
人有没有肝病,看喝酒就知?医生:有肝病的人,喝酒会有 4 异常

人有没有肝病,看喝酒就知?医生:有肝病的人,喝酒会有 4 异常

蜉蝣说
2026-02-10 15:56:58
纵队司令员顶撞军区司令员,朱德都劝不动,刘伯承:让陈赓管管他

纵队司令员顶撞军区司令员,朱德都劝不动,刘伯承:让陈赓管管他

健康快乐丁
2026-02-12 15:41:30
重大挫败:荷兰法院再次剥夺闻泰科技对安世半导体的掌控

重大挫败:荷兰法院再次剥夺闻泰科技对安世半导体的掌控

荆楚寰宇文枢
2026-02-12 23:00:03
盒马首发荷兰Tessa苹果

盒马首发荷兰Tessa苹果

北京商报
2026-02-12 20:48:07
男人的逻辑是:如果你爱我, 你就不会走。女人的逻辑是:如果你爱我,你会来找我。

男人的逻辑是:如果你爱我, 你就不会走。女人的逻辑是:如果你爱我,你会来找我。

青苹果sht
2026-01-23 05:51:00
山东男子把龟背竹养成“飘枝”,造型如水墨画,网友:这才是生活

山东男子把龟背竹养成“飘枝”,造型如水墨画,网友:这才是生活

三农老历
2026-02-12 18:34:55
10000瓦电摩挂电动自行车牌上街 交警:骗不了我

10000瓦电摩挂电动自行车牌上街 交警:骗不了我

看看新闻Knews
2026-02-12 11:55:08
2026-02-13 05:43:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2203616文章数 5458关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

健康
手机
房产
数码
公开课

转头就晕的耳石症,能开车上班吗?

手机要闻

科技记者古尔曼:预计苹果将在未来几周内推出iPhone 17e以及M4芯片版iPad Air

房产要闻

999元开线上免税店?海南爆出免税大骗局,多人已被抓!

数码要闻

英伟达App更新,搞定Optimus MUX显卡切换难题

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版