网易首页 > 网易号 > 正文 申请入驻

刚刚,智谱发布GLM-4.5:面向推理、代码与智能体的开源SOTA模型

0
分享至

今天,我们带来新一代旗舰模型GLM-4.5专为智能体应用打造的基础模型。Hugging Face 与 ModelScope 平台同步开源,模型权重遵循MIT License

要点如下:

  • GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA,在真实代码智能体的人工对比评测中,实测国内最佳
  • 采用混合专家(MoE)架构,包括 GLM-4.5:总参数量 3550 亿,激活参数 320 亿;GLM-4.5-Air:总参数 1060 亿,激活参数 120 亿;
  • 两种模式:用于复杂推理和工具使用的思考模式,及用于即时响应的非思考模式;
  • 速、低成本:API 调用价格低至输入 0.8 元/百万tokens、输出 2 元/百万tokens; 高速版 最高可达 100 tokens/秒 。

API 已上线开放平台BigModel.cn,可以一键兼容Claude Code框架。同时,大家也可以上智谱清言(chatglm.cn) 和z.ai免费体验满血版。欢迎开发者、企业、用户广泛测试与集成,探索 AGI 的奥秘。

综合性能SOTA

衡量 AGI 的第一性原理,是在不损失原有能力的前提下融合更多通用智能能力,GLM-4.5 是我们对此理念的首次完整呈现,并有幸取得技术突破。GLM-4.5 首次在单个模型中实现将推理、编码和智能体能力原生融合,以满足智能体应用的复杂需求。

为综合衡量模型的通用能力,我们选择了最具有代表性的 12 个评测基准,包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL v3 和 BrowseComp。综合平均分,GLM-4.5 取得了全球模型第三、国产模型第一,开源模型第一。

GLM-4.5 和 GLM-4.5-Air 使用了相似的训练流程:首先在 15 万亿 token 的通用数据上进行了预训练,此后在代码、推理、智能体等领域的 8 万亿 token 数据上进行针对性训练,最后通过强化学习进一步增强模型推理、代码与智能体能力。更多技术细节可参考我们的技术博客(https://z.ai/blog/glm-4.5),后续也会发布更加详细的技术报告。

更高参数效率

GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多项标准基准测试中表现得更为出色,这得益于 GLM 模型的更高参数效率。在衡量模型代码能力的SWE-bench Verified榜单上,GLM-4.5 系列位于性能/参数比帕累托前沿,表明在相同规模下 GLM-4.5 系列实现了最佳性能。

低成本、高速度

在性能优化之外,GLM-4.5 系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。

同时,高速版本实测生成速度最高可至 100 tokens/秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。

真实体验

真实场景表现比榜单更重要。为评测 GLM-4.5 在真实场景 Agent Coding 中的效果,我们接入 Claude Code 与 Claude-4-Sonnet、Kimi-K2、Qwen3-Coder 进行对比测试。测试采用 52 个编程开发任务,涵盖六大开发领域,在独立容器环境中进行多轮交互测试。实测结果显示(如下图),GLM-4.5 相对其他开源模型展现出竞争优势,特别在工具调用可靠性和任务完成度方面表现突出。尽管 GLM-4.5 相比 Claude-4-Sonnet 仍有提升空间,在大部分场景中可以实现平替的效果。

为确保评测透明度,我们公布了 52 道题目及 Agent 轨迹,供业界验证复现。

Agent 轨迹: https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

模型原生 Agent 场景

GLM-4.5 系列能胜任全栈开发任务,编写复杂应用、游戏、交互网页。这得益于模型原生具备的在前端编写网站、在后端进行数据库管理,以及通过工具调用接口支持任意的智能体应用等能力。


全栈开发实际效果 一个真的能搜索的搜索引擎

Z.ai版本“谷歌搜索”体验地址:

https://n0x9f6733jm1-deploy.space.z.ai

提示词详见轨迹地址:

https://chat.z.ai/s/2bd291ba-fe6a-4026-a8f4-1efa498267b2

一个真的能发弹幕的B站

Z.ai版本“B站”体验地址:

https://n0dba6ce0e60-deploy.space.z.ai

提示词详见轨迹地址:

https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4

一个真的能发博的微博

Z.ai版本“微博”体验地址:

https://v0rb06rruyf0-deploy.space.z.ai/

提示词详见轨迹地址:

https://chat.z.ai/s/f78ae64c-06b7-4eee-b657-878da94fa2c7

Artifacts 实际效果

GLM-4.5 不仅擅长处理复杂代码,同时也具有优秀的数据精准处理、交互动画设计能力。以下是 GLM-4.5 制作的一个 Flappy Bird 小游戏,欢迎大家前来挑战。

Flappy Bird体验地址:
https://chat.z.ai/space/b0yb2613ybp0-art

提示词详见轨迹地址:
https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323

PPT 实际效果

GLM-4.5 在制作 PPT 过程中会自主搜索资料、寻找配图,根据材料以 HTML 形式编写图文,使信息更准确、排版更灵活。除了16:9的PPT,也可以制作长图、小红书、社交媒体封面或简历等多比例图片。

向下滑动查看

如何体验

GLM-4.5 深度优化全栈编程与工具调用,兼容Claude Code、Cline、Roo Code等主流代码智能体,到智谱开放平台即可体验。

国内用户

https://docs.bigmodel.cn/cn/guide/develop/claude

海外用户:

https://docs.z.ai/scenario-example/develop-tools/claude

体验地址:

https://chat.z.ai/

https://chatglm.cn

Github 仓库:

https://github.com/zai-org/GLM-4.5

模型仓库:

HuggingFace:

https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

ModelScope:

https://modelscope.cn/collections/GLM-45-b8693e2a08984f

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖北农妇伪装俄罗斯大妈成劣迹艺人,这场荒诞闹剧该收场了

湖北农妇伪装俄罗斯大妈成劣迹艺人,这场荒诞闹剧该收场了

难得君
2026-02-22 00:21:22
33轮仅取1胜,谢周三积-7分提前13轮降级创造英冠联赛纪录

33轮仅取1胜,谢周三积-7分提前13轮降级创造英冠联赛纪录

懂球帝
2026-02-22 22:48:39
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

青烟小先生
2026-01-31 19:10:22
本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

本科已严重饱和的五个专业,1、临床医学,2、法学,3、计算机

明智家庭教育
2026-01-31 10:29:14
花120万上星光大道,淘汰后负债40万,如今她的境遇令人唏嘘

花120万上星光大道,淘汰后负债40万,如今她的境遇令人唏嘘

聚焦瞬间
2026-02-23 01:01:09
广东省推进粤港澳大湾区建设领导小组办公室,郑重声明!

广东省推进粤港澳大湾区建设领导小组办公室,郑重声明!

上观新闻
2026-02-21 17:28:03
网友看了台湾头号绿营媒体春晚视频后,感叹台湾文化产业是没落了

网友看了台湾头号绿营媒体春晚视频后,感叹台湾文化产业是没落了

总在茶余后
2026-02-21 22:47:29
2032奥运会举办地确定,结果意外改变全球奥运格局

2032奥运会举办地确定,结果意外改变全球奥运格局

余憁搞笑段子
2026-02-02 16:48:20
天助AC米兰:1-2,那不勒斯遭意甲第7逼平,3场不胜,落后AC米兰4分

天助AC米兰:1-2,那不勒斯遭意甲第7逼平,3场不胜,落后AC米兰4分

侧身凌空斩
2026-02-23 00:00:46
贝加尔湖遇难中国游客身份全部确认:七条生命,一个破碎的春节

贝加尔湖遇难中国游客身份全部确认:七条生命,一个破碎的春节

青木说
2026-02-22 09:02:50
中国固态电池将量产,纯电1200km,外国品牌急了:1.5万亿打水漂

中国固态电池将量产,纯电1200km,外国品牌急了:1.5万亿打水漂

胖福的小木屋
2026-02-22 19:40:56
亨通光电,连签290亿订单!

亨通光电,连签290亿订单!

投研邦V
2026-02-22 20:24:01
立春后,苹果和黄芪是绝配,一周喝3次,很多人还不知道有啥用

立春后,苹果和黄芪是绝配,一周喝3次,很多人还不知道有啥用

美食格物
2026-02-20 16:42:53
女子下车接电话,将900克金饰遗落在火车上,价值近135万元,1小时找回

女子下车接电话,将900克金饰遗落在火车上,价值近135万元,1小时找回

上观新闻
2026-02-22 09:10:07
在东南亚眼中,是如何看我们的?网友:我姓阮,许多远亲在越南

在东南亚眼中,是如何看我们的?网友:我姓阮,许多远亲在越南

带你感受人间冷暖
2026-02-23 01:18:48
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
郎平做梦也没想到,曾获5连冠女排队长杨锡兰,今会在瑞士当保安

郎平做梦也没想到,曾获5连冠女排队长杨锡兰,今会在瑞士当保安

青史楼兰
2025-12-31 09:14:30
女篮12人名单尘埃落定!2大核心归队终局悬念,李梦真要谢幕?

女篮12人名单尘埃落定!2大核心归队终局悬念,李梦真要谢幕?

卿子书
2026-02-22 09:25:47
谷爱凌发布会落泪:刚得知外婆去世,我向她保证过会勇敢

谷爱凌发布会落泪:刚得知外婆去世,我向她保证过会勇敢

澎湃新闻
2026-02-22 23:24:28
阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

39健康网
2026-02-17 18:31:37
2026-02-23 02:31:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

男子持霰弹枪燃烧罐闯特朗普私宅被击毙 细节披露

头条要闻

男子持霰弹枪燃烧罐闯特朗普私宅被击毙 细节披露

体育要闻

谷爱凌:6次参赛6次夺牌 我对自己非常自豪

娱乐要闻

谷爱凌:真正的强大 敢接纳生命的节奏

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

时尚
本地
亲子
游戏
旅游

50+女人更适合基础款,掌握3个高段位搭配思路,轻松提升品味

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

萌娃看见阿姨的大肚子竟这样说,着急的样子萌化了

《GTA6》的第二天发售?《宝可梦》新作爆料来了!

旅游要闻

百余组花灯齐亮!青岛这处海边盛会,年味直接拉满

无障碍浏览 进入关怀版