网易首页 > 网易号 > 正文 申请入驻

刚刚,智谱发布GLM-4.5:面向推理、代码与智能体的开源SOTA模型

0
分享至

今天,我们带来新一代旗舰模型GLM-4.5,专为智能体应用打造的基础模型。Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License。

要点如下:

  • GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA,在真实 代码智能体的人工 对比评测中,实测国内最佳

  • 采用混合专家(MoE)架构, 包括 GLM-4.5 : 总参数量 3550 亿,激活参数 320 亿; GLM-4.5-Air : 总参数 1060 亿,激活参数 120 亿;

  • 两种模式:用于复杂推理和工具使用的思考模式,及用于即时响应的非思考模式;

速、低成本API 调用价格低至输入 0.8 元/百万tokens、输出 2 元/百万tokens; 高速版 最高可达 100 tokens/秒 。

API 已上线开放平台BigModel.cn,可以一键兼容 Claude Code 框架。同时,大家也可以上智谱清言(chatglm.cn) 和 z.ai免费体验满血版。欢迎开发者、企业、用户广泛测试与集成,探索 AGI 的奥秘。

综合性能SOTA

衡量 AGI 的第一性原理,是在不损失原有能力的前提下融合更多通用智能能力,GLM-4.5 是我们对此理念的首次完整呈现,并有幸取得技术突破。GLM-4.5 首次在单个模型中实现将推理、编码和智能体能力原生融合,以满足智能体应用的复杂需求。

为综合衡量模型的通用能力,我们选择了最具有代表性的 12 个评测基准,包括MMLU Pro、AIME24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL v3和 BrowseComp。综合平均分,GLM-4.5 取得了全球模型第三、国产模型,开源模型第一。

GLM-4.5 和 GLM-4.5-Air 使用了相似的训练流程:首先在 15 万亿 token 的通用数据上进行了预训练,此后在代码、推理、智能体等领域的 8 万亿 token 数据上进行针对性训练,最后通过强化学习进一步增强模型推理、代码与智能体能力。更多技术细节可参考我们的技术博客(https://z.ai/blog/glm-4.5),后续也会发布更加详细的技术报告。

更高参数效率

GLM-4.5 参数量为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多项标准基准测试中表现得更为出色,这得益于 GLM 模型的更高参数效率。在衡量模型代码能力的SWE-bench Verified榜单上,GLM-4.5 系列位于性能/参数比帕累托前沿,表明在相同规模下 GLM-4.5 系列实现了最佳性能。

低成本、高速度

在性能优化之外,GLM-4.5 系列也在成本和效率上实现突破由此带来远低于主流模型定价:API 调用价格低至输入 0.8 元/百万 tokens,输出 2 元/百万 tokens。

同时,高速版本实测生成速度最高可至100 tokens/秒,支持低延迟、高并发的实际部署需求,兼顾成本效益与交互体验。

真实体验

真实场景表现比榜单更重要。为评测 GLM-4.5 在真实场景 Agent Coding 中的效果,我们接入 Claude Code 与 Claude-4-Sonnet、Kimi-K2、Qwen3-Coder 进行对比测试。测试采用 52 个编程开发任务,涵盖六大开发领域,在独立容器环境中进行多轮交互测试。实测结果显示(如下图),GLM-4.5 相对其他开源模型展现出竞争优势,特别在工具调用可靠性和任务完成度方面表现突出。尽管 GLM-4.5 相比 Claude-4-Sonnet 仍有提升空间,在大部分场景中可以实现平替的效果。

为确保评测透明度,我们公布52道题目及 Agent 轨迹,供业界验证复现

Agent 轨迹: https://huggingface.co/datasets/zai-org/CC-Bench-trajectories

模型原生 Agent 场景

GLM-4.5 系列能胜任全栈开发任务,编写复杂应用、游戏、交互网页。这得益于模型原生具备的在前端编写网站、在后端进行数据库管理,以及通过工具调用接口支持任意的智能体应用等能力。

全栈开发实际效果一个真的能搜索的搜索引擎

Z.ai版本“谷歌搜索”体验地址:

https://n0x9f6733jm1-deploy.space.z.ai

提示词详见轨迹地址:

https://chat.z.ai/s/2bd291ba-fe6a-4026-a8f4-1efa498267b2

一个真的能发弹幕的B站

Z.ai版本“B站”体验地址:

https://n0dba6ce0e60-deploy.space.z.ai

提示词详见轨迹地址:

https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4

一个真的能发博的微博

Z.ai版本“微博”体验地址:

https://v0rb06rruyf0-deploy.space.z.ai/

提示词详见轨迹地址:

https://chat.z.ai/s/f78ae64c-06b7-4eee-b657-878da94fa2c7

Artifacts实际效果

GLM-4.5 不仅擅长处理复杂代码,同时也具有优秀的数据精准处理、交互动画设计能力。以下是 GLM-4.5 制作的一个 Flappy Bird 小游戏,欢迎大家前来挑战。

Flappy Bird体验地址:

https://chat.z.ai/space/b0yb2613ybp0-art

提示词详见轨迹地址:
https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323

PPT 实际效果

GLM-4.5 在制作 PPT 过程中会自主搜索资料、寻找配图,根据材料以 HTML 形式编写图文,使信息更准确、排版更灵活。除了16:9的PPT,也可以制作长图、小红书、社交媒体封面或简历等多比例图片。

向下滑动查看

如何体验

GLM-4.5 深度优化全栈编程与工具调用,兼容Claude Code、Cline、Roo Code等主流代码智能体,到智谱开放平台即可体验。

国内用户

https://docs.bigmodel.cn/cn/guide/develop/claude

海外用户:

https://docs.z.ai/scenario-example/develop-tools/claude

体验地址:

https://chat.z.ai/

https://chatglm.cn

Github 仓库:

https://github.com/zai-org/GLM-4.5

模型仓库:

HuggingFace:

https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

ModelScope:

https://modelscope.cn/collections/GLM-45-b8693e2a08984f

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
视频丨日本民众举行集会抗议 反对政府推进扩军路线

视频丨日本民众举行集会抗议 反对政府推进扩军路线

国际在线
2026-03-21 08:09:11
巴拿马这次真急了!中国港口“考古式”检查,直接把船东查哭了

巴拿马这次真急了!中国港口“考古式”检查,直接把船东查哭了

匹夫来搞笑
2026-03-21 03:00:27
阿里利润暴跌66%,到底发生了什么?

阿里利润暴跌66%,到底发生了什么?

大佬灼见
2026-03-20 11:51:01
为什么国家卫健委不建立一个统一电子病历系统?网友回答真相了!

为什么国家卫健委不建立一个统一电子病历系统?网友回答真相了!

另子维爱读史
2026-03-20 19:19:48
随着浙江4-1送海牛3连败,海港3轮2负,中超最新积分:泰山跌第7

随着浙江4-1送海牛3连败,海港3轮2负,中超最新积分:泰山跌第7

小火箭爱体育
2026-03-20 21:39:43
46个月下水9艘!中国095型新核艇曝光,留给美军的时间不多了?

46个月下水9艘!中国095型新核艇曝光,留给美军的时间不多了?

基斯默默
2026-03-20 15:40:42
争议!闪耀U23亚洲杯的李昊无缘国足 范志毅女婿4个月0出场却入选

争议!闪耀U23亚洲杯的李昊无缘国足 范志毅女婿4个月0出场却入选

我爱英超
2026-03-20 11:57:44
转告家里所有人:门外一喊这几句,马上提高警惕,很多人已上当

转告家里所有人:门外一喊这几句,马上提高警惕,很多人已上当

吃货的分享
2026-03-20 17:04:45
首款进口乙肝治愈新药,最快年底上市

首款进口乙肝治愈新药,最快年底上市

药圈观察局
2026-03-18 15:08:35
一个女人,就算没有夫妻间的生理需求,也要跟老公睡在一张床上

一个女人,就算没有夫妻间的生理需求,也要跟老公睡在一张床上

加油丁小文
2026-02-26 07:30:04
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

10万亿窟窿!比恒大更坑的民企来了,曾力压许家印,位居第一

孤单是寂寞的毒
2026-03-04 15:38:03
小米su7 10 万销量算拉胯,发布半小时无销量战报

小米su7 10 万销量算拉胯,发布半小时无销量战报

小柱解说游戏
2026-03-20 14:43:20
19助攻!吉迪打破纪录,29分险些逆转啊,哈登一球毁掉所有

19助攻!吉迪打破纪录,29分险些逆转啊,哈登一球毁掉所有

球童无忌
2026-03-20 12:58:22
0-1!海港不敌大连,没想到穆斯卡特赛后这样说:场地条件很困难

0-1!海港不敌大连,没想到穆斯卡特赛后这样说:场地条件很困难

球场新视角1号
2026-03-20 22:24:35
2-0进四强!中国女网24岁王牌满血复活:追赶王欣瑜郑钦文?

2-0进四强!中国女网24岁王牌满血复活:追赶王欣瑜郑钦文?

李喜林篮球绝杀
2026-03-20 17:35:00
中央第九生态环境保护督察组向江苏浙江安徽反馈大运河生态环境保护专项督察情况

中央第九生态环境保护督察组向江苏浙江安徽反馈大运河生态环境保护专项督察情况

现代快报
2026-03-20 17:19:03
【科研】颜宁院士发微博拒绝会议,因为“不能一直输出,必须要有学习和沉淀”

【科研】颜宁院士发微博拒绝会议,因为“不能一直输出,必须要有学习和沉淀”

新浪财经
2026-03-20 07:08:44
伊朗宣布击中美军F-35战机,美军承认战机紧急迫降,事件正在调查中

伊朗宣布击中美军F-35战机,美军承认战机紧急迫降,事件正在调查中

环球网资讯
2026-03-21 07:07:29
以色列袭击已致黎巴嫩上千人死亡

以色列袭击已致黎巴嫩上千人死亡

每日经济新闻
2026-03-20 07:44:59
2026-03-21 09:39:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4594文章数 37434关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

中国船员被"困"在霍尔木兹海峡20天 缺水断菜口粮告急

头条要闻

中国船员被"困"在霍尔木兹海峡20天 缺水断菜口粮告急

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

房产
本地
时尚
艺术
公开课

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

推广中奖名单-更新至2026年3月4日推广

艺术要闻

毛主席唯一中学小楷书法,竟然挑战传统审美标准!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版