网易首页 > 网易号 > 正文 申请入驻

又一国产旗舰模型开源,海外网友:中国AI开源四巨头已成

0
分享至

最近几周,国产开源模型迎来一波集中爆发,互联网大厂和AI独角兽们纷纷甩出自家的开源王炸,接力登顶全球开源模型榜首。而就在本周,又有一款国产开源模型火爆全网。

这一模型来自素有“中国OpenAI”之称的智谱,是其最新一代旗舰模型GLM-4.5。发布时机也十分凑巧——刚好卡在网传的OpenAI的GPT-5发布之前,同样主打推理、编程、智能体等能力。

不过,智谱已经凭借开源抢占了先机,在国内外提前收获了一波流量,官宣推文获得77万+阅读,还获得开源托管平台HuggingFace CEO的转发支持。

发布后不到48小时,GLM-4.5已经冲上了HuggingFace趋势榜第一名,成为全球最受关注的开源模型之一,GLM-4.5-Air则位列第六。硅谷BenchmarK风投公司合伙人Bil Gurley发文称:中国开源AI模型所产生的组合效应非常强大,模型之间都可以互相改进,新模型的推出也更为容易。

值得注意的是,在WAIC前后,中国大模型的开源相继“出圈”,月之暗面的K2、阿里的多款模型均有不俗表现,之后智谱GLM模型接力。就在今天,Hugging-Face开源模型榜单前10名几乎全是中国大模型,CNBC认为,中国企业正在研发的人工智能模型不仅智能化水平提升,使用成本也持续降低。

更有一位海外AI博主制作了一张形象的梗图,形容当前AI竞争格局的演变:全球AI大模型现已分裂为以中国模型为代表的开源派,与美国模型为代表的闭源派。近期,继DeepSeek、Qwen之后,Kimi、GLM等国产模型也相继重磅开源,给中国开源模型再添猛将,仿佛形成了中国AI“开源四杰”,与国际上的GPT、Claude、Gemini、Grok组成的“闭源四强”分庭抗礼。

GLM-4.5定位为融合推理、编码和智能体能力的智能体基座模型,在涵盖推理、编程、智能体等场景的12项基准测试中,GLM4.5的综合性能取得了全球开源模型SOTA(即排名第一)、国产模型第一、全球模型第三的成绩。

榜单之外,智谱还在真实场景中测试了模型的智能体编程能力,平行比较了Claude-4-Sonnet、Kimi-K2、Qwen3-Coder等模型。为确保评测透明度,智谱公布了上述测试中涉及的全部52道题目及Agent轨迹,供业界验证复现。这点也获得网友们的赞许。

同时,智谱为模型提供了极具性价比的API定价,API调用价格低至输入0.8元/百万tokens、输出2元/百万tokens;高速版最高可达100 tokens/秒。此外,用户也可在智谱清言和z.ai上免费使用满血版的GLM-4.5。

近期,智东西已对GLM-4.5的多项能力进行了深度体验,这款模型在实际生产场景中的效用令人惊喜。

体验链接:

https://chatglm.cn

https://chat.z.ai/

模型仓库:

https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

一、GLM-4.5一手实测:一句话打造完整数据库,思考过程简洁明晰

目前,已有许多国内外网友上手体验GLM-4.5模型,用它打造AI私人健身教练、生成网页游戏、3D动画等,其编程能力、完成长序列复杂任务的能力给人留下深刻印象。

这得益于GLM-4.5本次主打的智能体能力。相较于传统的问答、摘要、翻译等静态任务,智能体任务对模型提出了更加严苛且立体的能力要求。集中展现了大模型在感知、记忆、规划、执行等方面的关键要素,也为后续多维能力提供了基础。

智能体往往面向开放式环境,需要模型具备持续感知、长期规划与自我修正能力。同时,智能体任务是一种复合流程,不仅涉及语言处理能力,还要求模型统筹调用工具、执行代码、操控接口,甚至进行多轮交互协作,真正考验模型的综合调度能力。由此可见,智能体任务不仅是一种普通的任务形态,也可以说是一种“压力测试”

全栈开发便是一种典型的智能体任务。为测试相关能力,智东西向GLM-4.5提出了一项较为完整的开发任务——使用PHP+MySQL打造一个具有增删改查功能中英双语的术语库。这项任务的难点之一在于,模型需要自行规划项目的框架、明晰功能需求、数据库具体设计等元素,如真正的工程师一般全面思考、解决问题。

智东西也曾将类似的题目交给其他模型,不过,许多模型都无法对项目框架进行合理规划,甚至选择在一个网页文件中开发所有功能。因此,最终交付的结果无法部署在生产场景,更别提进一步修改、扩展了。

令人惊喜的是,GLM-4.5交付的结果较为完整,实现了既定的功能,并且速度较快,2分钟左右便完成了3个核心页面的开发,最终部署的效果如下:

这一结果或许得益于GML-4.5正式开始生成代码前清晰的思考过程:它准确地判断了项目性质,也明白应该生成哪些文件,这为后续的开发提供了明确的指引。思考过程也不拖泥带水,看上去简洁清晰。

▲部分对话记录:https://chat.z.ai/s/50e0d240-2034-407b-a1b3-94248dd5f449

智谱的官方Demo则展示了GLM-4.5的更多能力,例如,它可以根据用户需求,准确地复刻YouTube、谷歌、B站等网站的UI界面,可用于Demo展示等需求。

▲对话记录:https://chat.z.ai/s/01079de2-a76d-41ee-b6ee-262ea36c4df7

或是打造一个让用户自主设计迷宫,系统查找路径的网页。

▲对话记录https://chat.z.ai/s/94bd1761-d1a8-41c9-a2f4-5dacd0af88e9

这种全栈能力不仅能用于实际生产场景,拿来整活儿也是不错的。智谱官方打造了一个量子功德箱,能实际互动,并将数据保存到后台。


不过,GML-4.5开发上述项目的过程或许更值得深入探讨。翻看智能体的执行轨迹,可以看到,在与开发工具结合后,GLM-4.5可以更为端到端地完成任务。它先是创造了待办清单,然后逐步完成任务,总结开发进展,并在用户提出修改意见时,进行全面的核查和调试。

▲对话记录:https://chat.z.ai/s/1914383a-52ac-48b7-9e92-fa105be60f3e

GLM-4.5还在PPT制作这一场景展现出不错的能力。它可以按照用户指定的页数、内容等打造完整、美观的PPT,并结合搜索工具丰富PPT的视觉体验。例如,下图中,GLM-4.5为传奇短跑运动员博尔特打造了一份职业生涯回顾PPT。

▲对话记录:https://chat.z.ai/s/544d9ac2-e373-4abc-819b-41fa6f293263

我们已经在上述多个案例中直观感受到了GLM-4.5的能力。那么,这款模型背后究竟依靠哪些技术创新,才能实现如此表现?对此,智谱在同期发布的技术博客中给出了答案。

二、参数效率实现突破,兼容多款编程智能体

GLM-4.5在训练流程整体分三步走,从底层架构、任务选择到优化策略,每一阶段逐步推动模型能力提升。

首先在预训练阶段,GLM-4.5系列模型借鉴了DeepSeek-V3的MoE架构,不过在注意力机制方面仍然使用结合部分旋转位置编码(Partial RoPE)的分组查询注意力(Grouped-Query Attention)。

这一机制从ChatGLM2沿用至今,能规避多头潜在注意力(MLA)对张量并行处理带来的挑战。智谱还配置了较多的注意力头,因为该团队发现,增加注意力头能在推理基准测试中显著提升模型性能。

GLM-4.5和GLM-4.5-Air均拥有MTP(多token预测)层,让模型在一次前向计算中,同时预测多个后续token。实测证明,这一机制可显著加速推理过程

进入中期训练阶段后,智谱开始针对更复杂、更实用的任务进行专项优化,重点强化模型在代码和推理方面的能力。

例如,GLM-4.5针对代码库场景进行了专门优化,学习了跨文件之间的依赖关系;整合了GitHub上的issues和PR,进一步提升软件工程能力;并将训练序列长度扩展至32K,从而具备了处理大型代码库的能力。这正是第一部分案例中,GLM-4.5能够自行查验和修改代码的能力来源之一。

为了进一步提升模型处理长上下文的能力,智谱将训练序列的长度从32K进一步扩展到了128K,并对预训练语料库中的长文档进行了上采样,还在这一阶段加入了编程agent的轨迹

到了后训练阶段,GLM-4.5全面引入了强化学习,并围绕高级数学编程推理能力、复杂agentic任务和通用能力这三大关键领域,展开系统性优化。

GLM-4.5在后训练阶段的强化学习部分是按照不同任务需求有侧重地展开的。针对推理任务,训练时引入了按难度递进的课程学习策略,还用动态采样温度来控制探索强度,并通过基于token 级熵的PPO自适应裁剪机制,提升策略更新的稳定性。

当模型面对的是网页搜索、代码生成这类任务时,训练方式转向了更具agentic特征的RL。数据不仅来源于自动流程,还引入了人类参与,以构建更真实的复杂多步交互场景。

编程任务则用GitHub 上的真实PR和issues来作为标准,训练中结合准确率奖励和格式惩罚,引导模型学会规范、可靠地行动。

在更通用的实际应用场景里,比如工具调用和长文档推理,GLM-4.5又采用了不同策略来补强。函数调用任务中,使用的是双轨策略:一部分是基于规则的逐步强化学习,确保工具调用准确性;另一部分则是通过奖励最终任务完成效果的方式,引导模型学会自主规划与调用工具。

同时,为了让模型更好地理解和利用长文本,智谱也安排了一个专门的长上下文RL阶段,让GLM-4.5在处理大规模文档时具备更强的推理能力。

总体来看,GLM-4.5的整个训练过程是高度工程化的:架构上通过MoE提升计算效率,训练流程中针对关键任务进行能力注入,强化学习阶段进一步拉高模型的推理上限和实用表现,最终实现推理、编码和智能体能力的原生融合。

也正是由于在工具调用、网页浏览、软件工程、前端编程等领域的优化,GLM-4.5系列模型与Claude Code、Cline、Roo Code等主流编程智能体实现了完美兼容,也可以通过工具调用接口支持任意的智能体应用。

值得注意的是,GLM-4.5还展现出更高的参数效率,参数量为DeepSeek-R1 的 1/2、Kimi-K2的 1/3,但在多项标准基准测试中表现得更为出色。在衡量模型编程能力的SWE-bench Verified榜单上,GLM-4.5系列位于性能/参数比帕累托前沿,表明在相同规模下GLM-4.5系列实现了最佳性能。

高参数效率代表了模型架构和训练策略的有效性,即在更少的参数下学到了更多、更有用的能力,这也意味着,在同等算力预算下,GLM-4.5能实现更高的性价比。

结语:开源大模型突围,智能体赛道迎来“平替”时代?

当前,以智能体为标签的AI产品层出不穷,数量庞杂,却鲜少有产品能真正获得用户的长期使用和信赖。这在一定程度上也是所有AI产品的共性问题,要解决这一问题,除了进一步打磨用户体验之外,底层模型能力的提升也至关重要。

随着Claude、GPT等海外大模型的获取越来越困难且价格愈发昂贵,国产开源模型正为开发者提供更高效的本土化解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!以色列彻底失控!

突发!以色列彻底失控!

财经要参
2026-03-26 21:58:11
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
特朗普再次表态:伊朗正与美方对话

特朗普再次表态:伊朗正与美方对话

财联社
2026-03-26 23:10:07
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

涛哥锐评
2026-03-26 17:57:04
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

探源历史
2026-03-25 13:22:35
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

趣生活
2026-03-26 22:16:24
国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

吉林乌拉侯
2026-03-25 02:56:11
2026-03-27 04:12:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11443文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
本地
亲子
艺术
公开课

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

艺术要闻

北京大兴机场和青岛胶东机场“撞脸”,长得像就是抄袭?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版