![]()
一个重要的里程碑悄然发生了。上周,北京智谱人工智能(Z.AI)发布的GLM-5.2在第三方权威基准"人工智能分析智能指数"(AI Analysis Intelligence Index)中拿下51分,超越谷歌Gemini 3.1 Pro Preview的46分。这是有史以来第一次,一个来自中国的开源模型在这一指数上越过了谷歌所有产品的得分上限。
5分的差距听起来不算惊天动地,但背景让这个数字变得非常不一样。
这个模型到底有多强
![]()
GLM-5.2是一个拥有7440亿参数的混合专家架构模型,但每次推理时只激活其中400亿个参数,这种"用多少激活多少"的设计是当前大型模型控制推理成本的主流路线。相比GLM-5.1,这一次的核心升级不在于规模,而在于一项名为IndexShare的训练优化:它让多个稀疏层共享同一套注意力索引,而不是每一步都重新计算,这在处理100万上下文标记的任务时,可以将每个标记的计算量减少近三倍。
上下文窗口从上一代的20万标记扩展至100万标记,这个数字对实际工程应用的意义相当直接。开发者处理大型代码库时,不再需要把项目拆成一段一段分批塞给模型,然后祈祷拼接输出时内容保持连贯。
编程能力的基准数据同样令人印象深刻。在SWE-bench Pro这项衡量代码工程能力的基准上,GLM-5.2得分62.1,超过GPT-5.5的58.6;在以小时为单位考察长期自主工程任务的FrontierSWE测试中,GLM-5.2得分74.4,仅略低于Claude Opus 4.8的75.1,同样领先于GPT-5.5的72.6。
Vercel首席执行官Guillermo Rauch在模型发布后称其为"改变一切"的产品,Answer.AI联合创始人Jeremy Howard则表示,GLM-5.2在细微理解、判断能力和长程上下文可靠性上,已经与Claude Opus 4.8和GPT-5.5处于同一竞技场。
真正值得关注的,是芯片这件事
GLM-5.2整个训练流程全部使用华为昇腾芯片完成,没有任何英伟达硬件参与其中。
这句话的分量,理解起来需要一点背景。过去几年,美国对华芯片出口管制持续升级,A100、H100、H800相继被列为限制出口对象,中国AI实验室被迫在算力受限的条件下寻找出路。外界对这一封锁的主流预判是:它会拖慢中国前沿模型的研发节奏。
GLM-5.2的出现,是对这一预判的一次直接反驳。昇腾910B在原始算力和互联带宽上确实与英伟达顶级产品存在差距,但Z.AI通过算法优化和训练策略弥补了部分硬件短板,最终用约2500万美元的训练成本,其中80%用于训练后处理,交出了这份成绩单。对于这一量级的前沿模型而言,这个成本数字相当克制。
MIT许可证意味着任何人都可以下载权重、商业使用,没有地域限制,也没有使用条款的灰色地带。通过OpenRouter等渠道调用GLM-5.2,每百万输入标记的价格约为1.40美元,而GPT-5.5和Claude Opus的同等价格均为5美元。性能相当,价格却只有三分之一不到,这对预算敏感的开发者和企业来说是相当有力的竞争优势。
谷歌在产品生态、部署规模和企业服务的整合深度上依然保持领先。但在开发者真正用来选择模型的那个维度,也就是单纯的智能表现,中国的开源模型已经走到了谷歌前面。这个排名今后还会变动,但历史第一次发生了,就是发生了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.