网易首页 > 网易号 > 正文 申请入驻

赛道Hyper | 智谱GLM-4.5:技术突破成因与行业价值

0
分享至

作者:周源/华尔街见闻

7月28日,智谱AI发布旗舰模型GLM-4.5并开源。GLM-4.5是一款专为智能体应用研发的基础模型,在性能、成本控制与多能力融合等方面均有出色表现。

在这些技术突破的背后,哪些因素起了支撑作用?

智谱AI核心团队主要来自清华大学KEG(知识工程)实验室:董事长刘德兵、CEO张鹏和总裁王绍兰均为KEG实验室核心成员,张鹏和王绍兰同为清华创新领军工程博士,首席科学家唐杰曾任清华大学计算机系教授。

从GLM-1到GLM-4.5经历四年多迭代。

早期(2021年)GLM模型(10B)就已探索了Transformer架构的优化,2022年推出参数规模达130B的GLM-130B,2023年推出的GLM-3尝试了混合专家(MoE)架构的轻量化设计,为后续参数效率提升奠定基础,其小步快跑的迭代模式,让团队对模型架构的理解不断深化。

GLM系列的LLM(大语言模型:Large Language Model)基于Transformer架构构建。

GLM-130B采用DeepNorm(一种用于稳定深层Transformer模型训练的归一化方法)作为层归一化(Layer Normalization)策略,并在前馈网络(FFN)中使用旋转位置嵌入(RoPE),以及配备GeLU激活函数的门控线性单元(GLU:Gated Linear Unit,常用于增强模型对特征的选择性和处理)。

这些都表明早期GLM模型对Transformer架构做了探索与优化。

之后的GLM-3,采用独创的多阶段增强预训练方法,基于当时最新的高效动态推理和显存优化技术,其推理框架在相同硬件和模型条件下,相较于当时最佳的开源实现,推理速度提升2-3倍,推理成本降低1倍。

这说明GLM-3在模型架构优化等方面有显著进展,为后续参数效率提升奠定了基础,也有助于对不同任务的特征分布,形成长期数据积累。

业界有些团队或成立时间较短,或中途转向大模型研发,缺乏这种持续的技术沉淀,难以在架构细节上实现精细化优化。

多数团队在大模型研发中更倾向于堆参数量的密集型架构,认为参数量与性能呈正相关。2023年到2024年底,“百模大战”期间,众多企业将参数量、评测分数作为核心指标,试图通过扩大模型规模来提升模型能力。

大模型中激活参数占比与模型架构、稀疏激活技术等相关,若企业过于追求参数量而未优化架构和技术,可能导致激活参数占比低。

智谱AI做法与众不同,从GLM-2开始,坚持“高效参数”路线:不去盲目扩大总参数量,而是通过优化专家模块的协同机制提升效率。

比如GLM-4.5的3550亿总参数中,激活参数320亿,占比约9%,每个专家模块仅负责特定领域任务(如代码模块专注Python与JavaScript,推理模块专注数学与逻辑),模块间通过轻量化路由层衔接,避免密集型架构中参数冗余的问题。

同时发布的还有GLM-4.5-Air,总参数1060亿,激活参数120亿,激活占比约11%。

这种路径需要更细致的拆解任务类型,而部分团队因担心架构复杂度上升导致研发周期延长,仍选择更稳妥的密集型架构。

至于参数激活占比,这个关系到调用推理的商业成本:相同参数量下,激活参数占比低意味着更多参数未有效参与推理计算,造成算力浪费,导致推理成本上升。

GLM-4.5之所以能做到“参数效率翻倍,API价格仅为Claude(美国人工智能初创公司 Anthropic发布的大模型家族)的1/10(输入0.8元/百万 tokens、输出2元/百万tokens),速度超100tokens/秒”,就因为激活参数占比较高。

GLM-4.5的训练数据采用“通用+垂直”的双层结构:底层是15万亿token的通用文本(与多数团队类似),上层是8万亿token的垂直领域数据,且按“推理-代码-智能体”三类任务单独标注。

插一句:在深度学习尤其是自然语言处理(NLP)领域,token是指文本中的最小有意义的逻辑单元,也是模型用来表示自然语言文本的基本单位,还是模型计费单元,类似于计算存储和处理二进制数据的基本单位——字节(byte)。

GLM-4.5的标注方法并非简单分类,而是为每个任务设计专属的训练目标,比如推理任务侧重逻辑链完整性,代码任务侧重语法正确性。

智谱AI是国内首批推进大模型开源的企业之一,2023年GLM-2开源后积累规模庞大的开发者社区。这些开发者不仅反馈bug,更贡献了大量轻量化部署方案。GLM-4.5的“思考/非思考模式”切换功能,底层调度算法很可能来自社区开发者的优化建议。

智谱AI的官方通稿称,“首次实现推理、代码、Agent等多能力原生融合”,那么多能力融合的技术壁垒是什么?为什么此前业界没有同类模型能力?

多能力融合需解决模块协同难题:推理模块的逻辑思维与代码模块的语法规则分属不同认知范式,强行融合易导致能力稀释。

此前业界有些团队尝试通过“拼接式”融合(在推理模型后嫁接代码模块)实现,但模块间缺乏共享参数,导致响应速度大幅下降。

GLM-4.5采用了统一底层架构,需要从模型设计初期就规划参数共享机制,这对架构设计能力要求极高,多数团队暂未突破这一技术瓶颈。

若以此说业界有些团队技术能力较差,也有失偏颇;多数情况下,很多技术团队受商业化的压力较大,因此更倾向于快速推出闭源商业模型意图变现,导致研发周期被压缩,测试时间有限,在推动多能力融合时出现稳定性问题,可感知的这类问题,比如连续调用工具时概率性崩溃。

自2019年成立以来,智谱AI经历了至少11轮融资,故而资金压力应当不是很大,看上去在优化架构时显得很有耐心,能用较长时间做多能力协同的专项优化,这种耐心在当前追求短期回报的行业环境中较为稀缺。

智谱GLM-4.5的突破,本质是技术积累、路径选择与生态协同的综合结果。

这个多能力融合大模型的推出,表明大模型竞争已从单点参数规模转向系统效率与生态活力,这或许为行业提供了新的发展参照和性能评价标准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血压高一点不是坏事,高血压的人反而更健康?来听听医生怎么说

血压高一点不是坏事,高血压的人反而更健康?来听听医生怎么说

健康之光
2026-01-21 14:05:06
大疆的2025:赚行业最多的钱,打最累的仗

大疆的2025:赚行业最多的钱,打最累的仗

蓝鲸新闻
2026-01-21 00:15:49
许世友问耿飚:若授衔你是啥军衔?耿:别人不敢说,肯定在你前面

许世友问耿飚:若授衔你是啥军衔?耿:别人不敢说,肯定在你前面

史之铭
2026-01-22 05:54:24
日债崩盘后,日本第二大行喊话了:准备抄底,持仓要翻倍!

日债崩盘后,日本第二大行喊话了:准备抄底,持仓要翻倍!

华尔街见闻官方
2026-01-21 14:03:29
李湘被质疑利用王诗龄洗钱,其画成为她工具,与大和尚黑历史被挖

李湘被质疑利用王诗龄洗钱,其画成为她工具,与大和尚黑历史被挖

花哥扒娱乐
2026-01-19 20:15:26
妻子照顾瘫痪公公13年,丈夫提离婚公公同意,可走出大门丈夫懵了

妻子照顾瘫痪公公13年,丈夫提离婚公公同意,可走出大门丈夫懵了

兰姐说故事
2026-01-15 20:30:04
上海警方就“多人发生肢体冲突”通报:已行政立案,对3人开展伤情鉴定!事发经过曝光

上海警方就“多人发生肢体冲突”通报:已行政立案,对3人开展伤情鉴定!事发经过曝光

新民晚报
2026-01-21 19:46:59
全国排位上升!四川经济总量连跨两个万亿台阶

全国排位上升!四川经济总量连跨两个万亿台阶

红星新闻
2026-01-21 21:21:11
内科主任提醒:过了60岁后,宁可打打麻将,也别在家随意做5件事

内科主任提醒:过了60岁后,宁可打打麻将,也别在家随意做5件事

橘子约定
2025-12-18 20:05:39
3:0完胜越南!赛后U23国足主帅安东尼奥的一句话,可谓霸气十足!

3:0完胜越南!赛后U23国足主帅安东尼奥的一句话,可谓霸气十足!

田先生篮球
2026-01-21 07:31:03
西贝不好过,西贝们更不好过

西贝不好过,西贝们更不好过

无相商业趋势
2026-01-21 08:57:15
2026年春节,要暖到离谱!大年初一撞上七九,老辈人:60年头回见,今年逛庙会不用穿棉袄了

2026年春节,要暖到离谱!大年初一撞上七九,老辈人:60年头回见,今年逛庙会不用穿棉袄了

美食格物
2026-01-19 16:01:15
别大意!换身份证后30天内必更驾照,2026处罚细则出炉

别大意!换身份证后30天内必更驾照,2026处罚细则出炉

沙雕小琳琳
2026-01-22 03:24:25
王毅出访促普京醒悟,四国联手反制日本,中国即将行动

王毅出访促普京醒悟,四国联手反制日本,中国即将行动

阿晪美食
2026-01-21 22:16:20
索尼仍未回应!PS+PS3串流已多天无法使用

索尼仍未回应!PS+PS3串流已多天无法使用

游民星空
2026-01-21 12:11:30
“陈真”梁小龙死因公布!这种病最近高发,被称为心脏疾病“最后的战场”,5年内病死率高达42.3%

“陈真”梁小龙死因公布!这种病最近高发,被称为心脏疾病“最后的战场”,5年内病死率高达42.3%

都市快报橙柿互动
2026-01-21 18:06:09
中国动“真格”中方霸气警告:90天不给358亿赔偿,18艘军舰不给

中国动“真格”中方霸气警告:90天不给358亿赔偿,18艘军舰不给

瞳哥视界
2025-12-29 20:55:09
云南省检察院召开干部大会,宣读党中央及省委文件

云南省检察院召开干部大会,宣读党中央及省委文件

新京报政事儿
2026-01-21 19:43:05
XbotGo丨巴萨4-2布拉格斯拉维亚,费尔明双响,莱万破门

XbotGo丨巴萨4-2布拉格斯拉维亚,费尔明双响,莱万破门

懂球帝
2026-01-22 06:17:21
第7艘!中国香港油轮突发被美军扣押,对华海上封锁预演已经打响

第7艘!中国香港油轮突发被美军扣押,对华海上封锁预演已经打响

掉了颗大白兔糖
2026-01-22 04:47:07
2026-01-22 07:04:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
140474文章数 2652229关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

头条要闻

特朗普称“美国拥有无人知晓的武器” 克宫回应

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

首位捐款的明星 苗圃现身嫣然医院捐款

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

房产
数码
手机
本地
公开课

房产要闻

那个砸下400亿的绿地,又要杀回海南了!

数码要闻

追觅科技成为央视春晚智能科技生态战略合作伙伴

手机要闻

苹果杀疯了!iPhone17e仅3999元起,8GB+MagSafe碾压同价位安卓

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版