网易首页 > 网易号 > 正文 申请入驻

赛道Hyper | 智谱GLM-4.5:技术突破成因与行业价值

0
分享至

作者:周源/华尔街见闻

7月28日,智谱AI发布旗舰模型GLM-4.5并开源。GLM-4.5是一款专为智能体应用研发的基础模型,在性能、成本控制与多能力融合等方面均有出色表现。

在这些技术突破的背后,哪些因素起了支撑作用?

智谱AI核心团队主要来自清华大学KEG(知识工程)实验室:董事长刘德兵、CEO张鹏和总裁王绍兰均为KEG实验室核心成员,张鹏和王绍兰同为清华创新领军工程博士,首席科学家唐杰曾任清华大学计算机系教授。

从GLM-1到GLM-4.5经历四年多迭代。

早期(2021年)GLM模型(10B)就已探索了Transformer架构的优化,2022年推出参数规模达130B的GLM-130B,2023年推出的GLM-3尝试了混合专家(MoE)架构的轻量化设计,为后续参数效率提升奠定基础,其小步快跑的迭代模式,让团队对模型架构的理解不断深化。

GLM系列的LLM(大语言模型:Large Language Model)基于Transformer架构构建。

GLM-130B采用DeepNorm(一种用于稳定深层Transformer模型训练的归一化方法)作为层归一化(Layer Normalization)策略,并在前馈网络(FFN)中使用旋转位置嵌入(RoPE),以及配备GeLU激活函数的门控线性单元(GLU:Gated Linear Unit,常用于增强模型对特征的选择性和处理)。

这些都表明早期GLM模型对Transformer架构做了探索与优化。

之后的GLM-3,采用独创的多阶段增强预训练方法,基于当时最新的高效动态推理和显存优化技术,其推理框架在相同硬件和模型条件下,相较于当时最佳的开源实现,推理速度提升2-3倍,推理成本降低1倍。

这说明GLM-3在模型架构优化等方面有显著进展,为后续参数效率提升奠定了基础,也有助于对不同任务的特征分布,形成长期数据积累。

业界有些团队或成立时间较短,或中途转向大模型研发,缺乏这种持续的技术沉淀,难以在架构细节上实现精细化优化。

多数团队在大模型研发中更倾向于堆参数量的密集型架构,认为参数量与性能呈正相关。2023年到2024年底,“百模大战”期间,众多企业将参数量、评测分数作为核心指标,试图通过扩大模型规模来提升模型能力。

大模型中激活参数占比与模型架构、稀疏激活技术等相关,若企业过于追求参数量而未优化架构和技术,可能导致激活参数占比低。

智谱AI做法与众不同,从GLM-2开始,坚持“高效参数”路线:不去盲目扩大总参数量,而是通过优化专家模块的协同机制提升效率。

比如GLM-4.5的3550亿总参数中,激活参数320亿,占比约9%,每个专家模块仅负责特定领域任务(如代码模块专注Python与JavaScript,推理模块专注数学与逻辑),模块间通过轻量化路由层衔接,避免密集型架构中参数冗余的问题。

同时发布的还有GLM-4.5-Air,总参数1060亿,激活参数120亿,激活占比约11%。

这种路径需要更细致的拆解任务类型,而部分团队因担心架构复杂度上升导致研发周期延长,仍选择更稳妥的密集型架构。

至于参数激活占比,这个关系到调用推理的商业成本:相同参数量下,激活参数占比低意味着更多参数未有效参与推理计算,造成算力浪费,导致推理成本上升。

GLM-4.5之所以能做到“参数效率翻倍,API价格仅为Claude(美国人工智能初创公司 Anthropic发布的大模型家族)的1/10(输入0.8元/百万 tokens、输出2元/百万tokens),速度超100tokens/秒”,就因为激活参数占比较高。

GLM-4.5的训练数据采用“通用+垂直”的双层结构:底层是15万亿token的通用文本(与多数团队类似),上层是8万亿token的垂直领域数据,且按“推理-代码-智能体”三类任务单独标注。

插一句:在深度学习尤其是自然语言处理(NLP)领域,token是指文本中的最小有意义的逻辑单元,也是模型用来表示自然语言文本的基本单位,还是模型计费单元,类似于计算存储和处理二进制数据的基本单位——字节(byte)。

GLM-4.5的标注方法并非简单分类,而是为每个任务设计专属的训练目标,比如推理任务侧重逻辑链完整性,代码任务侧重语法正确性。

智谱AI是国内首批推进大模型开源的企业之一,2023年GLM-2开源后积累规模庞大的开发者社区。这些开发者不仅反馈bug,更贡献了大量轻量化部署方案。GLM-4.5的“思考/非思考模式”切换功能,底层调度算法很可能来自社区开发者的优化建议。

智谱AI的官方通稿称,“首次实现推理、代码、Agent等多能力原生融合”,那么多能力融合的技术壁垒是什么?为什么此前业界没有同类模型能力?

多能力融合需解决模块协同难题:推理模块的逻辑思维与代码模块的语法规则分属不同认知范式,强行融合易导致能力稀释。

此前业界有些团队尝试通过“拼接式”融合(在推理模型后嫁接代码模块)实现,但模块间缺乏共享参数,导致响应速度大幅下降。

GLM-4.5采用了统一底层架构,需要从模型设计初期就规划参数共享机制,这对架构设计能力要求极高,多数团队暂未突破这一技术瓶颈。

若以此说业界有些团队技术能力较差,也有失偏颇;多数情况下,很多技术团队受商业化的压力较大,因此更倾向于快速推出闭源商业模型意图变现,导致研发周期被压缩,测试时间有限,在推动多能力融合时出现稳定性问题,可感知的这类问题,比如连续调用工具时概率性崩溃。

自2019年成立以来,智谱AI经历了至少11轮融资,故而资金压力应当不是很大,看上去在优化架构时显得很有耐心,能用较长时间做多能力协同的专项优化,这种耐心在当前追求短期回报的行业环境中较为稀缺。

智谱GLM-4.5的突破,本质是技术积累、路径选择与生态协同的综合结果。

这个多能力融合大模型的推出,表明大模型竞争已从单点参数规模转向系统效率与生态活力,这或许为行业提供了新的发展参照和性能评价标准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天降横财!男子入狱前,花120万买股票,6年后出狱,变成4.9亿!

天降横财!男子入狱前,花120万买股票,6年后出狱,变成4.9亿!

川渝视觉
2026-05-13 22:09:30
中方一锤定音给特朗普最高礼遇,普京通告全球:中俄关系独一无二

中方一锤定音给特朗普最高礼遇,普京通告全球:中俄关系独一无二

混沌录
2026-05-12 22:16:11
03年湖南一女教师莫名离世,6次尸检后得出结论:特殊性方式导致

03年湖南一女教师莫名离世,6次尸检后得出结论:特殊性方式导致

历来都很现实
2024-11-23 16:03:32
女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

女生长的太漂亮是什么体验?网友:母以子贵,父以女荣

另子维爱读史
2026-03-10 22:56:08
今夏最值钱自由球员诞生!四队疯抢陈盈骏,顶薪被锁何去何从?

今夏最值钱自由球员诞生!四队疯抢陈盈骏,顶薪被锁何去何从?

宝哥精彩赛事
2026-05-14 00:34:11
2003年,李连杰一家四口的合影,不得不承认,利智真是太美了

2003年,李连杰一家四口的合影,不得不承认,利智真是太美了

喜文多见01
2026-05-13 10:31:20
和房东住一起是什么体验?网友:这不纯欺负老实人吗

和房东住一起是什么体验?网友:这不纯欺负老实人吗

带你感受人间冷暖
2026-03-27 00:05:14
詹妮弗·劳伦斯20美元同款鞋, Walmart卖断货

詹妮弗·劳伦斯20美元同款鞋, Walmart卖断货

娱圈观察员
2026-05-13 15:31:28
加速糖尿病恶化的行为:甜食排第7,第1名很多人都没意识到

加速糖尿病恶化的行为:甜食排第7,第1名很多人都没意识到

冷眼看世界728
2026-05-13 21:26:22
中国留学生在悉尼麦当劳被流浪汉掰断手:警方说可能会起诉他,治疗费用暂时免费

中国留学生在悉尼麦当劳被流浪汉掰断手:警方说可能会起诉他,治疗费用暂时免费

潇湘晨报
2026-05-13 17:20:13
今年起招生!中国海洋大学、青岛大学等山东部分高校新增这些本科专业

今年起招生!中国海洋大学、青岛大学等山东部分高校新增这些本科专业

先锋新闻
2026-05-13 21:20:48
80岁以后,来日不多了,就算身体再好,也请记住这7句话

80岁以后,来日不多了,就算身体再好,也请记住这7句话

荷兰豆爱健康
2026-05-09 00:02:04
美国做了个实验,将3男3女关一起2年,他们出来时,令所有人惊讶

美国做了个实验,将3男3女关一起2年,他们出来时,令所有人惊讶

千秋文化
2026-05-05 20:32:13
中方伸出援手,老杜家族绝境翻盘?菲军方急了,催马科斯赶快下手

中方伸出援手,老杜家族绝境翻盘?菲军方急了,催马科斯赶快下手

国际阿尝
2026-05-14 02:46:35
包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

磊子讲史
2025-07-02 13:45:23
内马尔搭上末班车!巴西队55人初选名单曝光,安切洛蒂冲击世界杯

内马尔搭上末班车!巴西队55人初选名单曝光,安切洛蒂冲击世界杯

夏侯看英超
2026-05-12 23:04:57
青海17岁女学生溺亡!凌晨出门打印,知情人曝猛料,恐不只是意外

青海17岁女学生溺亡!凌晨出门打印,知情人曝猛料,恐不只是意外

老黯谈娱
2026-05-12 20:35:48
24分惨败!CBA劲旅1-2出局,卫冕冠军大逆转,常规赛前四包揽四强

24分惨败!CBA劲旅1-2出局,卫冕冠军大逆转,常规赛前四包揽四强

梦忆之浅
2026-05-14 00:50:38
白鹿《奔跑吧》泼水事件引爆全网:李晨沉默,周深当场发问

白鹿《奔跑吧》泼水事件引爆全网:李晨沉默,周深当场发问

人间娱事集
2026-05-12 21:36:49
水果姐整活前任订婚,边哭边灌酒笑翻全网

水果姐整活前任订婚,边哭边灌酒笑翻全网

影视情报室
2026-05-13 06:20:35
2026-05-14 07:00:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
146049文章数 2653557关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

艺术
数码
教育
本地
军事航空

艺术要闻

这才是真正的“史上最强毕业证”,书法堪比字帖!

数码要闻

徕芬智能卷发棒Styler发布,499元

教育要闻

家长就读,孩子免费修大学学分的社区大学?

本地新闻

用苏绣的方式,打开江西婺源

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版