网易首页 > 网易号 > 正文 申请入驻

赛道Hyper | 智谱GLM-4.5:技术突破成因与行业价值

0
分享至

作者:周源/华尔街见闻

7月28日,智谱AI发布旗舰模型GLM-4.5并开源。GLM-4.5是一款专为智能体应用研发的基础模型,在性能、成本控制与多能力融合等方面均有出色表现。

在这些技术突破的背后,哪些因素起了支撑作用?

智谱AI核心团队主要来自清华大学KEG(知识工程)实验室:董事长刘德兵、CEO张鹏和总裁王绍兰均为KEG实验室核心成员,张鹏和王绍兰同为清华创新领军工程博士,首席科学家唐杰曾任清华大学计算机系教授。

从GLM-1到GLM-4.5经历四年多迭代。

早期(2021年)GLM模型(10B)就已探索了Transformer架构的优化,2022年推出参数规模达130B的GLM-130B,2023年推出的GLM-3尝试了混合专家(MoE)架构的轻量化设计,为后续参数效率提升奠定基础,其小步快跑的迭代模式,让团队对模型架构的理解不断深化。

GLM系列的LLM(大语言模型:Large Language Model)基于Transformer架构构建。

GLM-130B采用DeepNorm(一种用于稳定深层Transformer模型训练的归一化方法)作为层归一化(Layer Normalization)策略,并在前馈网络(FFN)中使用旋转位置嵌入(RoPE),以及配备GeLU激活函数的门控线性单元(GLU:Gated Linear Unit,常用于增强模型对特征的选择性和处理)。

这些都表明早期GLM模型对Transformer架构做了探索与优化。

之后的GLM-3,采用独创的多阶段增强预训练方法,基于当时最新的高效动态推理和显存优化技术,其推理框架在相同硬件和模型条件下,相较于当时最佳的开源实现,推理速度提升2-3倍,推理成本降低1倍。

这说明GLM-3在模型架构优化等方面有显著进展,为后续参数效率提升奠定了基础,也有助于对不同任务的特征分布,形成长期数据积累。

业界有些团队或成立时间较短,或中途转向大模型研发,缺乏这种持续的技术沉淀,难以在架构细节上实现精细化优化。

多数团队在大模型研发中更倾向于堆参数量的密集型架构,认为参数量与性能呈正相关。2023年到2024年底,“百模大战”期间,众多企业将参数量、评测分数作为核心指标,试图通过扩大模型规模来提升模型能力。

大模型中激活参数占比与模型架构、稀疏激活技术等相关,若企业过于追求参数量而未优化架构和技术,可能导致激活参数占比低。

智谱AI做法与众不同,从GLM-2开始,坚持“高效参数”路线:不去盲目扩大总参数量,而是通过优化专家模块的协同机制提升效率。

比如GLM-4.5的3550亿总参数中,激活参数320亿,占比约9%,每个专家模块仅负责特定领域任务(如代码模块专注Python与JavaScript,推理模块专注数学与逻辑),模块间通过轻量化路由层衔接,避免密集型架构中参数冗余的问题。

同时发布的还有GLM-4.5-Air,总参数1060亿,激活参数120亿,激活占比约11%。

这种路径需要更细致的拆解任务类型,而部分团队因担心架构复杂度上升导致研发周期延长,仍选择更稳妥的密集型架构。

至于参数激活占比,这个关系到调用推理的商业成本:相同参数量下,激活参数占比低意味着更多参数未有效参与推理计算,造成算力浪费,导致推理成本上升。

GLM-4.5之所以能做到“参数效率翻倍,API价格仅为Claude(美国人工智能初创公司 Anthropic发布的大模型家族)的1/10(输入0.8元/百万 tokens、输出2元/百万tokens),速度超100tokens/秒”,就因为激活参数占比较高。

GLM-4.5的训练数据采用“通用+垂直”的双层结构:底层是15万亿token的通用文本(与多数团队类似),上层是8万亿token的垂直领域数据,且按“推理-代码-智能体”三类任务单独标注。

插一句:在深度学习尤其是自然语言处理(NLP)领域,token是指文本中的最小有意义的逻辑单元,也是模型用来表示自然语言文本的基本单位,还是模型计费单元,类似于计算存储和处理二进制数据的基本单位——字节(byte)。

GLM-4.5的标注方法并非简单分类,而是为每个任务设计专属的训练目标,比如推理任务侧重逻辑链完整性,代码任务侧重语法正确性。

智谱AI是国内首批推进大模型开源的企业之一,2023年GLM-2开源后积累规模庞大的开发者社区。这些开发者不仅反馈bug,更贡献了大量轻量化部署方案。GLM-4.5的“思考/非思考模式”切换功能,底层调度算法很可能来自社区开发者的优化建议。

智谱AI的官方通稿称,“首次实现推理、代码、Agent等多能力原生融合”,那么多能力融合的技术壁垒是什么?为什么此前业界没有同类模型能力?

多能力融合需解决模块协同难题:推理模块的逻辑思维与代码模块的语法规则分属不同认知范式,强行融合易导致能力稀释。

此前业界有些团队尝试通过“拼接式”融合(在推理模型后嫁接代码模块)实现,但模块间缺乏共享参数,导致响应速度大幅下降。

GLM-4.5采用了统一底层架构,需要从模型设计初期就规划参数共享机制,这对架构设计能力要求极高,多数团队暂未突破这一技术瓶颈。

若以此说业界有些团队技术能力较差,也有失偏颇;多数情况下,很多技术团队受商业化的压力较大,因此更倾向于快速推出闭源商业模型意图变现,导致研发周期被压缩,测试时间有限,在推动多能力融合时出现稳定性问题,可感知的这类问题,比如连续调用工具时概率性崩溃。

自2019年成立以来,智谱AI经历了至少11轮融资,故而资金压力应当不是很大,看上去在优化架构时显得很有耐心,能用较长时间做多能力协同的专项优化,这种耐心在当前追求短期回报的行业环境中较为稀缺。

智谱GLM-4.5的突破,本质是技术积累、路径选择与生态协同的综合结果。

这个多能力融合大模型的推出,表明大模型竞争已从单点参数规模转向系统效率与生态活力,这或许为行业提供了新的发展参照和性能评价标准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三天拿下基辅!俄前司令曝灾难内幕:士兵礼服上阵,坦克加3天油

三天拿下基辅!俄前司令曝灾难内幕:士兵礼服上阵,坦克加3天油

远方风林
2026-01-04 23:39:39
父子同台?弗莱彻担任曼联临时主帅,他儿子本赛季出场三次

父子同台?弗莱彻担任曼联临时主帅,他儿子本赛季出场三次

懂球帝
2026-01-05 20:33:07
同胞遇害抛尸柬埔寨,六名中国男子落网,还听媒体鼓动去旅游吗?

同胞遇害抛尸柬埔寨,六名中国男子落网,还听媒体鼓动去旅游吗?

你食不食油饼
2026-01-02 20:47:35
欧阳夏丹:元旦去打羽毛球,找高中生当陪练一小时给付100元小费

欧阳夏丹:元旦去打羽毛球,找高中生当陪练一小时给付100元小费

晓今娱
2026-01-05 05:10:03
48犯52罚!惨遭约克加时绝杀,广东3人要背锅,胡明轩首当其冲

48犯52罚!惨遭约克加时绝杀,广东3人要背锅,胡明轩首当其冲

后仰大风车
2026-01-05 22:10:14
首次访华就给下马威?中国当即撤走仪仗队,表明态度:想好了再来

首次访华就给下马威?中国当即撤走仪仗队,表明态度:想好了再来

老媹古装影视解说
2025-12-24 18:15:45
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
癌细胞不怕葱姜蒜和海鲜,真的只怕这4样,记好了一辈子受益!

癌细胞不怕葱姜蒜和海鲜,真的只怕这4样,记好了一辈子受益!

坠入二次元的海洋
2026-01-05 16:25:46
我的天爷啊,真的绷不住了!
王楚钦孙颖莎怕是做梦都没想到

我的天爷啊,真的绷不住了! 王楚钦孙颖莎怕是做梦都没想到

小光侃娱乐
2026-01-01 16:17:11
补偿不到位,不得征地!广西征地管理工作亮点解读

补偿不到位,不得征地!广西征地管理工作亮点解读

南国今报
2026-01-05 21:31:03
大陆军演刚结束,台湾最新民调出炉,结果惊人,赖清德被将军

大陆军演刚结束,台湾最新民调出炉,结果惊人,赖清德被将军

乐天闲聊
2026-01-03 14:30:39
香蕉立大功!医生忠告:糖尿病患者常吃香蕉,或有这3大好处

香蕉立大功!医生忠告:糖尿病患者常吃香蕉,或有这3大好处

看世界的人
2026-01-01 11:39:44
厉害了,福建5县将代表中国走向世界,快来看看有没有你老家啦

厉害了,福建5县将代表中国走向世界,快来看看有没有你老家啦

娱乐洞察点点
2026-01-04 11:19:07
广州小学生被抽血事件:告诉爸妈就扣小红花

广州小学生被抽血事件:告诉爸妈就扣小红花

每日一见
2026-01-02 12:21:28
委内瑞拉代表:美对委行动严重违反《联合国宪章》和国际法

委内瑞拉代表:美对委行动严重违反《联合国宪章》和国际法

财联社
2026-01-06 02:20:04
斯卢茨基不忍了!申花又一外援离队热门浮现,进球还不如本土球员

斯卢茨基不忍了!申花又一外援离队热门浮现,进球还不如本土球员

罗掌柜体育
2026-01-05 12:11:58
2026老人公交新规来了!3大变局5个坑,免费福利压根没取消

2026老人公交新规来了!3大变局5个坑,免费福利压根没取消

复转这些年
2026-01-05 23:26:12
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
日本访华被拒!李在明当着全世界的面喊出一句话,让高市早苗破防

日本访华被拒!李在明当着全世界的面喊出一句话,让高市早苗破防

阿钊是个小小评论员
2026-01-06 02:26:36
“抵制日货”的声音为什么消失了?答案残酷:日货已经不够格了

“抵制日货”的声音为什么消失了?答案残酷:日货已经不够格了

跳跳历史
2025-12-29 12:20:25
2026-01-06 05:28:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
139676文章数 2652045关注度
往期回顾 全部

科技要闻

4100家科技企业集结赌城,CES揭开AI新战场

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

头条要闻

马杜罗庭审陈词:我是一个正派的人 是我们国家总统

体育要闻

50年最差曼联主帅!盘点阿莫林尴尬纪录

娱乐要闻

《探索新境2》王一博挑战酋长岩

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

海狮06EV冬季续航挑战 "电"这事比亚迪绝对玩明白了

态度原创

房产
健康
家居
亲子
公开课

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

这些新疗法,让化疗不再那么痛苦

家居要闻

白色大理石 奢华现代

亲子要闻

你们打过自己的孩子吗?真打那种

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版