网易首页 > 网易号 > 正文 申请入驻

昇腾0day支持智谱GLM-5,744B模型单机高效推理

0
分享至



近日,智谱AI发布Agentic Engineering时代优秀的开源模型GLM-5,从“写代码”到“写工程”的能力进一步演进。在Coding与Agent能力上取得开源SOTA表现,在真实编程场景的使用体验逼近Claude Opus 4.5,更擅长复杂系统工程与长程Agent任务。昇腾一直同步支持智谱GLM系列模型,此次GLM-5模型一经开源发布,昇腾AI基础软硬件即实现0day适配,为该模型的推理部署和训练复现提供全流程支持。

更大基座,更强智能

参数规模扩展:从355B(激活32B)扩展至744B(激活40B),预训练数据从23T提升至28.5T,更大规模的预训练算力显著提升了模型的通用智能水平。

异步强化学习:构建全新的"Slime"框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。

稀疏注意力机制:首次集成DeepSeek Sparse Attention,在维持长文本效果无损的同时,大幅降低模型部署成本,提升Token Efficiency。

Coding能力:对齐Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中,分别获得77.4和55.7的开源模型最高分数,性能超过Gemini 3.0 Pro。

Agent能力:SOTA级长程任务执行

GLM-5在多个Agent测评基准中取得开源第一,在BrowseComp(联网检索与信息理解)、MCP-Atlas(工具调用和多步骤任务执行)和τ²-Bench(复杂多工具场景下的规划和执行)均取得最优表现。

在衡量模型经营能力的Vending Bench 2中,GLM-5获得开源模型中的最佳表现。Vending Bench 2要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5最终账户余额达到4432美元,经营表现接近Claude Opus 4.5,展现了出色的长期规划和资源管理能力。

在衡量模型经营能力的Vending Bench 2中,GLM-5获得开源模型中的最佳表现。Vending Bench 2要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5最终账户余额达到4432美元,经营表现接近Claude Opus 4.5,展现了出色的长期规划和资源管理能力。

基于昇腾实现GLM-5的混合精度高效推理

1.采用易扩展的MsModelSlim量化工具,全程轻松量化

  • 按模块区分量化比特与算法:例如Attention与MLP主体用W8A8,MoE专家用W4A8;gate等量化敏感层可按需回退,避免过大精度损失。
  • 一键即可量化:支持GLM-5量化过程“预处理+子图融合+分层线性量化”的完整流水线,安装后一条命令行即可轻松完成量化。

2.MsModelSlim提供丰富量化策略,实现快速精度对齐

  • 旋转Quarot算法:对权重做Hadamard旋转与LayerNorm融合,降低激活异常值、改善后续量化的数值分布。  
  • 多种离群值抑制算法:采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略,权重采用SSZ(Smooth Scale Zero)标定,支持缩放因子等超参。
  • 线性层量化策略:对单层Linear做W8A8或W4A8,对激活值做per-token粒度量化、对权重做per-channel粒度量化。
高性能融合算子,加速推理执行

1.Lightning Indexer融合Kernel

长序列场景下TopK操作会成为瓶颈,通过引入Lightning Indexer融合算子,包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作,可用TopK计算耗时流水掩盖掉其他操作的耗时,从而提升计算流水收益。

2.Sparse Flash Attention融合Kernel

引入SFA,包含了从完整KVCache里选取TopK相关Token,及计算稀疏Flash Attention操作,可用离散聚合访存耗时掩盖其他操作耗时。

3.MLAPO 融合Kernel

GLM-5在Sparse Flash Attention预处理阶段将query和KV进行降维操作,并且把query降维后的激活值传递给Indexer模块进行稀疏选择处理。近期将会引入MLAPO通过VV融合(多个Vector算子融合)技术,将前处理过程中的13个小算子直接融合成1个超级大算子。除此之外,在MLAPO算子内部,通过Vector和Cube计算单元的并行处理及流水优化,进一步提升算子整体性能。

基于昇腾实现GLM-5的训练复现

GLM-5采用了DeepSeek Sparse Attention(DSA)架构,针对DSA训练场景,昇腾团队设计并实现了昇腾亲和融合算子,从两方面进行优化:一是优化Lightning Indexer Loss计算阶段的内存占用,二是利用昇腾Cube和Vector单元的流水并行来进一步提升计算效率。

注:本文转自华为,版权归作者所有

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
万恶的劳务派遣

万恶的劳务派遣

阿亮评论
2026-03-05 09:59:08
父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

父母若是有以下7种疾病,子女基本都会遗传,不少人并不清楚!

健康之光
2026-03-03 17:35:03
伊朗小学遭袭,美媒曝光最新细节

伊朗小学遭袭,美媒曝光最新细节

环球时报国际
2026-03-07 00:18:51
伊朗反击取得重大成果?千万别信网上的那些专家和爽文

伊朗反击取得重大成果?千万别信网上的那些专家和爽文

壹家言
2026-03-04 19:37:20
美国驻华大使馆发微博遭到网友嘲讽,史诗狂怒还是无能狂怒?

美国驻华大使馆发微博遭到网友嘲讽,史诗狂怒还是无能狂怒?

可乐爱微笑
2026-03-07 09:19:32
新秀看三年!22岁的探花亨德森,已经水掉了?

新秀看三年!22岁的探花亨德森,已经水掉了?

篮球实录
2026-03-08 00:06:27
芬兰总理:来故宫才明白,中国不是大国崛起,只是在重回历史巅峰

芬兰总理:来故宫才明白,中国不是大国崛起,只是在重回历史巅峰

近史谈
2026-03-06 13:57:51
郑智有魄力!刚接手西海岸就弃用李昊提拔刘世博?球迷怒批是谣言

郑智有魄力!刚接手西海岸就弃用李昊提拔刘世博?球迷怒批是谣言

振刚说足球
2026-03-07 09:04:16
58年岑云端为毛主席伴舞,毛主席:你家和清朝那个大官什么关系?

58年岑云端为毛主席伴舞,毛主席:你家和清朝那个大官什么关系?

飞哥谈史
2026-03-07 16:50:03
周杰伦×田馥甄刷屏热搜:一场20年的意难平,到底是谁在破防?

周杰伦×田馥甄刷屏热搜:一场20年的意难平,到底是谁在破防?

小熊侃史
2026-03-07 22:57:45
暴跌88.6%!收割中产的万元手表卖不动了?网友:不如华为

暴跌88.6%!收割中产的万元手表卖不动了?网友:不如华为

有范又有料
2026-03-04 17:39:10
全国人大代表、北京协和医院院长张抒扬建议:年轻人,别错过最佳生育年龄,为人父母的幸福感是无可替代的

全国人大代表、北京协和医院院长张抒扬建议:年轻人,别错过最佳生育年龄,为人父母的幸福感是无可替代的

观威海
2026-03-07 12:07:22
董璇是无数人心中的女神,如今被曝欠债千万

董璇是无数人心中的女神,如今被曝欠债千万

林雁飞
2026-03-07 20:12:13
李开复谈OpenClaw:“一人公司”的初步演示

李开复谈OpenClaw:“一人公司”的初步演示

金融界
2026-03-07 07:53:05
印度回应美国30天豁免令:印方购买俄石油从不需要得到任何国家许可

印度回应美国30天豁免令:印方购买俄石油从不需要得到任何国家许可

财联社
2026-03-07 17:43:12
特朗普没想到:美伊大战打醒两个国家,一个是越南,一个是菲律宾

特朗普没想到:美伊大战打醒两个国家,一个是越南,一个是菲律宾

探索新高度
2026-03-07 23:24:06
中国95%的房子,其实已经没有任何投资价值

中国95%的房子,其实已经没有任何投资价值

流苏晚晴
2026-03-01 16:56:00
湖人128-117步行者3喜1忧!肯纳德太香,八村垒回暖,里弗斯太迷

湖人128-117步行者3喜1忧!肯纳德太香,八村垒回暖,里弗斯太迷

篮球资讯达人
2026-03-07 14:22:14
伊朗一座可容纳12000人的体育馆被摧毁,曾举办世界排球联赛

伊朗一座可容纳12000人的体育馆被摧毁,曾举办世界排球联赛

懂球帝
2026-03-07 12:16:18
空置别墅两次被撬!30万烟酒被搬空,法院:就算空着也算入户盗窃

空置别墅两次被撬!30万烟酒被搬空,法院:就算空着也算入户盗窃

娱乐圈见解说
2026-03-07 18:53:56
2026-03-08 04:36:49
龙田科技
龙田科技
ICT解决方案与服务供应商
459文章数 21关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

头条要闻

选举24小时内举行 伊朗今天或选出最高领袖

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

汪小菲曝亲妈猛料,张兰公开财产分配

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
旅游
本地
公开课
军事航空

家居要闻

暖棕撞色 轻法奶油风

旅游要闻

从生态园到网红公园 上海再添小众“森林秘境”

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美第三个航母打击群据称准备部署至中东

无障碍浏览 进入关怀版