网易首页 > 网易号 > 正文 申请入驻

以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能升30%

0
分享至

现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。

因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。

在这一背景下,华为团队和昨天一样(参考:帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈),用数学补物理,给出了一份深度融合软硬件的系统性方案!

他们基于昇腾算力,正式发布了三项重要的硬件亲和算子技术研究,带来了大模型推理速度与能效的双重革命。具体包括如下:

  • AMLA—— 以加代乘的高性能昇腾 MLA 算子。用「数学魔法」重构浮点运算,让昇腾芯片的算力利用率突破 70%!
  • 基于昇腾的融合算子技术与设计原理。像指挥交响乐团一样调度硬件资源,让计算与通信「无缝协奏」!
  • SMTurbo—— 面向高性能原生 Load/Store 语义加速。打造内存访问的「高速公路」,跨 384 卡延迟低至亚微秒级!

可以看到,华为团队着力通过对大模型推理中关键算子的重构优化,实现能效、多卡协同和速度三大维度的全面突破。

作为 AI 大模型执行计算的「原子级工具」,算子如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与复用机制,让芯片处理海量数据时如虎添翼。

华为团队此次发布的三大技术,正是算子优化的「终极形态」。

技术全景三大黑科技如何颠覆 AI 计算?

AMLA:以加代乘的「魔法」让芯片算力利用率飙升

  • 「数字炼金术」:对二进制表示重解析,将复杂乘法转换为加法运算,充分利用存内算力,算力利用率飙升至 71%!

针对 Decode 阶段的 MLA 计算,华为团队提出了 AMLA(Ascend MLA)算子,通过数学等价变化和硬件亲和的深度优化,释放昇腾芯片澎湃算力。MLA 是 DeepSeek 大模型的重要技术创新点,主要就是减少推理过程的 KV Cache,实现在更少的设备上推理更长的 Context,极大地降低推理成本。FlashMLA 是该技术的高效实现版本。

针对MLA 架构,华为团队通过精妙的数学变换,让其变得更加昇腾亲和,并做到了更高的算力利用率。

具体而言,通过对浮点数二进制编码的重解析,把复杂的乘法运算变成简单的加法操作,AMLA 实现了基于存内计算的变量更新,充分利用算力的同时减少数据搬运;结合一系列基于昇腾硬件的计算流程及流水优化手段,进一步提升算子的整体性能。

当前 AMLA 算法的 Attention 算子充分发挥昇腾硬件的计算能力,性能提升 30% 以上,平均算力利用率达到 55%,最高可达 71%,优于 FlashMLA 公开的结果(67%)。

博客链接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-amla.md

融合算子优化:硬件资源的 「交响乐指挥家」

  • 将多个算子合而为一,让计算、通信、存储「三重协奏」!

基于昇腾平台部署 DeepSeek V3/R1 大模型的实践经验,华为团队提炼出三大昇腾算子融合设计原理:硬件单元间并行度优化、冗余数据搬运消除、数学等价重构计算流。

首先,利用昇腾芯片的多硬件单元并行的能力,将跨硬件单元串行算子融合为复合算子,通过指令级流水编排实现计算耗时相互掩盖。

其次,对串行向量算子实施融合处理,构建全局内存与计算单元缓存的直通数据通道,使中间结果全程驻留高速缓存。

最后,华为团队运用数学等价关系解耦算子间数据依赖,重构计算顺序实现并行加速。该技术体系在模型推理中实现了大幅性能提升。

博客链接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-fused-ops.md

SMTurbo:384 卡内存共享的「超低延迟高速公路」

  • 昇腾原生 Load/Store 语义让跨卡访存延迟进入亚微秒时代!

华为 CloudMatrix 384 支持 384 卡规模原生 Load/Store 语义。因其低延迟、上下文切换代价小、可细粒度流水等优势,受到业界广泛关注。基于共享内存的集合通信满足了小数据量、大范围集合通信场景需求,成为稀疏模型推理的关键能力。

面向原生 Load/Store 内存语义通信提供软硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 将 Load/Store 在读和写两个方向上并行,发挥了昇腾芯片读写分离的微架构优势;针对数据保序场景下的同步开销问题,引入了批处理与中转机制,降低了控制逻辑的开销。在跨机访存通信场景下,方案可以提升 CloudMatrix 384 中昇腾芯片每线程的访存吞吐 20% 以上。

博客链接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-loadstore.md

未来与展望

如上提到的三个算子层面优化技术的未来发展上,针对 AMLA,将研究仅 KV Cache 量化和全量化场景的 MLA 算子优化,进一步扩展算子应用场景;针对融合算子优化,将进一步探索融合算子在更多模型架构上的应用,推动大语言模型在昇腾硬件上的高效推理与广泛应用;针对 Load/Store 的优化技术,将结合业务设计精巧的流水实现,平衡读写平面的负载分担,将该思想引入 Deepseek dispatch 与 combine 场景,在大 BatchSize 下取得实际收益。

面向未来,这三类算子层面的优化技术不仅将在昇腾生态中发挥关键价值,也有望为整个行业提供一个参考性范本。在大模型架构日趋复杂、推理场景更加多样化的当下,算子层的优化正从单一性能突破迈向「数学创新、架构感知、硬件亲和」协同演进的全新阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月17日重庆新桥医院 广西女子求医挂不上号 医生下班蹲地看片暖哭

3月17日重庆新桥医院 广西女子求医挂不上号 医生下班蹲地看片暖哭

观星赏月
2026-03-26 05:17:03
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
极氪,不慌了

极氪,不慌了

autocarmax
2026-03-25 20:47:24
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美伊

炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美伊

阿龙聊军事
2026-03-25 17:43:37
高考录取线TOP100高校,排名发布!

高考录取线TOP100高校,排名发布!

麦可思研究
2026-03-25 09:51:31
“霍尔木兹决战”,不打了

“霍尔木兹决战”,不打了

中国新闻周刊
2026-03-25 18:43:08
《浪姐7》糊咖扎堆,大牌只有两位,3人成流量担当,4人有黑马相

《浪姐7》糊咖扎堆,大牌只有两位,3人成流量担当,4人有黑马相

八卦南风
2026-03-25 17:32:20
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
通用丰田等联名致函:敦促美国继续限制进口中国车

通用丰田等联名致函:敦促美国继续限制进口中国车

快科技
2026-03-24 11:18:08
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
马布里,48岁,刚领着一位中国姑娘去领了证。

马布里,48岁,刚领着一位中国姑娘去领了证。

南权先生
2026-02-28 15:50:16
曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

观鱼听雨
2026-03-26 10:43:02
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
高铁直达!比起昆明和大理,我更爱这个被严重低估的云南小城!

高铁直达!比起昆明和大理,我更爱这个被严重低估的云南小城!

匿旅
2026-03-25 23:05:23
不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

阿七说史
2026-03-09 16:01:03
2.4亿成全你!詹姆斯降薪2000万?双詹合体咋办!

2.4亿成全你!詹姆斯降薪2000万?双詹合体咋办!

柚子说球
2026-03-25 11:44:10
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

叮当当科技
2026-03-26 01:51:54
2026-03-26 14:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12601文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
健康
旅游
亲子
军事航空

IGN认为Xbox机会来了!新主机要转守为攻 重塑自我

转头就晕的耳石症,能开车上班吗?

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版