网易首页 > 网易号 > 正文 申请入驻

以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能升30%

0
分享至

现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。

因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。

在这一背景下,华为团队和昨天一样(参考:帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈),用数学补物理,给出了一份深度融合软硬件的系统性方案!

他们基于昇腾算力,正式发布了三项重要的硬件亲和算子技术研究,带来了大模型推理速度与能效的双重革命。具体包括如下:

  • AMLA—— 以加代乘的高性能昇腾 MLA 算子。用「数学魔法」重构浮点运算,让昇腾芯片的算力利用率突破 70%!
  • 基于昇腾的融合算子技术与设计原理。像指挥交响乐团一样调度硬件资源,让计算与通信「无缝协奏」!
  • SMTurbo—— 面向高性能原生 Load/Store 语义加速。打造内存访问的「高速公路」,跨 384 卡延迟低至亚微秒级!

可以看到,华为团队着力通过对大模型推理中关键算子的重构优化,实现能效、多卡协同和速度三大维度的全面突破。

作为 AI 大模型执行计算的「原子级工具」,算子如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与复用机制,让芯片处理海量数据时如虎添翼。

华为团队此次发布的三大技术,正是算子优化的「终极形态」。

技术全景三大黑科技如何颠覆 AI 计算?

AMLA:以加代乘的「魔法」让芯片算力利用率飙升

  • 「数字炼金术」:对二进制表示重解析,将复杂乘法转换为加法运算,充分利用存内算力,算力利用率飙升至 71%!

针对 Decode 阶段的 MLA 计算,华为团队提出了 AMLA(Ascend MLA)算子,通过数学等价变化和硬件亲和的深度优化,释放昇腾芯片澎湃算力。MLA 是 DeepSeek 大模型的重要技术创新点,主要就是减少推理过程的 KV Cache,实现在更少的设备上推理更长的 Context,极大地降低推理成本。FlashMLA 是该技术的高效实现版本。

针对MLA 架构,华为团队通过精妙的数学变换,让其变得更加昇腾亲和,并做到了更高的算力利用率。

具体而言,通过对浮点数二进制编码的重解析,把复杂的乘法运算变成简单的加法操作,AMLA 实现了基于存内计算的变量更新,充分利用算力的同时减少数据搬运;结合一系列基于昇腾硬件的计算流程及流水优化手段,进一步提升算子的整体性能。

当前 AMLA 算法的 Attention 算子充分发挥昇腾硬件的计算能力,性能提升 30% 以上,平均算力利用率达到 55%,最高可达 71%,优于 FlashMLA 公开的结果(67%)。

博客链接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-amla.md

融合算子优化:硬件资源的 「交响乐指挥家」

  • 将多个算子合而为一,让计算、通信、存储「三重协奏」!

基于昇腾平台部署 DeepSeek V3/R1 大模型的实践经验,华为团队提炼出三大昇腾算子融合设计原理:硬件单元间并行度优化、冗余数据搬运消除、数学等价重构计算流。

首先,利用昇腾芯片的多硬件单元并行的能力,将跨硬件单元串行算子融合为复合算子,通过指令级流水编排实现计算耗时相互掩盖。

其次,对串行向量算子实施融合处理,构建全局内存与计算单元缓存的直通数据通道,使中间结果全程驻留高速缓存。

最后,华为团队运用数学等价关系解耦算子间数据依赖,重构计算顺序实现并行加速。该技术体系在模型推理中实现了大幅性能提升。

博客链接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-fused-ops.md

SMTurbo:384 卡内存共享的「超低延迟高速公路」

  • 昇腾原生 Load/Store 语义让跨卡访存延迟进入亚微秒时代!

华为 CloudMatrix 384 支持 384 卡规模原生 Load/Store 语义。因其低延迟、上下文切换代价小、可细粒度流水等优势,受到业界广泛关注。基于共享内存的集合通信满足了小数据量、大范围集合通信场景需求,成为稀疏模型推理的关键能力。

面向原生 Load/Store 内存语义通信提供软硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 将 Load/Store 在读和写两个方向上并行,发挥了昇腾芯片读写分离的微架构优势;针对数据保序场景下的同步开销问题,引入了批处理与中转机制,降低了控制逻辑的开销。在跨机访存通信场景下,方案可以提升 CloudMatrix 384 中昇腾芯片每线程的访存吞吐 20% 以上。

博客链接:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptimizedOps/ascend-inference-cluster-loadstore.md

未来与展望

如上提到的三个算子层面优化技术的未来发展上,针对 AMLA,将研究仅 KV Cache 量化和全量化场景的 MLA 算子优化,进一步扩展算子应用场景;针对融合算子优化,将进一步探索融合算子在更多模型架构上的应用,推动大语言模型在昇腾硬件上的高效推理与广泛应用;针对 Load/Store 的优化技术,将结合业务设计精巧的流水实现,平衡读写平面的负载分担,将该思想引入 Deepseek dispatch 与 combine 场景,在大 BatchSize 下取得实际收益。

面向未来,这三类算子层面的优化技术不仅将在昇腾生态中发挥关键价值,也有望为整个行业提供一个参考性范本。在大模型架构日趋复杂、推理场景更加多样化的当下,算子层的优化正从单一性能突破迈向「数学创新、架构感知、硬件亲和」协同演进的全新阶段。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
百度一贴吧疑似全是机器人,并禁止人类发帖和回帖引发热议,网友直言“感觉有点魔幻”

百度一贴吧疑似全是机器人,并禁止人类发帖和回帖引发热议,网友直言“感觉有点魔幻”

观威海
2026-03-29 08:39:03
美媒:对不起歼-20和歼-35,“新款”F-22战斗机已经揭开神秘面纱

美媒:对不起歼-20和歼-35,“新款”F-22战斗机已经揭开神秘面纱

零度Military
2026-03-26 22:20:35
向队伤无大碍!三大主力怒赞朝鲜节奏快 蓉城新星太强 木塔快废了

向队伤无大碍!三大主力怒赞朝鲜节奏快 蓉城新星太强 木塔快废了

刀锋体育
2026-03-29 10:38:44
特朗普:不管你喜不喜欢,你都必须尊重中国

特朗普:不管你喜不喜欢,你都必须尊重中国

观察者网
2026-03-29 16:16:04
催人泪下!张雪峰常把家乡高校当避坑指南,当地送挽联以最高敬意

催人泪下!张雪峰常把家乡高校当避坑指南,当地送挽联以最高敬意

火山詩话
2026-03-28 06:26:33
晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

晚清首富盛宣怀:家有两女佣,一个生了宋美龄,另一个生了赵一荻

鹤羽说个事
2026-03-24 22:01:27
委内瑞拉总统马杜罗社交媒体账号发文:我们很好,内心坚定且平静

委内瑞拉总统马杜罗社交媒体账号发文:我们很好,内心坚定且平静

新京报
2026-03-29 10:39:07
时隔一周,昔日“最快女护士”张水华再获冠军

时隔一周,昔日“最快女护士”张水华再获冠军

极目新闻
2026-03-29 10:00:29
高市铁心卖国?日本决定出兵中东,中方不再忍,对日再出重拳反制

高市铁心卖国?日本决定出兵中东,中方不再忍,对日再出重拳反制

顾史
2026-03-29 03:39:01
家里这7样旧东西别丢!今年涨了80%,比黄金还吃香

家里这7样旧东西别丢!今年涨了80%,比黄金还吃香

小鹿姐姐情感说
2026-03-29 10:26:08
牢A的新赛道?

牢A的新赛道?

关尔东
2026-03-28 20:20:30
李荣浩喊话单依纯侵权演唱《李白》,律师解读:最高可处罚款25万元

李荣浩喊话单依纯侵权演唱《李白》,律师解读:最高可处罚款25万元

红星新闻
2026-03-29 18:00:23
暴跌25%!曾经一包难求的顶级奢侈品,如今五折甩卖都没人要?

暴跌25%!曾经一包难求的顶级奢侈品,如今五折甩卖都没人要?

青眼财经
2026-03-27 22:55:18
好消息!老年公交卡2026年调整,告别一刀切,老人出行更顺心

好消息!老年公交卡2026年调整,告别一刀切,老人出行更顺心

米果说识
2026-03-28 14:33:38
一旦开战,中国若发射一枚东风41,得付出多大的代价?

一旦开战,中国若发射一枚东风41,得付出多大的代价?

小正说娱乐
2026-03-19 18:51:30
亮相广东,李春江正式上任,重返篮球场,新岗位曝光,杜锋期待

亮相广东,李春江正式上任,重返篮球场,新岗位曝光,杜锋期待

云隐南山
2026-03-29 19:16:41
俄军战壕欢呼克宫遇袭,俄亲战博主:俄罗斯的战争,该醒了

俄军战壕欢呼克宫遇袭,俄亲战博主:俄罗斯的战争,该醒了

老马拉车莫少装
2026-03-29 19:06:51
为什么石油是用“桶”而不是“吨”来计算?一桶油到底有多重?

为什么石油是用“桶”而不是“吨”来计算?一桶油到底有多重?

长风文史
2026-03-15 15:49:09
G7外长会内讧升级,法德当场冲突,日方直指联合国

G7外长会内讧升级,法德当场冲突,日方直指联合国

半身Naked
2026-03-28 13:39:21
被成龙“泡过”的三位女星,个个性感迷人,其中一位火遍全国

被成龙“泡过”的三位女星,个个性感迷人,其中一位火遍全国

阿凫爱吐槽
2026-03-23 14:07:43
2026-03-29 20:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12620文章数 142599关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

头条要闻

中国警告美国:勿将"冲突战乱"引入亚太地区

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

教育
家居
游戏
数码
军事航空

教育要闻

1分钟学会不规则图形的面积计算方法!

家居要闻

曲线华尔兹 现代简约

PS5 Pro涨价前最狠优惠来了!换购只要两千多

数码要闻

用户称M5 Max MacBook Pro在运行AI工作负载时固态硬盘温度失控

军事要闻

美两栖攻击舰载3500名增援到达

无障碍浏览 进入关怀版