网易首页 > 网易号 > 正文 申请入驻

摩尔线程开源TileLang-MUSA,高效算子开发释放全功能GPU计算潜力

0
分享至

近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔线程多代全功能GPU上完成功能验证与特性开发,旨在通过高层抽象与编译器优化,大幅降低开发门槛,为国产算力平台提供更高效的AI与高性能计算开发体验。

▼TileLang-MUSA开源地址:

https://github.com/MooreThreads/tilelang_musa

TileLang:重新定义GPU算子编程的语言

TileLang是一款基于张量分块(Tiling)抽象的高性能AI算子编程语言,属于领域特定语言(DSL)。它采用声明式语法与类Python前端,使开发者能够以接近数学公式的形式描述计算意图,并由编译器自动完成循环优化、内存调度与代码生成,在保持底层性能的同时大幅降低GPU及异构计算平台的编程复杂度。

在实际应用中,TileLang通过三大核心作用显著提升GPU计算的开发效率:

  • 通过高级抽象降低开发门槛,开发者无需深入底层硬件知识即可生成高性能代码;
  • 具备跨平台能力,实现“一次编写、多架构运行”,有效解决多元算力生态的适配难题;
  • 编译器自动执行Layout推导、线程映射、Warp特化、流水线排布、内存优化等复杂优化,在保障性能的同时提升开发效率。

TileLang已广泛应用于多个关键领域,例如:在AI与机器学习中,研究人员可用其快速定义新型算子(如注意力机制);在科学计算中,可便捷移植大型数值模拟程序至不同硬件平台;对硬件厂商而言,TileLang可作为构建芯片软件生态的基础工具链。

在产业实践中,DeepSeek-V3的研发已采用TileLang进行算子快速原型设计与性能验证,证明了其在大规模模型训练中的实战价值。摩尔线程开源的TileLang-MUSA项目,正是这一技术理念的产业落地——通过提供高效开发工具链降低创新门槛,推动国产算力应用生态的繁荣发展。

TileLang-MUSA:连接前沿语法与国产算力的桥梁

摩尔线程此次开源的 TileLang-MUSA项目,旨在充分释放全功能GPU的性能潜力。它提供了一种介于底层汇编与高层DSL之间的“中间层”抽象,在保留硬件控制力的同时,显著降低了编程复杂度。具体特性如下:

▼广泛的硬件架构覆盖:TileLang-MUSA已在摩尔线程多代全功能GPU上完成功能验证与打通,包括训推一体全功能智算卡 MTT S5000和MTT S4000,展现了良好的硬件兼容性。

▼核心计算特性的深度映射:项目团队实现了TileLang高层语义到摩尔线程GPU底层MUSA架构的精准映射。

  • Tensor Core 加速:编译器能够自动调用MUSA的MMA(矩阵乘累加)指令,充分发挥硬件张量核心的峰值计算能力;
  • Tile-Level Pipeline:自动处理从全局内存(Global Memory)到共享内存(Shared Memory)再到寄存器(Registers)的多级数据搬运,利用MUSA异步拷贝指令掩盖访存延迟;
  • Warp级并行优化:完整支持Warp Specialization特性。

目前,基于MUSA架构的TileLang原生算子单元测试覆盖率已超过80%,为大规模应用提供了可靠保障。

代码示例:体验“零门槛”算子迁移

开发者在完成环境配置后,可保留原有的import tilelang习惯,通过Cython编译后端直接在MUSA环境中运行TileLang代码。

以下是一个基于TileLang-MUSA的高性能矩阵乘法实现示例:通过简洁明了的语法描述计算逻辑,编译器能够自动生成高度优化的MUSA内核代码。依托TileLang丰富且经过深度调优的原语算子库(primitives),开发者借助TileLang-MUSA不仅能够显著提升编码效率,更能直接调用底层硬件的计算潜力,实现媲美手工优化性能的矩阵运算。

import tilelang

import tilelang.language as T

import torch

from tilelang.primitives.gemm.base import GemmWarpPolicy

def matmul(M, N, K, block_M, block_N, block_K, dtype="float16", accum_dtype="float"):

@T.prim_func

def matmul_kernel(

A: T.Tensor((M, K), dtype),

B: T.Tensor((K, N), dtype),

C: T.Tensor((M, N), dtype),

with T.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), threads=512) as (bx, by):

T.use_swizzle(panel_size=4, order='col')

A_shared = T.alloc_shared((block_M, block_K), dtype)

B_shared = T.alloc_shared((block_K, block_N), dtype)

C_local = T.alloc_fragment((block_M, block_N), accum_dtype)

T.clear(C_local)

for k in T.Pipelined(T.ceildiv(K, block_K), num_stages=3):

T.copy(A[by * block_M, k * block_K], A_shared)

T.copy(B[k * block_K, bx * block_N], B_shared)

T.gemm(A_shared, B_shared, C_local, policy=T.GemmWarpPolicy.Square)

T.copy(C_local, C[by * block_M, bx * block_N])

return matmul_kernel

def main():

M, N, K, BLOCK_M, BLOCK_N, BLOCK_K = 8192, 7168, 16384, 256, 256, 64

device = "musa"

A = torch.randn((M, K), dtype=torch.float16, device=device)

B = torch.randn((K, N), dtype=torch.float16, device=device)

program = matmul(M, N, K, BLOCK_M, BLOCK_N, BLOCK_K, dtype="float16", accum_dtype="float32")

kernel = tilelang.compile(

program,

out_idx=-1,

target="musa",

execution_backend="cython",

verbose=True,

ref_out = torch.mm(A, B)

C = kernel(A, B)

torch.testing.assert_close(ref_out.to(torch.float16), C.to(torch.float16), rtol=1.25e-1, atol=1.25e-1)

if __name__ == "__main__":

main()

*代码示例

实测表现:兼顾开发效率与运行性能

TileLang-MUSA的设计理念是让开发者“写得快”且“跑得快”。在实际算子开发实践中,这一目标已得到验证。

以大语言模型中至关重要的FlashAttention-3和GEMM(通用矩阵乘)算子为例,在摩尔线程MTT S5000上的测试结果显示:

▼开发效率倍增:相较手写MUSA C++代码,使用TileLang-MUSA的代码量减少了约90%,且代码逻辑更加清晰,极大降低了开发与维护成本。

▼性能媲美手写:得益于TileLang-MUSA优秀的编译器优化,生成的算子性能在典型配置下,Gemm最高可达到手写优化版本的95%, FlashAttention-3可以达到手写优化版本的85%。

▼自动化调优:借助TileLang-MUSA的Auto-tuning机制,开发者可以在MUSA架构的全功能GPU上快速搜索最优的分块策略(Tile Size)和流水线级数,轻松超越未经深度优化的基准实现。

TileLang-MUSA的推出,为开发者带来了三大核心价值:

▼无缝迁移:TileLang用户可以近乎零成本地将算子逻辑迁移至摩尔线程GPU;

▼降低门槛:TileLang-MUSA为不熟悉MUSA指令集的AI工程师提供了高层次的开发入口,大幅降低了国产GPU的应用门槛;

▼赋能大模型:TileLang-MUSA通过支持FlashAttention等关键算子的高效开发,将有力加速大语言模型等前沿AI应用在国产算力平台上的部署与落地。

TileLang-MUSA不仅验证了“高层语言+国产GPU”这一技术路线的可行性,更为构建开放、易用的国产算力开发生态提供了关键工具支撑。

未来展望:打造基于MUSA的深度学习统一平台

TileLang-MUSA的开源是摩尔线程构建国产算力生态的关键一步。以此为起点,摩尔线程将持续推进平台与生态建设,致力于打造一个覆盖从单算子到完整大模型的国产算力统一加速平台:持续进行性能优化,开发更多MUSA架构定制扩展,使生成代码性能稳定达到手写优化版本的90%以上;深度集成SGLang等主流AI框架,实现训练与推理场景的端到端无缝加速;从单算子优化延伸至Transformer、MoE等复杂模型架构的跨算子调度与全局优化;同时完善调试和性能分析工具链,为开发者提供全流程支持。

这一切努力,最终都将汇聚于一个核心目标:构建一个开放、高效、充满生命力的国产算力生态,让创新的想法在坚实的基石上自由生长。

了解TileLang-MUSA开源项目可直接访问:

https://github.com/MooreThreads/tilelang_musa

*以上测试数据均来自摩尔线程实验室

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳光明房价暴跌真相!十大小区最高腰斩50%,有人借钱还房贷

深圳光明房价暴跌真相!十大小区最高腰斩50%,有人借钱还房贷

林子说事
2026-07-01 16:49:50
最惨外逃女贪官顾震芳:嫁当地残疾男子,给他生孩子还要打工养家

最惨外逃女贪官顾震芳:嫁当地残疾男子,给他生孩子还要打工养家

云舟史策
2026-06-29 19:27:31
张祥焱出任中国驻巴拿马大使

张祥焱出任中国驻巴拿马大使

上观新闻
2026-07-02 06:29:17
争议最大的一代宝马?第五代宝马X5/iX5亮相,2026年底海外上市

争议最大的一代宝马?第五代宝马X5/iX5亮相,2026年底海外上市

爱买车
2026-07-02 08:11:24
央视一姐结束12年婚姻,坦言婚姻尽是痛苦

央视一姐结束12年婚姻,坦言婚姻尽是痛苦

可爱的巴比龙
2026-06-30 08:19:24
他是上海著名主持,我们熟悉的"申城第一名嘴",如今退休定居澳洲

他是上海著名主持,我们熟悉的"申城第一名嘴",如今退休定居澳洲

白面书誏
2026-06-24 22:21:06
“每桌近4千元婚宴出现带冰碴预制菜”,最新进展:酒店已全额退款4.6万元,当事人称不接受道歉

“每桌近4千元婚宴出现带冰碴预制菜”,最新进展:酒店已全额退款4.6万元,当事人称不接受道歉

大风新闻
2026-06-30 20:43:12
黄仁勋“抠门三件套”曝光!英伟达没有免费午餐,连咖啡都收钱

黄仁勋“抠门三件套”曝光!英伟达没有免费午餐,连咖啡都收钱

雷科技
2026-07-01 18:33:15
美的创始人何享健2250亿财富无人继承,三子女均为老总

美的创始人何享健2250亿财富无人继承,三子女均为老总

阿諬体育评论
2026-06-29 22:22:22
比赛还剩3天,阿根廷先迎来一个超级大喜讯,取胜佛得角彻底稳了

比赛还剩3天,阿根廷先迎来一个超级大喜讯,取胜佛得角彻底稳了

零度眼看球
2026-07-01 09:08:01
11点23分!山东泰山有新情况,俱乐部已作出决定,年底或有大动作

11点23分!山东泰山有新情况,俱乐部已作出决定,年底或有大动作

王大发不懂球
2026-07-02 06:25:43
心理学:人是没有家的,家的概念是假的,人生只有你一个人,只有你越来越好,才有其他,你本身就是家,你是你一生的终点

心理学:人是没有家的,家的概念是假的,人生只有你一个人,只有你越来越好,才有其他,你本身就是家,你是你一生的终点

心理观察局
2026-07-01 07:37:31
世界杯3-2大逆转!比利时命硬:4巨星内讧,仍绝杀塞内加尔+日本

世界杯3-2大逆转!比利时命硬:4巨星内讧,仍绝杀塞内加尔+日本

球场没跑道
2026-07-02 07:47:16
“奶茶袋子装大疆!”初三女孩收礼变脸被骂,面相学果然权威!

“奶茶袋子装大疆!”初三女孩收礼变脸被骂,面相学果然权威!

林林先生
2026-06-30 09:20:03
从不屑到正视!日媒公开承认:中国发动机技术,全面赶超日企

从不屑到正视!日媒公开承认:中国发动机技术,全面赶超日企

沙雕小琳琳
2026-06-27 15:20:32
伊布谈姆巴佩+奥利塞:世界杯最强组合,皇马若不抢就亏大了

伊布谈姆巴佩+奥利塞:世界杯最强组合,皇马若不抢就亏大了

体育闲话说
2026-07-01 15:18:53
高温席卷欧洲,中国空调卖断货后,欧洲人开始举报安装空调的邻居

高温席卷欧洲,中国空调卖断货后,欧洲人开始举报安装空调的邻居

纪中百大事
2026-07-01 14:33:03
官宣!人口流入的城市,要疯狂建高中了

官宣!人口流入的城市,要疯狂建高中了

城市财经
2026-06-30 12:28:32
丢人丢到全亚洲,马来西亚媒体都来嘲讽新加坡:反应这么大干嘛?

丢人丢到全亚洲,马来西亚媒体都来嘲讽新加坡:反应这么大干嘛?

圆梦的小老头
2026-06-23 00:05:01
纳斯达克中国金龙指数涨2.93%;国家召集271家火箭、卫星公司成立商业航天创新联合体干大事;三星HBM4E良率突破70%,第七代AI内存开发进入稳定阶...

纳斯达克中国金龙指数涨2.93%;国家召集271家火箭、卫星公司成立商业航天创新联合体干大事;三星HBM4E良率突破70%,第七代AI内存开发进入稳定阶...

每日经济新闻
2026-07-02 07:41:06
2026-07-02 09:00:49
爱集微 incentive-icons
爱集微
集微网官方账号
109859文章数 98361关注度
往期回顾 全部

科技要闻

可灵AI上市前夜,快手想给它融30亿美元

头条要闻

牛弹琴:普京可能都没想到 有一天俄要从印度进口汽油

头条要闻

牛弹琴:普京可能都没想到 有一天俄要从印度进口汽油

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

77岁牛群公证裸捐全部财产,清贫独居坚持月捐

财经要闻

耐克,继续等待复苏的好消息

汽车要闻

同比暴涨188.4% 方程豹6月热销35607台

态度原创

手机
数码
时尚
教育
本地

手机要闻

CounterPoint称苹果iPhone Ultra改写2026全球折叠面板供应格局

数码要闻

M7芯片首秀:古尔曼称苹果酝酿新入门级MacBook Pro

月入3万,时代红利砸向文科生

教育要闻

普通小孩靠自己也能逆风翻盘… 高考MAM|无背景 无资源 靠自己多尝试

本地新闻

强烈建议,全国高校都向这所大学看齐!

无障碍浏览 进入关怀版