网易首页 > 网易号 > 正文 申请入驻

摩尔线程完成DeepSeek-V4全链路工程化适配

0
分享至



S5000基于MUSA+SGLang实现复杂MoE模型快速落地

近日,摩尔线程依托旗舰级AI训推一体智算卡MTT S5000与自研MUSA软件栈,基于SGLang 开源推理框架,成功完成DeepSeek-V4的完整运行验证。该成果表明,面向新一代MoE大模型,摩尔线程已构建起从硬件架构核心计算引擎承接、热点算子支持再到端到端部署验证的系统化适配链路,验证了国产GPU平台对前沿大模型“框架级兼容、开箱即落地”的承载实力及工程化落地能力。

随着大模型架构持续演进,DeepSeek-V4等先进模型对底层精度能力、算子覆盖、编译优化、并行通信和推理效率提出了严苛要求。摩尔线程充分发挥S5000原生FP8算力、MUSA对CUDA深度兼容、TileLang MUSA编译器对TileLang生态完美支持等优势,结合TileKernels开源库复用,基于TileLang快捷开发自定义算子等手段,快速打通了DeepSeek-V4推理适配链路,再次验证了摩尔线程为开发者和行业用户提供高效、易部署的国产大模型运行软硬件底座的能力。

值得注意的是,TileLang-MUSA已正式进入 TileLang官方主线,实现了对DeepSeek-V4最新发布TileLang算子库TileKernels的Day-0无缝支持。这意味着MUSA平台已具备承载前沿LLM算子生态的工程基础,为后续先进开源模型适配提供了直接复用的算子通路。

TileKernels算子库开源地址:

https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels

TileLang-MUSA开源地址:

https://github.com/tile-ai/tilelang-musa

三层技术路径,

完成DeepSeek-V4工程化适配

本次适配验证了一条新模型快速推理部署的系统化工程路径:通过MUSA对CUDA的全栈兼容,实现核心主流AI框架快速适配,复用开源 TileKernels算子替代标准融合模式,并借助AI Agent基于TileLang完成模型特异性算子的快速开发与验证。

首先,MUSA软件栈提供了FlashMLA、DeepGEMM、DeepEP等DeepSeek开源仓库的兼容实现,使得推理依赖的Attention、FP8 GEMM、MoE dispatch/combine等关键计算、通信算子能够在S5000上快速适配。

其次,面向SwiGLU + FP8 quant等标准融合模式,S5000可直接复用DeepSeek TileKernels原生算子实现Day 0开箱适配,通过摩尔线程MATE 开源算子库在layout、dtype 、scale contract及接口层面与DeepGEMM深度兼容,消除热点算子的格式、接口对齐开销。得益于MUSA对AI软件生态良好的兼容性,DeepSeek-V4在MUSA平台上可实现从核心算子适配,到端到端拉起,再到系统级性能调优的工程级加速。

最后,针对DeepSeek-V4高度特异化的计算负载,摩尔线程借助AI Agent实现TileLang Kernel 自动生成及调试,围绕算子语义分析、接口适配、Kernel实现与正确性及精度验证等环节提升开发效率,完成RMSNorm、RoPE、Compress、Topk等多个核心自定义算子快速开发、集成。该方案在保证计算语义零偏差的前提下,显著压缩了Kernel级开发及适配周期,并进一步释放关键算子的性能,例如,RMSNorm等带宽瓶颈算子带宽利用率可达80%。

原生FP8支持,

夯实混合精度推理底座

上述三层路径快速打通,得益于摩尔线程S5000原生FP8算力底座支撑,完整承接前沿混合精度模型推理需求,在保持模型精度的同时,实现高吞吐低显存占用与显存带宽的高效利用

该能力深度对齐DeepSeek V4等先进MoE模型的精度演进范式,确保DeepGEMM、FlashMLA、DeepEP等核心算子在MUSA平台上快速适配。

围绕原生FP8能力,摩尔线程已完成涵盖激活量化(SwiGLU FP8 quant)、MoE路由(routing)、注意力预处理(attention-prep)、缓存管理(FlashMLA cache store / paged metadata)及解码压缩(compressor decode/prefill)在内的关键模块适配,并通过多层回归测试,完成关键路径正确性与稳定性的验证。

FlashMLA DSA极致优化,

释放长上下文推理性能

在完整模型链路适配的基础上,摩尔线程在S5000上针对FlashMLA DSA的Prefill(预填充)与Decode(解码)场景开展了专项优化,采用了一致的底层优化逻辑:紧密围绕DeepSeek-V4 KV Cache的数据组织模式,直接完成稀疏KV读取、Cache Layout解析、Attention计算及结果写回,有效消除了额外的缓存重排(Rearrangement)开销,同步支持Original + Extra双路KV Cache机制及动态Top-k长度,通过TileLang对DSA算子进行深度优化,显著提升了长上下文与稀疏注意力场景下的计算效率,最终DSA Prefill及Decode算子BF16 Tensor算力利用率可达50%,这还不是终点,我们还在继续推进优化。

四层验证体系,

确保生产级稳定和确定性

围绕完整推理链路,摩尔线程建立了覆盖MUSA Kernel验证、算子级精度对齐、优化路径选择、端到端场景回归四层验证体系,确保关键算子在实际运行中的正确性及稳定性。当前,摩尔线程基于DeepSeek-V4的工作已进入性能调优、长上下文能力完善与生产级稳定性验证阶段。

后续,摩尔线程将持续深耕DeepGEMM、 MoE 调度、长上下文推理服务化部署等关键能力,推动DeepSeek-V4等前沿大模型在摩尔线程GPU平台实现更高质量、更高效率的规模化部署。

从TileLang-MUSA对DeepSeek-V4 TileKernels的Day-0支持,到S5000基于FlagOS DeepSeek-V4 Pro和Flash双模型推理镜像发布,再到基于SGLang推理框架成功实现S5000 MUSA适配,摩尔线程正以“产品发布即适配、框架开源即支持”的节奏,持续推进国产GPU对前沿大模型的快速承接与深度优化。未来,摩尔线程将围绕MUSA、TileLang与FlagOS生态,持续完善FP8推理、MoE调度、长上下文与端到端部署能力,为开发者和行业用户提供性能稳定可靠、路径可持续、生态可生长的国产 AI 算力底座。

▼ 开发者可下载镜像进行开箱体验:

registry.mthreads.com/mcconline/inference/sglang:deepseek-v4-s5000-4.3.5-torch2.9.0-20260430

DeepSeek-V4推理服务部署指南:

https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/

—— 芯榜 ——

芯榜成立于 2015 年,是半导体垂直领域的产业媒体与数字化服务平台。全网覆盖超 100 万垂直行业用户,核心提供专业榜单发布、原创访谈、产业报告、峰会活动及研究咨询等服务。已合作近千家半导体生态企业,联动多家基金公司与产业媒体,助力硬科技产业发展。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“仚屳氽汆”不读shān shān shuǐ shuǐ,我出过丑,现在会读了!

“仚屳氽汆”不读shān shān shuǐ shuǐ,我出过丑,现在会读了!

白浅娱乐聊
2026-04-30 17:52:40
外交部宣布:贝尔伯克将访华

外交部宣布:贝尔伯克将访华

奇思妙想生活家
2026-04-30 06:29:55
角色反转,联大主席贝尔伯克访华露底牌,目标直指中国一票否决权

角色反转,联大主席贝尔伯克访华露底牌,目标直指中国一票否决权

遁走的两轮
2026-05-01 03:03:07
赛后大乱斗!C 罗卷入大规模冲突,和对手球星当场激烈对峙

赛后大乱斗!C 罗卷入大规模冲突,和对手球星当场激烈对峙

夜白侃球
2026-05-01 15:21:40
首批去雄安的北京高校2027年开学!上这些大学不去北京,是去河北

首批去雄安的北京高校2027年开学!上这些大学不去北京,是去河北

狐狸先森讲升学规划
2026-05-01 05:55:03
拥抱人民币果然是个幌子,阿联酋要跟美国一起掀桌子了

拥抱人民币果然是个幌子,阿联酋要跟美国一起掀桌子了

混沌录
2026-04-30 22:01:15
阿司匹林立大功!研究发现:老人吃阿司匹林,或能缓解 5 种症状

阿司匹林立大功!研究发现:老人吃阿司匹林,或能缓解 5 种症状

路医生健康科普
2026-05-01 11:50:03
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
北京首钢21分大胜!赵睿正式复出,威廉姆斯表现出色,冲击总冠军

北京首钢21分大胜!赵睿正式复出,威廉姆斯表现出色,冲击总冠军

体坛瞎白话
2026-05-01 08:38:58
四川5月1日禁烟:不是不让抽,这些地方绝对不行

四川5月1日禁烟:不是不让抽,这些地方绝对不行

瓜哥的动物日记
2026-05-01 11:37:28
南开生命科学院长被指论文多处数据存疑!校方:正调查将处理

南开生命科学院长被指论文多处数据存疑!校方:正调查将处理

南方都市报
2026-05-01 14:04:08
巴勒斯坦选举结果出炉,哈马斯被排除,加沙18年统治落幕

巴勒斯坦选举结果出炉,哈马斯被排除,加沙18年统治落幕

飘逸语人
2026-04-30 11:59:41
首组抢七!76人大胜绿军追到3-3 恩比德准三双马克西30分

首组抢七!76人大胜绿军追到3-3 恩比德准三双马克西30分

醉卧浮生
2026-05-01 10:30:39
触碰女人“生理开关”,只需要这四招,让她这辈子难以放手

触碰女人“生理开关”,只需要这四招,让她这辈子难以放手

匹夫来搞笑
2026-05-01 14:48:26
震惊!“夏雨荷”一夜之间消失,济南大明湖的地标路牌,已经抹去

震惊!“夏雨荷”一夜之间消失,济南大明湖的地标路牌,已经抹去

火山詩话
2026-04-30 06:09:31
美印尼狼狈为奸,断华经济命脉?中国还没发声,新加坡站边表态了

美印尼狼狈为奸,断华经济命脉?中国还没发声,新加坡站边表态了

看尽人间百态
2026-05-01 15:09:28
AI生成《黑神话:潘金莲》美图 性感风骚的美人

AI生成《黑神话:潘金莲》美图 性感风骚的美人

3DM游戏
2026-05-01 06:10:08
江青临终前,提出去毛主席纪念堂看主席最后一眼,中央:不准她去

江青临终前,提出去毛主席纪念堂看主席最后一眼,中央:不准她去

舆图看世界
2026-04-30 15:10:04
05后小妹“崩老头”,尺度炸裂全网

05后小妹“崩老头”,尺度炸裂全网

李东阳朋友圈
2026-04-30 13:43:51
《黑袍》星光在GTA6“下海”!街头服务“揽客”

《黑袍》星光在GTA6“下海”!街头服务“揽客”

游民星空
2026-04-29 19:43:05
2026-05-01 16:00:49
芯榜 incentive-icons
芯榜
中国芯片排行榜
4570文章数 3248关注度
往期回顾 全部

科技要闻

苹果上季在华收入继续大增 iPhone收入新高

头条要闻

中国军号:日本有个致命的战略弱点 出兵就是作死

头条要闻

中国军号:日本有个致命的战略弱点 出兵就是作死

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

邓超在景德镇被偶遇,穿黑外套逛茶园

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

教育
游戏
本地
房产
公开课

教育要闻

先导课-告别chinglish,让你的英语脱口而出

6万块 限量500件!《巫师3》新雕像:杰洛特希里对饮

本地新闻

用青花瓷的方式,打开西溪湿地

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版