![]()
摩尔线程AI旗舰级计算卡MTT S5000性能首次曝光,这是摩尔线程2024年推出的、专为大模型训练、推理及高性能计算而设计的训推一体全功能GPU智算卡。
摩尔线程在其官网中,首次公布了S5000的硬件参数:支持FP8到FP64的全精度计算,其单卡AI算力(FP8)最高可达1 PFLOPS,显存容量为80GB,显存带宽达到1.6TB/s,卡间互联带宽为784GB/s。业内人士表示,MTT S5000实测性能对标H100,在多模态大模型微调任务中,部分性能甚至超越H100。
![]()
在芯片架构层面,S5000采用第四代MUSA架构“平湖”,专为大规模AI训练优化,依托MUSA全栈软件平台,原生适配PyTorch、Megatron-LM、vLLM及SGLang等主流框架,让用户能够以“零成本”完成代码迁移,兼容国际主流CUDA生态。
在计算精度方面,S5000作为国内一批最早原生支持FP8精度的训练GPU,配置了硬件级FP8 Tensor Core加速单元。相比传统的BF16/FP16,FP8可将数据位宽减半,显存带宽压力降低50%,理论计算吞吐量翻倍。其FP8引擎全面支持DeepSeek、Qwen等前沿架构,可提升30%以上训练性能。
基于S5000构建的夸娥万卡集群已经落地,其浮点运算能力达到10Exa-Flops,在Dense模型训练中MFU达60%,在MoE模型中维持在40%左右,有效训练时间占比超过90%,训练线性扩展效率达95%。依托原生FP8能力,它能够完整复现顶尖大模型的训练流程,其中Flash Attention算力利用率超过95%,多项关键指标均达到国际主流水平。
在集群通信层面,S5000采用独创的ACE技术,将复杂通信任务从计算核心卸载,实现计算与通信的零冲突并行,大幅提升模型算力利用率(MFU)。实测显示,从64卡扩展至1024卡,系统保持90%以上的线性扩展效率,训练速度随算力增加几乎同步倍增。
2026年1月,智源研究院基于S5000千卡集群,完成了前沿具身大脑模型RoboBrain 2.5的端到端训练与对齐验证。结果显示,与英伟达H100集群的训练结果高度重合,训练损失值(loss)差异仅为0.62%。
除了训练,S5000在推理场景同样表现优异。2025年12月,摩尔线程联合硅基流动,基于S5000完成了对DeepSeek-V3 671B满血版的深度适配与性能测试,实测单卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,这一成绩刷新了国产GPU的推理纪录。
—— 芯榜 ——
芯榜成立于 2015 年,是半导体垂直领域的产业媒体与数字化服务平台。全网覆盖超 100 万垂直行业用户,核心提供专业榜单发布、原创访谈、产业报告、峰会活动及研究咨询等服务。已合作近千家半导体生态企业,联动多家基金公司与产业媒体,助力硬科技产业发展。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.