华山论剑掀风云，国产GPU的突围与攻坚|摩尔|gpu

华山论剑掀风云，国产GPU的突围与攻坚

2025-12-22 11:08:56　来源: DT Value

北京举报

分享至

摩尔线程首届MUSA开发者大会在北京收官，这场聚焦全功能GPU的技术盛会，集中亮出了以自主MUSA统一架构为核心的全栈技术实力。

会上重磅揭晓的新一代GPU架构“花港”，基于这一架构，华山训推一体旗舰GPU卡、庐山图形渲染与游戏卡同步亮相，而面向超大规模智算中心打造的KUAE万卡智算集群，以及MTT C256超节点架构，更是成为全场瞩目的焦点。

”华山“论剑双芯同步亮相

MUSA（Meta-computing Unified System Architecture）是摩尔线程自主研发的元计算统一计算架构，覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。

摩尔线程新一代GPU架构——花港架构不仅支全栈自研，在性能上支持FP4到FP64全精度计算，新增MTFP6/MTFP4及混合低精度支持，技术目标直接看齐英伟达Blackwell架构，更实现了算力密度提升50%、效能激增10倍的双重突破。

花港架构集成新一代异步编程模型，优化任务调度与并行机制；通过自研MTLink高速互联技术，支持十万卡以上规模智算集群扩展。内置AI生成式渲染架构，增强硬件光线追踪加速引擎，完整支持DirectX 12 Ultimate，实现图形渲染与智能计算的高度协同。

基于该架构推出高性能AI训推一体“华山”芯片与专攻高性能图形渲染的“庐山”芯片。

其中，“华山”是基于花港架构打造的首款AI训推一体芯片，既支持AI训练与推理，又具备超级计算能力，属于典型的超智融合芯片。

在AI应用中，算力、访存与通讯是三大核心要素。“华山”集成新一代异步编程技术，依托异步编程模型自动分配各类任务负载，并均衡调度至每一个计算单元，确保所有计算单元各司其职、充分释放算力价值。为实现这一目标，芯片内置Persistent Kernel与多种调度机制，可让开发者实现“无感”操作，大幅提升算力利用效率。

同时，“华山”搭载新一代Tensor Core。鉴于绝大多数AI应用均基于Tensor Core场景开发，芯片在Tensor计算环节主打全精度特性，通过改良低精度计算单元，实现了从FP4到FP64的全精度覆盖。此外，研发团队创新推出TCE-PAIR技术，让两个TCE单元共享同一数据，将算力效率与数据共享深度结合，显著提升了TCE内部引擎的运行效能。

对大模型训练对芯片本地Scale-up能力的要求，“华山”不仅支持MTLink 4.0，还开放兼容多种以太协议，可适配不同硬件生态与各类Scale-up交换机，满足多元应用场景需求；同时芯片支持SHARP技术，面向新一代Scale-up系统，“华山”的集群扩展能力最高可达1024节点，可通过直接Scale-up组网，提供更充裕的带宽与更强悍的算力支撑。

在安全层面，“华山”内置RAS2.0机制，集成ECC与SRAM校验功能，保障数据计算的准确性。芯片底层可自动完成故障检测、上报与隔离，当集群内部分芯片出现异常时，能迅速将其隔离，确保整个集群系统稳定运行。

此外，“华山”还集成了新一代异步通信引擎ACE2.0。作为摩尔线程的自研核心技术，ACE的核心优势在于实现通信与计算的完全并行。相较于仅负责通信的ACE1.0，ACE2.0在每个计算单元内均配备独立的微型模块，进一步强化了通信与计算的并行效率。正是依托ACE2.0、RAS机制与新一代Scale-up系统的协同作用，“华山”才得以具备强大的集群能力，为大模型训练的顺利推进提供坚实保障。

从性能参数来看，这款GPU的浮点算力逼近B200，显著优于H200；显存带宽与B200持平，显存容量则超越B200；互联带宽介于H200与B200之间（H200采用Nvlink4.0，带宽为900GB/s；B200采用NVlink5.0，带宽达1.8TB/s），按图中比例测算约为1.2-1.6TB/s，在国内同类型产品中处于绝对领先地位。

游戏卡和专业卡产品代号“庐山”，专攻高性能图形渲染。游戏性能提升15倍，AI性能提升64倍，显存增大4倍！几何处理性能提升16倍，光线追踪性能提升50倍，并显著增强纹理填充、原子访存能力及显存容量。集成AI生成式渲染、UniTE统一渲染架构及全新硬件光追引擎，为3A游戏、高端图形创作提供强大算力支持。

万卡集群与超节点组合拳

面向超大规模智算需求，摩尔线程还亮出了集群与超节点“组合拳”。

国产AI芯片的短板在训练侧，核心就是集群能力和单卡性能，从现场展示来看，KUAE万卡智算集群以其核心突破包括：浮点运算能力达到10Exa-Flops，训练算力利用率（MFU）在Dense大模型上达60%，MOE大模型上达40%，有效训练时间占比超过90%，训练线性扩展效率达95%，与国际主流生态高度兼容。

在推理侧，国产AI芯片的主战场其实还是在推理侧，摩尔线程联合硅基流动，经过系统级工程优化与FP8精度加速，在DeepSeek R1 671B全量模型上实现性能突破：MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s

超节点是今年的热词，国内AI芯片、服务器厂商、云服务商今年争先展示出自己的产品和方案，摩尔线程也发布MTT C256超节点的架构规划。该产品采用计算与交换一体化的高密设计，旨在系统性提升万卡集群的训练效能与推理能力，为下一代超大规模智算中心构建兼具超高密度与极致能效的硬件基石。

国产GPU的突围与攻坚

摩尔线程此次技术亮剑，恰是2025年国产GPU行业突围战的生动缩影。在英伟达H200被有限解禁、试图以“温水煮青蛙”策略延缓国产替代的背景下，“华山”芯片在显存、互联等关键指标上的突破，打破了高端算力领域的参数桎梏，印证了国产厂商通过“架构创新+集群堆叠”实现赶超的可行性。

从行业格局看，当前国产GPU已形成差异化竞争态势，这种多元布局让国产阵营在与英伟达的博弈中更具韧性。但突围之路仍需直面两座大山：生态壁垒与供应链挑战。值得庆幸的是，产业协同正在加速破局——从科创板为硬科技企业打开融资通道，到异构混训等生态兼容策略的落地，再到万卡集群所展现的工程化实力，国产GPU正从“参数对标”迈向“实用落地”。

2025年的国产GPU市场，已从资本故事阶段迈入生存实战期。摩尔线程的“华山”出鞘，不仅为市场提供了成本仅为英伟达产品一半的高性价比选择，更证明了自主技术路线的可行性。

正如行业共识所言，最终赢家仍需经历数年淘汰赛的淬炼。但可以确定的是，当更多“华山”级产品持续涌现，国产GPU终将从“局部领跑”走向“全面竞争”，为中国AI产业筑牢安全可控的算力底座。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.