摩尔线程：五年“长考”，筑起全功能算力的硬核长城|gpu|新模型

分享至

在半导体行业，有一种共识：做出一颗芯片可能需要三年，但让开发者愿意在这颗芯片上写代码，往往需要十年。英伟达CUDA的成功，本质上是软件栈与开发者生态的胜利。对于国产GPU而言，单纯对标算力参数已不足以维系长期的竞争力，真正的挑战在于如何建立起一套软硬深度融合、且能让全球开发者无感迁移的统一架构。

在12月20日举行的摩尔线程2025 MUSA开发者大会上，我们清晰地感受到了这种对生态突围的共鸣。这不是一场闭门造车的技术发布，而是一场千人规模的“MUSA嘉年华”。在大约1000平米的沉浸式展区内，从AI大模型与 Agent 的智能交互，到具身智能的物理演进，再到空间智能与科学计算的深度融合，MUSA 生态的触角已经延伸至工业智造、智慧医疗、数字文娱等每一个真实的应用场景。

支撑这场“嘉年华”的，是摩尔线程过去五年交出的硬核成绩单：5颗芯片，超43亿元研发投入，高达77%的研发人员占比，超20万的活跃开发者生态。这些数字共同印证了其在全功能GPU领域的技术厚度、产品完整度与生态影响力，不仅凸显了摩尔线程在国内该赛道中的稀缺地位，也为其持续引领自主算力进化奠定了扎实的体系化基础。

MUSA：不止是一个软件

很多人误把MUSA仅仅认为是“一个软件”，这其实低估了它的定位。

如同英伟达的CUDA一样，CUDA 是英伟达围绕自家GPU 打造的一整套并行计算平台 + 编程模型 + 软件栈 + 生态体系，它长得像软件，但它和硬件能力是强绑定的。

MUSA也不仅仅是一个软件包，MUSA（Meta-computing Unified System Architecture）是摩尔线程自主研发的元计算统一系统架构，覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。这是一个可以让开发者在摩尔线程 GPU 上“写代码、迁移代码、跑框架、做调优、规模化落地”的整套平台。

再直观一点的对比是，你不能把Android理解成“一个APK安装器”；也不能把Windows 理解成“一个EXE启动器”。它们都是平台，生态在平台之上长出来。

摩尔线程的所有软硬件产品，均基于MUSA架构，MUSA完整定义了从芯片设计到软件生态的统一技术标准。

全功能GPU：

跨越范式更迭的“万能算力底座”

回望过去三十年，GPU的创新史本质上是一部算力范式的进化史。从上世纪末的图形加速，到本世纪初可编程GPU的出现，走向通用计算，并推动我国“天河一号”超级计算机的诞生，再到深度学习浪潮中的AI爆发。今天，我们正从感知AI迈向生成式AI、Agentic AI，再到物理AI，在所有这些进化过程中，GPU始终处于计算革命的风暴眼。

这正是摩尔线程坚持“全功能GPU”的初衷——既踏攀登路，必闯最高峰。所谓“全功能GPU”，并非仅具备图形渲染或AI训练能力，而是同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理能力。这种架构的芯片，不仅面向AI模型训练、智算中心部署，也能支撑游戏图形、视频渲染等大众级应用场景，具备高度通用性与生态承载力。

在计算范式的每一次迭代中——从CNN到Transformer，再到未来的世界模型，GPU始终能够立于不败之地，因为它是一个性能和灵活度的“甜点”。我们正处于一个高速发展的创新试验场里，底层架构哪怕大框架没变，新型算子也在不断出现。我们需要足够的灵活度让技术继续演进。

全功能GPU的优势在于“图算结合”。未来的世界将是多模态的，既需要AI计算理解世界，又需通过图形渲染构建世界，甚至需要支持超高清视频传输。全功能GPU正是能够跨域支持这些多样化计算需求的核心技术。无论计算范式如何变迁，所有创新都将在GPU的灵活性中诞生。

五年五代架构，

算力进化的“步进器”

自2022年起，摩尔线程保持着每年发布一代新架构的惊人节奏：从解决信创PC GPU国产化关键问题的“苏堤”S10，到首款国产消费级显卡架构“春晓”MTT S80，再到助力大规模AI训推一体的智算卡、千卡集群的“曲院”S4000，乃至支持万亿参数规模的“平湖”MTT S5000。

而今，最新一代的“花港”架构正式登场。

“花港”架构基于新一代指令集架构及MUSA处理器架构，算力密度提升50%，计算能效实现10倍提升。在原有MTFP8的技术下，新增MTFP6/MTFP4及混合低精度端到端加速技术。该架构提供了新一代的异步编程模型加速技术，全面优化异步编程模型、任务与资源调度机制，提升并行执行效率。通过自研高速互联MTLink技术，可支持十万卡以上规模智算集群。图形方面，“花港”提供一种全新的AI生成式渲染架构AGR，用AI加速图形渲染流水线，集成全新光追硬件加速引擎，能够完美支持DirectX 12 Ultimate。

摩尔线程在过去的5年中，持续不断深耕架构自研，“花港”架构也是全栈自研，安全可控。截至今年6月30日，摩尔线程已经申请专利1000余件，其中授权专利高达500余件，发明专利468件，专利数量在国内 GPU 企业中排名领先。

另外，“花港”架构中，摩尔线程也自研并集成了完善的安全策略，通过4层安全架构（安全域、信任域、保护域和功能域），时刻为芯片提供安全守护。

拳头产品：

华山练AI，庐山绘世界

“一个好的架构要有好的产品才能够为更多的开发者服务。”张建中表示，基于“花港”架构，摩尔线程正在研发两款GPU芯片。

（一）华山，AI训推一体芯片

第一款芯片——华山，是一款AI训推一体、智算融合的GPU产品。华山芯片对标国外顶尖厂商的BXXX和HXXX芯片，在算力、通信和访存带宽等方面具有明显优势。

为了解决传统GPU任务分配不均导致的算力闲置问题，“华山”集成了新一代异步编程模型：通过 Persistent Kernel 及自动化调度机制，将负载智能平衡到每一个计算单元，同时赋予了开发者近乎“无感”的高效开发体验。

此外，华山还集成了新一代Tensor Core，专为AI应用中的Tensor计算优化。特别是在FP8、FP6和FP4等低精度设计单元的改良上，华山为特定应用场景创造了新的技术解决方案——TCE-PAIR。这种技术允许两个Tensor计算引擎共享数据，避免重复数据调度，大幅提高算力效率。

更重要的是，华山芯片内部集成了专为大语言模型（LLM）定制的加速引擎，针对 Transformer架构及LLM的各个环节，摩尔线程将核心算法逻辑固化至硬件单元中。这种设计确保了每一个软件模块都有对应的硬件引擎驱动，使大模型训练和推理的速度与效率达到极致。

为了满足用户对超大规模算力的需求，华山提供了超十万卡级别的“AI工厂”技术，专注于Scale-up和Scale-out的扩展能力。在提升算力规模的同时，通过本地支持Scale-up，确保多GPU协同工作时的高效性能。

华山不仅支持摩尔线程的MTLink 4.0，同时开放支持多种以太网协议，使其能够兼容国内外各种硬件生态。通过对不同协议的支持，华山能够适配更多的Scale-up Switch和应用场景，并通过支持SHARP协议，提高通信效率，确保数据传输的高速和稳定。

在集群能力方面，华山的Scale-up系统使得单个超节点能够支持高达1024个GPU的扩展，为大规模计算提供了强大的带宽和处理能力。此外，华山内置的RAS2.0技术（包括ECC和SRAM校验）保障了芯片底层的准确性与稳定性。自动检测、上报与隔离机制确保在集群中任何芯片出现问题时能够及时处理，保证集群整体的安全性和稳定性。

尤为值得一提的是，华山集成了ACE2.0异步通信引擎，这也是摩尔线程的一项独特创新。与ACE1.0相比，ACE2.0通过在每个计算单元内设计小型ACE引擎，实现通信与计算的高度并行化，大幅提升了整体效率。这一技术的引入，配合RAS2.0和新一代Scale-up系统，使得华山在大模型训练中的集群能力更加出色，能够满足超大规模和高参数量的用户训练需求。

（二）庐山，高性能图形渲染芯片

庐山，是一款专为专业图形计算设计的芯片。得益于“花港”架构，庐山在图形计算和AI能力上展现了极大的优势。与S80相比，庐山在3A游戏性能上提升了15倍，AI计算性能提升64倍，几何处理性能提升16倍，让更复杂的图形细节得以完美呈现。此外，庐山在纹理填充、光线追踪和原子访存方面分别提升了4倍、50倍和8倍，显存容量也提升了4倍，这使得庐山不仅能够应对3A级游戏，还能完美支持CAD、CAE等专业应用场景。

一个重要的创新是庐山内置的AI生成式渲染功能，从几何与网格着色、像素着色、光线追踪、后处理乃至 MTSS 等环节，每一步渲染都由AI计算加速引擎支持，提升了图形处理效率。此外，庐山独创的统一任务引擎管理框架，使得GPU的每个计算单元都能实现高度并行计算。无论有多少核心或GPU，任务都能得到最优分配，从而大幅提升整体工作效率。

夸娥十万卡集群：

打造AGI时代的“AI工厂”

有了顶尖芯片，如何应对超大规模算力需求？在AI智算领域，摩尔线程正实现从千卡、万卡向十万卡集群的跨越。

如中国工程院院士、清华大学计算机系教授郑纬民所说，打造国产万卡或十万卡系统非常困难，它不仅是将卡片连接起来并通电，更是要确保系统既能用，又好用。实现十万卡系统面临三大难题：一是如何连接这么多卡；二是如何保证系统在卡出现故障时仍能持续运行；三是如何解决大规模集群的能耗和散热问题。

为此，摩尔线程推出了超十万卡级AI工厂技术，突破了传统GPU集群的瓶颈，支持Scale-up系统，可以扩展至1024个GPU，满足大规模AI计算任务的需求：

新一代MTLink 4.0技术支持多种协议与设备的兼容，具备1314 GB/s的片间互联带宽，极大提升了数据传输效率；同时，ACE 2.0（异步通信引擎）进一步优化了GPU之间的协同工作，提升了计算与通信的并行效率，支持更高效的任务调度与资源分配；RAS 2.0则增强了芯片的容错能力和可靠性，提供了更强的错误检测、调试能力以及ECC内存保护，确保超大规模集群的高稳定性和高可用性；此外，超节点解决方案MTT C256，支持256个GPU的超节点集群，能够在亿级拓扑互联层下高效互通，进一步提升大规模训练集群的效率。

MUSA 5.0：

全栈软件栈的全面升级

如果说硬件是算力的骨架，软件栈则是算力的灵魂。摩尔线程本次大会正式宣布MUSA 5.0 全面升级，这不仅是版本的更迭，更是其软件栈迈向成熟期、全场景覆盖的重要里程碑。MUSA 5.0通过对全功能GPU四大引擎的深度适配，实现了从AI训练、3D图形渲染到科学计算的无缝支撑，为全场景应用提供了统一的技术底座。

MUSA 5.0 的核心竞争力在于其“无边界”的适配能力。它不仅完美兼容国际主流 CPU 操作系统，更实现了对国产 CPU 及开发环境的深度优化，这种“双轮驱动”的策略，确保了 MUSA 能够充分吸纳国内外生态优势，助力“云-边-端”系列产品在统一的软件栈下获得一致的性能表现。

具体来说，MUSA 5.0的升级包括三个主要部分：

编程模型：MUSA C是核心编程模型，除了兼容扩展，还引入了TileLang，以支持更广泛的AI软件开发。此外，还集成了北京智源研究院的FlagOS和Triton框架，进一步提升开发效率。

性能优化：在计算方面，MUSA 5.0大幅提升了芯片设计的集成效率，在HGEMM算子效率中达到了98%，通信效率达97%。这些优化使得开发者能够更加高效地利用GPU资源，获得显著的性能提升。

开源支持与工具：MUSA 5.0推出了多个开源工具，包括MT DeePEP（用于并行策略的自由搭建）、夸娥管理软件（用于更高效的管理与调度），并计划在明年上半年开放MTX，让开发者能精细操作GPU资源。此外，特别为3D图形与AI结合的应用场景推出了muLang编程语言，支持开发者更灵活地进行跨域编程。

MUSA 5.0的触角正在向更前沿的领域延伸。针对量子计算，MUSA-Q 框架通过经典计算与量子框架的耦合，探索混合计算的商业化落地；在半导体制造端，muLitho致力于通过 GPU加速OPC计算，为国产半导体工艺的迭代提速。

这一系列升级计划于明年上半年正式规模化落地。MUSA 5.0 正在通过这种“全栈化、高性能、开放式”的软件哲学，不仅大幅提升开发者的工程效率，更在加速补齐国产 GPU 生态最后一块拼图。

入局具身智能：

以“长江”AI SoC构筑物理AI基石

具身智能是摩尔线程开辟的又一战略高地。据预测，到2050年全球机器人数量将达10亿部，而这场变革的核心挑战在于：如何构建一套大型物理AI基础设施，确保智能体能够在复杂现实中安全、可靠地与人类交互。

在具身智能的开发逻辑中，Sim to Real（仿真到现实）的迁移效率决定了智能体的进化速度。对此，摩尔线程正式发布具身智能仿真训练平台 MT Lambda，它深度整合了物理、渲染与AI三大核心引擎，旨在为开发者提供一套从场景构建、数据合成到仿真训练的高效工作流。

此外，具身智能还需要一个强悍的边缘侧内核。摩尔线程首颗AI SoC芯片“长江”正式亮相，这标志着摩尔线程算力布局从 GPU 延伸到了高度集成的芯片系统。“长江”集成了 CPU、GPU、NPU、VPU、DPU、DSP 和 ISP 等多维算力核心。无论是具身智能机器人，还是下一代 AIBOOK、AICube，均可通过“长江”获得原生 AI 算力。

为了打通具身智能的最后一公里，摩尔线程推出了完整解决方案——MT Robot。其中，基于KUAE智算集群提供的强大云端算力作为“大脑”，处理大规模训练与复杂决策；依托内置“长江”芯片的 MTT E300模组作为敏捷“小脑”，实现端侧的低延迟响应与实时避障。

摩尔线程在具身智能领域的入局，本质上是其全功能GPU能力的向下延伸与横向拓扑。通过MT Lambda仿真平台解决“虚实迁移”的效率难题，凭借“长江”AI SoC在边缘侧构筑强大的计算内核，再通过MT Robot方案实现“云端大脑”与“端侧小脑”的无缝协同——摩尔线程不仅提供了算力，更提供了一套从虚拟训练到物理落地的全栈自主路径，让AI真正具备了行走于物理世界的行动力。

开发者，

才是国产GPU生态的“压舱石”

英伟达CUDA的成功史证明了一个铁律：真正决定芯片厂商生死存亡的，不是单纯的算力参数，而是是否有足够多的开发者愿意在你的架构上写代码。

对于国产GPU而言，要跨越“生态鸿沟”，必须解决三大痛点：迁移成本高、工具链不够成熟、社区与文档不够完善。但目标路径也很清晰——从“能用”到“好用”，再到“愿意用”。开发者体验做顺了，生态才会自发增长。摩尔线程的MUSA，本质上就是面向CUDA生态的一次国产化实践。

摩尔线程的MUSA软件栈也是围绕“如何让GPU既‘好用’又‘用得好’出发”。在圆桌论坛中，摩尔线程联合创始人、CTO张钰勃提到，“好用”和“用得好”看起来天然有张力：好用意味着更高层、更标准化、更贴近主流抽象；而要用得好、要突破，就必须把底层微架构的创新发挥出来。对此，MUSA的思路是：先对齐主流生态的使用习惯——编程模型、编程方式、加速库能力尽量与国际主流保持一致，让开发者以最低学习成本、最低迁移成本把国产 GPU 先“用起来”。同时，AIBOOK作为MUSA生态的核心入口，通过深度集成统一架构和开发者工具链，为开发者提供了从本地开发到云端扩展的无缝体验，进一步降低了生态参与门槛。

而真正的突破点在下一步：底层架构创新怎么“露出来、用起来”。他们提出两条路径：

用更高层抽象的 DSL/编译技术，把底层优势显性化。例如通过支持 Triton，甚至未来基于 TAL 的编程方式，让编译器把细粒度的硬件创新转化为开发者可直接获得的性能收益；

生态共建。软硬协同不是单打独斗，仅靠一家厂商的软件栈不够，需要与开发者与平台型伙伴深度协作。比如与硅基流动在平台上做联合优化，通过通用 AI 基础平台推进软硬件协同设计，形成“1+1＞2”的效果。这一协同已初见成效，例如在推理侧。与硅基流动对MTT S5000深度优化后，在DeepSeek 671B全量模型的实际推理中，MTT S5000单卡Prefill吞吐突破4000 tokens/s，Decode吞吐突破1000 tokens/s，树立国产推理在低延迟和高吞吐的新标杆。

结语

“算力就是国力。” 在这场关于通用算力的长跑中，没有捷径可走。从MUSA架构的底层深耕，到十万卡集群的布局，再到具身智能的入局，摩尔线程正以全功能GPU为笔，在国产算力的长卷上，勾勒出一座属于未来的“算力长城”。这座长城，不仅由硬核的半导体晶体管筑就，更由数十万活跃开发者手中的每一行代码汇聚而成。在这场AGI时代的进击中，全栈自研的底气，正是我们通往算力自由的最强脊梁。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4268期内容，欢迎关注。

加星标⭐️第一时间看推送，小号防走丢

求推荐

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.