首届开发者大会，让摩尔线程全功能GPU的独特优势更「具像化」|gpu

分享至

“算力密度提升50%，效能提升10倍，花港架构如何实现？”

作者丨包永刚

编辑丨林觉民

仲冬的北京略带寒意，但摩尔线程首届开发者大会（MDC）会场内热度十足。1000平方米的展区汇聚了上千位开发者，他们关注智能机器人、数字人、Agent等前沿技术，也在探讨AI for Science、气象预测等尖端应用。

展区中央的数字文娱与视频多媒体区最为引人注目：有人沉浸在eVTOL全动飞行模拟器的操控体验中，也有人在国产GPU驱动的经典拳皇和3A大作的游戏世界里激战。“国内能展示街霸游戏的，目前可能只有我们。”一位工程师点出了摩尔线程在一众AI算力卡中，同时具备图形能力的稀缺性。

如果只是通过文字或视频了解摩尔线程这家国内为数不多做全功能GPU的公司，可能只是一个模糊概念。身处展区，一次性展示十个 GPU 的应用案例，足以让人理解 GPU 的一部分价值；而当近百个应用同时铺开时，带来的则是双重冲击——一方面是对全功能 GPU 能力边界的直观感知，另一方面，这些应用案例全部来自一家仅成立五年的国产 GPU 公司。

摩尔线程将全功能GPU的能力转化为覆盖从消费到垂直行业、从图形到AI再到高性能计算的广泛应用，这不仅是其独特价值的具象化呈现，也让人切实感受到全功能GPU的“奥义”所在。

中国工程院院士、清华大学教授郑纬民

正如中国工程院院士、清华大学教授郑纬民所言：“做GPU必须同时支持三个特性：完整的图形流水线、张量计算核心以支持AI，以及高精度浮点单元满足高性能计算。”

摩尔线程创始人、董事长兼CEO张建中

摩尔线程创始人、董事长兼CEO张建中指出：“全功能GPU内置多种计算引擎，涵盖AI计算、3D图形渲染、物理仿真与科学计算，以及超高清视频编解码。”也就是说，“AI+3D图形+高性能计算”，摩尔线程在一颗芯片上同时做到了。

在首届开发者大会上，摩尔线程发布了新一代全功能GPU架构花港，以及基于花港的AI训推一体芯片华山、专业图形图像计算芯片庐山、全新的AI SoC长江，以及升级的MUSA 5.0软件栈和AI BOOK。

显然，在摩尔线程的蓝图里，全功能GPU应用的宽度不仅满足传统应用的需求，更能捕捉AI浪潮中的各类机会，将创新潜力转化为可触达的现实价值。

近百个应用案例，

让国产全功能GPU独特性更「具像化」

在1000平方米的展区里，最容易被感知的，是图形能力。无论是《拳皇》这样的经典游戏，还是赛车、射击等高负载场景，GPU始终是玩家体验的核心。自2022年11月发布消费级显卡MTT S80起，摩尔线程几乎每30天更新一次驱动，已实现对China Top 50热门游戏的100%兼容，并对其中44款完成专项优化。

在视频与专业渲染场景中，GPU图形能力的价值被进一步放大。摩尔线程的端侧实时视频超分技术MTVSR，可实现2–4倍实时超分效果，同时降低视频存储和传输成本。在行业级场景中，基于摩尔线程MTT X300的国产视景系统——微视威eVTOL全动飞行模拟器，已通过中国民航局5级鉴定，首次打通全国产化视景渲染链路。

当全功能GPU的图形渲染与AI能力被同时调用，应用向更复杂的医疗、教育和工业场景延伸。智慧医疗领域，锦瑟医疗的篝火云平台基于MTT S4000，将AI推理、三维重建与高性能渲染整合在同一平台，将二维医学影像实时转化为三维模型，通过XR设备呈现给医生，成为手术过程中的“第三只眼”。

火热的智算场景中，摩尔线程通过KUAE集群的零中断容错方案，实现大规模训练全程不中断；在推理侧，与硅基流动对MTT S5000进行深度优化，在DeepSeek 671B全量模型的实际推理中，MTT S5000单卡Prefill吞吐突破4000 tokens/s，Decode吞吐突破1000 tokens/s，树立国产推理在低延迟和高吞吐的新标杆。

热门的具身智能赛道，景业智能的VR遥操作机器人系统已与MTT E300 AI模组适配，并与MTT S80协同工作。操作者通过VR眼镜，即可在高风险环境中完成精细作业，让“人以遥操、机器代劳”成为现实。

在更广阔的AI推理市场中，天思智慧、联达兴、全爱科技、紫光计算机等合作伙伴基于摩尔线程全功能GPU推出多款AI Box，将算力延伸至具身智能、Agent、制造、办公、交通、教育和医疗等场景。

科学计算同样是全功能GPU优势的重要展示。摩尔线程联合北京大学高毅勤课题组，基于国产SPONGE和DSDP软件，打造软硬件协同的生命科学解决方案；硒钼科技的AI for Science（AI4S）平台也已完成对MTT S4000适配。在CAD、工业设计与专业可视化领域，基于MTT S50与X300的国产工作站方案正逐步投入使用。

展区集中呈现的近百个合作应用案例涵盖图形渲染、智能视频、AI计算与高性能计算，跨越云端与端侧，覆盖游戏、医疗、具身智能及AI4S等方向。

这些案例并非零散罗列，而反复印证同一事实：同一架构下不同型号的全功能GPU可同时承担图形、AI与计算任务，其应用广度相较传统GPGPU呈现出明显量级差异。

摩尔线程能在短短五年就能展现出如此多的应用，关键在于其一路狂奔。

下一代花港架构亮相，

华山和庐山新品解开性能束缚

摩尔线程自成立之初便选择全功能GPU路线，自2022年量产第一代架构苏堤以来，以一年一代的速度快速迭代。2023年发布春晓架构，2024年量产曲院架构，2025年量产平湖架构。

每代架构都推出满足不同市场需求的产品：苏堤架构的S10满足信创PC GPU国产化需求；春晓架构的S80和S3000，前者为国内游戏玩家首款国产消费级显卡，后者满足云桌面需求；曲院架构S4000为首个训推一体AI集成卡，在2024年组建千卡集群；平湖架构S5000构建万卡集群，支撑万亿参数大模型训练。

2026年，摩尔线程将推出基于全新指令集的下一代架构——花港。张建中表示：“在国产工艺发展相对缓慢时，我们必须寻找更多方法提升算力密度。通过全新指令集，将算力密度提升50%，并通过精心打磨架构，将效能提升10倍。”

为了实现巨大提升，花港架构进行多项优化：

计算精度优化：全精度端到端技术，并特别优化FP8、FP6、FP4低精度单元以提升能效；
扩展能力增强：支持十万卡以上计算集群，异步编程模型充分发挥每个算力单元性能，提高整体利用率；
图形渲染升级：流水线重新改组，搭建新一代AI生成式渲染架构（AGR），渲染能力进一步提升；第二代光线追踪加速引擎速度较上一代提升5-6倍，完整支持DirectX 12 Ultimate；
安全性加强：提供四层安全防护，从安全域、信任域、保护域到功能域，全方位守护信息安全。

基于花港架构，摩尔线程推出两款新品：AI训推一体芯片华山和专业图形图像计算芯片庐山，为国产芯片性能打开新上限。

华山是一款高性能AI推理与训练芯片，浮点计算性能位于业界最领先的两款GPU之间，访存带宽和高速互联同时提升，结合异步编程技术，实现高效线程同步、线程束特化和常驻核函数，综合性能极具竞争力。

华山在众多特性中有两个尤为突出，一个是新一代TensorCore不仅支持从FP4到FP64的全精度计算，同时对FP8、FP6和FP4等低精度单元进行了优化，这是业界发展的方向。

还有开放支持多种类的以太协议的特性。张建中表示，Scale-Up时，如果摩尔线程坚持自己的MTLink路线，很多用户无法使用其他的Switch，所以华山不仅支持MTLink 4.0，还支持许多国内合作伙伴的以太网协议，充分兼容不同的硬件生态。

得益于新一代Scale-up系统，目前华山的能力能够实现1024个GPU的超节点。在此次开发者大会上，摩尔线程发布了MTT C256超节点的架构规划。

庐山作为花港架构专业图形计算产品，相比S80，游戏性能提升15倍，AI计算性能提升64倍，几何处理提升16倍，光线追踪提升50倍，显著增强纹理填充、原子访存能力及显存容量。3A游戏、CAD、CAE等场景均可胜任。

无论华山还是庐山，在花港架构支撑下性能大幅跃升，解开国产芯片性能束缚。这既得益于摩尔线程在全功能GPU路线上的持续迭代，也源于其技术和专利积累，截至2025年6月30日，公司累计授权专利514项，其中发明专利468项。

要充分释放花港架构潜力，MUSA和开发者成为关键。

开放的MUSA生态，

摩尔线程千亿价值的基石

MUSA（Meta-computing Unified System Architecture）是摩尔线程自主研发的元计算统一系统架构，覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。

郑纬民院士说，“过去是全球分工，现在讲主权AI。决定主权AI成败的关键，在于是否有足够多的开发者愿意长期在这套栈上写代码。开发者是生态的核心，不是厂家，厂家需要与开发者一块努力把生态做好。”

如何才能把生态做好？北京智源人工智能研究院AI框架研发负责人敖玉龙说：“包容和兼容，包容意味着涵盖多条技术路线；兼容意味着不必打造完全不同的生态。”

摩尔线程正是以此为思路构建MUSA生态。摩尔线程联合创始人、首席技术官张钰勃说，“MUSA软件栈在编程模型、方式和加速库功能上与国际主流高度一致，最大限度降低开发者学习成本。但这样难以追赶国际主流，怎样才能突破？”

“有两个思路，一个是通过更高级抽象的DSL领域专业编程语言，将底层创新精确发挥；另一个是与开发者深度融合，实现软硬件协同设计1+1>2的效果。”张钰勃进一步表示。

沿着这个思路，MUSA 5.0在全栈统一性、极致效能和生态开放性上取得关键突破：

编程生态升级：原生MUSA C，深度兼容 TileLang、Triton 等编程语言，为开发者提供灵活高效的全栈开发体验。
计算效能优化：核心计算库muDNN实现GEMM/FlashAttention效率超98%，通信效率达97%，编译器性能提升3倍，并集成高性能算子库，显著加速训练与推理全流程。
开源生态扩大：计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件，向开发者社区开放深度优化的底层能力。
前沿特性拓展：即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q，以及计算光刻库muLitho，持续拓展全功能GPU的算力边界。

MUSA 5.0作为连接开发者和摩尔线程最重要的桥梁，也需好用的开发平台。

为此，摩尔推出了搭载长江智能SoC的AIBOOK。新一代长江AI SoC集成CPU、GPU、NPU、VPU、DPU、DSP、ISP等单元，提供高达50TOPS端侧AI算力，内置1TB SSD、32G/64G高速存储，预装Linux内核AIOS系统及各种开发工具，支持主流操作系统，实现真正的“开箱即用”，成为开发者在AI时代的超级个体。

此外，基于长江SoC的迷你型计算设备MTT AICube也将推出，为开发者提供更多选择。摩尔线程还将推出面向前沿领域的完整方案，如端云一体化具身智能方案MT Robot，帮助开发者缩短产品上市周期。

目前，摩尔学院用户总量已经达到了20万，这是阶段性成就，摩尔线程的目标是拥有百万级的MUSA开发者。

这并非空想，全功能GPU已经决定了摩尔线程能够探索的应用，包括图形渲染、AI与高性能计算，而MUSA生态的繁荣程度，则决定了在各个市场的应用厚度和不可替代性。广度与厚度的乘积，正是支撑摩尔线程千亿价值的基石。

从首届开发者大会的近百个应用案例，到MUSA生态与花港架构的落地，摩尔线程正以完整技术体系和开放生态，将潜力转化为切实价值。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.