
![]()
“算力密度提升50%,效能提升10倍,花港架构如何实现?”
作者丨包永刚
编辑丨林觉民
仲冬的北京略带寒意,但摩尔线程首届开发者大会(MDC)会场内热度十足。1000平方米的展区汇聚了上千位开发者,他们关注智能机器人、数字人、Agent等前沿技术,也在探讨AI for Science、气象预测等尖端应用。
展区中央的数字文娱与视频多媒体区最为引人注目:有人沉浸在eVTOL全动飞行模拟器的操控体验中,也有人在国产GPU驱动的经典拳皇和3A大作的游戏世界里激战。“国内能展示街霸游戏的,目前可能只有我们。”一位工程师点出了摩尔线程在一众AI算力卡中,同时具备图形能力的稀缺性。
如果只是通过文字或视频了解摩尔线程这家国内为数不多做全功能GPU的公司,可能只是一个模糊概念。身处展区,一次性展示十个 GPU 的应用案例,足以让人理解 GPU 的一部分价值;而当近百个应用同时铺开时,带来的则是双重冲击——一方面是对全功能 GPU 能力边界的直观感知,另一方面,这些应用案例全部来自一家仅成立五年的国产 GPU 公司。
摩尔线程将全功能GPU的能力转化为覆盖从消费到垂直行业、从图形到AI再到高性能计算的广泛应用,这不仅是其独特价值的具象化呈现,也让人切实感受到全功能GPU的“奥义”所在。
![]()
中国工程院院士、清华大学教授郑纬民
正如中国工程院院士、清华大学教授郑纬民所言:“做GPU必须同时支持三个特性:完整的图形流水线、张量计算核心以支持AI,以及高精度浮点单元满足高性能计算。”
![]()
摩尔线程创始人、董事长兼CEO张建中
摩尔线程创始人、董事长兼CEO张建中指出:“全功能GPU内置多种计算引擎,涵盖AI计算、3D图形渲染、物理仿真与科学计算,以及超高清视频编解码。”也就是说,“AI+3D图形+高性能计算”,摩尔线程在一颗芯片上同时做到了。
在首届开发者大会上,摩尔线程发布了新一代全功能GPU架构花港,以及基于花港的AI训推一体芯片华山、专业图形图像计算芯片庐山、全新的AI SoC长江,以及升级的MUSA 5.0软件栈和AI BOOK。
显然,在摩尔线程的蓝图里,全功能GPU应用的宽度不仅满足传统应用的需求,更能捕捉AI浪潮中的各类机会,将创新潜力转化为可触达的现实价值。
01
近百个应用案例,
让国产全功能GPU独特性更「具像化」
在1000平方米的展区里,最容易被感知的,是图形能力。无论是《拳皇》这样的经典游戏,还是赛车、射击等高负载场景,GPU始终是玩家体验的核心。自2022年11月发布消费级显卡MTT S80起,摩尔线程几乎每30天更新一次驱动,已实现对China Top 50热门游戏的100%兼容,并对其中44款完成专项优化。
![]()
在视频与专业渲染场景中,GPU图形能力的价值被进一步放大。摩尔线程的端侧实时视频超分技术MTVSR,可实现2–4倍实时超分效果,同时降低视频存储和传输成本。在行业级场景中,基于摩尔线程MTT X300的国产视景系统——微视威eVTOL全动飞行模拟器,已通过中国民航局5级鉴定,首次打通全国产化视景渲染链路。
当全功能GPU的图形渲染与AI能力被同时调用,应用向更复杂的医疗、教育和工业场景延伸。智慧医疗领域,锦瑟医疗的篝火云平台基于MTT S4000,将AI推理、三维重建与高性能渲染整合在同一平台,将二维医学影像实时转化为三维模型,通过XR设备呈现给医生,成为手术过程中的“第三只眼”。
火热的智算场景中,摩尔线程通过KUAE集群的零中断容错方案,实现大规模训练全程不中断;在推理侧,与硅基流动对MTT S5000进行深度优化,在DeepSeek 671B全量模型的实际推理中,MTT S5000单卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s,树立国产推理在低延迟和高吞吐的新标杆。
![]()
热门的具身智能赛道,景业智能的VR遥操作机器人系统已与MTT E300 AI模组适配,并与MTT S80协同工作。操作者通过VR眼镜,即可在高风险环境中完成精细作业,让“人以遥操、机器代劳”成为现实。
![]()
在更广阔的AI推理市场中,天思智慧、联达兴、全爱科技、紫光计算机等合作伙伴基于摩尔线程全功能GPU推出多款AI Box,将算力延伸至具身智能、Agent、制造、办公、交通、教育和医疗等场景。
科学计算同样是全功能GPU优势的重要展示。摩尔线程联合北京大学高毅勤课题组,基于国产SPONGE和DSDP软件,打造软硬件协同的生命科学解决方案;硒钼科技的AI for Science(AI4S)平台也已完成对MTT S4000适配。在CAD、工业设计与专业可视化领域,基于MTT S50与X300的国产工作站方案正逐步投入使用。
展区集中呈现的近百个合作应用案例涵盖图形渲染、智能视频、AI计算与高性能计算,跨越云端与端侧,覆盖游戏、医疗、具身智能及AI4S等方向。
这些案例并非零散罗列,而反复印证同一事实:同一架构下不同型号的全功能GPU可同时承担图形、AI与计算任务,其应用广度相较传统GPGPU呈现出明显量级差异。
摩尔线程能在短短五年就能展现出如此多的应用,关键在于其一路狂奔。
02
下一代花港架构亮相,
华山和庐山新品解开性能束缚
摩尔线程自成立之初便选择全功能GPU路线,自2022年量产第一代架构苏堤以来,以一年一代的速度快速迭代。2023年发布春晓架构,2024年量产曲院架构,2025年量产平湖架构。
![]()
每代架构都推出满足不同市场需求的产品:苏堤架构的S10满足信创PC GPU国产化需求;春晓架构的S80和S3000,前者为国内游戏玩家首款国产消费级显卡,后者满足云桌面需求;曲院架构S4000为首个训推一体AI集成卡,在2024年组建千卡集群;平湖架构S5000构建万卡集群,支撑万亿参数大模型训练。
2026年,摩尔线程将推出基于全新指令集的下一代架构——花港。张建中表示:“在国产工艺发展相对缓慢时,我们必须寻找更多方法提升算力密度。通过全新指令集,将算力密度提升50%,并通过精心打磨架构,将效能提升10倍。”
![]()
为了实现巨大提升,花港架构进行多项优化:
计算精度优化:全精度端到端技术,并特别优化FP8、FP6、FP4低精度单元以提升能效;
扩展能力增强:支持十万卡以上计算集群,异步编程模型充分发挥每个算力单元性能,提高整体利用率;
图形渲染升级:流水线重新改组,搭建新一代AI生成式渲染架构(AGR),渲染能力进一步提升;第二代光线追踪加速引擎速度较上一代提升5-6倍,完整支持DirectX 12 Ultimate;
安全性加强:提供四层安全防护,从安全域、信任域、保护域到功能域,全方位守护信息安全。
基于花港架构,摩尔线程推出两款新品:AI训推一体芯片华山和专业图形图像计算芯片庐山,为国产芯片性能打开新上限。
华山是一款高性能AI推理与训练芯片,浮点计算性能位于业界最领先的两款GPU之间,访存带宽和高速互联同时提升,结合异步编程技术,实现高效线程同步、线程束特化和常驻核函数,综合性能极具竞争力。
![]()
华山在众多特性中有两个尤为突出,一个是新一代TensorCore不仅支持从FP4到FP64的全精度计算,同时对FP8、FP6和FP4等低精度单元进行了优化,这是业界发展的方向。
还有开放支持多种类的以太协议的特性。张建中表示,Scale-Up时,如果摩尔线程坚持自己的MTLink路线,很多用户无法使用其他的Switch,所以华山不仅支持MTLink 4.0,还支持许多国内合作伙伴的以太网协议,充分兼容不同的硬件生态。
![]()
得益于新一代Scale-up系统,目前华山的能力能够实现1024个GPU的超节点。在此次开发者大会上,摩尔线程发布了MTT C256超节点的架构规划。
![]()
庐山作为花港架构专业图形计算产品,相比S80,游戏性能提升15倍,AI计算性能提升64倍,几何处理提升16倍,光线追踪提升50倍,显著增强纹理填充、原子访存能力及显存容量。3A游戏、CAD、CAE等场景均可胜任。
![]()
无论华山还是庐山,在花港架构支撑下性能大幅跃升,解开国产芯片性能束缚。这既得益于摩尔线程在全功能GPU路线上的持续迭代,也源于其技术和专利积累,截至2025年6月30日,公司累计授权专利514项,其中发明专利468项。
要充分释放花港架构潜力,MUSA和开发者成为关键。
03
开放的MUSA生态,
摩尔线程千亿价值的基石
MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。
![]()
郑纬民院士说,“过去是全球分工,现在讲主权AI。决定主权AI成败的关键,在于是否有足够多的开发者愿意长期在这套栈上写代码。开发者是生态的核心,不是厂家,厂家需要与开发者一块努力把生态做好。”
![]()
如何才能把生态做好?北京智源人工智能研究院AI框架研发负责人敖玉龙说:“包容和兼容,包容意味着涵盖多条技术路线;兼容意味着不必打造完全不同的生态。”
摩尔线程正是以此为思路构建MUSA生态。摩尔线程联合创始人、首席技术官张钰勃说,“MUSA软件栈在编程模型、方式和加速库功能上与国际主流高度一致,最大限度降低开发者学习成本。但这样难以追赶国际主流,怎样才能突破?”
“有两个思路,一个是通过更高级抽象的DSL领域专业编程语言,将底层创新精确发挥;另一个是与开发者深度融合,实现软硬件协同设计1+1>2的效果。”张钰勃进一步表示。
沿着这个思路 ,MUSA 5.0在全栈统一性、极致效能和生态开放性上取得关键突破:
编程生态升级:原生MUSA C,深度兼容 TileLang、Triton 等编程语言,为开发者提供灵活高效的全栈开发体验。
计算效能优化:核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍,并集成高性能算子库,显著加速训练与推理全流程。
开源生态扩大:计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放深度优化的底层能力。
前沿特性拓展:即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q,以及计算光刻库muLitho,持续拓展全功能GPU的算力边界。
![]()
MUSA 5.0作为连接开发者和摩尔线程最重要的桥梁,也需好用的开发平台。
为此,摩尔推出了搭载长江智能SoC的AIBOOK。新一代长江AI SoC集成CPU、GPU、NPU、VPU、DPU、DSP、ISP等单元,提供高达50TOPS端侧AI算力,内置1TB SSD、32G/64G高速存储,预装Linux内核AIOS系统及各种开发工具,支持主流操作系统,实现真正的“开箱即用”,成为开发者在AI时代的超级个体。
![]()
此外,基于长江SoC的迷你型计算设备MTT AICube也将推出,为开发者提供更多选择。摩尔线程还将推出面向前沿领域的完整方案,如端云一体化具身智能方案MT Robot,帮助开发者缩短产品上市周期。
![]()
目前,摩尔学院用户总量已经达到了20万,这是阶段性成就,摩尔线程的目标是拥有百万级的MUSA开发者。
![]()
这并非空想,全功能GPU已经决定了摩尔线程能够探索的应用,包括图形渲染、AI与高性能计算,而MUSA生态的繁荣程度,则决定了在各个市场的应用厚度和不可替代性。广度与厚度的乘积,正是支撑摩尔线程千亿价值的基石。
从首届开发者大会的近百个应用案例,到MUSA生态与花港架构的落地,摩尔线程正以完整技术体系和开放生态,将潜力转化为切实价值。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.