网易首页 > 网易号 > 正文 申请入驻

摩尔线程:五年“长考”,筑起全功能算力的硬核长城

0
分享至

在半导体行业,有一种共识:做出一颗芯片可能需要三年,但让开发者愿意在这颗芯片上写代码,往往需要十年。英伟达CUDA的成功,本质上是软件栈与开发者生态的胜利。对于国产GPU而言,单纯对标算力参数已不足以维系长期的竞争力,真正的挑战在于如何建立起一套软硬深度融合、且能让全球开发者无感迁移的统一架构。

在12月20日举行的摩尔线程2025 MUSA开发者大会上,我们清晰地感受到了这种对生态突围的共鸣。这不是一场闭门造车的技术发布,而是一场千人规模的“MUSA嘉年华”。 在大约1000平米的沉浸式展区内,从AI大模型与 Agent 的智能交互,到具身智能的物理演进,再到空间智能与科学计算的深度融合,MUSA 生态的触角已经延伸至工业智造、智慧医疗、数字文娱等每一个真实的应用场景。


支撑这场“嘉年华”的,是摩尔线程过去五年交出的硬核成绩单:5颗芯片,超43亿元研发投入,高达77%的研发人员占比,超20万的活跃开发者生态。这些数字共同印证了其在全功能GPU领域的技术厚度、产品完整度与生态影响力,不仅凸显了摩尔线程在国内该赛道中的稀缺地位,也为其持续引领自主算力进化奠定了扎实的体系化基础。

MUSA:不止是一个软件

很多人误把MUSA仅仅认为是“一个软件”,这其实低估了它的定位。

如同英伟达的CUDA一样,CUDA 是英伟达围绕自家GPU 打造的一整套并行计算平台 + 编程模型 + 软件栈 + 生态体系,它长得像软件,但它和硬件能力是强绑定的。

MUSA也不仅仅是一个软件包,MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。这是一个可以让开发者在摩尔线程 GPU 上“写代码、迁移代码、跑框架、做调优、规模化落地”的整套平台。


再直观一点的对比是,你不能把Android理解成“一个APK安装器”;也不能把Windows 理解成“一个EXE启动器”。它们都是平台,生态在平台之上长出来。

摩尔线程的所有软硬件产品,均基于MUSA架构,MUSA完整定义了从芯片设计到软件生态的统一技术标准。

全功能GPU:

跨越范式更迭的“万能算力底座”

回望过去三十年,GPU的创新史本质上是一部算力范式的进化史。从上世纪末的图形加速,到本世纪初可编程GPU的出现,走向通用计算,并推动我国“天河一号”超级计算机的诞生,再到深度学习浪潮中的AI爆发。今天,我们正从感知AI迈向生成式AI、Agentic AI,再到物理AI,在所有这些进化过程中,GPU始终处于计算革命的风暴眼。


这正是摩尔线程坚持“全功能GPU”的初衷——既踏攀登路,必闯最高峰。所谓“全功能GPU”,并非仅具备图形渲染或AI训练能力,而是同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理能力。这种架构的芯片,不仅面向AI模型训练、智算中心部署,也能支撑游戏图形、视频渲染等大众级应用场景,具备高度通用性与生态承载力。


在计算范式的每一次迭代中——从CNN到Transformer,再到未来的世界模型,GPU始终能够立于不败之地,因为它是一个性能和灵活度的“甜点”。我们正处于一个高速发展的创新试验场里,底层架构哪怕大框架没变,新型算子也在不断出现。我们需要足够的灵活度让技术继续演进。

全功能GPU的优势在于“图算结合”。未来的世界将是多模态的,既需要AI计算理解世界,又需通过图形渲染构建世界,甚至需要支持超高清视频传输。全功能GPU正是能够跨域支持这些多样化计算需求的核心技术。无论计算范式如何变迁,所有创新都将在GPU的灵活性中诞生。

五年五代架构,

算力进化的“步进器”

自2022年起,摩尔线程保持着每年发布一代新架构的惊人节奏:从解决信创PC GPU国产化关键问题的“苏堤”S10,到首款国产消费级显卡架构“春晓”MTT S80,再到助力大规模AI训推一体的智算卡、千卡集群的“曲院”S4000,乃至支持万亿参数规模的“平湖”MTT S5000。


而今,最新一代的“花港”架构正式登场。

“花港”架构基于新一代指令集架构及MUSA处理器架构,算力密度提升50%,计算能效实现10倍提升。在原有MTFP8的技术下,新增MTFP6/MTFP4及混合低精度端到端加速技术。该架构提供了新一代的异步编程模型加速技术,全面优化异步编程模型、任务与资源调度机制,提升并行执行效率。通过自研高速互联MTLink技术,可支持十万卡以上规模智算集群。图形方面,“花港”提供一种全新的AI生成式渲染架构AGR,用AI加速图形渲染流水线,集成全新光追硬件加速引擎,能够完美支持DirectX 12 Ultimate。


摩尔线程在过去的5年中,持续不断深耕架构自研,“花港”架构也是全栈自研,安全可控。截至今年6月30日,摩尔线程已经申请专利1000余件,其中授权专利高达500余件,发明专利468件,专利数量在国内 GPU 企业中排名领先。

另外,“花港”架构中,摩尔线程也自研并集成了完善的安全策略,通过4层安全架构(安全域、信任域、保护域和功能域),时刻为芯片提供安全守护。

拳头产品:

华山练AI,庐山绘世界

“一个好的架构要有好的产品才能够为更多的开发者服务。”张建中表示,基于“花港”架构,摩尔线程正在研发两款GPU芯片。

(一)华山,AI训推一体芯片

第一款芯片——华山,是一款AI训推一体、智算融合的GPU产品。华山芯片对标国外顶尖厂商的BXXX和HXXX芯片,在算力、通信和访存带宽等方面具有明显优势。

为了解决传统GPU任务分配不均导致的算力闲置问题,“华山”集成了新一代异步编程模型:通过 Persistent Kernel 及自动化调度机制,将负载智能平衡到每一个计算单元,同时赋予了开发者近乎“无感”的高效开发体验。

此外,华山还集成了新一代Tensor Core,专为AI应用中的Tensor计算优化。特别是在FP8、FP6和FP4等低精度设计单元的改良上,华山为特定应用场景创造了新的技术解决方案——TCE-PAIR。这种技术允许两个Tensor计算引擎共享数据,避免重复数据调度,大幅提高算力效率。

更重要的是,华山芯片内部集成了专为大语言模型(LLM)定制的加速引擎,针对 Transformer架构及LLM的各个环节,摩尔线程将核心算法逻辑固化至硬件单元中。这种设计确保了每一个软件模块都有对应的硬件引擎驱动,使大模型训练和推理的速度与效率达到极致。

为了满足用户对超大规模算力的需求,华山提供了超十万卡级别的“AI工厂”技术,专注于Scale-up和Scale-out的扩展能力。在提升算力规模的同时,通过本地支持Scale-up,确保多GPU协同工作时的高效性能。

华山不仅支持摩尔线程的MTLink 4.0,同时开放支持多种以太网协议,使其能够兼容国内外各种硬件生态。通过对不同协议的支持,华山能够适配更多的Scale-up Switch和应用场景,并通过支持SHARP协议,提高通信效率,确保数据传输的高速和稳定。

在集群能力方面,华山的Scale-up系统使得单个超节点能够支持高达1024个GPU的扩展,为大规模计算提供了强大的带宽和处理能力。此外,华山内置的RAS2.0技术(包括ECC和SRAM校验)保障了芯片底层的准确性与稳定性。自动检测、上报与隔离机制确保在集群中任何芯片出现问题时能够及时处理,保证集群整体的安全性和稳定性。

尤为值得一提的是,华山集成了ACE2.0异步通信引擎,这也是摩尔线程的一项独特创新。与ACE1.0相比,ACE2.0通过在每个计算单元内设计小型ACE引擎,实现通信与计算的高度并行化,大幅提升了整体效率。这一技术的引入,配合RAS2.0和新一代Scale-up系统,使得华山在大模型训练中的集群能力更加出色,能够满足超大规模和高参数量的用户训练需求。

(二)庐山,高性能图形渲染芯片

庐山,是一款专为专业图形计算设计的芯片。得益于“花港”架构,庐山在图形计算和AI能力上展现了极大的优势。与S80相比,庐山在3A游戏性能上提升了15倍,AI计算性能提升64倍,几何处理性能提升16倍,让更复杂的图形细节得以完美呈现。此外,庐山在纹理填充、光线追踪和原子访存方面分别提升了4倍、50倍和8倍,显存容量也提升了4倍,这使得庐山不仅能够应对3A级游戏,还能完美支持CAD、CAE等专业应用场景。


一个重要的创新是庐山内置的AI生成式渲染功能,从几何与网格着色、像素着色、光线追踪、后处理乃至 MTSS 等环节,每一步渲染都由AI计算加速引擎支持,提升了图形处理效率。此外,庐山独创的统一任务引擎管理框架,使得GPU的每个计算单元都能实现高度并行计算。无论有多少核心或GPU,任务都能得到最优分配,从而大幅提升整体工作效率。

夸娥十万卡集群:

打造AGI时代的“AI工厂”

有了顶尖芯片,如何应对超大规模算力需求?在AI智算领域,摩尔线程正实现从千卡、万卡向十万卡集群的跨越。


如中国工程院院士、清华大学计算机系教授郑纬民所说,打造国产万卡或十万卡系统非常困难,它不仅是将卡片连接起来并通电,更是要确保系统既能用,又好用。实现十万卡系统面临三大难题:一是如何连接这么多卡;二是如何保证系统在卡出现故障时仍能持续运行;三是如何解决大规模集群的能耗和散热问题。

为此,摩尔线程推出了超十万卡级AI工厂技术,突破了传统GPU集群的瓶颈,支持Scale-up系统,可以扩展至1024个GPU,满足大规模AI计算任务的需求:

新一代MTLink 4.0技术支持多种协议与设备的兼容,具备1314 GB/s的片间互联带宽,极大提升了数据传输效率;同时,ACE 2.0(异步通信引擎)进一步优化了GPU之间的协同工作,提升了计算与通信的并行效率,支持更高效的任务调度与资源分配;RAS 2.0则增强了芯片的容错能力和可靠性,提供了更强的错误检测、调试能力以及ECC内存保护,确保超大规模集群的高稳定性和高可用性;此外,超节点解决方案MTT C256,支持256个GPU的超节点集群,能够在亿级拓扑互联层下高效互通,进一步提升大规模训练集群的效率。

MUSA 5.0:

全栈软件栈的全面升级

如果说硬件是算力的骨架,软件栈则是算力的灵魂。摩尔线程本次大会正式宣布MUSA 5.0 全面升级,这不仅是版本的更迭,更是其软件栈迈向成熟期、全场景覆盖的重要里程碑。MUSA 5.0通过对全功能GPU四大引擎的深度适配,实现了从AI训练、3D图形渲染到科学计算的无缝支撑,为全场景应用提供了统一的技术底座。

MUSA 5.0 的核心竞争力在于其“无边界”的适配能力。它不仅完美兼容国际主流 CPU 操作系统,更实现了对国产 CPU 及开发环境的深度优化,这种“双轮驱动”的策略,确保了 MUSA 能够充分吸纳国内外生态优势,助力“云-边-端”系列产品在统一的软件栈下获得一致的性能表现。

具体来说,MUSA 5.0的升级包括三个主要部分:

编程模型:MUSA C是核心编程模型,除了兼容扩展,还引入了TileLang,以支持更广泛的AI软件开发。此外,还集成了北京智源研究院的FlagOS和Triton框架,进一步提升开发效率。

性能优化:在计算方面,MUSA 5.0大幅提升了芯片设计的集成效率,在HGEMM算子效率中达到了98%,通信效率达97%。这些优化使得开发者能够更加高效地利用GPU资源,获得显著的性能提升。

开源支持与工具:MUSA 5.0推出了多个开源工具,包括MT DeePEP(用于并行策略的自由搭建)、夸娥管理软件(用于更高效的管理与调度),并计划在明年上半年开放MTX,让开发者能精细操作GPU资源。此外,特别为3D图形与AI结合的应用场景推出了muLang编程语言,支持开发者更灵活地进行跨域编程。

MUSA 5.0的触角正在向更前沿的领域延伸。针对量子计算,MUSA-Q 框架通过经典计算与量子框架的耦合,探索混合计算的商业化落地;在半导体制造端,muLitho致力于通过 GPU加速OPC计算,为国产半导体工艺的迭代提速。

这一系列升级计划于明年上半年正式规模化落地。MUSA 5.0 正在通过这种“全栈化、高性能、开放式”的软件哲学,不仅大幅提升开发者的工程效率,更在加速补齐国产 GPU 生态最后一块拼图。

入局具身智能:

以“长江”AI SoC构筑物理AI基石

具身智能是摩尔线程开辟的又一战略高地。据预测,到2050年全球机器人数量将达10亿部,而这场变革的核心挑战在于:如何构建一套大型物理AI基础设施,确保智能体能够在复杂现实中安全、可靠地与人类交互。

在具身智能的开发逻辑中,Sim to Real(仿真到现实)的迁移效率决定了智能体的进化速度。对此,摩尔线程正式发布具身智能仿真训练平台 MT Lambda,它深度整合了物理、渲染与AI三大核心引擎,旨在为开发者提供一套从场景构建、数据合成到仿真训练的高效工作流。

此外,具身智能还需要一个强悍的边缘侧内核。摩尔线程首颗AI SoC芯片“长江”正式亮相,这标志着摩尔线程算力布局从 GPU 延伸到了高度集成的芯片系统。“长江”集成了 CPU、GPU、NPU、VPU、DPU、DSP 和 ISP 等多维算力核心。无论是具身智能机器人,还是下一代 AIBOOK、AICube,均可通过“长江”获得原生 AI 算力。


为了打通具身智能的最后一公里,摩尔线程推出了完整解决方案——MT Robot。其中,基于KUAE智算集群提供的强大云端算力作为“大脑”,处理大规模训练与复杂决策;依托内置“长江”芯片的 MTT E300模组作为敏捷“小脑”,实现端侧的低延迟响应与实时避障。


摩尔线程在具身智能领域的入局,本质上是其全功能GPU能力的向下延伸与横向拓扑。通过MT Lambda仿真平台解决“虚实迁移”的效率难题,凭借“长江”AI SoC在边缘侧构筑强大的计算内核,再通过MT Robot方案实现“云端大脑”与“端侧小脑”的无缝协同——摩尔线程不仅提供了算力,更提供了一套从虚拟训练到物理落地的全栈自主路径,让AI真正具备了行走于物理世界的行动力。


开发者,

才是国产GPU生态的“压舱石”

英伟达CUDA的成功史证明了一个铁律:真正决定芯片厂商生死存亡的,不是单纯的算力参数,而是是否有足够多的开发者愿意在你的架构上写代码。

对于国产GPU而言,要跨越“生态鸿沟”,必须解决三大痛点:迁移成本高、工具链不够成熟、社区与文档不够完善。但目标路径也很清晰——从“能用”到“好用”,再到“愿意用”。开发者体验做顺了,生态才会自发增长。摩尔线程的MUSA,本质上就是面向CUDA生态的一次国产化实践。

摩尔线程的MUSA软件栈也是围绕“如何让GPU既‘好用’又‘用得好’出发”。在圆桌论坛中,摩尔线程联合创始人、CTO张钰勃提到,“好用”和“用得好”看起来天然有张力:好用意味着更高层、更标准化、更贴近主流抽象;而要用得好、要突破,就必须把底层微架构的创新发挥出来。对此,MUSA的思路是:先对齐主流生态的使用习惯——编程模型、编程方式、加速库能力尽量与国际主流保持一致,让开发者以最低学习成本、最低迁移成本把国产 GPU 先“用起来”。同时,AIBOOK作为MUSA生态的核心入口,通过深度集成统一架构和开发者工具链,为开发者提供了从本地开发到云端扩展的无缝体验,进一步降低了生态参与门槛。


而真正的突破点在下一步:底层架构创新怎么“露出来、用起来”。他们提出两条路径

01

用更高层抽象的 DSL/编译技术,把底层优势显性化。例如通过支持 Triton,甚至未来基于 TAL 的编程方式,让编译器把细粒度的硬件创新转化为开发者可直接获得的性能收益;

02

生态共建。软硬协同不是单打独斗,仅靠一家厂商的软件栈不够,需要与开发者与平台型伙伴深度协作。比如与硅基流动在平台上做联合优化,通过通用 AI 基础平台推进软硬件协同设计,形成“1+1>2”的效果。这一协同已初见成效,例如在推理侧。与硅基流动对MTT S5000深度优化后,在DeepSeek 671B全量模型的实际推理中,MTT S5000单卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s,树立国产推理在低延迟和高吞吐的新标杆。

结语

“算力就是国力。” 在这场关于通用算力的长跑中,没有捷径可走。从MUSA架构的底层深耕,到十万卡集群的布局,再到具身智能的入局,摩尔线程正以全功能GPU为笔,在国产算力的长卷上,勾勒出一座属于未来的“算力长城”。这座长城,不仅由硬核的半导体晶体管筑就,更由数十万活跃开发者手中的每一行代码汇聚而成。在这场AGI时代的进击中,全栈自研的底气,正是我们通往算力自由的最强脊梁。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4268期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢



求推荐


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情报灾难

伊朗的“眼睛”被挖掉了:雷扎伊之死背后的情报灾难

民间胡扯老哥
2026-04-05 07:45:23
一路走好!清明假期3位名人离世,最年轻者仅26岁,孩子才一岁

一路走好!清明假期3位名人离世,最年轻者仅26岁,孩子才一岁

叨唠
2026-04-06 19:36:29
全球首现!奥尼尔创立扣篮联赛今夏开战:冠军大奖50万美元

全球首现!奥尼尔创立扣篮联赛今夏开战:冠军大奖50万美元

罗说NBA
2026-04-07 08:22:21
刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

刚从蒙古国回来,说点不中听的:蒙古国真实面目,可能让你很意外

复转这些年
2026-04-06 22:24:11
8换1!交易首秀!NBA榜眼即将手撕火箭

8换1!交易首秀!NBA榜眼即将手撕火箭

篮球实战宝典
2026-04-06 22:00:22
比亚迪大唐卖30万,被喷得最狠的一次

比亚迪大唐卖30万,被喷得最狠的一次

音乐时光的娱乐
2026-04-07 07:04:26
上海市委统战部副部长张峰,任市工商联党组书记

上海市委统战部副部长张峰,任市工商联党组书记

黄河新闻网吕梁
2026-04-06 17:13:31
拓记:杨瀚森夏天可能回去参加中国队比赛,夏联估计会打两场

拓记:杨瀚森夏天可能回去参加中国队比赛,夏联估计会打两场

懂球帝
2026-04-07 12:37:15
豪取9连胜!约基奇轰35+14+13制霸攻防:率队超湖人重返西部第三

豪取9连胜!约基奇轰35+14+13制霸攻防:率队超湖人重返西部第三

追球者
2026-04-07 11:53:08
教育部发布“教师二十严禁”!这回,老师不准做的事,全写清楚了

教育部发布“教师二十严禁”!这回,老师不准做的事,全写清楚了

笑熬浆糊111
2026-04-05 00:05:25
摊牌了?勇士潜在3换1交易,巴特勒或成牺牲品,库卡欲联手冲冠

摊牌了?勇士潜在3换1交易,巴特勒或成牺牲品,库卡欲联手冲冠

毒舌NBA
2026-04-07 09:07:23
世锦赛严重误判!白雨露受害仍晋级,创2大纪录,会师排名赛冠军

世锦赛严重误判!白雨露受害仍晋级,创2大纪录,会师排名赛冠军

刘姚尧的文字城堡
2026-04-07 08:59:55
娘家不是我的家了!广东女子哭诉想带孩回住半年,被母亲果断拒绝

娘家不是我的家了!广东女子哭诉想带孩回住半年,被母亲果断拒绝

火山詩话
2026-04-07 06:19:19
古巴:已完成卸载俄罗斯油轮原油

古巴:已完成卸载俄罗斯油轮原油

参考消息
2026-04-06 12:16:08
苹果官方清理指南:3个位置清空后,iPhone省出20G存储

苹果官方清理指南:3个位置清空后,iPhone省出20G存储

小蜜情感说
2026-04-07 09:21:42
苹果紧急提醒:删这3处缓存,iPhone瞬间腾出20G,老机必看

苹果紧急提醒:删这3处缓存,iPhone瞬间腾出20G,老机必看

小8说科技
2026-04-06 11:56:28
随着63岁穆帅率队爆冷1-1,波尔图2-2,葡体4-2,葡超最新积分榜出炉

随着63岁穆帅率队爆冷1-1,波尔图2-2,葡体4-2,葡超最新积分榜出炉

侧身凌空斩
2026-04-07 06:04:43
上海男篮冲击17连胜!卢伟拒绝爆冷,怀特塞德对位法尔,央视直播

上海男篮冲击17连胜!卢伟拒绝爆冷,怀特塞德对位法尔,央视直播

体坛瞎白话
2026-04-07 09:54:16
美媒:中国应对中东危机展现惊人韧性

美媒:中国应对中东危机展现惊人韧性

参考消息
2026-04-06 16:28:04
广东一男子故意伸腿绊女服务员,致面汤洒顾客身上,面馆老板发声:曾多次滋扰其他顾客,还曾骚扰年轻女孩

广东一男子故意伸腿绊女服务员,致面汤洒顾客身上,面馆老板发声:曾多次滋扰其他顾客,还曾骚扰年轻女孩

大象新闻
2026-04-06 19:53:02
2026-04-07 12:55:00
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
13336文章数 34863关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

郑丽文今日访陆其彝族背景引发热议 曾回云南祭祖

头条要闻

郑丽文今日访陆其彝族背景引发热议 曾回云南祭祖

体育要闻

官宣签约“AI球员”,这支球队被骂惨了...

娱乐要闻

张艺上浪姐惹争议 黄景瑜前妻发文内涵

财经要闻

2026年,全国租房市场还有波降价潮

汽车要闻

广汽电池独立战,背后的产业链博弈

态度原创

健康
教育
数码
本地
旅游

干细胞抗衰4大误区,90%的人都中招

教育要闻

咱就说这个第一非争不可吗?

数码要闻

Intel悄然发布酷睿Ultra X9 378H:规格与X7 368H一模一样!就一点区别

本地新闻

跟着歌声游安徽,听古村回响

旅游要闻

湖北二官寨村:土家秘境,春日溪涧伴古寨

无障碍浏览 进入关怀版