网易首页 > 网易号 > 正文 申请入驻

国产GPU正式进入万卡万P时代!摩尔线程智算集群扩展至万卡

0
分享至

无论是游戏显卡还是AI加速卡,NVIDIA都已经是绝对垄断地位,而在当前的形势下,我们不但要有自己的游戏卡,更要有自己的加速卡。

这个重担,摩尔线程英勇地都扛了起来,率先交付全国产千卡千亿模型算力集群之后,又率先拓展到了万卡、万P、万亿规模!

摩尔线程重磅宣布,AI旗舰产品夸娥(KUAE)智算集群解决方案重大升级,从当前的千卡级别,扩展至万卡规模,从而具备万P级或者说10E级浮点运算能力,也就是每秒可执行千亿亿次级别的计算。

所谓万卡集群,顾名思义,就是由1万张甚至更多GPU计算加速卡组成的高性能计算系统,主要用来训练、微调超大规模的基础大模型。

这种超级集群全面整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等全套软硬件技术,堪称一台"超级计算机",可支持千亿级、万亿级参数规模的大模型训练,可以大幅提高训练效率、缩短训练时间,快速迭代模型能力。

在国外,诸多科技巨头都已经部署了万卡集群,拥有数万甚至数十万张GPU加速卡。

比如马斯克近日就透露,新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练,因此将会"非常特别",为此耗资多达三四十亿美元。

再比如谷歌的超级计算机A3 Virtual Machines拥有2.6万块H100 GPU,Meta训练下一代大模型的两个集群拥有24576块H100 GPU,16个专家模型和1.8万亿参数的GTP-4需要在大约2.5万块A100 GPU上训练90-100天。

在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。

比如字节跳动搭建了一个12288张卡的训练集群,研发MegaScale生产系统,用于训练大语言模型,科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台"飞星一号"。

由此可见,在AI模型训练的主战场,万卡集群已成为最低入场券。

但是,万卡集群乍一看只是千卡集群的拓展和延伸,它绝非简单的更多计算卡叠加,而是一个超级复杂的系统工程,需要解决超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等众多难题。

那么,万卡集群如此难做,摩尔线程作为成立还不到4年的国产GPU企业,为什么要去挑战呢?

这是一条难而正确的事情,摩尔线程推出夸娥万卡智算集群解决方案,就是希望能够建设一个规模超万卡、场景更通用、生态兼容好的一个加速计算平台,并优先解决大模型训练的难题。

摩尔线程创始人兼CEO张建中强调:"要挑战最难做的事情,除了有勇气之外,还要有能力,要有很好的团队,有很强的研发、生产、制造、销售、市场、服务等等方方面面的人才,否则是很难做成的。做成一件事情,其实不是偶然的,而是要花很多时间去建立的。每一家成功的企业都有很多正确的决定,但是不管什么样的决定,真正强的团队才是核心。摩尔线程就有很强的团队,这么多年的经验,我们在GPU行业里的知识、Know-how,碰到过的困难,解决过的难题,对我们来说都是非常宝贵的经验。"

夸娥,是摩尔线程的智算中心全栈解决方案,以其自主研发的全功能GPU为底座,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)、夸娥大模型服务平台(KUAE Model Studio),软件硬件一体化,训练推理一体化,交付一体化,可以开箱即用,提供大规模GPU算力集群的建设、运营管理。

摩尔线程的夸娥万卡集群具备PB级的超大显存总容量、PB/s级的超高速卡间互联总带宽、PB/s级的超高速节点互联总带宽,可实现系统性协同优化,从而达到超强的算力,并且MFU最高可以达到60%。

稳定性也是卓尔不群,平均无故障运行时间超过15天,最长可以稳定训练大模型30天以上,周均训练有效率超过99%,远超行业平均水平,而且可以性能自动调休、问题自动诊断,2分钟内就能快速修复,进而断点续训练。

这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括:软硬件故障的自动定位与诊断预测,实现分钟级的故障定位;Checkpoint多级存储机制,实现内存秒级存储和训练任务分钟级恢复;高容错高效能的万卡集群管理平台,实现秒级纳管分配与作业调度。

此外还有强大的通用性,支持所有主流大模型训练,可加速LLM、MoE、多模态、Mamba等不同架构、不同模态,支持主流分布式训练框架(Colossal-AI、DeepSpeed、Megatron-LM、Flag Scale)。

同时,基于高效易用的MUSA编程语言、完整的CUDA生态兼容、自动化迁移工具Musify,开发者只需极短的时间、极少的工作就能完成迁移,甚至几乎不需要修改代码,迁移成本趋近于零。

值得一提的是,摩尔线程表示,如果已经适配过摩尔线程的千卡集群,不需要任何额外工作就可以无缝跑在万卡集群上,而哪怕是第一次适配万卡集群,也只需几个小时,只是性能调优需要花一点时间,主要是模型使用方法不同、芯片厂商策略不同所致。

目前,摩尔线程已经实现从芯片到算力卡,从一体机到节点集群的全栈式覆盖,支持从单机多卡到多机多卡、从单卡到千卡万卡集群的无缝扩展。

- 大模型智算加速卡MTT S4000

训推兼顾,专为大模型打造的大模型智算加速卡。

单卡支持 48GB 显存、768GB/s显存带宽,并支持摩尔线程自研MTLink 1.0互连技术,卡间互连带宽240GB/s,从而支持高效多卡互联。

- AI大模型训推一体机MCCX D800

双路八卡GPU服务器,专为支持MTT S4000大模型智算加速卡充分发挥其训推性能、稳定性、可靠性的服务器系统。

它还具备多达16×64GB DDR5内存、2×480GB SATA系统盘、4×3.84TB NVMe SSD缓存数据盘、双路400Gb IB与四路25Gb以太计算存储网络。

- AI超融合一体机(KUAE FUSION)

夸娥智算集群的单个节点,如今也可作为单独产品提供,可以任意并联扩展。

它基于MCCX D800 训推一体机,属于可灵活部署的推理、训练、微调软硬件一体化解决方案。

目前,摩尔线程万卡集群项目已经完成了三项战略签约,分别是:

与青海移动的青海零碳产业园万卡集群;

与青海联通、北京德道信科集团的青海高原万卡集群,;

与中国能源建设、桂林华崛大数据的广西东盟万卡集群。

生态方面,摩尔线程的版图也正在迅速扩大。

国内众多AI厂商、云厂商、科技厂商、软件厂商和、科研院校机构等,都与摩尔线程有着深入的合作,尤其是利用摩尔线程夸娥智算集群,助力大模型训练、大模型推理、具身智能等不同场景和领域持续创新。

在上海举办的世界人工智能大会WAIC 2024期间,摩尔线程也展示了自己的全栈解决方案。

除了芯片、算力卡、服务器、一体机节点之外,还有AI算力底座、AIGC创作生产力、产业升级三大展示区。

AI算力底座展示区,包括夸娥集群管理平台、夸娥模型服务平台、夸娥大模型推理平台,以及夸娥生态版图。

夸娥集群管理平台是摩尔线程大规模GPU计算集群产品可视化管理平台,是用于Al大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台,深度集成全功能GPU计算、网络和存储,提供高可靠、高算力服务。

夸娥模型服务平台覆盖大模型预训练、微调和推理全流程,支持所有主流开源大模型。通过摩尔线程MUSIFY代码移植工具,可以良好兼容CUDA应用生态,内置的容器化解决方案,则可实现API一键部署。

夸娥大模型推理平台,基于高效的MT Transformer大模型推理引擎,支持业内主流vLLM推理框架、MUSA Serving自研推理框架等,帮助开发人员高效地在云端部署高性能推理服务。

AIGC创作生产力展区,可以看到依靠夸娥智算集群、基于图形计算和AI计算的软硬件一体化AIGC内容创作平台"摩笔马良"。

它部署了摩尔线程自研大语言模型MUSAChat,可以及时润色、翻译用户的输入文本,进一步增强语义理解,还可以基于用户的文本指向,灵活调用SDXL、SD1.5两代模型能力,生成细节丰富、有艺术感的图像结果。

同时,结合多种IP-Adapter、ControlNet技术,它还支持"创意人像",上传一张个人照片,以文字描述目标风格,1分钟内就可以得到细腻、逼真的人像图片,而且无需训练、风格不限。

"摩笔天书"则是依靠夸娥智算集群的AI内容生成解决方案,可提供一站式、多模态、全流程、全自动的绘本生成创作体验。

用户只需输入标题和简要的故事大纲,即可一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材,并自动合成图文绘本故事和视频绘本故事。

"MT AIR"(MT AIReality)是摩尔线程自研的新一代的AI渲染平台,构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线,轻松实现三维重建,可用于影视、动画、游戏、元宇宙等领域。

"Sora复现计划"(Open-Sora-Plan)是由北京大学、兔展AIGC联合实验室共同发起的开源项目,利用开源社区的力量,完成对Sora文生视频的复现,当前在Github上有超过1万开发者,摩尔线程则是国内极少数支持运行Open-Sora-Plan视频生成模型的国产GPU公司。

在产业数智化升级展示区,可以看到基于人工智能气象预报大模型书生·风乌的气象预测应用、基于东华软件私有化大模型智多型(A.I.Cogniflex)的公共安全应用、佳都全息路口解决方案的数字交通应用、基于中科闻歌自主研发雅意大模型的辅助决策应用、智慧安防应用、智能金融应用、智慧政务应用等等。

值得一提的是,依托夸娥智算集群的强兼容、高算力等特性,风乌成功在24小时内就完成了从CUDA到MUSA的无缝、快速生态迁移,首次实现从硬件到算法的全国产化,且性能、精度均达到国际先进水平。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王炸:我国将新增20万颗卫星,最受益的十只个股(分析与个股)

王炸:我国将新增20万颗卫星,最受益的十只个股(分析与个股)

Thurman在昆明
2026-01-12 14:31:43
伊朗外长:伊朗不寻求战争,但已做好战争准备

伊朗外长:伊朗不寻求战争,但已做好战争准备

新华社
2026-01-12 16:51:04
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
我们必须要永远保持对吕蒙“白衣渡江”严厉的批判态度!保持警惕

我们必须要永远保持对吕蒙“白衣渡江”严厉的批判态度!保持警惕

吕醿极限手工
2026-01-09 21:45:13
金晨疑整形脸肿如馒头引网友抵制,恐无缘《庆余年3》

金晨疑整形脸肿如馒头引网友抵制,恐无缘《庆余年3》

徐云流浪中国
2026-01-13 14:53:00
迎来好消息!凯伦趁手球杆断裂,斯佳辉有望成中国第四位8强!

迎来好消息!凯伦趁手球杆断裂,斯佳辉有望成中国第四位8强!

失我者永失qq
2026-01-13 19:13:42
2025年,这些广东的大厂停工停产了。。

2025年,这些广东的大厂停工停产了。。

微微热评
2026-01-10 00:19:12
美应对伊朗局势考虑“军事选项”,外交部:反对使用或威胁使用武力

美应对伊朗局势考虑“军事选项”,外交部:反对使用或威胁使用武力

澎湃新闻
2026-01-13 15:20:30
外媒披露:美对委内瑞拉行动中曾悍然使用电子战飞机

外媒披露:美对委内瑞拉行动中曾悍然使用电子战飞机

参考消息
2026-01-12 16:21:05
伊朗最新表态 准备同美国进行谈判 也已做好战争准备

伊朗最新表态 准备同美国进行谈判 也已做好战争准备

每日经济新闻
2026-01-12 23:08:55
山东日照34岁医生去世,家属称因“痔疮手术引发”,最新进展:卫健委成立调查组

山东日照34岁医生去世,家属称因“痔疮手术引发”,最新进展:卫健委成立调查组

潇湘晨报
2026-01-12 17:38:17
蒋介石能力到底怎么样?周恩来的评价最准确到位

蒋介石能力到底怎么样?周恩来的评价最准确到位

忠于法纪
2026-01-05 21:32:59
为什么感觉美国在走向衰落?那是因为你是中国人

为什么感觉美国在走向衰落?那是因为你是中国人

扶苏聊历史
2025-12-19 10:02:54
抄作业了!湖南灿灿效仿呆呆,准备好10头年猪,预计10000人前往

抄作业了!湖南灿灿效仿呆呆,准备好10头年猪,预计10000人前往

火山诗话
2026-01-13 13:41:40
天量回调!商业航天今日熄火!这个板块午后却突然爆发,千亿龙头十分钟爆拉12%,直冲涨停!

天量回调!商业航天今日熄火!这个板块午后却突然爆发,千亿龙头十分钟爆拉12%,直冲涨停!

雪球
2026-01-13 16:16:58
立陶宛驻日大使在日本成人日公开自己女儿的和服照片,引热议

立陶宛驻日大使在日本成人日公开自己女儿的和服照片,引热议

随波荡漾的漂流瓶
2026-01-13 18:10:51
刘强东的办公室曝光,信息量很大!

刘强东的办公室曝光,信息量很大!

仕道
2026-01-04 16:43:02
63岁河南张铁山:58万死拿紫金矿业16年,赚180万安稳养老钱

63岁河南张铁山:58万死拿紫金矿业16年,赚180万安稳养老钱

真实人物采访
2026-01-04 14:00:03
如果高市早苗赢下大选 日本将变得更加危险

如果高市早苗赢下大选 日本将变得更加危险

看看新闻Knews
2026-01-13 20:17:08
皇马换帅又反转!阿隆索拒绝离开,佛爷无情清洗,还牵连到新梅西

皇马换帅又反转!阿隆索拒绝离开,佛爷无情清洗,还牵连到新梅西

阿泰希特
2026-01-13 13:47:32
2026-01-13 21:32:49
快科技 incentive-icons
快科技
一起关注每日科技热点
103428文章数 259911关注度
往期回顾 全部

科技要闻

每年10亿美元!谷歌大模型注入Siri

头条要闻

蒋超良被商人渗透式"围猎":对方拿60万给其保姆买房

头条要闻

蒋超良被商人渗透式"围猎":对方拿60万给其保姆买房

体育要闻

他带出国乒世界冠军,退休后为爱徒返场

娱乐要闻

周杰伦以球员身份参加澳网,C位海报公开

财经要闻

"天量存款"将到期 资金会否搬入股市?

汽车要闻

限时9.99万元起 2026款启辰大V DD-i虎鲸上市

态度原创

亲子
手机
教育
房产
公开课

亲子要闻

每5个孩子就有1个“小胖墩”,专家呼吁关注儿童体重管理

手机要闻

华为Pura 90系列提前看:Pro Max与Ultra版本差异在哪?

教育要闻

26考研复试大纲公布!

房产要闻

又一新校开建!海口这一片区,迎来教育重磅升级!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版