网易首页 > 网易号 > 正文 申请入驻

国产GPU正式进入万卡万P时代!摩尔线程智算集群扩展至万卡

0
分享至

无论是游戏显卡还是AI加速卡,NVIDIA都已经是绝对垄断地位,而在当前的形势下,我们不但要有自己的游戏卡,更要有自己的加速卡。

这个重担,摩尔线程英勇地都扛了起来,率先交付全国产千卡千亿模型算力集群之后,又率先拓展到了万卡、万P、万亿规模!

摩尔线程重磅宣布,AI旗舰产品夸娥(KUAE)智算集群解决方案重大升级,从当前的千卡级别,扩展至万卡规模,从而具备万P级或者说10E级浮点运算能力,也就是每秒可执行千亿亿次级别的计算。

所谓万卡集群,顾名思义,就是由1万张甚至更多GPU计算加速卡组成的高性能计算系统,主要用来训练、微调超大规模的基础大模型。

这种超级集群全面整合了高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等全套软硬件技术,堪称一台"超级计算机",可支持千亿级、万亿级参数规模的大模型训练,可以大幅提高训练效率、缩短训练时间,快速迭代模型能力。

在国外,诸多科技巨头都已经部署了万卡集群,拥有数万甚至数十万张GPU加速卡。

比如马斯克近日就透露,新一代AI聊天机器人Grok 3就动用了多达10万张NVIDIA H100加速卡进行训练,因此将会"非常特别",为此耗资多达三四十亿美元。

再比如谷歌的超级计算机A3 Virtual Machines拥有2.6万块H100 GPU,Meta训练下一代大模型的两个集群拥有24576块H100 GPU,16个专家模型和1.8万亿参数的GTP-4需要在大约2.5万块A100 GPU上训练90-100天。

在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。

比如字节跳动搭建了一个12288张卡的训练集群,研发MegaScale生产系统,用于训练大语言模型,科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台"飞星一号"。

由此可见,在AI模型训练的主战场,万卡集群已成为最低入场券。

但是,万卡集群乍一看只是千卡集群的拓展和延伸,它绝非简单的更多计算卡叠加,而是一个超级复杂的系统工程,需要解决超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算等众多难题。

那么,万卡集群如此难做,摩尔线程作为成立还不到4年的国产GPU企业,为什么要去挑战呢?

这是一条难而正确的事情,摩尔线程推出夸娥万卡智算集群解决方案,就是希望能够建设一个规模超万卡、场景更通用、生态兼容好的一个加速计算平台,并优先解决大模型训练的难题。

摩尔线程创始人兼CEO张建中强调:"要挑战最难做的事情,除了有勇气之外,还要有能力,要有很好的团队,有很强的研发、生产、制造、销售、市场、服务等等方方面面的人才,否则是很难做成的。做成一件事情,其实不是偶然的,而是要花很多时间去建立的。每一家成功的企业都有很多正确的决定,但是不管什么样的决定,真正强的团队才是核心。摩尔线程就有很强的团队,这么多年的经验,我们在GPU行业里的知识、Know-how,碰到过的困难,解决过的难题,对我们来说都是非常宝贵的经验。"

夸娥,是摩尔线程的智算中心全栈解决方案,以其自主研发的全功能GPU为底座,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)、夸娥大模型服务平台(KUAE Model Studio),软件硬件一体化,训练推理一体化,交付一体化,可以开箱即用,提供大规模GPU算力集群的建设、运营管理。

摩尔线程的夸娥万卡集群具备PB级的超大显存总容量、PB/s级的超高速卡间互联总带宽、PB/s级的超高速节点互联总带宽,可实现系统性协同优化,从而达到超强的算力,并且MFU最高可以达到60%。

稳定性也是卓尔不群,平均无故障运行时间超过15天,最长可以稳定训练大模型30天以上,周均训练有效率超过99%,远超行业平均水平,而且可以性能自动调休、问题自动诊断,2分钟内就能快速修复,进而断点续训练。

这得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括:软硬件故障的自动定位与诊断预测,实现分钟级的故障定位;Checkpoint多级存储机制,实现内存秒级存储和训练任务分钟级恢复;高容错高效能的万卡集群管理平台,实现秒级纳管分配与作业调度。

此外还有强大的通用性,支持所有主流大模型训练,可加速LLM、MoE、多模态、Mamba等不同架构、不同模态,支持主流分布式训练框架(Colossal-AI、DeepSpeed、Megatron-LM、Flag Scale)。

同时,基于高效易用的MUSA编程语言、完整的CUDA生态兼容、自动化迁移工具Musify,开发者只需极短的时间、极少的工作就能完成迁移,甚至几乎不需要修改代码,迁移成本趋近于零。

值得一提的是,摩尔线程表示,如果已经适配过摩尔线程的千卡集群,不需要任何额外工作就可以无缝跑在万卡集群上,而哪怕是第一次适配万卡集群,也只需几个小时,只是性能调优需要花一点时间,主要是模型使用方法不同、芯片厂商策略不同所致。

目前,摩尔线程已经实现从芯片到算力卡,从一体机到节点集群的全栈式覆盖,支持从单机多卡到多机多卡、从单卡到千卡万卡集群的无缝扩展。

- 大模型智算加速卡MTT S4000

训推兼顾,专为大模型打造的大模型智算加速卡。

单卡支持 48GB 显存、768GB/s显存带宽,并支持摩尔线程自研MTLink 1.0互连技术,卡间互连带宽240GB/s,从而支持高效多卡互联。

- AI大模型训推一体机MCCX D800

双路八卡GPU服务器,专为支持MTT S4000大模型智算加速卡充分发挥其训推性能、稳定性、可靠性的服务器系统。

它还具备多达16×64GB DDR5内存、2×480GB SATA系统盘、4×3.84TB NVMe SSD缓存数据盘、双路400Gb IB与四路25Gb以太计算存储网络。

- AI超融合一体机(KUAE FUSION)

夸娥智算集群的单个节点,如今也可作为单独产品提供,可以任意并联扩展。

它基于MCCX D800 训推一体机,属于可灵活部署的推理、训练、微调软硬件一体化解决方案。

目前,摩尔线程万卡集群项目已经完成了三项战略签约,分别是:

与青海移动的青海零碳产业园万卡集群;

与青海联通、北京德道信科集团的青海高原万卡集群,;

与中国能源建设、桂林华崛大数据的广西东盟万卡集群。

生态方面,摩尔线程的版图也正在迅速扩大。

国内众多AI厂商、云厂商、科技厂商、软件厂商和、科研院校机构等,都与摩尔线程有着深入的合作,尤其是利用摩尔线程夸娥智算集群,助力大模型训练、大模型推理、具身智能等不同场景和领域持续创新。

在上海举办的世界人工智能大会WAIC 2024期间,摩尔线程也展示了自己的全栈解决方案。

除了芯片、算力卡、服务器、一体机节点之外,还有AI算力底座、AIGC创作生产力、产业升级三大展示区。

AI算力底座展示区,包括夸娥集群管理平台、夸娥模型服务平台、夸娥大模型推理平台,以及夸娥生态版图。

夸娥集群管理平台是摩尔线程大规模GPU计算集群产品可视化管理平台,是用于Al大模型训练、分布式图形渲染、流媒体处理和科学计算的软硬件一体化平台,深度集成全功能GPU计算、网络和存储,提供高可靠、高算力服务。

夸娥模型服务平台覆盖大模型预训练、微调和推理全流程,支持所有主流开源大模型。通过摩尔线程MUSIFY代码移植工具,可以良好兼容CUDA应用生态,内置的容器化解决方案,则可实现API一键部署。

夸娥大模型推理平台,基于高效的MT Transformer大模型推理引擎,支持业内主流vLLM推理框架、MUSA Serving自研推理框架等,帮助开发人员高效地在云端部署高性能推理服务。

AIGC创作生产力展区,可以看到依靠夸娥智算集群、基于图形计算和AI计算的软硬件一体化AIGC内容创作平台"摩笔马良"。

它部署了摩尔线程自研大语言模型MUSAChat,可以及时润色、翻译用户的输入文本,进一步增强语义理解,还可以基于用户的文本指向,灵活调用SDXL、SD1.5两代模型能力,生成细节丰富、有艺术感的图像结果。

同时,结合多种IP-Adapter、ControlNet技术,它还支持"创意人像",上传一张个人照片,以文字描述目标风格,1分钟内就可以得到细腻、逼真的人像图片,而且无需训练、风格不限。

"摩笔天书"则是依靠夸娥智算集群的AI内容生成解决方案,可提供一站式、多模态、全流程、全自动的绘本生成创作体验。

用户只需输入标题和简要的故事大纲,即可一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材,并自动合成图文绘本故事和视频绘本故事。

"MT AIR"(MT AIReality)是摩尔线程自研的新一代的AI渲染平台,构建拥有照片级、视网膜级、堪比物理世界真实度的实时渲染管线,轻松实现三维重建,可用于影视、动画、游戏、元宇宙等领域。

"Sora复现计划"(Open-Sora-Plan)是由北京大学、兔展AIGC联合实验室共同发起的开源项目,利用开源社区的力量,完成对Sora文生视频的复现,当前在Github上有超过1万开发者,摩尔线程则是国内极少数支持运行Open-Sora-Plan视频生成模型的国产GPU公司。

在产业数智化升级展示区,可以看到基于人工智能气象预报大模型书生·风乌的气象预测应用、基于东华软件私有化大模型智多型(A.I.Cogniflex)的公共安全应用、佳都全息路口解决方案的数字交通应用、基于中科闻歌自主研发雅意大模型的辅助决策应用、智慧安防应用、智能金融应用、智慧政务应用等等。

值得一提的是,依托夸娥智算集群的强兼容、高算力等特性,风乌成功在24小时内就完成了从CUDA到MUSA的无缝、快速生态迁移,首次实现从硬件到算法的全国产化,且性能、精度均达到国际先进水平。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震惊!夜班护士抢救病人,家属嫌“按得慢”直接扇耳光!医生:不要忍,一定要报警

震惊!夜班护士抢救病人,家属嫌“按得慢”直接扇耳光!医生:不要忍,一定要报警

梅斯医学
2026-05-21 16:30:41
中国在安理会掀了戈兰高地这张“旧牌”,有人坐不住了

中国在安理会掀了戈兰高地这张“旧牌”,有人坐不住了

娱乐圈的笔娱君
2026-05-22 13:45:00
U17世界杯抽签:中国队与西班牙、摩洛哥同组,澳大利亚进死亡组

U17世界杯抽签:中国队与西班牙、摩洛哥同组,澳大利亚进死亡组

何老师呀
2026-05-21 22:54:56
高云翔包子铺打工!跑外卖擦桌一小时挣15块,提到小酒窝满脸幸福

高云翔包子铺打工!跑外卖擦桌一小时挣15块,提到小酒窝满脸幸福

黔乡小姊妹
2026-05-22 08:15:49
曾经的首富王健林:卖核心资产万达广场、万达文旅,仍被永辉起诉

曾经的首富王健林:卖核心资产万达广场、万达文旅,仍被永辉起诉

舜口说
2026-05-22 14:02:07
原中国人民银行浙江省分行党组书记、行长陈国强逝世,享年96岁

原中国人民银行浙江省分行党组书记、行长陈国强逝世,享年96岁

界面新闻
2026-05-21 15:47:33
iPhone 17 Pro再次降价,这可能是目前最香的iPhone了

iPhone 17 Pro再次降价,这可能是目前最香的iPhone了

刘奔跑
2026-05-21 20:24:57
日本U17后卫竹内悠三:中国队身体硬朗、速度出众、技术扎实

日本U17后卫竹内悠三:中国队身体硬朗、速度出众、技术扎实

懂球帝
2026-05-22 10:53:06
小鹏为何把全尺寸SUV GX的天王山之战,硬生生打成了凡尔登绞肉机

小鹏为何把全尺寸SUV GX的天王山之战,硬生生打成了凡尔登绞肉机

电科技网
2026-05-21 16:43:23
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
日本亚运名单炸锅!22岁世界第三遭“弃用”,张本美和身兼4项冲金

日本亚运名单炸锅!22岁世界第三遭“弃用”,张本美和身兼4项冲金

刘哥谈体育
2026-05-22 13:27:58
阿斯:法蒂期盼重回西班牙队,参加世界杯完成第三次救赎

阿斯:法蒂期盼重回西班牙队,参加世界杯完成第三次救赎

懂球帝
2026-05-22 13:23:22
NBA最惨的豪赌!输掉7000万美元,外加整个生涯巅峰

NBA最惨的豪赌!输掉7000万美元,外加整个生涯巅峰

体坛热评
2026-05-22 11:19:34
沈伯洋万万没想到,没等当上台北市长,先等来大陆三部门突然行动

沈伯洋万万没想到,没等当上台北市长,先等来大陆三部门突然行动

最美的开始
2026-05-22 12:32:49
后卫要没人了!仅4小时后,马刺队传来坏消息,文班压力剧增

后卫要没人了!仅4小时后,马刺队传来坏消息,文班压力剧增

林子说事
2026-05-22 14:18:45
原来有钱人的钱都是这么来的?网友分享的太震撼,让人大开眼界!

原来有钱人的钱都是这么来的?网友分享的太震撼,让人大开眼界!

夜深爱杂谈
2026-05-22 08:01:32
亚洲杯决战前,U17国足再收好消息,世界杯喜获上上签,出线稳了

亚洲杯决战前,U17国足再收好消息,世界杯喜获上上签,出线稳了

绿茵舞着
2026-05-21 23:43:18
曼晚:布莱顿大概率会大幅下调报价,曼联无需着急敲定巴莱巴

曼晚:布莱顿大概率会大幅下调报价,曼联无需着急敲定巴莱巴

懂球帝
2026-05-22 14:47:08
下周西班牙站,有最长大直道,张雪动力天然主场,53号会碾压吗?

下周西班牙站,有最长大直道,张雪动力天然主场,53号会碾压吗?

晚雾空青
2026-05-22 08:48:07
华为新机突然官宣:6月1日,正式首销

华为新机突然官宣:6月1日,正式首销

科技堡垒
2026-05-21 12:01:35
2026-05-22 15:31:00
快科技 incentive-icons
快科技
一起关注每日科技热点
114100文章数 260523关注度
往期回顾 全部

科技要闻

雷军:输给特斯拉不丢人

头条要闻

上海180多名老年人被骗认购动物 其中不乏大学教授

头条要闻

上海180多名老年人被骗认购动物 其中不乏大学教授

体育要闻

最糟糕裁判?他想要退役当市长

娱乐要闻

周也恋情曝光!对象身份不简单

财经要闻

又一存储芯片类产品,价格暴涨300%

汽车要闻

配1.5L动力/增加新配色 吉利帝豪向上系列将于5月24日上市

态度原创

教育
家居
数码
公开课
军事航空

教育要闻

小升初几何:正方形面积是100,求圆的面积

家居要闻

低调传承 温润沉静

数码要闻

谷歌发布Google Home Gemini built-in项目,晶晨股份成为项目指定系统集成商

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国代理海军部长:正研拟暂停对台140亿美元军售计划

无障碍浏览 进入关怀版