网易首页 > 网易号 > 正文 申请入驻

英伟达平替?国产GPU万卡集群来了

0
分享至

如果您希望可以时常见面,欢迎标星收藏哦~

最近两年,大语言模型发展迅猛,对算力需求激增。然而,英伟达A100等高端GPU一卡难求,是挑战还是机遇?众多国产算力厂商开始寻找新的替代方案。

作为国内仅有的可以在功能上对标英伟达的GPU企业,摩尔线程试图用“集群化”的解决方案,助力国产GPU突破算力瓶颈。

7月3日,在2024世界人工智能大会召开前夕,摩尔线程宣布其夸娥(KUAE)智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模,以此来完成对大模型的托举,为万亿参数级别的大模型训练提供持续高效、稳定、且广泛适用的通用算力支持。

AI主战场,万卡是标配

AI大模型时代,巨头们都卷入一场算力军备赛。

2023年5月10日,Google推出的超级计算机A3 Virtual Machines拥有26,000块Nvidia H100 GPU,同时基于自研芯片搭建TPUv5p 8960卡集群;

2024年3月,Meta分享了其两个新的AI训练集群,新发布的两个集群均包含24,576个Nvidia Tensor Core H100 GPU,比上一代的16,000块增长了不少;

而OpenAI开发的ChatGPT-4拥有16个专家模型共1.8万亿参数,一次训练需要在大约25,000个A100上训练90到100天。

事实证明,AI大模型的主战场,万卡已是标配。

那么,AI大模型时代,究竟需要怎样的算力?从大模型的发展趋势,我们可以窥得一二。

在2020年推出的Scaling Law(尺度规律)持续作用之下,推动了大模型的“暴力美学”趋势。以OpenAI的ChatGPT的发展为例,大模型训练的方向是参数规模从百亿增长到万亿,至少增长了100多倍;所需处理的数据量从TB级别增长到10+TB,至少增长了10多倍;计算量至少增加了1000多倍。这样的大模型必须要有规模足够大的算力,才能快速跟上技术演进。

不只是规模够大,AI算力还必须具有通用性。这是因为,目前大模型背后所基于的是Transformer架构,它虽然是当下的主流架构,但并不能大一统,它自身仍在加速融合演进,从稠密到MoE,从单模态到多模态,从扩散到自回归。同时,除了Transformer架构之外,也不断有其他创新架构出现,如Mamba、RWKV和RetNet等。因而,Transformer架构并不等于最终答案。

此外,AI、3D、HPC跨技术与跨领域融合不断加速,比如利用AI+3D实现空间智能、AI+仿真计算实现物理智能、AI+科学计算实现4Science等。计算范式的演进,以及更多场景对多元算力需求的变化,都催生了对一个通用加速计算平台的渴望。

随着模型参数量从千亿迈向万亿,大模型亟需一个超级训练工厂,即一个“大且通用”的加速计算平台,来极大地缩短训练时间,以实现模型能力的快速迭代。“只有在规模足够大、计算更通用且生态兼容好的情况下,才能真正实现好用。”摩尔线程创始人兼CEO张建中指出。

超万卡集群已成为大模型预训练的标配,对于基础设施厂商而言,有没有万卡集群将是赢取AI主战场胜负的关键。

然而,建设万卡集群并非易事。

万卡集群并不是一万张GPU卡的简单堆叠,而是一个超级复杂的系统工程。

首先,它涉及到超大规模组网互联问题,以及如何提高集群有效计算效率,大量实践表明,集群规模的线性提升无法直接带来集群有效算力的线性提升。

此外,训练高稳定与高可用、故障快速定位与可诊断工具等也很关键,超万卡集群是由数千台GPU服务器、数千台交换机、数万根光纤/数万颗光模块构成,训练任务涉及上千万器件的共同作业,任何一个部件的故障,可能都会导致训练中断。

再者,大模型的迭代和创新层出不穷,各种新类型的模型及模型架构的创新,要求万卡集群具备生态Day0级的快速迁移能力,以适应不断变化的技术需求。同时,我们也不能局限于当下的大模型计算加速场景,还需要考虑未来通用计算的需求。

建设万卡集群的道路难如登山,挑战巨大,但这却是一条难而正确的道路。

打造大模型训练超级工厂

经过近四年的积累,摩尔线程在千卡集群已获得成功验证的基础上,重磅发布了夸娥(KUAE)万卡智算集群方案,可以满足大模型时代对于算力“规模够大+计算通用+生态兼容”的核心需求,实现国产集群计算能力再升级。

摩尔线程夸娥万卡集群以全功能GPU为底座,软硬一体化、完整的系统级算力解决方案,包括以夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio),旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题。该方案可实现开箱即用,大大降低传统算力建设、应用开发和运维运营平台搭建的时间成本,实现快速投放市场开展商业化运营。

夸娥万卡智算方案具备五大特点:

单一集群规模突破万卡,总算力超万P;

集群有效计算效率,目标最高可超过60%;

稳定性卓越,周均训练有效率最高可达99%以上,平均无故障运行15天以上,最长稳定训练30天以上;

具备强大的计算通用性,专为通用计算而设计,可以加速一切大模型;

拥有良好的CUDA兼容能力,生态适配Instant On,加速新模型Day0级迁移。

“我们希望,我们的产品可以为客户提供一个更好的、可选择的国产化工具,在国外产品无法使用的时候,可以很容易在国产平台上快速使用起来。”张建中表示,“对于目前国内的大模型用户来说,我们的最大优势在于生态兼容性极佳。开发者移植到我们的夸娥集群上,几乎是不需要修改代码,迁移成本接近0,可以在数小时之内就完成迁移工作。”

要让这个大模型训练工厂真正运转起来,还需要一众朋友圈的支持:

智谱 AI、智源研究院、北大兔展、滴普科技、师者AI、羽人科技、乐创能源、瑞莱智慧、实在智能、积沙成塔(Reportify)、憨猴集团、亿景智联等国内大模型企业,都成功运行在摩尔线程的夸娥集群上。值得一提的是,摩尔线程是第一家接入无问芯穹并进行大模型训练的国产GPU公司,夸娥也是业内首个成功跑通并完整运行国产大模型的集群。

让国产GPU算力集群真正用起来

万卡集群是个超级工程,需要产业界齐心协力参与建设。在发布会上,摩尔线程与青海移动、青海联通等头部央企进行了万卡集群项目的战略签约。这些合作将进一步推动摩尔线程万卡集群在各地方的应用落地。

凭借高兼容性、高稳定性、高扩展性及高算力利用率等优势,摩尔线程夸娥智算集群已成功斩获多家大模型企业的认可,成为国内大模型训练和应用的重要力量。“几年前对于客户来说,国产算力只是备胎,而现在已经成为客户的首选,因为要保证长期供应、本地服务。”张建中介绍到。

虽然构建万卡集群是一项艰巨的任务,但摩尔线程展示出了攀登的决心,这是一条难而正确的道路。但这不仅是为了解决某一家企业的算力需求,更是为了应对全行业的算力短缺问题。虽难但很有必要!

结语

摩尔线程万卡级夸娥智算中心全栈解决方案的发布,标志着国产GPU在算力水平上取得了重大突破,将优先解决复杂万亿参数大模型训练的难题。而摩尔线程的定位早已经不是一家GPU公司,而是一家专注AI的加速计算平台企业。

点这里加关注,锁定更多原创内容

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3816内容,欢迎关注。

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中俄东北虎数量差距断崖:俄罗斯700只,中国的数量令人意外!

中俄东北虎数量差距断崖:俄罗斯700只,中国的数量令人意外!

又是美好的日子
2026-02-21 04:01:54
通胀爆表、半数人贫困!阿根廷人均肉食仍115公斤,真相太意外

通胀爆表、半数人贫困!阿根廷人均肉食仍115公斤,真相太意外

老马拉车莫少装
2026-02-22 00:01:41
连遭暴击!日本,彻底慌了!

连遭暴击!日本,彻底慌了!

大嘴说天下
2026-02-21 20:40:42
iPhone 新系统已经禁止用户切换账号,但没那么简单!

iPhone 新系统已经禁止用户切换账号,但没那么简单!

XCiOS俱乐部
2026-02-21 18:12:51
体坛联播|C罗打进生涯964球,克莱博破单届冬奥夺金纪录

体坛联播|C罗打进生涯964球,克莱博破单届冬奥夺金纪录

澎湃新闻
2026-02-22 09:30:28
黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

黄一鸣回应公开孩子父亲身份:你不给抚养费,我就用你的流量赚钱

每一次点击
2026-02-22 12:02:41
震惊!小妈祖高兴时的样貌,才知被妈祖选中的孩子,果然与众不同

震惊!小妈祖高兴时的样貌,才知被妈祖选中的孩子,果然与众不同

火山詩话
2026-02-20 08:24:21
补强后卫线:海港寻找蒋光太替身,欲挖角成都,签蓉城国脚后卫

补强后卫线:海港寻找蒋光太替身,欲挖角成都,签蓉城国脚后卫

体坛鉴春秋
2026-02-22 11:23:59
印度91岁僧人78年不吃不喝?军方在其房间装上监控,最终发现真相

印度91岁僧人78年不吃不喝?军方在其房间装上监控,最终发现真相

谈史论天地
2026-02-22 06:31:28
恒大集团创始人许家印牵连的大佬们

恒大集团创始人许家印牵连的大佬们

地产微资讯
2026-02-22 09:29:23
女性成人用具爆卖千亿,伟哥却每天少卖3.6万片!业内:时代变了

女性成人用具爆卖千亿,伟哥却每天少卖3.6万片!业内:时代变了

科学认识论
2026-02-22 01:10:57
火箭再伤1将,二阵缺人不用奥科吉 乌度卡败在五小 被逆转成常态

火箭再伤1将,二阵缺人不用奥科吉 乌度卡败在五小 被逆转成常态

替补席看球
2026-02-22 12:22:17
那个索赔22万的老人,为啥突然撤诉?

那个索赔22万的老人,为啥突然撤诉?

浅深说
2026-02-22 11:11:35
日本的苦日子,还在后面

日本的苦日子,还在后面

六爷阿旦
2026-01-20 17:07:06
中美被爆黄海对峙,不到24小时,特朗普发声:中国阵容太强大了

中美被爆黄海对峙,不到24小时,特朗普发声:中国阵容太强大了

现代小青青慕慕
2026-02-21 10:25:25
《惊蛰无声》上映仅3天,四大恶心的情况发生!陈思诚又全说中

《惊蛰无声》上映仅3天,四大恶心的情况发生!陈思诚又全说中

楠楠自语
2026-02-22 11:19:14
泰国清迈12天死亡72只老虎,无证据指向故意投毒或其他人为因素

泰国清迈12天死亡72只老虎,无证据指向故意投毒或其他人为因素

大风新闻
2026-02-22 08:56:03
彻底绕开光刻机!中国6G突然官宣重大突破,西方封锁彻底失效

彻底绕开光刻机!中国6G突然官宣重大突破,西方封锁彻底失效

粤语音乐喷泉
2026-02-21 19:55:20
《Medicine》127篇论文暴雷!作者全部来自中国

《Medicine》127篇论文暴雷!作者全部来自中国

双链生信
2026-02-21 16:38:48
说的实在,赵心童6-5艾伦,赛后丁俊晖毫不避讳说出了比赛看法

说的实在,赵心童6-5艾伦,赛后丁俊晖毫不避讳说出了比赛看法

格斗联盟王大锤
2026-02-22 08:20:57
2026-02-22 13:00:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12990文章数 34803关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

monies巴黎旗舰店员工:王菲同款水滴耳环库存已空

头条要闻

monies巴黎旗舰店员工:王菲同款水滴耳环库存已空

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

家居
旅游
时尚
房产
健康

家居要闻

本真栖居 爱暖伴流年

旅游要闻

栖霞:新春剧场游园会 解锁别样年味

50岁女性过冬穿搭:有大衣和羽绒服就够了,简约从容才是优雅

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版