网易首页 > 网易号 > 正文 申请入驻

百模大战,需要标配怎样的万卡?

0
分享至

众所周知,大语言模型的快速发展离不开强大的算力支持,但目前全球范围内算力资源仍然非常有限。即便是财力最雄厚的公司,所拥有的算力也无法满足日益增长的需求。

根据上半年产业链的消息,Llama 38B和70B的训练需要24000多块H100组成的集群;而据称有1.8万亿参数的GPT-4则是在10000—25000张A100的集群上完成的训练;就连参数仅30亿的Sora,也用4200—10500块H100训练了1个月的时间。

这正好印证了摩尔线程创始人张建中日前的一个观点:“在AI模型训练的主战场上,万卡还仅仅只是标配”。7月3日,摩尔线程在AI DAY上宣布了其夸娥(KUAE)万卡智算集群解决方案的重大升级,这不仅是摩尔线程技术创新的里程碑,更是国产GPU技术发展的一次重要飞跃。

万卡智算,无缝扩展

万卡集群指的是由一万张及以上的计算加速卡(如GPU)组成的高性能计算系统,用以训练基础大模型。这种集群充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术,将底层基础设施整合成为一台“超级计算机”,可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。

张建中说:“构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。”其面临的主要挑战包括如何实现超大规模组网互联、如何提高集群有效计算效率、保证训练高稳定与高可用以及拥有故障快速定位能力和可诊断工具等。

据张建中介绍,全新一代夸娥智算集群能实现单集群规模超万卡,浮点运算能力达到10Exa-Flops,显存总容量达到PB级,卡间互联总带宽和节点互联总带宽均达到每秒PB级。同时,夸娥万卡集群的平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,希望可以对标行业最高水准。

此外,在优化方面,夸娥万卡集群通过系统软件、框架、算法等层面的一系列优化,实现了大模型的高效率训练,MFU最高可达60%。此外,夸娥万卡集群是一个通用加速计算平台,支持多种不同架构和模态的大模型,具有高效易用的MUSA编程语言和完整兼容CUDA的能力,加速新模型的迁移和生态适配。

产业协同:共建大模型应用生态

摩尔线程的夸娥万卡智算集群不仅仅是一项技术成果,更是一个产业协同的典范。在AI DAY发布会上,摩尔线程与多家企业进行了战略签约,共同构建国产GPU集群。张建中提到:“我们希望摩尔线程的加速平台能够加速一切计算,只是和计算相关的都可以在上面加速。”

发布会现场,摩尔线程携手中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司(排名不分先后),分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

借助摩尔线程先进的夸娥全栈智算解决方案,各方将携手共建强大的全国产智算平台,以加速产业数字化转型和高质量发展。夸娥万卡智算集群项目标志着国产AI算力基础设施的又一重大进展,将为各地的数字经济发展注入新活力。

发布会后,无问芯穹、清程极智、360、京东云、智平方等五家合作伙伴代表纷纷登台,分享了夸娥智算集群在不同场景和领域的创新应用,展现了其在实际应用中的巨大潜力与广泛适用性。

在接受采访时,张建中提出,GPU产业的自主生态建设是必须的,但兼容国际主流生态也同样重要,只有两条腿走路才能让产品更快地走向市场。而生态的适配、生态的发展能不能做得很好,则是全行业上下游的生态合作伙伴们一起努力的结果。

百花齐放,资源共享

自ChatGPT颠覆式创新引爆生成式大模型发展后,全球数百个大模型争先恐后地走向市场,形成百模大战之态势。但也有人认为,通用大模型的重复性建设是群模乱舞,未来将仅有个位数通用大模型存活下来。

对此,张建中认为,正如人类不应该只有一个大脑一样,Foundation Model还是越多越好。“人类每个人都有自己的观点,有自己的看法和认知,人类才得以不停地进步和发展,这对于大模型也一样,”张建中如是说。

张建中强调, 随着人类大脑的进步,对各种各样信息的摄入量不断增长,千行百业的专业知识都在逐渐转变为“常识”。另外,由于一些需要隐私保护的行业数据无法共享,这些行业都需要自己的Foundation Model,因此未来通用大模型一定会是百花齐放的状态。

目前,许多成熟的大模型虽然已经开始投入到人们的生活和工作中,但仍然无法满足人们的要求,这正是因为训练侧算力不够所导致。至于什么量级的算力集群能够让一个大模型做到足够“聪明”呢?张建中认为或许应是百万卡级别。

不过,如果张建中所言,目前百模大战的背景下,万卡是标配。显然算力资源正因Foundation Model过多而被分散,这将导致很难有足够的GPU能够集中训练出完美的大模型,或者说,这一天会更晚到来。

对此,张建中也表示:“大规模的算力资源应该由建设方和运营商对全社会开放使用,而不是被据为己有。且当集群发展到百万卡级别时,将没有任何一家企业能够独自负担。”

摩尔线程打造的夸娥是一个通用加速的计算平台,其目标也是希望通过夸娥智算集群,以规模够大、计算更通用、生态兼容好的加速计算平台,为美好世界加速。这种理念很好地顺应了算力资源集中的发展趋势,随着技术的不断优化和生态的不断完善,夸娥万卡智算集群必将在AI产业的发展中发挥越来越重要的作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际油价,快速下跌

国际油价,快速下跌

第一财经资讯
2026-05-01 22:19:51
19岁女孩周欣宇去世!原因是喝药自杀,姐姐曝细节内幕令人唏嘘

19岁女孩周欣宇去世!原因是喝药自杀,姐姐曝细节内幕令人唏嘘

她时尚丫
2026-05-01 23:25:00
34年京城粤菜顶流“跑路”,6万元储值卡秒废,高端餐饮还靠谱吗

34年京城粤菜顶流“跑路”,6万元储值卡秒废,高端餐饮还靠谱吗

椰青美食分享
2026-05-01 18:55:09
香港的现代版姨太:签下保密条约住在珠海别墅,年纪过30就被赶走

香港的现代版姨太:签下保密条约住在珠海别墅,年纪过30就被赶走

白云故事
2025-09-05 21:55:03
没机会了!申花主场遭成都绝杀,争冠美梦破灭,斯卢茨基难辞其咎

没机会了!申花主场遭成都绝杀,争冠美梦破灭,斯卢茨基难辞其咎

国足风云
2026-05-01 22:24:33
一屋子的专业演员,硬是比不过一个跨界模特,烂不是没有原因的!

一屋子的专业演员,硬是比不过一个跨界模特,烂不是没有原因的!

阿雹娱乐
2026-05-01 13:48:48
U17女足亚洲杯中国女足6-0大胜缅甸女足,刘雨希传射建功

U17女足亚洲杯中国女足6-0大胜缅甸女足,刘雨希传射建功

懂球帝
2026-05-01 21:31:32
南通又一商场被爆商户跑路,网友:商场完全不管!

南通又一商场被爆商户跑路,网友:商场完全不管!

好通网
2026-05-01 18:36:11
车载马桶,屎无前例的创新

车载马桶,屎无前例的创新

难得君
2026-05-01 18:05:01
骑士次轮秀得到了NCAA球队的巨额报价,他什么时候才会进入NBA?

骑士次轮秀得到了NCAA球队的巨额报价,他什么时候才会进入NBA?

稻谷与小麦
2026-05-02 01:24:48
朱雨玲掀桌子了?无视官方力挺,直接硬刚刘诗雯,引发网友热议

朱雨玲掀桌子了?无视官方力挺,直接硬刚刘诗雯,引发网友热议

宝哥精彩赛事
2026-05-01 13:34:39
万科这颗雷,炸出了地铁公司的真面目

万科这颗雷,炸出了地铁公司的真面目

梳子姐
2026-05-01 21:31:42
重庆:加大公积金惠民力度

重庆:加大公积金惠民力度

界面新闻
2026-05-01 16:38:19
李建宏去世,最大的遗憾不是别的,而是拍下自己60岁生日照的女儿

李建宏去世,最大的遗憾不是别的,而是拍下自己60岁生日照的女儿

童叔不飙车
2026-05-02 00:15:02
湖火G6伤情更新,杜兰特状态升级!火箭连获4大喜讯送雷霆神助攻

湖火G6伤情更新,杜兰特状态升级!火箭连获4大喜讯送雷霆神助攻

锅子篮球
2026-05-01 11:34:12
流浪猫妈妈每天守在电梯口等被带走的孩子:我喂完奶就走,不打扰你们…

流浪猫妈妈每天守在电梯口等被带走的孩子:我喂完奶就走,不打扰你们…

我和宠物的日常
2026-04-30 11:31:24
52岁朴树近况:无儿无女,没钱没房,成了要钱不要命的“疯子”

52岁朴树近况:无儿无女,没钱没房,成了要钱不要命的“疯子”

流云随风去远方
2026-04-14 12:22:59
震惊!“夏雨荷”一夜之间消失,济南大明湖的地标路牌,已经抹去

震惊!“夏雨荷”一夜之间消失,济南大明湖的地标路牌,已经抹去

火山詩话
2026-04-30 06:09:31
打仗大家也要正常上班

打仗大家也要正常上班

周显香港
2026-04-30 09:49:59
以军深夜公海动手!175人被押,以方军机被击落,特朗普恼羞成怒

以军深夜公海动手!175人被押,以方军机被击落,特朗普恼羞成怒

林子说事
2026-05-01 11:29:47
2026-05-02 08:08:49
爱集微 incentive-icons
爱集微
集微网官方账号
109482文章数 98351关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

特朗普点名批意西德三国 称可能考虑撤军

头条要闻

特朗普点名批意西德三国 称可能考虑撤军

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

GPU神话松动,AI真正的战场变了

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

数码
教育
旅游
健康
房产

数码要闻

Commodore推出C64C Ultimate:重启1986经典模具的复刻之作

教育要闻

高考地理中的机制问题

旅游要闻

陪盲人一起春游,他们看不见,出去玩的乐趣是什么?

干细胞治烧烫伤面临这些“瓶颈”

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

无障碍浏览 进入关怀版