网易首页 > 网易号 > 正文 申请入驻

马斯克出手,全球最大AI超算内部首次曝光!19天神速组装10万块H100,未来规模还将扩大一倍

0
分享至

来源:新智元

【导读】一文揭秘全球最大AI超算,解析液冷机架和网络系统的创新设计。这台全球最大AI超算Colossus由xAI和英伟达联手建造,耗资数十亿,10万块H100仅半个多月搭建完成,未来规模还将扩大一倍!

两个月前,马斯克才刚刚自曝了xAI的Colossus超算,称其是世界上最强大的AI训练系统。

最近,马斯克又宣布了一条振奋人心的消息——集群即将扩展到20万张H100/H200显卡!

同时,ServeTheHome也发布了一条15分钟的视频,公布了这台超算的详情!

来自ServeTheHome的Patrick Kennedy带着摄影机探访了这台超级计算机

这台全球最大的AI超级计算机Colossus位于美国田纳西州孟菲斯,配备了10万个英伟达Hopper GPU,并由英伟达Spectrum-X以太网提供网络传输支持。

目前,Colossus的第一阶段建设已完成,集群全面上线,但这并不是终点。它将很快迎来升级,GPU容量将翻倍,新增5万块H100 GPU和5万块下一代H200 GPU。

Colossus正在用于训练xAI的Grok,并为X Premium订阅用户提供聊天机器人功能。

在训练超大规模的Grok时,Colossus展现了前所未有的网络性能。在网络结构的所有层级中,系统在流量冲突的情况下没有经历任何应用延迟降级或数据包丢失。

通过Spectrum-X拥塞控制,它保持了95%的数据吞吐量。这种性能水平无法通过标准以太网实现,标准以太网在传输中会产生数千次流量冲突,数据吞吐量仅能达到60%。

由于保密协议的限制,这台超级计算机的一些细节并没有透露。不过,像Supermicro GPU服务器等关键部件的介绍在视频中都有所涉及。

液冷机架

Colossus集群的基本构建单元是Supermicro液冷机架。

每个机架包含八台4U服务器,每台服务器配备八个英伟达H100,共计64个GPU。

八台此类GPU服务器再加上一个Supermicro冷却分配单元(CDU)及相关硬件,构成了一个GPU计算机架。

这些机架以八台为一组排列,共512个GPU,并通过网络连接,形成更大系统中的小型集群。

xAI使用的是Supermicro 4U通用GPU系统。

这是目前市面上最先进的AI服务器,有2个原因:其一是它的液冷程度;其二是设备的可维护性。

该系统被放置在托盘上,无需将系统从机架中移出即可维护。1U机架分流器可为每个系统引入冷却液并排出温热液体。快速断开装置让液冷系统可以迅速移除,甚至可以人工单手拆装;移除后,托盘即可拉出以便维护。

下图是一张该服务器原型的照片,展示了这些系统的内部构造。

SC23展示的Supermicro 4U通用GPU系统:支持液冷英伟达HGX H100和HGX 200

上图SC23原型中的两个x86 CPU液冷模块相对常见。

特别之处在于右侧:Supermicro的主板集成了几乎所有HGX AI服务器中使用的四个Broadcom PCIe交换机,而非将其单独安装在另一块板上。Supermicro为这四个PCIe交换机设计了定制液冷模块。

其他AI服务器通常是在风冷设计的基础上加装液冷,而Supermicro的设计则完全从零开始,为液冷而打造,且所有组件均来自同一供应商。

打个通俗的比方,这类似于汽车——有些车型先设计为燃油车,之后再安装电动动力系统,而有些车型从一开始就是为电动车设计的。这款Supermicro系统就属于后者,而其他HGX H100系统则属于前者。

Patrick怒赞道:测评了各种各样的液冷系统设计,这款Supermicro系统遥遥领先于其他系统!

网络系统

这里的每条光纤连接速率为400GbE,是常见1GbE网络速率的400倍。此外,每个系统拥有9条这样的连接,意味着每台GPU计算服务器的带宽达到约3.6Tbps。

打个比方,如果1GbE的普通家庭网络好比是一条单车道公路,那这个400GbE就像是一条拥有400车道的高速公路。而每个系统有9条这样的「高速公路」,相当于每台GPU计算服务器拥有9条这样的超宽带公路,总带宽达到3.6Tbps。

这个带宽甚至超过了2021年初顶级Intel Xeon服务器处理器在所有PCIe通道上所能处理的连接总量。

GPU的RDMA网络构成了该带宽的大部分。每个GPU都有自己的NIC。

在这里,xAI使用英伟达BlueField-3 SuperNIC和Spectrum-X网络。英伟达的网络堆栈中加入了一些独特技术,可以帮助数据绕过集群中的瓶颈,确保数据准确地传输到指定位置。

这是一个重大突破!许多超级计算机网络使用的是InfiniBand或其他技术,而这里采用的是以太网。

以太网是互联网的骨干,因此它具有极强的扩展性。这些庞大的AI集群已扩展到一些更小众技术未能触及的规模。对于xAI团队而言,这确实是一个大胆的举措。

除了GPU的RDMA网络外,CPU也配备了400GbE连接,但使用完全不同的交换结构。xAI为其GPU和集群的其余部分分别配置了独立的网络,这在高性能计算集群中是非常常见的设计。

除了高速集群网络外,还有低速网络用于管理接口和环境设备,这些都是此类集群的重要组成部分。

参考资料:

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/3/

为伟大思想而生!

AI+时代,互联网思想(wanging0123),

第一必读自媒体

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美不准中国买伊石油?不到24小时伊朗火速致电中国,中方只回一句

美不准中国买伊石油?不到24小时伊朗火速致电中国,中方只回一句

近史博览
2026-04-18 03:32:20
拒不报销?国民党主席郑丽文访问花费480万元新台币

拒不报销?国民党主席郑丽文访问花费480万元新台币

小马姨
2026-04-17 11:30:29
内塔尼亚胡:在特朗普的请求下同意

内塔尼亚胡:在特朗普的请求下同意

第一财经资讯
2026-04-17 08:12:01
那晚我住女朋友家,她妈说你俩今晚敢睡一个被窝,我就掀你们被子

那晚我住女朋友家,她妈说你俩今晚敢睡一个被窝,我就掀你们被子

千秋文化
2026-04-16 20:08:23
看!波兰超模阿里亚纳的惊艳写真,身材让人心动不已!

看!波兰超模阿里亚纳的惊艳写真,身材让人心动不已!

国际艺术大观
2026-04-16 00:10:27
特朗普对全球下令,180天内废掉中方王牌,美媒

特朗普对全球下令,180天内废掉中方王牌,美媒

往事我敬你一杯酒人
2026-04-17 20:13:14
西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

西伯利亚:吃不完的鹿肉,收不完的粮;砍不完的森林,挖不完的矿

小莜读史
2026-04-17 20:53:45
本田被曝将关停广州、武汉两座燃油车工厂 年产能砍至72万辆

本田被曝将关停广州、武汉两座燃油车工厂 年产能砍至72万辆

金融界
2026-04-17 13:45:07
一台卖4000块还被疯抢,国产激光灭蚊神器,凭什么在海外爆单?

一台卖4000块还被疯抢,国产激光灭蚊神器,凭什么在海外爆单?

Thurman在昆明
2026-04-17 18:35:13
弃伦纳德?勇士休赛期计划曝光:再追詹姆斯!只因他更配库里+追梦格林

弃伦纳德?勇士休赛期计划曝光:再追詹姆斯!只因他更配库里+追梦格林

冷桂零落
2026-04-18 02:41:46
特朗普14日访华,普京随后到,遗憾拒在华会晤

特朗普14日访华,普京随后到,遗憾拒在华会晤

无情有思可
2026-04-16 13:40:56
天啊!看到1987年春晚观众席的迟重瑞,才懂陈丽华为啥一见钟情

天啊!看到1987年春晚观众席的迟重瑞,才懂陈丽华为啥一见钟情

真的八卦小学弟
2026-04-12 00:30:12
俞强声叛逃美国始末:一场美人计,让谍王37年潜伏功亏一篑

俞强声叛逃美国始末:一场美人计,让谍王37年潜伏功亏一篑

干史人
2026-04-14 15:05:03
首钢总经理:李楠对过去发生事情有很深刻反思 自己也有很深的沉淀

首钢总经理:李楠对过去发生事情有很深刻反思 自己也有很深的沉淀

狼叔评论
2026-04-17 15:44:06
王传福官宣:比亚迪全固态电池已造出,续航超1200公里

王传福官宣:比亚迪全固态电池已造出,续航超1200公里

生活魔术专家
2026-04-17 13:47:08
紫牛头条|男子转让自己买的自行车坐垫被厂家告了,说是假货索赔2万

紫牛头条|男子转让自己买的自行车坐垫被厂家告了,说是假货索赔2万

扬子晚报
2026-04-16 17:30:22
NBA官网预测附加赛:勇士晋级首轮战雷霆 黄蜂搭上东部末班车

NBA官网预测附加赛:勇士晋级首轮战雷霆 黄蜂搭上东部末班车

罗说NBA
2026-04-17 11:14:41
朱迅抗癌20年首曝真相:7次手术,每天只吃七分饱,坚决不碰烫食

朱迅抗癌20年首曝真相:7次手术,每天只吃七分饱,坚决不碰烫食

观鱼听雨
2026-04-17 22:29:40
大快人心!许家印结局已定,3个女人被他连累,才懂白珊珊有多冤

大快人心!许家印结局已定,3个女人被他连累,才懂白珊珊有多冤

风信子的花
2026-04-16 16:37:45
中国建筑中标阿联酋首个高铁项目

中国建筑中标阿联酋首个高铁项目

GA环球建筑
2026-04-17 22:16:10
2026-04-18 04:48:49
互联网思想 incentive-icons
互联网思想
AI时代,互联网思想观察
2425文章数 16907关注度
往期回顾 全部

科技要闻

7家头部平台被罚没35.97亿元

头条要闻

知情人:伊朗为霍尔木兹海峡通行设定三个条件

头条要闻

知情人:伊朗为霍尔木兹海峡通行设定三个条件

体育要闻

中超-泰山1-1海港 杨希处子球克雷桑任意球扳平

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

又快又稳的开挂动力! 阿维塔06T全系搭分布式电驱

态度原创

旅游
房产
本地
健康
公开课

旅游要闻

三月三登泰山!蟠桃会+古风巡游惊艳出圈

房产要闻

重磅利好!2500个学位,海口滨江片区,要建九年一贯制学校!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版