万卡超集群是人工智能时代的“重型武器”,也是衡量一个国家或科技巨头顶尖算力水平的关键指标。简单来说,它是由超过一万张高性能 AI 加速卡(通常是 GPU) 通过极高速的网络互联在一起,组成的一台超级巨大的超级计算机。
万卡超集群的主要使命是解决暴力计算的问题。随着 AI 模型越来越大(从百亿参数到万亿参数),单张显卡甚至几百张显卡已经完全不够用了。像 GPT-4、Claude 3 这种级别的模型,参数量达到万亿级别。如果用单卡训练,可能需要几万年;用千卡集群可能需要一年;而用万卡集群可以将训练时间压缩到几周甚至几天。
近日,在昆山举行的光合组织 2025 人工智能创新大会上,中科曙光发布并展出了 scaleX 万卡超集群,这也是国产万卡级 AI 集群系统首次以真机形式亮相。
![]()
(来源:中科曙光)
在这之前,中国高端算力市场的聚光灯长期聚焦于华为。今年 9 月份,华为轮值董事长徐直军在华为全联接大会上介绍了华为最新的超级集群。
中科曙光的 scaleX 万卡超集群,其核心设计理念是构建一个开放、兼容、高密度的超大规模算力基础设施。根据官方消息,scaleX 万卡超集群支持多品牌加速卡及主流计算生态,已实现 400+ 主流大模型、世界模型等适配优化。在实际应用中,该超集群可覆盖大模型训练、金融风控、地质能源勘探及科学智能等多元场景。
在工程架构上,中科曙光通过 scaleX640 超节点,成功将 640 张加速卡压缩在单个机柜的物理空间内,16 个超节点互联即可构建包含 10,240 张加速卡的超大规模集群。为了应对来自散热和供电的挑战,其采用了全浸没式相变液冷技术,将服务器完全浸在特制液体中,在总算力突破 5 EFlops 的同时,将 PUE 值压低至 1.04,几乎接近理论极限(1.0),大幅降低了能耗成本。
液冷技术是中科曙光很早就开始布局的王牌技术,根据公开消息,子公司曙光数创拥有 139 项液冷相关专利,节能超 30%,属国内唯一实现大规模商业化部署的企业。
此外,中科曙光搭载了自研的 ScaleFabric 高速网络,可实现 400Gb/s 超高带宽、低于 1 微秒的端侧通信延迟,相比传统的 InfiniBand 网络,通信性能提升 2.33 倍,同时网络总体成本降低 30%。
scaleX 将 GPU 资源利用率大幅提升55%,拒绝算力空转;并利用数字孪生技术实现智能化运维,确保集群在万亿参数模型训练中达到 99.99% 的高可用性。
相比之下,华为的 Atlas 950 超节点则体现了垂直整合、全栈优化的封闭式技术路线,以“昇腾芯片+CANN 软件栈”构建了坚固的自主生态。它作为一个基础算力单元,累计可部署 8,192 张加速卡。FP8 算力 8 EFlops,FP4 算力 16 EFlops。
这种路径的代价是用户被完全锁定在华为的昇腾技术体系之内,硬件选择单一。此外,要达到其理论峰值性能,往往需要构建超大规模集群,这使得初期部署门槛和总成本相对较高,且整个系统的供应依赖于华为单一的国产芯片供应链。
也就是说,华为走的是全栈自研路线,软硬件高度耦合,效率极高但相对封闭。而中科曙光 scaleX 强调“AI计算开放架构”,它支持多品牌加速卡混用,且底层芯片对 CUDA 生态具有较高的兼容性。
华为的 Atlas 950 SuperPlus 集群则由 64 个 Atlas 950 超节点并联组成,整合 52 万颗昇腾 950T 芯片,总算力能达到 524 EFlops。
它提供了目前已知全球最大的集群总算力,并依托全栈自主可控的技术,实现了从芯片到超大规模集群的完全掌控。但其挑战也更为巨大:管理一个由超过 52 万张芯片组成的系统,其部署复杂性、运维难度以及总功耗都是空前的,建设和运营成本极高,目前主要适用于国家级或区域级的战略性算力基础设施项目。
值得注意的是,在官方发布的消息中,中科曙光表示 scaleX 万卡超集群部分技术能力已超越英伟达在 2027 年产品规划中的 NVL576 系统,这是英伟达在其技术路线图中预告的下一代超大规模 AI 集群架构。
根据公开消息,中国拥有万卡超集群的企业和单位主要可以分为四类:通信运营商、互联网科技巨头、AI 独角兽企业以及算力基础设施厂商。
作为数字基础设施建设的主力军,三大运营商在全国核心枢纽节点建设了多个万卡集群,通常服务于国家算力网。
中国移动拥有最大规模的单一运营商智算集群布局。呼和浩特、哈尔滨、贵阳三大智算中心均已投产万卡级集群。其中,呼和浩特智算中心是全球运营商最大单体液冷智算中心;中国电信在上海(临港)和北京(京津冀)规划并投产了万卡级全液冷智算集群,总算力规模巨大,服务于大模型训练;中国联通在长三角、京津冀等枢纽节点也完成了万卡集群的布局,主要支持其“元景”大模型及政企客户需求。
互联网与云服务巨头为了训练自家的万亿参数大模型(如文心一言、通义千问等),最早开始布局万卡集群。
百度早在 2024 年就升级了百舸 4.0,具备十万卡集群的部署管理能力。近期更是点亮了基于自研昆仑芯三代的万卡集群,并计划扩建至 3 万卡规模;阿里云早在 2022 年就启动了“飞天智算”,并在张北、乌兰察布等地建设了超级数据中心,具备单集群支撑万卡甚至十万卡规模的能力,用于训练通义系列大模型;腾讯发布了星脉 2.0,支持超 10 万卡组网,其混元大模型就是基于自建的万卡集群训练完成的;作为推荐算法和豆包大模型的拥有者,字节跳动拥有极其庞大的 GPU 储备。其火山引擎推出了万卡集群解决方案,并实际部署了超大规模的训练集群。
AI 独角兽与垂直领域企业通常与硬件厂商深度合作,建设针对特定模型优化的集群。
如科大讯飞的“飞星一号”。这是全国首个基于国产算力(华为昇腾)训练全民开放大模型的万卡算力平台,用于训练“讯飞星火”大模型,具有标杆意义;商汤科技的商汤AIDC 位于上海临港。 这是一个巨型算力装置,早已达到万卡级别,不仅自用,还对外提供算力服务(算力出租)。
此外,摩尔线程也于近日在首届 MUSA 开发者大会上正式发布了夸娥万卡智算集群。该集群具备全精度、全功能通用计算能力,在万卡规模下实现高效稳定的 AI 训练与推理。
政策方面,《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》已明确将万卡级集群确立为国家算力网的“主干节点”;工信部《算力基础设施高质量发展行动计划》划定了智能算力占比 35% 的硬指标,并明确要求推动“集约化发展”。
与此同时,北京、上海、深圳等地掀起了算力高地争夺战。北京不仅自己建,还通过政府采购形式,将私有万卡集群的算力纳入公共平台统一调度;上海明确支持上海仪电等国企部署万卡智算集群,对租用智算集群进行大模型研发的企业,给予最高 10% 的租金补贴;深圳提出打造中国算网城市标杆,要求市内数据中心间时延不高于 1ms。这对集群的网络互联架构提出了极高要求。
1.http://www.szass.com/skkx/skjx/content/post_1119283.html
2.https://www.reddit.com/r/HPC/comments/1jl75dj/so_nvidia_is_planning_on_building_hardware_that/
3.https://www.sugon.com/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.