面向超万卡智算集群的创新型存储关键技术研究与实践|拷贝|服务器|存储池|数据量

分享至

通信世界网消息（CWW）千亿模型的训练需要对PB量级的数据集使用多种协议进行处理，万亿模型的训练对checkpoint的读写吞吐性能需求更是高达10TB/s以上，传统存储解决方案在多协议处理、吞吐性能、数据管理效率等方面面临诸多挑战:

海量数据多协议处理挑战

大模型训练全流程存在多种存储协议需求

AI大模型训练是一个复杂而耗时的过程，以 GPT-4 为例，其拥有 1.8 万亿参数，完成一次训练需在 2 万多张 A100上耗时约 90 天，整个训练过程涉及海量数据的读取、写入与处理，通常可以划分为以下几个关键阶段：数据归集、数据预处理、模型训练以及模型发布。

数据归集阶段：需要获取多地域、多分支收集大量原始数据，千亿级大模型原始数据归集总量可达PB量级，这些数据以非结构化数据为主，包括文本、图像、音频、视频等多种形式，涵盖了各个领域的信息，如商业数据、社交媒体数据、传感器数据、论文、书籍等，这些数据将为模型提供丰富的训练素材。在此阶段，数据的获取方式呈现出多样化和复杂性的特点，由于数据归集阶段的数据量巨大且来源广泛，且需要跨域广域网传输，对象存储因易于跨域交互及广泛应用兼容性，成为了这一阶段的首选存储方式。

数据预处理阶段：对大量原始数据进行清洗，去除敏感、重复和不相关的数据，并按照训练模型需求对数据进行切分或格式转换，确保输出训练集数据的高质量和准确性，这一阶段通常使用对象S3协议或文件NFS协议处理。

模型训练阶段：这一阶段是整个过程的核心，利用清洗后的数据对模型进行训练，不断调整模型参数以提高其性能。此阶段一方面要从存储服务器中高速读写训练集，另一方面要能够定期存储训练中间结果，以便训练中断后能够快速恢复。此阶段需要存储系统提供高带宽和低延迟的数据访问能力，避免因等待数据或等待checkpoint写入而导致GPU空闲等待，文件存储成为这一阶段的主流方式。

模型发布阶段：需要将训练好的模型更新到推理中心，以便在实际应用中进行推理部署。由于推理中心通常分布在不同的地理位置，甚至可能跨越广域网，因此在广域网上使用对象存储成为了最简捷的方式。

传统存储方案海量数据跨池拷贝痛点

传统数据中心通常采用对象、文件、块等协议分立的分布式存储集群解决方案，来应对不同业务类型的数据存储需求，然而这种传统方案在智算场景下面临挑战。

图1AI大模型不同训练阶段的存储要求及方案

如图1所示，AI大模型训练的全流程包含数据收集、数据预处理、模型训练以及模型发布等多个阶段，每个阶段对存储系统的需求差异显著。例如，数据收集阶段需要高吞吐量的对象存储以支持海量非结构化数据的快速写入；数据清洗阶段要求数据存储系统能够提供高读写速度，以确保GPU能够持续获得数据进行处理，避免因数据读写速度不足而导致的GPU空闲和算力浪费；模型训练阶段则对高IOPS和低时延的并行文件系统提出严苛要求；在模型发布阶段，需要能够轻松应对大规模数据的存储和传输需求，并且具有便捷的访问接口和数据管理功能，使得模型的部署和管理更加高效和便捷。然而，传统存储生态的碎片化使得用户不得不依赖多套独立的存储系统来满足不同阶段的需求——这种“拼凑式”方案虽然能勉强覆盖全流程，却带来了数据孤岛、资源浪费和效率低下等严重问题。

过去几十年间，存储领域针对不同场景的需求，逐渐分化出NAS文件存储、HDFS大数据存储[2]、对象存储等多种系统，每类系统均围绕自身协议构建了独立的应用生态。例如，对象存储凭借其高扩展性和低成本特性，成为海量数据归档的首选；而NAS文件存储则成为AI训练中高频访问数据的载体。这种生态割裂导致用户被迫在多套系统间反复迁移数据：预处理阶段的数据从对象存储拷贝至文件存储，训练完成的模型又需转存至对象存储以供发布。数据在不同系统间的冗余存储不仅占用大量空间，跨协议拷贝的效率低下更成为流程瓶颈——以自动驾驶研发为例，一次训练任务的原始数据量可达PB级，若依赖传统方案在不同存储系统间迁移，拷贝耗时可能长达数天，直接拖慢整体训练进度。

第一、数据拷贝时间带来的效率问题。在大模型训练中，数据的快速传输和处理是关键，而长时间的拷贝过程会导致训练过程的延迟，降低模型的训练速度和性能。

第二、多种协议处理数据。在大模型训练过程中，数据需要在对象存储和文件存储之间进行重复保存，在数据收集阶段，大量非结构化数据（如图像、视频等）通常通过对象存储进行高效管理和存储。然而，进入数据清洗阶段后，为了对数据进行修改和脱敏操作，需要将对象存储中的数据转换为文件存储格式，以便利用文件存储的高性能读写能力。这一转换过程导致数据在两种存储系统中都存在副本，增加了存储资源的浪费，同时增加了数据管理的复杂性。

第三、依赖拷贝服务器。对象存储和文件存储之间的数据转换需要依赖专门的拷贝服务器，这增加了系统的复杂性和外部算力资源占用。在数据量巨大的情况下，拷贝服务器的性能可能无法满足数据传输的需求，导致数据传输延迟和系统性能下降。此外，拷贝服务器的引入还增加了系统的故障点，一旦拷贝服务器出现故障，整个数据传输过程将受到影响，进而影响大模型训练的进度和效率。

存储集群高吞吐性能挑战

在AI大模型训练过程中，存储系统需要提供极高的吞吐性能，以满足大规模、高复杂度计算任务对高聚合带宽数据访问的需求。随着模型规模的不断扩大，训练任务对数据访问的要求也变得更加复杂，智算集群的作业调度通常导致突发性I/O请求激增。例如175B参数量的GPT3模型训练单个checkpoint文件尺寸可达约4TB，在checkpoint保存时，成千上万的GPU会同时将模型状态写入存储系统，引发“写风暴”。

从集群规模角度看，存储聚合带宽和存储集群节点数强相关，而集群节点数通常受限于故障域不能过大，这个矛盾在大规模智算集群场景下凸显，一方面对聚合带宽诉求高，另一方面存储稳定性不能下降。传统存储系统远远难以满足这些需求，亟需通过系统软硬件技术协同手段提升存储集群吞吐性能。

存储数据管理效率挑战

在智算中心中，数据冷热状态随着训练任务的进度发生变化，数据流转的效率和流畅性对于保证整个系统的运行效率至关重要。大模型训练场景需要保存大量数据，其中训练过程中频繁使用的数据（热数据）通常保存在性能高但成本也较高的SSD（固态硬盘）介质上，以保证快速的数据访问速度。然而，随着训练的推进，部分数据可能不再频繁被访问，转变为冷数据，需要考虑如何降低这些冷数据的保存成本[3]。传统存储方案不支持冷热数据的自动分级管理和流转，依赖人工干预和外部算力拷贝，缺乏自动分级流动会导致资源浪费与效率低下。

资源占用方面，热数据长时间占用高性能存储介质，即便访问频率降低变为冷数据，仍占据着宝贵的高速存储资源，造成高性能存储和普通性能存储之间存在较多数据冗余，高性能存储的读写性能优势无法充分发挥在真正需要的热数据上。而在做人工数据分级流动时，还需要占用存储系统外部算力资源进行数据拷贝搬迁。

运维管理方面，无法自动分级流动会大幅增加人力成本与管理复杂度。运维人员需要手动判断数据的冷热状态，并执行数据迁移操作，这不仅耗时耗力，还容易出现判断失误或迁移不及时的情况。随着数据量的不断增长，人工管理的难度呈指数级上升，稍有不慎就可能导致数据丢失、损坏或业务中断，增加了运维风险。

面向超万卡智算集群创新存储技术架构及规模应用

技术架构

为应对超万卡智算集群数据存储挑战,实现存储数据高效流动，并支持智算集群大规模扩展，制定融合存储创新系统架构，支持多协议融合互通、高吞吐性能和热冷数据自动分级能力，提升智算数据处理效率，支撑万卡集群千亿乃至万亿参数大模型训练，其架构如图3所示。

图3面向万卡智算集群的多协议融合存储架构

1）存储介质：热数据存储在基于高密全闪介质的高性能存储池，主存介质全部使用固态硬盘（SSD）；温冷数据存储在基于混闪介质的普通性能存储池，缓存介质使用固态硬盘（SSD）和机械硬盘（HDD）。

2）存储网络：存储节点采用2*100Gb RoCE网络接入，在AI训练服务器集群和存储集群之间构建高速数据面网络连接。

3）协议互通：协议层基于统一元数据层，提供POSIX、NFS、S3多种协议互通能力，向上对AI训练提供各类协议访问接口，训练数据无需跨池拷贝，实现训练流程无缝衔

4）自动分级：构建冷热数据自动分级能力，基于统一命名空间，实现冷热数据在性能型全闪存储池、容量型混闪存储池之间自动高效流动。

系统实践

2022年以来，中国移动联合产业界，积极推进面向大规模智算的创新型存储技术攻关，开展方案验证，推动技术成熟和落地应用，先后在中国移动2个超万卡智算中心呼和浩特节点、哈尔滨节点分别完成百PB级商用建设，其中哈尔滨节点，完成多协议融合存储业界首次规模商用。

方案验证

基于实验室实测数据及系统仿真结果，对不同存储集群规模、组网和客户端的存储集群聚合吞吐性能，基于100G RoCE组网和POSIX客户端的大规模存储集群吞吐性能具有显著优势。

图10不同存储集群规模、组网和客户端的读吞吐性能对比

图11不同存储集群规模、组网和客户端的写吞吐性能对比

不同存储集群规模、组网和客户端下，存储集群聚合吞吐性能的对比，如图10和图11所示，可以看出基于1PB容量存储集群，使用100G RoCE组网和POSIX并行客户端下模式下的100%读性能和100%写性能，比25G TCP组网和NFS客户端模式高约3倍，比100G ROCE组网和NFS客户端模式高约1倍。基于100G RoCE组网和POSIX客户端模式的48PB大集群可提供6.4TB/s 100%读带宽和3.5TB/s 100%写带宽吞吐性能，对于2000亿参数的大模型单个checkpoint文件大小可达4TB，基于48PB大集群提供的聚合吞吐性能，可为AI服务器训练提供单次checkpoint保存秒级写入能力。

商用部署

中国移动1.8万卡国产化智算中心哈尔滨节点，算力规模6.9EFLOPS，该中心承载九天千亿级参数基础大模型的研发与训练，结合模型训练要求，项目共计建设融合存储150PB，包括全闪存高性能存储60PB和普通性能存储90PB，通过多协议互通避免海量训练数据跨池拷贝，以周为粒度提升大模型训练效率。

图12超万卡智算集群组网拓扑

如图12所示，数据面组网采用100G RoCE网络，为AI智算集群与融合存储集群提供高速网络连接，最大可提供8TB/s纯读聚合带宽，4.4TB/s纯写聚合带宽，23,200万纯读IOPS，2,950万纯写IOPS，支撑GPU服务器高效访问训练数据。融合存储集群对外通过25G业务面网络提供对象协议访问，融合内部全闪存储池和混闪存储池基于100G RoCE数据面网络连接，进行冷热数据的自动流转，采用创新智算存储方案预期产生以下效益：

1）多协议融合：在不采用多协议融合的情况下，文件和对象之间数据迁移和转换，需要增加5%的算力占用，同时文件和对象数据需要保存至少两份，混闪存储容量至少需要增加40%。大模型数据归集PB量级原始数据，需要以星期级到月级进行跨池拷贝。通过采用多协议融合存储技术，解决了海量数据跨池拷贝痛点，节省了外部算力和存储容量占用。

2）高聚合带宽：在没有高聚合带宽的情况下，训练卡将会消耗更多时间等待checkpoint的写入和恢复，预计将会导致训练卡的使用率下降至少5%左右。通过存储节点采用全闪介质、2*100Gb RoCE组网以及POSIX客户端手段，实现存储集群吞吐性能提升，提升智算资源利用率。

3）数据智能分级：在不采用智能分级的情况下，全闪和混闪之间温冷数据的迁移拷贝和网络传输，需要增加5%的算力占用，同时全闪和混闪之间存在部分数据重复，将会增加20%的全闪空间占用。通过智能分级技术，实现冷热数据自动流动，节省了外部算力资源级存储空间占用。

2.2.3标准推进中国移动万卡智算中心先进存储技术应用创新方案，先进性得到业界广泛认可，从8600多个项目中脱颖而出，荣获2024年“华彩杯”算力大赛全国总决赛一等奖。

中国移动在中国通信标准化协会CCSA牵头完成《智算中心分布式文件及对象协议融合存储技术要求》行业标准立项，推动智算中心融合存储技术标准统一，促进先进存储技术应用推广。

3结束语中国工程院院士倪光南指出“存力、算力、运力缺一不可，只有三者平衡配置、均衡发展，才能充分发挥算力的作用”。大规模智算集群建设，面临集群算力使用效率、海量数据处理、超大规模网络互联、集群高可用等诸多挑战，在智能计算能力提升的情况下，作为算力三要素之一的存力系统能力也需要同步提升，才能达成存算均衡，确保集群效率，使得投资效益最大化。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.