AI工作负载有两个至关重要的阶段:1.模型训练,算法依靠大量数据集来学习识别模式。2.推理,经过训练的模型依据这些模式做出预测。每个阶段对存储在部署规模、性能要求、以及数据访问等方面的需求也不尽相同。
一家研究机构通过AI模型训练解决各个领域复杂问题,需要庞大多样的数据集,对AI模型进行有效训练。存储应具有大文件140GB/s的读带宽,还要有处理小碎文件的低延时IOPS。这种高性能对于加速AI训练至关重要,因为AI工作负载中会出现典型密集型随机读/写。只有高效处理数据流,才能保证计算资源(如GPU)连续运行而没有延迟。
此外,存储解决方案要搭配该研究机构的Lustre高性能并行文件系统,还需要4PB存储空间保存大量训练产生的冷数据。
EonStor GS 5000U高性能2U24盘位U.2 NVMe SSD统一存储解决方案,可实现50GB/s带宽,1.3M IOPS,以及0.3 ms延迟,对于处理密集的AI训练数据非常理想。
配置
1. 机型: GS 5000U x 3 + JB 3090 x 3
2. 通道板:100GbEx 4 (每个设备)
3. 硬盘: 15.68TB U.2 NVMe SSD x 72 ( GS 5000U) + 18TB HDD x 270 (JB 3090)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.