新华三Polaris X20000：智算时代存储系统的重构与领航|io|高吞吐量内核|polaris

新华三Polaris X20000：智算时代存储系统的重构与领航

2025-11-04 18:40:41　来源: 科技正能量

北京举报

分享至

兴建于公元前295年，藏书量高达70万卷，并存有欧几里得《几何原本》、荷马史诗全集等典籍的亚历山大图书馆，被称为人类历史上最伟大的图书馆。

然而，这座人类知识的殿堂，却对文明的进程没有产生任何推动价值，就湮灭为历史的尘埃。因为，知识如果不能被检索、被流转、被利用就无法产生智慧。

就像是海量的数据存在于系统之中，但如果不能被及时读取和运用，算力就会“空转”，数据就发挥不出应有的价值。如今，大模型参数正突破万亿级别，训练数据从PB迈向EB级，传统存储架构，就如无法发挥价值的古代图书馆，无法满足AI应用对海量数据的渴求。

在智算崛起的时代，存储系统正逐渐成为AI走向规模化部署的“瓶颈”，一场关于存储系统的重构势在必行。

智算时代

存储系统面临复杂化挑战

中国信通院的报告显示：95%企业将基于私域数据构建专属模型，需要至少十年的历史数据。

这意味着，当企业AI需求从通用大模型全面迈向专属大模型的同时，存储系统不仅要承载当前的训练数据，更要能够面向AI时代的需求变迁，保持长期演进的能力。

首先，模型复杂度正大幅增长，参数规模从千亿向万亿级别跃进，相应的算力基础设施从千卡集群扩展到万卡规模，对存储系统的读写带宽提出了更高要求。

比如，TB级Checkpoint（模型检查点）的下刷与加载，会影响训练中断后的恢复速度，也是推理阶段加载模型的“高速入口”，这对读写带宽提出TB/s级的要求；再有海量小文件的随机读操作，如训练素材的快速加载、推理阶段的KVCache卸载等，都直接影响GPU的利用率，若响应延迟过高，千亿参数的算力洪流便会因数据供给不足而断流。

其次，数据类型变得空前复杂，训练数据涵盖文本、图像、视频、结构化数据等多种格式，且分散在不同的存储系统中，有约30%的企业在数据兼容性和统一访问方面遇到了明显障碍。

第三，业务连续性要求极致可靠，超过60%的企业用户反馈，训练任务常因底层存储系统不稳定而中断，而每次中断意味着大量的计算资源浪费。

不难发现，AI工作负载对存储系统的需求呈现出多重挑战，既需要极高的顺序读写带宽来处理检查点文件，又需要卓越的随机读写性能来应对海量训练素材的访问。双重压力使传统为单一场景设计的存储架构不堪重负。

因此，我们需要一种新型存储系统：它必须具备极致的扩展能力以容纳EB级数据，能够支持混合工作负载，并通过智能架构避免频繁的数据迁移。而新华三Polaris X20000智算存储的推出，正是为了迎接AI时代的挑战。

存储架构重构

打通数据供给“生命线”

当前 AI 算力竞赛已进入“万卡集群”的新阶段，存储架构的痛点已从单纯的容量需求，升级为对低延迟、高并行、智能调度的系统性诉求，谁能率先突破传统存储的性能与协议桎梏，谁就能掌握 AI 集群高效运转的核心话语权，并推动存储技术向全栈创新方向演进。

首先，在万卡级AI集群中，计算与存储的比例已经发生本质变化，传统存储的单节点性能瓶颈会导致整个系统无法充分发挥GPU集群的算力，这就是为什么单节点性能突破如此关键。

Polaris X20000通过全闪存配置实现单节点150GB/s的带宽突破，在最新的MLPerf Storage v2.0基准测试中，在保持GPU利用率90%以上的条件下，实现了单节点158.92GB/s和集群476.75GB/s的卓越表现。

其次，在传统NFS协议下，客户端只能连接到单一存储节点，跨节点数据访问需要二次转发，如同快递必须经过中转站，增加了延迟和网络开销。

而Polaris X20000通过EPC（Enhanced Parallel Client）高性能并行客户端，彻底改变了客户端与存储节点的交互模式，它允许单个客户端直接并行访问多个存储节点，实现IO级别的负载均衡和高效数据分布，将“单车道小路”升级为“多车道高速公路”。在真实的AI检查点场景中，这种架构使TB级文件能够并行写入多个节点，显著缩短了保存时间，避免了GPU因等待存储而空闲。

第三，如今的图像帧和文本片段等训练素材通常以千万级小文件形式存在，推理阶段的KVCache（键值缓存）更是由数十亿个小IO组成。传统方案中，小IO与大IO混杂处理会导致缓存浪费、网络拥塞。

智能IO分流技术则可以根据IO大小智能分配数据路径：小IO直接写入缓存层后立即返回，显著提升响应速度；大IO绕过缓存，通过RDMA直接从协议层拉取数据，既缩短了IO路径，又避免了缓存资源的浪费，真正意义上实现“以存提效”。

最后，传统数据传输需要经过多次内存拷贝和上下文切换，CPU大量时间耗费在数据搬运而非业务处理上。而新华三通过全RDMA互联和内存零拷贝技术，实现了内核绕行和零拷贝，数据直接从发送端内存传输到接收端内存，无需CPU参与，使系统带宽利用率大幅提升，同时显著降低了延迟。

可贵的是，Polaris X20000这一系列技术创新形成了完整的系统优化，并且在多个实际部署案例中，成功支撑了从千卡到万卡规模的AI训练集群，证明了其在真实生产环境中的成熟度。

三点突破

为智算存储进化带来启示

总结而言，AI时代的存储革命，核心要解决的就是三个根本要求：

第一是，极致性能以充分释放GPU算力潜力；第二是，架构融合以支持从数据预处理、模型训练到推理部署的全流程；第三是，智能运维以确保系统稳定并降低运营成本。

Polaris X20000之所以代表智算存储的最佳实践，正是因为它在这三个维度上都实现了突破性创新。

比如在性能上，Polaris X20000通过全闪存架构和软件优化，实现了单节点150GB/s的带宽突破，同时保持优异的随机读写性能，将GPU训练等待时间明显缩短，显著加速AI研发进程；在架构上，实现了“一套存储支撑全流程”的目标，迁移时间从数天缩短到零小时，不仅简化了数据流水线，还确保了数据一致性和完整性；在智能运维上，引入“AI in ALL”理念，通过机器学习算法实现故障预测、智能调优和自动化运维，显著降低运维复杂度和管理成本。

事实上，随着大模型持续进化迈向万亿参数，多模态学习成为主流，存储系统的价值将愈发凸显。Polaris X20000给我们的启示在于，只有当存储系统能够无缝支撑数据流动、智能处理和价值挖掘时，人工智能才能真正从技术实验转变为产业动力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.