兴建于公元前295年,藏书量高达70万卷,并存有欧几里得《几何原本》、荷马史诗全集等典籍的亚历山大图书馆,被称为人类历史上最伟大的图书馆。
然而,这座人类知识的殿堂,却对文明的进程没有产生任何推动价值,就湮灭为历史的尘埃。因为,知识如果不能被检索、被流转、被利用就无法产生智慧。
就像是海量的数据存在于系统之中,但如果不能被及时读取和运用,算力就会“空转”,数据就发挥不出应有的价值。如今,大模型参数正突破万亿级别,训练数据从PB迈向EB级,传统存储架构,就如无法发挥价值的古代图书馆,无法满足AI应用对海量数据的渴求。
![]()
在智算崛起的时代,存储系统正逐渐成为AI走向规模化部署的“瓶颈”,一场关于存储系统的重构势在必行。
01
智算时代
存储系统面临复杂化挑战
中国信通院的报告显示:95%企业将基于私域数据构建专属模型,需要至少十年的历史数据。
这意味着,当企业AI需求从通用大模型全面迈向专属大模型的同时,存储系统不仅要承载当前的训练数据,更要能够面向AI时代的需求变迁,保持长期演进的能力。
首先,模型复杂度正大幅增长,参数规模从千亿向万亿级别跃进,相应的算力基础设施从千卡集群扩展到万卡规模,对存储系统的读写带宽提出了更高要求。
比如,TB级Checkpoint(模型检查点)的下刷与加载,会影响训练中断后的恢复速度,也是推理阶段加载模型的“高速入口”,这对读写带宽提出TB/s级的要求;再有海量小文件的随机读操作,如训练素材的快速加载、推理阶段的KVCache卸载等,都直接影响GPU的利用率,若响应延迟过高,千亿参数的算力洪流便会因数据供给不足而断流。
其次,数据类型变得空前复杂,训练数据涵盖文本、图像、视频、结构化数据等多种格式,且分散在不同的存储系统中,有约30%的企业在数据兼容性和统一访问方面遇到了明显障碍。
第三,业务连续性要求极致可靠,超过60%的企业用户反馈,训练任务常因底层存储系统不稳定而中断,而每次中断意味着大量的计算资源浪费。
不难发现,AI工作负载对存储系统的需求呈现出多重挑战,既需要极高的顺序读写带宽来处理检查点文件,又需要卓越的随机读写性能来应对海量训练素材的访问。双重压力使传统为单一场景设计的存储架构不堪重负。
![]()
因此,我们需要一种新型存储系统:它必须具备极致的扩展能力以容纳EB级数据,能够支持混合工作负载,并通过智能架构避免频繁的数据迁移。而新华三Polaris X20000智算存储的推出,正是为了迎接AI时代的挑战。
02
存储架构重构
打通数据供给“生命线”
当前 AI 算力竞赛已进入“万卡集群”的新阶段,存储架构的痛点已从单纯的容量需求,升级为对低延迟、高并行、智能调度的系统性诉求,谁能率先突破传统存储的性能与协议桎梏,谁就能掌握 AI 集群高效运转的核心话语权,并推动存储技术向全栈创新方向演进。
首先,在万卡级AI集群中,计算与存储的比例已经发生本质变化,传统存储的单节点性能瓶颈会导致整个系统无法充分发挥GPU集群的算力,这就是为什么单节点性能突破如此关键。
Polaris X20000通过全闪存配置实现单节点150GB/s的带宽突破,在最新的MLPerf Storage v2.0基准测试中,在保持GPU利用率90%以上的条件下,实现了单节点158.92GB/s和集群476.75GB/s的卓越表现。
![]()
其次,在传统NFS协议下,客户端只能连接到单一存储节点,跨节点数据访问需要二次转发,如同快递必须经过中转站,增加了延迟和网络开销。
而Polaris X20000通过EPC(Enhanced Parallel Client)高性能并行客户端,彻底改变了客户端与存储节点的交互模式,它允许单个客户端直接并行访问多个存储节点,实现IO级别的负载均衡和高效数据分布,将“单车道小路”升级为“多车道高速公路”。在真实的AI检查点场景中,这种架构使TB级文件能够并行写入多个节点,显著缩短了保存时间,避免了GPU因等待存储而空闲。
第三,如今的图像帧和文本片段等训练素材通常以千万级小文件形式存在,推理阶段的KVCache(键值缓存)更是由数十亿个小IO组成。传统方案中,小IO与大IO混杂处理会导致缓存浪费、网络拥塞。
智能IO分流技术则可以根据IO大小智能分配数据路径:小IO直接写入缓存层后立即返回,显著提升响应速度;大IO绕过缓存,通过RDMA直接从协议层拉取数据,既缩短了IO路径,又避免了缓存资源的浪费,真正意义上实现“以存提效”。
最后,传统数据传输需要经过多次内存拷贝和上下文切换,CPU大量时间耗费在数据搬运而非业务处理上。而新华三通过全RDMA互联和内存零拷贝技术,实现了内核绕行和零拷贝,数据直接从发送端内存传输到接收端内存,无需CPU参与,使系统带宽利用率大幅提升,同时显著降低了延迟。
可贵的是,Polaris X20000这一系列技术创新形成了完整的系统优化,并且在多个实际部署案例中,成功支撑了从千卡到万卡规模的AI训练集群,证明了其在真实生产环境中的成熟度。
03
三点突破
为智算存储进化带来启示
总结而言,AI时代的存储革命,核心要解决的就是三个根本要求:
第一是,极致性能以充分释放GPU算力潜力;第二是,架构融合以支持从数据预处理、模型训练到推理部署的全流程;第三是,智能运维以确保系统稳定并降低运营成本。
![]()
Polaris X20000之所以代表智算存储的最佳实践,正是因为它在这三个维度上都实现了突破性创新。
比如在性能上,Polaris X20000通过全闪存架构和软件优化,实现了单节点150GB/s的带宽突破,同时保持优异的随机读写性能,将GPU训练等待时间明显缩短,显著加速AI研发进程;在架构上,实现了“一套存储支撑全流程”的目标,迁移时间从数天缩短到零小时,不仅简化了数据流水线,还确保了数据一致性和完整性;在智能运维上,引入“AI in ALL”理念,通过机器学习算法实现故障预测、智能调优和自动化运维,显著降低运维复杂度和管理成本。
事实上,随着大模型持续进化迈向万亿参数,多模态学习成为主流,存储系统的价值将愈发凸显。Polaris X20000给我们的启示在于,只有当存储系统能够无缝支撑数据流动、智能处理和价值挖掘时,人工智能才能真正从技术实验转变为产业动力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.