12月16日,主题为“以存强算?AI新时代存储的价值与提升路径”的专家研讨会在益企研究院视频号成功举办。
此次研讨会是“全栈智算系列直播”栏目的第四期,第一期为,第二期为,第三期为
本期直播由益企研究院高级研究员祁金华主持,邀请了中国农业大学信息化办公室总工程师劳凤丹,南京大学信息化建设管理服务中心副主任、eScience中心负责人姚舸,腾讯云TVP、中国电子学会终身会员、信通院AI Cloud MSP技术服务实验室专委会专家雷葆华,新华三集团存储产品部总监曹镇作为研讨嘉宾。
![]()
访问益企研究院视频号,点击12月16日直播回放,即可观看。
由于篇幅较长,如下是本期直播回顾精彩观点的第一部分。
01
企业要做好大模型的训练、微调、推理,对于存储系统有什么样的性能需求?
劳凤丹:在现阶段,AI对存储提出了更高的要求,主要在于三点。
第一点是要求更高的性能和更大容量,因为数据采集、数据预处理和模型训练等要求速度更快、延迟更低,也要求更高的IOPS。训练数据则需要超大容量的存储空间。
第二点是需要单套存储系统,来支撑AI的全生命周期的数据流程,是一个阶段的输出马上可以作为 另一个阶段的输入,避免等待的时间和不必要的数据移动,以及重复存储。数据的高效流转和协同非常重要。
第三点,就是存储的介质和架构也在发生明显的变化,之前HPC都是用的HDD硬盘,现在AI更多的是采用SSD或NVMe,从硬盘向SSD转换。从机械盘向固态盘转变。
存储架构也在发生变化,从传统的主从架构,向全直通和全对等的架构转变,方便它进行横向扩展。
总的来说,业界正在通过增强存储的能力,来辅助计算,然后提升基础设施的整体利用效率。
不过,高校的存储建设,不仅是一个技术问题,还需要分场景,根据建设资金来进行综合考虑。
姚舸:高校里面的AI集群其实都是从HPC集群演变而来,或者在原有的HPC集群上增加的能力。跟在HPC集群时代一样,我一直认为存储是集群里面最大的一个变数。
从计算和网络而言,可选项并不多,但是存储系统,无论从介质、架构或者软件来说,选择都非常多,到了AI时代,存储的性能对集群的影响就更为明显。
比如说在南京大学,2019年的时候自己搭建了一套全闪的存储,此前的集群都是硬盘存储,只有元数据存储在SSD上。我们的用户采用GPU做训练的时候,就发现速度比较慢,在切换到我们的NVMe的SSD存储上之后,速度立刻就翻了好几倍。
这个小例子也可以简单说明,在AI时代,存储很可能成为一个集群的瓶颈。一旦存储性能不够,整个集群的使用效率就会下降,那就会浪费GPU的利用率,那就是一种严重的浪费。
对于大模型的训练、微调和推理几个阶段而言,在学校里面,训练和微调大概率都是单独的AI集群或者说是跟HPC集群在一起的集群,它对性能的要求较高,相对而言,稳定性的要求可能不是很高,毕竟在学校里面,HPC集群和AI集群一年都可能断电一到两次,进行寒暑假期间的例行维护。
但是对于推理而言,就不太一样,毕竟推理可以算是生产环境,对于高校来说,推理对存储的稳定性要求更高一些。
雷葆华:在训练场景中,对于存储最基础的要求就是高并发、高吞吐能力。之前我们完成的很多案例都是千卡左右的集群,到了这个规模,其并发访问量非常大,在大模型训练进行的时候,几百台服务器会同时访问一个存储,因此它对并发访问的要求很高、吞吐量也很高。在训练阶段,有一个存储等待的问题,毕竟GPU的成本太高,大家都希望是把GPU的能力榨干,提升GPU的利用效率。
那么,在这种情况下,对于存储来说,就是要尽可能缩短存储的时间,减少GPU的等待时间。这就要求在模型加载的阶段和checkpoint写入的阶段,都要求更高的存储性能,因此低时延、高并发就成为了存储的很重要的需求。
第二,在微调和预训练、预处理场景中,需要支持客户的开发训练环境。在多个团队进行模型训练、开发的工作时,那就涉及到元数据的使用,包括元数据的访问加载等,会遭遇存储的一些性能瓶颈。
第三,在推理场景,它跟传统的云计算有些类似,它是以单机的模型部署为主,那么需要缩短用户的访问时延,是一个实时在线的业务,要求会比较高,那么对于存储系统来说,现在的主流做法就是把KV进行缓存,放在内存或者本地SSD中,然后后面再把历史数据保存到分布式存储中,这是存储分级的方式。
整体而言,存储的变数很多,要根据客户的具体需求和使用场景、包括预算等,进行具体的分析才能够有更合适的存储方案。
曹镇:在AI时代,存储有了三个比较大的趋势改变。
首先一个就是性能方面的变化,AI催生了全闪存储的快速普及。在原来的时候,更多的情况下,CPU的性能远超于硬盘的性能,更多的时候是CPU在等待存储。不过现在的主流存储系统,已经颠覆了这一点。
主要原因是NVMe的全闪存储性能大幅度提升,CPU性能相对落后,因此现在全闪系统基本上都是要采用最先进的CPU来进行配合,这个跟之前的存储系统已经不一样。
其次是文件的数量的变化。举例而言,在智算时代到来之前,大家面临的文件的个数,最多也就是以亿来计算,现在仅仅一个token化的过程之中,文件的数量就突破了百亿,这是一个非常大规模的情况。这也就导致元数据的管理,变成了一个非常复杂的事情,因此现在可以看到对象存储的广泛应用,包括对象存储跟NAS存储的融合,也成为了非常关键的点。
第三个就是GPU的等待问题,根据一个统计,在大模型到来止呕,GPU有30%的时间是在等待存储,这也就是GPU资源浪费的最大的一个环节。这也就意味着在存储系统中,其连续性如何保障?这不仅需要存储的性能要高,更重要的是如何优化存储,以适配一个很好的大模型,这是一个很重要的话题,这更是我们立足于将存力和算力都提高之后,综合考量的一个重要的关键点。
也就是说,智算催生了存储整体性能的飙升,但是如何做好大模型的存储,是很艰难的、复杂的调优过程。
02
在算力出现瓶颈的情况下,以存强算是必须,还是锦上添花?存储的价值体现在哪些环节?
雷葆华:显然,以存强算已经是必须要做的事情。正如前面所讨论的,GPU等待时间的30%都是存储带来的。
在一个智算系统中,计算、存储、网络三个方面是需要协同配合的,任何一点成为瓶颈,都会严重拉低整个系统的效能,因此存储的优化是必须要考虑的事情。毕竟存储的变化,会带来几倍的训练效率的差异。
因此,存储的优化,实现以存强算,那就不是一个锦上添花的事儿,而是一个必须选项的事情。
存储优化的价值体现在下面几个方面:
第一个,在大模型时代,又回到了数据为王的局面。那么,存储由于其自身就是数据的载体,因为其数据不能丢,要保障其可靠性、安全性,以及其数据的加载和保存,都需要更高的速度;
第二个,存储主要影响的是训练效率以及整体集群的利用率,也因此影响了资金的使用效率。
第三个,就是不同的客户之间,多租户之间,数据怎么进行隔离,数据存储的安全性如何保障,这是在运营过程中必须考虑的问题。
这几点就导致,以存强算不是一个锦上添花的可选项,而是在智算时代的必须。
劳凤丹:一方面存储性能增强,可以解决GPU数量不足的问题。如果存储性能和速度不足,跟不上GPU的计算速度,就会影响整体的集群性能发挥,如果存储性能提高,那么GPU等待时间就会变短,利用率就会变高。
另外一方面,存储速度快,GPU就可以多算,等同于GPU的数量增加了。由于GPU较贵,存储相对便宜,适当增加存储投资,提升存储性能,那就可能比增加GPU投资更合算一些。
不过,普通高校投入不够的情况下,一般不会投资专门的全闪存储,而是有可能在GPU服务器中配置较高性能的存储,比如说配置多个SSD或者NVMe的硬盘,配置高内存、高核心的CPU,很多的智算直接在本机完成。
我们学校目前,智算和超算采用的是同一存储。如果有足够的费用,才能选择更好的技术路线,使用更好的存储介质,采用更好的网络,或将智算和超算存储分离,以便让存储有很好的并行读写带宽和支持高并发的IO能力。
很多高校跟我们一样,在智算基础设施领域的建设资金暂时不太宽裕,因此只能采取一些相对中庸的方案,先解决主要矛盾,然后顺带考虑未来的发展。
姚舸:南京大学的eScience中心最早是一个HPC集群,后来慢慢增加了一些GPU,最早是用来做科学计算的。随着AI的发展,在同一个集群上继续做AI相关的研究,由于经费有限,其实存储的性能相对很有限。
从高校的角度而言,很难有类似企业那么巨额的在AI领域的投资,毕竟很难看到一个高校去建设千卡或者万卡的集群,基本上doushiGPU节点上直接使用NVMe盘,操作系统安装在NVMe盘上,用户直接用本地目录就可以无感知使用本地的全闪盘;如果再有并行高速存储需求的话,就采用我们自建的NVMe的全闪。
其实,不光是现在AI对于存储的要求高,HPC领域也是如此。从之前纯计算到现在的数据科学,对存储的要求越来越高,文件数也越来越多,海量的元数据管理是非常头疼的问题。因为用户会希望在单一命名空间内,存储所有文件,那会出现非常多的元数据,这就给管理带来非常大的问题。
在之前,HPC的存储和网络发展都相对较慢,AI的加入,迅速推动了HPC的存储和网络的发展。因此来说AI的加入,对于HPC有很大的促进,激活了整个产业界的能力。
曹镇:智算在推动整个基础设施的投资非常惊人,从里面的成本来说,存储尽管远不如GPU,但也是比较主要的比率。在AI的场景之下,原来分布式存储即便在金融和企业的一些通算场景下,并不需要那么高的全闪比例,现在智算时代带来之后,催生了全闪的快速发展,这是一个非常大的变化。
从产业角度而言,闪存颗粒将会逐渐从TLC到QLC,其单盘容量将会变得非常大,60TB甚至100TB的QLC SSD将会逐渐普及。
作为分布式存储的原设计厂商,新华三看到,如果要降低全闪存的分布式存储的成本,还是要使用大容量的SSD,以及要求在分布式存储的算法,尤其是重建、冗余上做一个高效的优化,否则就无法满足需求。
对于硬盘系统而言,除非它坚决保持跟SSD的成本优势,否则将来就再也无法跟QLC的SSD竞争。
03
在高性能智算存储系统中,什么性能是最重要的?元数据管理,还是带宽,或者是其他能力?
姚舸:这些性能并不是互斥的,而是说要综合来看,带宽和元数据都要满足需求才可以。
最早的HPC集群主要以带宽的需求为主,然后逐渐发现对元数据的性能要求也很高。最现实的感受就是用户会觉得很卡,打开文件要花很长时间,一些科学计算所需要的脚本也很难修改,用户体验就很糟糕。如果相关作业在HPC集群中运行比较慢,用户感知不到,但是如果交互很慢,那么他的感受是很明显的。
因此,对于存储来说,尤其是高校的存储,很多高校HPC和AI是一个集群,它的存储就是通用的,因此,它当然是要实现数据和元数据的分离。在数据性能方面,以前更关注的是持续的读写带宽,那么现在不光是要去在HPC集群关注带宽、大文件的顺序读写,在AI集群还要关心IOPS、小文件的随机读取。
其实,不仅是AI,HPC集群的一些计算也正在出现这样的一个趋势,元数据的管理、元数据的性能也变得越来与重要。
因为元数据的操作非常多,不像数据的操作比较简单,就只有一个读写,因此,这对于存储的评估来说,对于存储的参数而言,要有一个更平衡或者更总体的考虑,不能像以前那样比较简单的仅考虑容量和顺序读写速度。
要综合考虑随机读写、元数据的操作,包括创建文件、删除文件或者读取文件等各种操作要求。
在AI应用场景下,可能会要求把文件元数据先扫描一遍,如果镜像站有几亿数量的文件,那么每次同步就需要把所有的元数据扫一遍,看该文件是新是旧,哪些文件需要同步等,这对于存储来说压力式比较大的。
那么,以后我们在部署存储的时候,要把对于元数据的这种性能的关注,提高到对于数据的性能关注同样的层次 。
劳凤丹:首先在购买存储的时候,读写带宽肯定是第一时间要考虑的问题,这直接牵涉到价格,然后元数据的性能也非常重要。
原先我们没有那么大的感受,由于经费有限,在第一期部署的时候把元数据节点直接内嵌于存储机头里面,没有独立出来。第二期的存储部署,还是沿用一期的模式。因为集群每年的用户数量增长30-40%,随着用户数增大,这个学期出现过一次故障。
有一天刚好好几个用户在并发大量删除数据,导致集群的读写速度特别慢,经过仔细排查,发现并不是网络、管理软件的问题,也不是存储的软硬件问题,就是元数据的IO问题瓶颈导致的。
此外,智算和超算只是高校信息化的一个方向,还有很多的应用场景,例如财务系统、档案馆、云盘文件存储、网络日志等,都需要进行数据存储,存储的应用场景非常复杂,我们需要支持多种存储协议来进行存储。
(未完待续)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.