网易首页 > 网易号 > 正文 申请入驻

全栈智算系列直播回顾(上) | 以存强算?AI新时代存储的价值与提升路径

0
分享至

12月16日,主题为“以存强算?AI新时代存储的价值与提升路径”的专家研讨会在益企研究院视频号成功举办。

此次研讨会是“全栈智算系列直播”栏目的第四期,第一期为,第二期为,第三期为

本期直播由益企研究院高级研究员祁金华主持,邀请了中国农业大学信息化办公室总工程师劳凤丹,南京大学信息化建设管理服务中心副主任、eScience中心负责人姚舸,腾讯云TVP、中国电子学会终身会员、信通院AI Cloud MSP技术服务实验室专委会专家雷葆华,新华三集团存储产品部总监曹镇作为研讨嘉宾。


访问益企研究院视频号,点击12月16日直播回放,即可观看。

由于篇幅较长,如下是本期直播回顾精彩观点的第一部分。

01

企业要做好大模型的训练、微调、推理,对于存储系统有什么样的性能需求?

劳凤丹:在现阶段,AI对存储提出了更高的要求,主要在于三点。

第一点是要求更高的性能和更大容量,因为数据采集、数据预处理和模型训练等要求速度更快、延迟更低,也要求更高的IOPS。训练数据则需要超大容量的存储空间。

第二点是需要单套存储系统,来支撑AI的全生命周期的数据流程,是一个阶段的输出马上可以作为 另一个阶段的输入,避免等待的时间和不必要的数据移动,以及重复存储。数据的高效流转和协同非常重要。

第三点,就是存储的介质和架构也在发生明显的变化,之前HPC都是用的HDD硬盘,现在AI更多的是采用SSD或NVMe,从硬盘向SSD转换。从机械盘向固态盘转变。

存储架构也在发生变化,从传统的主从架构,向全直通和全对等的架构转变,方便它进行横向扩展。

总的来说,业界正在通过增强存储的能力,来辅助计算,然后提升基础设施的整体利用效率。

不过,高校的存储建设,不仅是一个技术问题,还需要分场景,根据建设资金来进行综合考虑。

姚舸:高校里面的AI集群其实都是从HPC集群演变而来,或者在原有的HPC集群上增加的能力。跟在HPC集群时代一样,我一直认为存储是集群里面最大的一个变数。

从计算和网络而言,可选项并不多,但是存储系统,无论从介质、架构或者软件来说,选择都非常多,到了AI时代,存储的性能对集群的影响就更为明显。

比如说在南京大学,2019年的时候自己搭建了一套全闪的存储,此前的集群都是硬盘存储,只有元数据存储在SSD上。我们的用户采用GPU做训练的时候,就发现速度比较慢,在切换到我们的NVMe的SSD存储上之后,速度立刻就翻了好几倍。

这个小例子也可以简单说明,AI时代,存储很可能成为一个集群的瓶颈。一旦存储性能不够,整个集群的使用效率就会下降,那就会浪费GPU的利用率,那就是一种严重的浪费。

对于大模型的训练、微调和推理几个阶段而言,在学校里面,训练和微调大概率都是单独的AI集群或者说是跟HPC集群在一起的集群,它对性能的要求较高,相对而言,稳定性的要求可能不是很高,毕竟在学校里面,HPC集群和AI集群一年都可能断电一到两次,进行寒暑假期间的例行维护。

但是对于推理而言,就不太一样,毕竟推理可以算是生产环境,对于高校来说,推理对存储的稳定性要求更高一些。

雷葆华:在训练场景中,对于存储最基础的要求就是高并发、高吞吐能力。之前我们完成的很多案例都是千卡左右的集群,到了这个规模,其并发访问量非常大,在大模型训练进行的时候,几百台服务器会同时访问一个存储,因此它对并发访问的要求很高、吞吐量也很高。在训练阶段,有一个存储等待的问题,毕竟GPU的成本太高,大家都希望是把GPU的能力榨干,提升GPU的利用效率。

那么,在这种情况下,对于存储来说,就是要尽可能缩短存储的时间,减少GPU的等待时间。这就要求在模型加载的阶段和checkpoint写入的阶段,都要求更高的存储性能,因此低时延、高并发就成为了存储的很重要的需求。

第二,在微调和预训练、预处理场景中,需要支持客户的开发训练环境。在多个团队进行模型训练、开发的工作时,那就涉及到元数据的使用,包括元数据的访问加载等,会遭遇存储的一些性能瓶颈。

第三,在推理场景,它跟传统的云计算有些类似,它是以单机的模型部署为主,那么需要缩短用户的访问时延,是一个实时在线的业务,要求会比较高,那么对于存储系统来说,现在的主流做法就是把KV进行缓存,放在内存或者本地SSD中,然后后面再把历史数据保存到分布式存储中,这是存储分级的方式。

整体而言,存储的变数很多,要根据客户的具体需求和使用场景、包括预算等,进行具体的分析才能够有更合适的存储方案。

曹镇:在AI时代,存储有了三个比较大的趋势改变。

首先一个就是性能方面的变化,AI催生了全闪存储的快速普及。在原来的时候,更多的情况下,CPU的性能远超于硬盘的性能,更多的时候是CPU在等待存储。不过现在的主流存储系统,已经颠覆了这一点。

主要原因是NVMe的全闪存储性能大幅度提升,CPU性能相对落后,因此现在全闪系统基本上都是要采用最先进的CPU来进行配合,这个跟之前的存储系统已经不一样。

其次是文件的数量的变化。举例而言,在智算时代到来之前,大家面临的文件的个数,最多也就是以亿来计算,现在仅仅一个token化的过程之中,文件的数量就突破了百亿,这是一个非常大规模的情况。这也就导致元数据的管理,变成了一个非常复杂的事情,因此现在可以看到对象存储的广泛应用,包括对象存储跟NAS存储的融合,也成为了非常关键的点。

第三个就是GPU的等待问题,根据一个统计,在大模型到来止呕,GPU有30%的时间是在等待存储,这也就是GPU资源浪费的最大的一个环节。这也就意味着在存储系统中,其连续性如何保障?这不仅需要存储的性能要高,更重要的是如何优化存储,以适配一个很好的大模型,这是一个很重要的话题,这更是我们立足于将存力和算力都提高之后,综合考量的一个重要的关键点。

也就是说,智算催生了存储整体性能的飙升,但是如何做好大模型的存储,是很艰难的、复杂的调优过程。

02

在算力出现瓶颈的情况下,以存强算是必须,还是锦上添花?存储的价值体现在哪些环节?

雷葆华:显然,以存强算已经是必须要做的事情。正如前面所讨论的,GPU等待时间的30%都是存储带来的。

在一个智算系统中,计算、存储、网络三个方面是需要协同配合的,任何一点成为瓶颈,都会严重拉低整个系统的效能,因此存储的优化是必须要考虑的事情。毕竟存储的变化,会带来几倍的训练效率的差异。

因此,存储的优化,实现以存强算,那就不是一个锦上添花的事儿,而是一个必须选项的事情。

存储优化的价值体现在下面几个方面:

第一个,在大模型时代,又回到了数据为王的局面。那么,存储由于其自身就是数据的载体,因为其数据不能丢,要保障其可靠性、安全性,以及其数据的加载和保存,都需要更高的速度;

第二个,存储主要影响的是训练效率以及整体集群的利用率,也因此影响了资金的使用效率。

第三个,就是不同的客户之间,多租户之间,数据怎么进行隔离,数据存储的安全性如何保障,这是在运营过程中必须考虑的问题。

这几点就导致,以存强算不是一个锦上添花的可选项,而是在智算时代的必须。

劳凤丹:一方面存储性能增强,可以解决GPU数量不足的问题。如果存储性能和速度不足,跟不上GPU的计算速度,就会影响整体的集群性能发挥,如果存储性能提高,那么GPU等待时间就会变短,利用率就会变高。

另外一方面,存储速度快,GPU就可以多算,等同于GPU的数量增加了。由于GPU较贵,存储相对便宜,适当增加存储投资,提升存储性能,那就可能比增加GPU投资更合算一些。

不过,普通高校投入不够的情况下,一般不会投资专门的全闪存储,而是有可能在GPU服务器中配置较高性能的存储,比如说配置多个SSD或者NVMe的硬盘,配置高内存、高核心的CPU,很多的智算直接在本机完成。

我们学校目前,智算和超算采用的是同一存储。如果有足够的费用,才能选择更好的技术路线,使用更好的存储介质,采用更好的网络,或将智算和超算存储分离,以便让存储有很好的并行读写带宽和支持高并发的IO能力。

很多高校跟我们一样,在智算基础设施领域的建设资金暂时不太宽裕,因此只能采取一些相对中庸的方案,先解决主要矛盾,然后顺带考虑未来的发展。

姚舸:南京大学的eScience中心最早是一个HPC集群,后来慢慢增加了一些GPU,最早是用来做科学计算的。随着AI的发展,在同一个集群上继续做AI相关的研究,由于经费有限,其实存储的性能相对很有限。

从高校的角度而言,很难有类似企业那么巨额的在AI领域的投资,毕竟很难看到一个高校去建设千卡或者万卡的集群,基本上doushiGPU节点上直接使用NVMe盘,操作系统安装在NVMe盘上,用户直接用本地目录就可以无感知使用本地的全闪盘;如果再有并行高速存储需求的话,就采用我们自建的NVMe的全闪。

其实,不光是现在AI对于存储的要求高,HPC领域也是如此。从之前纯计算到现在的数据科学,对存储的要求越来越高,文件数也越来越多,海量的元数据管理是非常头疼的问题。因为用户会希望在单一命名空间内,存储所有文件,那会出现非常多的元数据,这就给管理带来非常大的问题。

在之前,HPC的存储和网络发展都相对较慢,AI的加入,迅速推动了HPC的存储和网络的发展。因此来说AI的加入,对于HPC有很大的促进,激活了整个产业界的能力。

曹镇:智算在推动整个基础设施的投资非常惊人,从里面的成本来说,存储尽管远不如GPU,但也是比较主要的比率。在AI的场景之下,原来分布式存储即便在金融和企业的一些通算场景下,并不需要那么高的全闪比例,现在智算时代带来之后,催生了全闪的快速发展,这是一个非常大的变化。

从产业角度而言,闪存颗粒将会逐渐从TLC到QLC,其单盘容量将会变得非常大,60TB甚至100TB的QLC SSD将会逐渐普及。

作为分布式存储的原设计厂商,新华三看到,如果要降低全闪存的分布式存储的成本,还是要使用大容量的SSD,以及要求在分布式存储的算法,尤其是重建、冗余上做一个高效的优化,否则就无法满足需求。

对于硬盘系统而言,除非它坚决保持跟SSD的成本优势,否则将来就再也无法跟QLC的SSD竞争。

03

在高性能智算存储系统中,什么性能是最重要的?元数据管理,还是带宽,或者是其他能力?

姚舸:这些性能并不是互斥的,而是说要综合来看,带宽和元数据都要满足需求才可以。

最早的HPC集群主要以带宽的需求为主,然后逐渐发现对元数据的性能要求也很高。最现实的感受就是用户会觉得很卡,打开文件要花很长时间,一些科学计算所需要的脚本也很难修改,用户体验就很糟糕。如果相关作业在HPC集群中运行比较慢,用户感知不到,但是如果交互很慢,那么他的感受是很明显的。

因此,对于存储来说,尤其是高校的存储,很多高校HPC和AI是一个集群,它的存储就是通用的,因此,它当然是要实现数据和元数据的分离。在数据性能方面,以前更关注的是持续的读写带宽,那么现在不光是要去在HPC集群关注带宽、大文件的顺序读写,在AI集群还要关心IOPS、小文件的随机读取。

其实,不仅是AI,HPC集群的一些计算也正在出现这样的一个趋势,元数据的管理、元数据的性能也变得越来与重要。

因为元数据的操作非常多,不像数据的操作比较简单,就只有一个读写,因此,这对于存储的评估来说,对于存储的参数而言,要有一个更平衡或者更总体的考虑,不能像以前那样比较简单的仅考虑容量和顺序读写速度。

要综合考虑随机读写、元数据的操作,包括创建文件、删除文件或者读取文件等各种操作要求。

在AI应用场景下,可能会要求把文件元数据先扫描一遍,如果镜像站有几亿数量的文件,那么每次同步就需要把所有的元数据扫一遍,看该文件是新是旧,哪些文件需要同步等,这对于存储来说压力式比较大的。

那么,以后我们在部署存储的时候,要把对于元数据的这种性能的关注,提高到对于数据的性能关注同样的层次 。

劳凤丹:首先在购买存储的时候,读写带宽肯定是第一时间要考虑的问题,这直接牵涉到价格,然后元数据的性能也非常重要。

原先我们没有那么大的感受,由于经费有限,在第一期部署的时候把元数据节点直接内嵌于存储机头里面,没有独立出来。第二期的存储部署,还是沿用一期的模式。因为集群每年的用户数量增长30-40%,随着用户数增大,这个学期出现过一次故障。

有一天刚好好几个用户在并发大量删除数据,导致集群的读写速度特别慢,经过仔细排查,发现并不是网络、管理软件的问题,也不是存储的软硬件问题,就是元数据的IO问题瓶颈导致的。

此外,智算和超算只是高校信息化的一个方向,还有很多的应用场景,例如财务系统、档案馆、云盘文件存储、网络日志等,都需要进行数据存储,存储的应用场景非常复杂,我们需要支持多种存储协议来进行存储。

(未完待续)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
误诊20天错过治疗!北京男子肠癌去世,临终为两个孩子剪指甲告别

误诊20天错过治疗!北京男子肠癌去世,临终为两个孩子剪指甲告别

刘哥谈体育
2025-12-21 01:11:23
正式官宣!CBA第二位下课主帅确定,辽宁名宿走马上任

正式官宣!CBA第二位下课主帅确定,辽宁名宿走马上任

体坛瞎白话
2025-12-24 13:54:08
去日本航班取消,去柬埔寨机票还很好买

去日本航班取消,去柬埔寨机票还很好买

名人苟或
2025-12-23 06:04:32
东莞:郭锦添被纪委监委调查!

东莞:郭锦添被纪委监委调查!

东莞好生活
2025-12-24 15:13:05
中国游客不去了,日本街头反倒更吵了,转而抱怨欧美游客素质低

中国游客不去了,日本街头反倒更吵了,转而抱怨欧美游客素质低

老特有话说
2025-12-19 17:56:16
一个女婴之死与一个系统的失灵

一个女婴之死与一个系统的失灵

难得君
2025-12-23 00:16:47
还交易吗?记者:多队想低价打劫独行侠换浓眉,后者场均21+11

还交易吗?记者:多队想低价打劫独行侠换浓眉,后者场均21+11

懂球帝
2025-12-24 11:25:05
女子花1.8万挑战“独处100小时赢60万” 中途被无故判出局 法院判全额退还报名费

女子花1.8万挑战“独处100小时赢60万” 中途被无故判出局 法院判全额退还报名费

闪电新闻
2025-12-23 17:15:36
活龙虾直接投入沸水烹煮将违法!英国拟实行这一新规冲上热搜,网友热议

活龙虾直接投入沸水烹煮将违法!英国拟实行这一新规冲上热搜,网友热议

上观新闻
2025-12-23 22:02:07
文物行业从业者对于“南博事件”的三点猜想

文物行业从业者对于“南博事件”的三点猜想

祥和居主人
2025-12-24 10:58:38
高速刹车失灵时速115狂奔490公里,司机退车退款并获赔;回应“自导自演”质疑:谁敢拿生命这样开玩笑?

高速刹车失灵时速115狂奔490公里,司机退车退款并获赔;回应“自导自演”质疑:谁敢拿生命这样开玩笑?

环球网资讯
2025-12-23 08:32:53
新F4演唱会上,周渝民就快让人认不出来了,这浓浓的“人夫感”啊

新F4演唱会上,周渝民就快让人认不出来了,这浓浓的“人夫感”啊

安宁007
2025-12-22 23:55:02
维尼修斯晒和女友迪拜度假,后者已是三个娃的妈

维尼修斯晒和女友迪拜度假,后者已是三个娃的妈

懂球帝
2025-12-24 06:15:04
义字为先1:粤地邀约,兄弟聚首

义字为先1:粤地邀约,兄弟聚首

金昔说故事
2025-12-24 15:24:35
港媒爆料!南博前院长徐湖平被带走,并有邻居证言,要剧终了吗?

港媒爆料!南博前院长徐湖平被带走,并有邻居证言,要剧终了吗?

行者聊官
2025-12-24 14:30:43
新任公安局长探访民情,在自家饭店吃饭被“所长小舅子”掀了桌子

新任公安局长探访民情,在自家饭店吃饭被“所长小舅子”掀了桌子

卡西莫多的故事
2025-12-19 11:15:00
南京博物院风波后续:全网追的神秘“老同志”,他到底是谁?

南京博物院风波后续:全网追的神秘“老同志”,他到底是谁?

恪守原则和底线
2025-12-22 05:40:06
茅台价格全线上涨

茅台价格全线上涨

21世纪经济报道
2025-12-24 11:16:22
高市早苗支持率居高不下!高达75.9%,年轻人支持率突破92%

高市早苗支持率居高不下!高达75.9%,年轻人支持率突破92%

环球热点快评
2025-12-24 14:13:34
2025年国家杰青最新名单

2025年国家杰青最新名单

高分子科学前沿
2025-12-24 10:26:21
2025-12-24 17:16:49
DT Value
DT Value
关注数据价值,企业数字化变革
1029文章数 1158关注度
往期回顾 全部

科技要闻

马斯克没想到的"中国速度"!2026值得期待

头条要闻

辽宁省三名厅官被开除党籍 一人被指未经批准出入国境

头条要闻

辽宁省三名厅官被开除党籍 一人被指未经批准出入国境

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

曝阚清子女儿早产但没保住

财经要闻

假冒的“晴王”葡萄,还在卖

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

手机
本地
时尚
数码
公开课

手机要闻

小米17 Ultra徕卡版外观细节揭晓:自带可乐标+大师变焦环

本地新闻

云游安徽|一川江水润安庆,一塔一戏一城史

介绍一个如果你用了,你就看不到这篇文章的产品

数码要闻

三星电子放缓DDR4停产进程,拟与客户签订“不可取消”长期协议以锁定高利润

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版