网易首页 > 网易科技 > 网易科技 > 正文

AI 场景下 Gartner 的存储选择标准解读

0
分享至

(原标题:AI 场景下 Gartner 的存储选择标准解读)

Gartner 是一家全球 IT 研究与顾问咨询公司,在存储领域的研究分析在市场上受到高度的 认可,其魔力四象限报告更是客户选择存储和存储厂商评估自己能力的重要信息, Julia Palmer 是 Gartner 的高级研究员,她详细讨论来了在当今数据密集型 ML/AI 工作负载对数据中心基础 架构带来的挑战,她拥有超过19年 IT 信息技术的多领域专家,在很多领域颇有建树,存储基 础架构解决方案和设计、软件定义存储、 web 规模数据中心、闪存技术等等,我们来看一下她 提出的 AI 场景下, 我们该如何选择存储,然后看看 WekaIO 的 AI 架构, 具体是如何符合这些 标准的。

备注: ML 是 AI 一个重要应用,本文用 ML 代表 AI 场景

左边这列是 Gartner 关于 AI 场景的存储选择标准, 包括性能(导入和训练)、软件定义、 成本、移植性(数据迁移、突发)、 ETL、工作流集成(支持 AI 库,容器)、扩展性, 这里我们 把融合存储、分布式并行文件系统、外挂 SAN 存储+本地并行文件系统、可大规模扩展的分布 式并行文件系统做了对比,最符合条件的是可大规模扩展的分布式并行文件系统,其他的存储 架构多多少少存在性能、扩展或其他瓶颈。

一部分 标准解读

(一) Performance  Ingest and Train

Ingest 和 Train 是 AI 性能标准中的两个重要指标,分别指数据导入和模型训练的性能。

Ingest 指的是数据导入的性能,包括数据的读取、解析、转换和存储等方面。在 AI 应用 中,数据是模型训练的基础,因此 Ingest 的性能对模型训练的效率和质量有着重要的影响。通 常, Ingest 的性能指标包括数据导入的速度、数据的准确性和数据的完整性等。

Train 指的是模型训练的性能,包括模型的训练速度、训练的准确性和模型的可扩展性等 方面。在 AI 应用中,模型训练是一个非常耗时和计算密集的过程,因此 Train 的性能对模型的 效率和质量有着重要的影响。通常,Train 的性能指标包括模型训练的速度、模型的准确性和 模型的可扩展性等。

Ingest 和 Train 对于 AI 应用的性能和效率有着重要的影响。在设计和优化 AI 应用时,需 要考虑 Ingest 和 Train 的性能,并采取相应的措施来提高它们的性能。

融合存储会出现由于存储控制器的限制而导致存储系统性能瓶颈的情况, 传统并行文件系 统会出现由于元数据的限制而导致存储系统性能瓶颈的情况,外挂 SAN 存储+并行文件系统会 出现多个副本数据集的问题,大规模并行文件系统能对小文件和随机 IO 负载提供很高的吞吐 量和低时延性能,同时保证数据和元数据性能随节点规模扩展而提升,可以满足数据导入和模 型训练的性能。

(二) Software defined and Cost optimized

软件定义存储的方式能保证设备独立且设备永新,不像融合存储方式设备需要几年整体更 新,且软件定义存储的可以实现数据管理跨边缘、核心、云。成本最优是指正确的存储投资和 整个数据生命周期的 TCO。

融合存储和外挂 SAN 存储都不是软件定义存储方式,传统的并行文件系统一般存在硬件 成本过高的问题,大规模并行文件系统是软件定义存储方式,在成本上, 不但提供全闪高性能 层,也提供基于 HDD 的容量层, 降低了对大规模数据存储的成本。符合 AI 场景的存储要求。

(三) Portability (Data Mobility ,bursting)

人工智能(AI)数据管道与传统的基于文件的 IO 应用程序本质上不同。 AI 数据管道中的 每个阶段都有不同的存储 IO 要求:用于采集和训练的海量带宽;用于提取、转换、加载               (ETL)的混合读/写处理;用于推理的超低延迟;以及用于整个数据管道可见性的单一命名空 间。此外,边缘的人工智能正在推动对边缘到核心到云数据管道的需求。因此,理想的解决方 案必须满足所有这些不同的要求。传统解决方案缺乏这些功能,而且往往无法满足跨角色和数 据移动要求的性能和共享性。存储需要提供克服 AI 数据管道这些限制的解决方案。

从表格中可以知道,前三种存储架构, AI 只能基于私有数据中心进行构建,对于 Data

Mobility 和 Cloud Bursting 应对不足, Data mobility 和 cloud bursting 是两种与云计算相关的概 念。

1. Data mobility :数据流动性是指数据在不同计算环境之间自由移动的能力。在云计算环境 中,数据流动性非常重要,因为它可以帮助企业将数据从一个云环境转移到另一个云环境, 以 满足不同的业务需求。例如,企业可以将数据从私有云转移到公共云,以提高计算和存储的弹 性和可扩展性。 数据流动性还可以帮助企业实现数据的备份和恢复,以保护企业的数据资产。

2.  Cloud bursting :云爆发是指在需要更多计算和存储资源时,将工作负载从私有云转移到 公共云的能力。云爆发可以帮助企业应对突发业务需求,例如季节性销售高峰期或突发事件。 通过云爆发,企业可以快速扩展计算和存储资源, 以满足业务需求,并在业务需求减少时将工 作负载转移到私有云, 以节省成本。

大规模并行文件系统能很好的解决这个问题,提供强大的边缘、核心、云层的构建方式, 能有效应对 Data mobility 和 Cloud bursting 。具体来说, Edge to core to cloud 包括以下三个 层次:

1. Edge :边缘层是指位于网络边缘的设备和系统,例如传感器、智能手机、物联网设备、 FusionCube 等。这些设备通常需要实时处理和分析数据, 并将数据传输到核心层进行进一步 处理和存储。

2. Core :核心层是指位于数据中心或云平台的设备和系统,例如服务器、存储设备、数据库 等。这些设备通常用于存储和处理大量的数据, 并提供高性能和高可用性的计算和存储服务。

3. Cloud :云层是指位于公共或私有云平台的设备和系统,例如云服务器、云存储、云数据 库等。这些设备通常用于提供弹性计算和存储服务,以满足不同的业务需求。

(四) ETL

ETL 是指 Extract 、Transform 、 Load 的缩写,是一种数据处理流程,用于从不同的数据源 中提取数据,对数据进行转换和清洗,最终将数据加载到目标系统中。 ETL 流程通常用于数据 仓库、数据集市等场景, 以支持数据分析、报表、机器学习等应用。

一些数据密集型应用中,如机器学习、数据分析等领域, GPU 也被广泛应用于加速计算。 结合 NVIDIA 开发的开源软件库 RAPIDS,可以实现 GPU 直通存储技术 GDS,这是 AI 场景中非 常重要的一个存储特性,利用这项技术可以实现数据快速加载到计算节点 GPU 内存中,实现 模型训练。

(五) Workflow Integration(support for ML libraries ,containers)

AI 的工作流程通常包括以下几个步骤:

1. 数据收集:收集与问题相关的数据,包括结构化数据(如表格数据)和非结构化数据(如 文本、图像、音频等)。

2. 数据预处理:对收集到的数据进行清洗、去噪、归一化等处理,以便后续的分析和建模。

3. 特征工程:从原始数据中提取有用的特征,以便机器学习算法能够更好地理解数据。特征 工程通常包括特征选择、特征提取、特征转换等步骤。

4. 模型选择和训练:选择合适的机器学习算法,并使用训练数据对模型进行训练。训练过程 中需要进行参数调整、模型评估等操作, 以提高模型的准确性和泛化能力。

5. 模型部署:将训练好的模型部署到生产环境中, 以便实时处理数据并生成预测结果。模型 部署通常需要考虑性能、可靠性、安全性等因素。

6. 模型监控和维护:对部署的模型进行监控和维护, 以确保其在生产环境中的稳定性和准确 性。监控和维护过程中需要进行数据收集、异常检测、模型更新等操作。

在整个过程中, 多个步骤会涉及到运用不同的 AI 库以及周边的生态系统的支持,比如 Accelerated Libraries ,DALI ,IndeX ,DMS integration,以下是这些库的简单解释:

1. Accelerated Libraries :加速库是一组针对 GPU 加速的数学和科学计算库,包括 cuBLAS 、 cuFFT 、cuSPARSE 、cuRAND 等。这些库可以在 GPU 上高效地执行矩阵乘法、卷积、 FFT 等操 作,加速机器学习和数据科学应用。

2. DALI :DALI 是一种用于数据增强和预处理的库,可以在 GPU 上高效地执行图像和视频数 据的增强、裁剪、缩放等操作。 DALI 可以与 TensorFlow 、PyTorch 等深度学习框架集成,加速 数据预处理和训练过程。

3.  IndeX :IndeX 是一种用于高性能数据索引和查询的技术, 可以在 GPU 上高效地执行数据 查询和分析操作。 IndeX 可以用于加速机器学习、数据分析等应用中的数据查询和过滤操作。

4. DMS integration :DMS (Data Management System)是一种用于数据管理和存储的系

统,可以用于管理大规模的数据集。 DMS integration 是指将 AI 应用与 DMS 集成,以便更好地 管理和存储数据,并提高数据访问和处理的效率。

AI 生态系统里常见的 AI 软件的支持,比如: TensorFlow 、 Kubeflow 、Open Data Hub、 ValohAI 、runai,我把这些软件大致介绍下:

1. TensorFlow :TensorFlow 是一个由 Google 开发的开源机器学习框架,可以用于构建和训 练各种机器学习模型。 TensorFlow 提供了丰富的 API 和工具,支持分布式训练、模型部署和推 理等操作。

2. Kubeflow :Kubeflow 是一个基于 Kubernetes 的开源机器学习平台,可以用于构建、部署

和管理机器学习工作负载。

3. Open Data Hub :Open Data Hub 是一个基于 Kubernetes 的开源数据科学平台,可以用于 构建和管理数据科学工作负载。

4. ValohAI :ValohAI 是一个基于云的机器学习平台,可以用于构建、训练和部署机器学习模 型。

5. Runai :Runai 是一个基于 Kubernetes 的开源机器学习平台,可以用于构建、训练和部署 机器学习模型。

从以上的主流 AI 软件里可以看出,支持容器技术在 AI 场景里非常重要, AI 软件可以直接 部署在基于 Kubernetes 编排管理的容器里,通过 CSI 插件与存储进行交互。

(六) Scalability

扩展性指的是可以从小规模的集群做起, AI 数据在开始数据量都不会特别大,特别是基于 文本的训练模型,1个 chatgpt 也才百 TB 数据,所以小规模的集群起步, 再慢慢扩大到大容量 PB 级集群规模, 且要支持亿级文件,这些都是 AI 场景对存储的要求, 而这一点融合存储和外 挂 SAN 存储在扩展性上都不如分布式, 传统的并行文件系统扩展性受限于硬件,不如能基于 边缘、核心、云都能作为部署节点的大规模可扩展并行文件系统。

.

二部分 Weka AI 的符合程度

从上面关于 Gartner 对 AI 场景存储选择标准的解读,我们来看友商 WekaIO 的 AI 架构,

WEKA 本身是分布式文件系统,所以符合软件定义存储的标准;在成本上,采用 S3 Private Cloud 和 S3 Public Cloud,同时与 IBM 等友商合作提供第三方对象存储;在性能标准里, WEKA 文件系统本身就具备高性能的特点,支持低时延、高吞吐量的混合负载,特别是小文件 性能、随机 IO 性能,具体数据可以查看官网性能数据;在扩展性上, WEKA 支持硬件部署和 云部署, 可支持300多节点。 WEKA 作为整个存储底座,提供了数据完整的生命周期管理。

再看上层 AI 生态集成, 推理部分与三方厂商合作支持 GPUs ,图形处理,FPGA 压缩卡, 加速器等用于加速计算推理的软硬件技术。在模型训练和模拟部分支持基于 Kubernetes 、 Openshift 、NVIDIA NGC Cloud 、HPE Ezmeral 容器技术, 然后各种 AI 库就可以安装集成在容 器中,供 AI 工作流调用,WekaIO 集成了 Ingest 、 ETL 、Query 、Accelerated Libraries 、 Software-in -loop 和 Hardware-in -loop。在 AI 软件部分,支持了主流的 AI 软件,同时 Weka 支持的核心、云、混合多形态部署,能很好的实现 Data Mobility 和 Cloud Bursting。(作者:邓芙秋)

相关推荐
热点推荐
身材傲人的美少妇

身材傲人的美少妇

娱乐的小灶
2024-04-24 01:18:18
“新冠疫苗之父”被捕,很多人吓坏了

“新冠疫苗之父”被捕,很多人吓坏了

燕梳楼2021
2024-04-28 13:13:25
“新冠疫苗之父”的突然落马,让我回想起新冠时期的“顽强抗争”

“新冠疫苗之父”的突然落马,让我回想起新冠时期的“顽强抗争”

巴城的城
2024-04-28 19:05:46
花990万拍下周鸿祎二手迈巴赫的男子系北京二手车商,曾喊话“1000咱都要”,笑称没有超过预算

花990万拍下周鸿祎二手迈巴赫的男子系北京二手车商,曾喊话“1000咱都要”,笑称没有超过预算

极目新闻
2024-04-28 21:17:03
问界M7事故细节曝光!车辆没搭载智驾系统,他们根本不是被撞死的

问界M7事故细节曝光!车辆没搭载智驾系统,他们根本不是被撞死的

快乐娱文
2024-04-28 19:52:26
后续!广州女商场跳楼原因曝光:买了几幢烂尾楼,被砸女孩无大碍

后续!广州女商场跳楼原因曝光:买了几幢烂尾楼,被砸女孩无大碍

趣味萌宠的日常
2024-04-28 21:00:45
博世称问界M7涉事车辆并未搭载博世智驾系统

博世称问界M7涉事车辆并未搭载博世智驾系统

鞭牛士
2024-04-28 17:32:15
越闹越大!重庆南滨路两女一男穿和服跳舞,警方回应:已处理!

越闹越大!重庆南滨路两女一男穿和服跳舞,警方回应:已处理!

皖声微言
2024-04-28 12:03:52
990万元!周鸿祎迈巴赫成交!市场价不到100万,本人回应:我都懵了

990万元!周鸿祎迈巴赫成交!市场价不到100万,本人回应:我都懵了

每日经济新闻
2024-04-28 20:41:34
笑麻了!OPPO女经理测试手机,“高跟暴力”那一刻俘获太多男人心

笑麻了!OPPO女经理测试手机,“高跟暴力”那一刻俘获太多男人心

番茄娱乐加
2024-04-27 13:25:52
马斯克:Model 2明年上市!将在上海工厂生产,价格不到20万

马斯克:Model 2明年上市!将在上海工厂生产,价格不到20万

网上车市
2024-04-28 11:19:24
990万元!周鸿祎迈巴赫成交!半个车圈到场

990万元!周鸿祎迈巴赫成交!半个车圈到场

证券时报e公司
2024-04-28 19:42:38
现在是4月28日夜晚,刚刚又曝出一重大消息,明天要来大动作吗?

现在是4月28日夜晚,刚刚又曝出一重大消息,明天要来大动作吗?

股市皆大事
2024-04-28 20:42:14
英超巨大争议!5分钟从1比1到0比2,枪手两次获益,萨卡创纪录

英超巨大争议!5分钟从1比1到0比2,枪手两次获益,萨卡创纪录

奥拜尔
2024-04-28 21:42:41
50岁女星自曝:19岁起男友没断过,不结婚是因为没玩够!

50岁女星自曝:19岁起男友没断过,不结婚是因为没玩够!

文刀万
2024-04-28 12:00:30
美国版五四运动?网传在美国各高校,陈独秀的《新青年》被学生疯传

美国版五四运动?网传在美国各高校,陈独秀的《新青年》被学生疯传

不掉线电波
2024-04-28 18:09:09
彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

彻底倒向美囯?拒绝中方移民,驱离中方工人,中方大怒:永不合作

星辰故事屋
2024-04-27 19:04:44
工厂出售!退出中国大陆!

工厂出售!退出中国大陆!

中国半导体论坛
2024-04-28 17:05:47
330天研发疫苗盈利7000亿!杨晓明被查:打3针北京生物者说感恩

330天研发疫苗盈利7000亿!杨晓明被查:打3针北京生物者说感恩

大风文字
2024-04-28 08:15:57
哪吒汽车CEO张勇回应品牌改名

哪吒汽车CEO张勇回应品牌改名

21世纪经济报道
2024-04-28 11:29:25
2024-04-29 00:36:49

科技要闻

特斯拉生死时速,马斯克西天取经

头条要闻

周鸿祎的二手迈巴赫以990万元成交 半个车圈到场

头条要闻

周鸿祎的二手迈巴赫以990万元成交 半个车圈到场

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

张杰谢娜发文为何炅庆生,亲如家人!

财经要闻

上财万字报告深度解读Q1经济

汽车要闻

鸿蒙首款行政旗舰轿车 华为享界S9实车亮相车展

态度原创

教育
房产
亲子
家居
公开课

教育要闻

x+y=10,√x-√y=2,这个方程组该如何解?

房产要闻

力度越来越大!落户两年享本地居民购房政策,海南第16城松绑限购!

亲子要闻

研究表明:孩子近视越早,高度近视的风险可能越高!防控关键有这些

家居要闻

光影之间 空间暖意打造生活律动

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版
×