![]()
AI大语言模型训练并非只需要文件或对象存储,块存储同样发挥着重要作用。
AI大语言模型训练需要大量数据,包括文件和对象,但通常不包括块数据。大语言模型训练过程需要处理非结构化数据,将其转换为Token再转为向量。即使是处理自然语言输入的AI推理,处理的也是非结构化数据而非块数据。
那么,像Lightbits Labs这样的块存储软件供应商如何在AI训练市场中取得进展呢?
AI训练中使用的GPU服务器实际需要两种数据。一种是用于训练大语言模型的非结构化数据,另一种是运行GPU服务器本身的软件代码,通常是Kubernetes组织的Pod容器,这些需要从某个地方加载到GPU服务器中。
这类似于VMware服务器及其裸金属ESXi虚拟化程序、可引导的ESXi软件,以及NSX网络和vSAN存储和各种驱动程序和固件。这个ESXi软件包被称为镜像,是用于安装和引导的ISO文件。虚拟机磁盘文件是VMware中的主要磁盘镜像格式,包含客户操作系统、应用程序和数据,即虚拟机的"磁盘镜像"。它存储在本地SSD等存储介质上,并在服务器中引导启动。
现在将这个概念转换到Kubernetes世界中的容器镜像。当GPU服务器系统可能拥有数百甚至数千个GPU时,将容器镜像加载到GPU上成为一项巨大的工作。为了将GPU停机时间降到最低,镜像加载应该快速启动,意味着低延迟,并快速完成,意味着高吞吐量。通过文件或对象协议接口执行此操作会增加延迟并降低吞吐量,相比通过块接口传输这些系统级数据而言。
Lightbits Labs首席执行官Eran Kirzner表示,公司正在销售其软件来处理两个主要用例:从VMware过渡到替代方案,以及迁移到Kubernetes。后者百分之百适用于AI工作负载、云和GPU云数据中心。
这些转换也发生在电子商务和金融领域。每个领域都有峰值工作负载,需要尽可能快的响应和尽可能高性能的数据传输来应对峰值。当电子商务网站开始黑色星期五促销时,它需要将软件加载到其动态可扩展的虚拟化和容器化服务器群中,速度要尽可能接近瞬时,这样才不会浪费黑色星期五的任何交易时间。服务器不可用会立即转化为资金损失。
在AI训练领域,Lightbits软件为GPU服务器提供镜像服务,使它们能够以最少的停机时间从一个训练运行切换到另一个训练运行。这些超昂贵的处理器如果闲置会浪费大量资金。
Lightbits的市场通常不是VMware类型的环境。Kirzner说:"一切都是OpenShift、KubeVuit、Kubernetes和OpenStack,但我们仍然有一些大型VMware客户。美妙之处在于,在同一个Lightbits集群上,你可以运行VMware,也可以运行新的容器化数据中心。"
涉及的Kubernetes核心数量可能非常庞大。Kirzner告诉我们:"我们最大的客户之一有超过200万个Kubernetes核心连接到我们的环境中。这规模相当庞大。"这可能意味着15500到31000个节点,每个节点都必须移动容器镜像。高端的规模超大,但其他较小的客户可能有10000甚至只有1000个核心。
Lightbits的云服务提供商客户在拥抱AI时通常表现出这种模式。Kirzner说:"我们拥有的几乎每个云提供商也将拥有AI云。在这里,重要的部分不仅仅是性能。我们的名人堂是性能和延迟,非常高的性能,非常低的延迟。如果你将我们与Ceph比较,我们的性能将比它好5到10倍,延迟也好5到10倍。"
除了性能和延迟外,配置是另一个非常重要的方面。Kirzner说:"我来解释原因。因为当你需要配置10000个系统、20000个系统,并开始运行工作负载时,你需要所有镜像都适合,然后同时启动。如果你的工作负载是推理或训练,这必须非常非常快地发生,我们帮助一些云提供商从几小时的配置时间缩短到几分钟的配置时间。"这意味着将昂贵的GPU空闲时间从几小时缩短到几分钟。
任何大型GPU集群都需要块存储(如Lightbits软件)来将系统和大语言模型镜像加载到处理器上,同时也需要文件和块存储来保存大语言模型将要使用的数据。
Q&A
Q1:为什么AI训练需要块存储?
A:虽然AI大语言模型训练主要处理非结构化数据,但GPU服务器还需要加载运行服务器本身的软件代码,通常是Kubernetes容器镜像。通过块接口传输这些系统级数据比文件或对象协议接口具有更低的延迟和更高的吞吐量。
Q2:Lightbits软件在性能上有什么优势?
A:与Ceph相比,Lightbits在性能和延迟方面都有5到10倍的改进。在配置方面,Lightbits帮助云提供商从几小时的配置时间缩短到几分钟,大大减少了昂贵的GPU空闲时间。
Q3:Lightbits主要服务什么类型的客户?
A:Lightbits主要服务于从VMware过渡到替代方案和迁移到Kubernetes的客户,包括AI工作负载、云和GPU云数据中心。客户涵盖电子商务、金融以及云服务提供商,其中最大客户拥有超过200万个Kubernetes核心。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.