网易首页 > 网易号 > 正文 申请入驻

并行文件系统详解:元数据、条带化和吞吐量

0
分享至


并行文件系统在高性能计算(HPC)领域中扮演着至关重要的角色,它们需要为同时处理同一问题的数千甚至数万个计算节点(或数百万个核心)提供足够高的聚合I/O带宽和低延迟的共享数据访问。这类文件系统能够优化计算硬件的使用,使处理应用程序运行得更快。

并行文件系统能够并行传输多个文件,或者并行传输单个文件的多个部分(条带)。

成熟的HPC并行文件系统通过并行输出文件条带,并将这些条带传送给HPC处理器,使它们能够并行工作并更快地完成任务,从而更快地将单个文件的多个部分从存储传输到计算设备。

条带化和非条带化这两种变体在实现方式上有很大不同。

非条带化并行文件系统将传入的文件存储在单个节点上。没有条带化,因此元数据负担较轻。客户端前端在文件级粒度上操作,而不是条带粒度。

条带化并行文件系统必须接受传入的文件,将其分割成碎片,并将这些碎片存储在不同的存储(数据服务器)节点上,每个节点都有自己的网络链接。这意味着它必须维护文件的节点-条带存储映射,列出哪些条带在哪个节点上。例如,文件A(条带1:节点M,条带2:节点N,条带3:节点O等)。这意味着需要大量的文件条带映射元数据。

为了并行传输条带,请求的客户端前端必须了解它们的存在。当它收到文件请求时,必须知道存储后端已将文件部分或碎片条带化到多个节点,这样它就可以向每个节点发送读取请求。换句话说,它必须能够访问文件的条带映射。这需要客户端前端与后端存储系统之间的链接和协调。

如果要传输大文件,那么条带级的并行访问将更快地传输文件。如果要传输较小的文件,那么文件级的并行访问效果更好。

高层次示例

作为一个简化的高层次练习,假设要通过网络管道从数据服务器系统向客户端系统传输10TB的文件数据。我们在非条带化并行文件系统上有10个100GB文件,在有10个节点的条带化并行文件系统上有一个10TB文件。这10TB文件数据在任一系统中都应该在相同时间内传输完成。

现在让我们给后端数据服务器配置100个节点,并有10个10TB文件,总计100TB。非条带化并行文件系统将它们存储在10个数据服务器节点上,这些节点可以并行操作。条带化并行文件系统使用100GB条带,将10个10TB文件跨越100个节点存储,所有节点都可以并行操作。

然后客户端从每个系统请求完整的100TB文件数据。

非条带化并行文件系统由10个节点传输100TB数据,每个节点通过网络管道传输其10TB文件。但条带化并行文件系统通过管道并行传输100个100GB条带,在一小部分时间内完成100TB文件数据的传输。

并行文件系统产品

GlusterFS、Quobyte和Qumulo在文件级并行性上运行。BeeGFS、DDN的Lustre、Spectrum Scale和DAOS是条带化并行文件系统。WEKA和VAST Data也具有条带化并行文件系统功能。

分析师Chris Evans告诉我们:"在[pre-pNFS PowerScale/Isilon]以及当然还有NetApp传统产品的背景下,单个节点的性能实际上就是系统的性能。Isilon和NetApp受益于传输可以分散到各个节点的许多小文件操作的传统。它们在表示较少数量的大文件操作的工作负载方面一直有困难。"

"有趣的是,这就是对象存储的优势所在。如果你不需要文件的锁定功能,对象存储可以为你提供跨多个节点的大规模并行性能(如果实现正确),通常是因为数据广泛分布在横向扩展设计中。"在他看来:"我认为pNFS的加入和新的并行架构是传统供应商为了解决与对象存储配合更好的新工作负载组合而采取的防御性策略。"

关于pNFS(并行NFS),它可以是使用FlexFile Layout的条带化并行文件系统,也可以是不使用它的非条带化系统。FlexFile Layout是一个关键,具有访问文件条带映射的前端客户端软件是另一个关键。

FlexFile布局类型

并行NFS(pNFS)在NFS v4.1中定义并在NFS v4.2中扩展。它将控制路径(元数据)与数据路径分离。FlexFiles布局启用条带级并行性。

Hammerspace pNFS技术简报指出:"要使用这种[pNFS]架构,需要访问数据的兼容NFS客户端首先联系元数据服务器。元数据服务器提供布局,其中包括字节范围和存储位置信息。当客户端持有布局时,它可以直接访问相应的存储位置。布局是一种抽象,使客户端无需了解底层存储的详细信息。"

兼容的NFS客户端是标准的v4.2客户端。

实际上,元数据服务器(MDS)告诉客户端:"这里有一个布局,准确描述了这个文件的字节位置以及如何直接访问它们。"然后客户端直接向存储节点读写数据,在数据流量方面绕过MDS。

pNFS标准中有四种官方布局类型,如RFC 8435中定义的,也是NFS v4.2规范的一部分。每种布局类型描述了将文件字节映射到存储服务器的不同方式。

Project Lightning:极致并行性

戴尔的Project Lightning通过添加专为在AI工厂类型配置中同时为数千个GPU提供数据服务而优化的客户端驱动器,进一步推进了PowerScale并行性。

正如戴尔发言人告诉我们的,Project Lightning的这一部分需要"一个专有的客户端驱动程序,用于将整个文件系统表示为对客户端'本地'。这需要在客户端上消耗更多资源,以及对所述专有驱动程序的管理。好处意味着极致的直接到驱动器性能,以完全饱和网络,即使是完全随机的读取。Lightning是一个全新的并行文件系统,具有针对性的应用程序,以满足基础设施团队有能力优化完整堆栈的最高性能要求。"

戴尔选择专有的客户端驱动程序来"将整个文件系统表示为对客户端'本地'"。这不是pNFS本身的严格要求(它可以使用开源的、符合NFS v4.2的Linux内核模块),而是戴尔的故意架构选择。

这是因为,对于在Nvidia DGX SuperPODs上训练大型模型等AI工作负载,标准客户端仍然有开销。它必须解释FlexFile布局,管理多个连接(例如通过nconnect进行多路径),并遍历协议层。这可能将每个客户端的吞吐量限制在约400 Gbps,并增加随机I/O的延迟。当你有数千个GPU时,这样的开销会累积。

据我们了解,戴尔即将推出的驱动程序将实现直接的客户端到设备访问,跳过客户端和服务器端的传统文件系统遍历。它将整个分布式PowerScale集群(最多256个节点)呈现为统一的"本地"文件系统挂载点,类似于Lustre或GPFS客户端将集群融合到单个虚拟命名空间的方式。这通过一个NFS挂载聚合来自所有集群节点的I/O,使用RDMA实现近线速效率,提供97%的网络饱和度。

它将包括自定义的戴尔多路径优化,基于Linux nconnect构建,以动态平衡负载,处理RDMA条带化,并与OneFS特定功能(如分布式锁定和后端并行性)集成。它需要作为内核模块安装,并需要管理来强制执行这些,消耗更多的客户端CPU和内存用于布局缓存和故障转移。

好处是一致的高速文件访问,没有中央元数据瓶颈,实现大规模I/O并发——在测试运行中每个客户端在500到900 GB/s之间。这对戴尔基于以太网的AI工厂至关重要。

这将使戴尔能够将PowerScale定位为AI的"世界上最快的并行文件系统",避免全面类似Lustre客户端的部署复杂性,同时缩小与WEKA或VAST等竞争对手的差距。

截至2025年11月,它正在为选定的客户/合作伙伴(例如剑桥大学、WWT)进行私人预览,预计在2025年末/2026年初在OneFS 9.5+上正式发布。

Q&A

Q1:并行文件系统中的条带化和非条带化有什么区别?

A:非条带化并行文件系统将传入的文件存储在单个节点上,没有条带化,元数据负担较轻,客户端前端在文件级粒度上操作。条带化并行文件系统将文件分割成碎片,存储在不同的存储节点上,需要维护节点-条带存储映射,元数据负担更重,但能实现更高的并行性能。

Q2:戴尔Project Lightning项目的核心技术特点是什么?

A:Project Lightning使用专有的客户端驱动程序,将整个分布式PowerScale集群(最多256个节点)呈现为统一的"本地"文件系统挂载点。它实现直接的客户端到设备访问,跳过传统文件系统遍历,使用RDMA实现97%的网络饱和度,在测试中每个客户端可达500-900 GB/s的吞吐量。

Q3:pNFS中的FlexFile Layout有什么作用?

A:FlexFile Layout是pNFS标准中的一种布局类型,它启用条带级并行性。元数据服务器向客户端提供包含字节范围和存储位置信息的布局,客户端可以根据布局直接访问相应的存储位置,从而实现数据流量绕过元数据服务器,提高并行访问效率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
集体趴窝事故发生一天了,萝卜快跑还在沉默

集体趴窝事故发生一天了,萝卜快跑还在沉默

源Auto
2026-04-01 21:22:56
“京圈太子爷”公开怀念东北女婿身份?他俩过期糖,遗憾却体面

“京圈太子爷”公开怀念东北女婿身份?他俩过期糖,遗憾却体面

丹妮观
2026-03-31 14:39:58
目标100%被摧毁!以色列宣布重大战果,德黑兰底牌快被抽干了

目标100%被摧毁!以色列宣布重大战果,德黑兰底牌快被抽干了

解锁世界风云
2026-04-01 12:07:53
石墨炸弹全球首用,炸黑德黑兰!伊朗暴怒:苹果特斯拉全要挨狠揍

石墨炸弹全球首用,炸黑德黑兰!伊朗暴怒:苹果特斯拉全要挨狠揍

李健政观察
2026-04-01 16:21:42
2-2,世界第64逼平世界第26,西亚劲旅不怵非洲雄鹰

2-2,世界第64逼平世界第26,西亚劲旅不怵非洲雄鹰

凌空倒钩
2026-04-01 07:11:43
邯郸一中学党委书记,涉嫌性侵一15岁女生,详情曝出,舆论炸锅

邯郸一中学党委书记,涉嫌性侵一15岁女生,详情曝出,舆论炸锅

胡侃社会百态
2026-04-01 12:19:34
伊朗突然要投降!全球股市涨疯了,A股为何没跟上?背后真相惊人

伊朗突然要投降!全球股市涨疯了,A股为何没跟上?背后真相惊人

清流财记
2026-04-01 22:48:41
不够圆滑的张雪,回答了关于雷军和挖孔机盖事件

不够圆滑的张雪,回答了关于雷军和挖孔机盖事件

ZAKER新闻
2026-03-31 16:48:49
丝袜里的我:一层薄薄的自由

丝袜里的我:一层薄薄的自由

疾跑的小蜗牛
2026-04-01 23:09:00
音乐人丁太升曾建议单依纯离常石磊远点,如今来看确实一语中的

音乐人丁太升曾建议单依纯离常石磊远点,如今来看确实一语中的

小徐讲八卦
2026-03-31 11:28:01
西方正制造一个可怕的共识:对华战争,可无视道德底线和伦理原则

西方正制造一个可怕的共识:对华战争,可无视道德底线和伦理原则

老范谈史
2026-03-31 18:35:14
防空系统崩溃,伊朗导弹如入无人之境,以色列人突然热爱和平了

防空系统崩溃,伊朗导弹如入无人之境,以色列人突然热爱和平了

肖兹探秘说
2026-04-01 14:17:15
国际油价,突然跳水!发生了什么?

国际油价,突然跳水!发生了什么?

金融界
2026-04-01 17:33:04
存款大局已定:4月1日起,手里有定期存款的人 要提前做好4个准备

存款大局已定:4月1日起,手里有定期存款的人 要提前做好4个准备

混沌录
2026-04-01 21:20:07
图赫尔:这次集训后26人名单更清晰了;三笘薰是一名顶级球员

图赫尔:这次集训后26人名单更清晰了;三笘薰是一名顶级球员

懂球帝
2026-04-01 06:33:08
清明还剩下3天,属蛇、属龙的人一定要注意了!别不当回事

清明还剩下3天,属蛇、属龙的人一定要注意了!别不当回事

混沌录
2026-04-01 17:02:20
西安男子樊骅离世,年仅44岁,重启7人新生命!

西安男子樊骅离世,年仅44岁,重启7人新生命!

环球网资讯
2026-04-01 16:57:24
美国3月ADP就业人数增加6.2万人,预估为增加4万人,前值为增加6.3万人

美国3月ADP就业人数增加6.2万人,预估为增加4万人,前值为增加6.3万人

每日经济新闻
2026-04-01 20:25:04
天津集中整治网约车!最高罚1.8万!

天津集中整治网约车!最高罚1.8万!

全接触狐狐
2026-04-01 21:27:34
C1驾驶人开心了!不用增驾,这5类两轮、三轮、四轮电动车都能开,不查不罚

C1驾驶人开心了!不用增驾,这5类两轮、三轮、四轮电动车都能开,不查不罚

电动车小辣椒
2026-03-29 10:09:11
2026-04-02 04:40:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
2896文章数 168关注度
往期回顾 全部

科技要闻

甲骨文血洗3万人,47人团队仅留3人

头条要闻

特朗普计划夺取伊朗浓缩铀:空运挖掘设备 修建飞机跑道

头条要闻

特朗普计划夺取伊朗浓缩铀:空运挖掘设备 修建飞机跑道

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

张婉婷已决定离婚 找律师讨论婚变事宜

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

家居
时尚
本地
房产
游戏

家居要闻

经典配色 昼色银河

衬衫当外套,好时髦

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

房产要闻

产业、教育、地产…重大信号发出! 官方定调海口未来5年!

三国望神州:孙尚香抽取价值分析!数值+机制都拉满是个啥表现?

无障碍浏览 进入关怀版