网易首页 > 网易号 > 正文 申请入驻

DeepSeek第五天开源猛料,3FS并行文件系统榨干SSD!6.6 TiB/s吞吐量堪比光速

0
分享至

  新智元报道

  编辑:编辑部 JHY

  【新智元导读】DeepSeek最后一天,送上了3FS文件并行系统,以及数据处理框架Smallpond。五天开源连更,终于画上了完美的句号。

  最后一天,DeepSeek开源了全生命周期数据访问引擎Fire-Flyer File System(3FS),以及基于3FS的数据处理框架Smallpond。

  3FS(萤火虫文件系统)是一个充分利用现代SSD和RDMA网络带宽的并行文件系统,其特点是:

  在180节点集群中实现了6.6 TiB/s的总读取吞吐量

  在25节点集群的GraySort基准测试中达到了3.66 TiB/min 的吞吐量

  每个客户端节点的KVCache查询峰值吞吐量超过40+ GiB/s

  采用分离式架构,确保了强一致性

  全面支持V3/R1的训练数据预处理、数据集加载、检查点保存/重载、嵌入向量搜索和KVCache查询推理

  Smallpond是轻量级的数据处理框架,其特点是:

  基于DuckDB的高性能数据处理

  可扩展性,能够处理PB级别数据集

  无需持续运行的服务,操作简便

  3FS和Smallpond两大开源项目,正在为AI数据处理设立新的标准——超快的处理速度和无缝集成。

  让许多人惊叹不已的是,DeepSeek竟自己编写了分布式文件系统。

  它的成功背后强大得理念,便是将小事做到极致。这种精神,体现了车库黑客的精髓。

  左右滑动查看

  3FS文件系统

  The Fire-Flyer File System(3FS)专为应对人工智能训练和推理任务挑战而设计的高性能分布式文件系统。

  项目链接:https://github.com/deepseek-ai/3FS

  它采用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络技术,构建了共享存储层,极大简化了分布式应用的开发过程。

  核心优势

  性能与易用性

  分布式架构:该系统整合了数千个SSD的高吞吐量和数百个存储节点的网络带宽,使得应用程序能够无视位置差异,高效访问存储资源。

  强一致性保证:通过采用链式复制与分配查询(CRAQ)技术,确保了数据的一致性,使得应用程序代码更加简洁易懂。

  标准文件接口:系统提供了基于事务性键值存储(如FoundationDB)的无状态元数据服务,使用的文件接口通用且易于上手,无需学习新的存储API。

  多样化工作负载支持

  数据准备:系统有效地将数据分析管道的输出组织成分层目录结构,并高效管理大量的中间数据。

  数据加载优化:通过支持计算节点间对训练样本的随机访问,无需进行数据预取或洗牌操作,提升了数据处理效率。

  高效检查点支持:为大规模训练任务提供高吞吐量的并行检查点功能。

  KVCache推理加速:提供了一种成本效益高的DRAM缓存替代方案,具有高吞吐量和更大的存储容量,适用于推理任务。

  性能

  1. 最大吞吐量

  下图展示了一个大型3FS集群在执行读压力测试时的吞吐量表现。

  该集群包含180个存储节点,每个节点均配置有2张200Gbps的IB网卡和16块14TiB的NVMe固态硬盘。

  测试中使用了约500个客户端节点,每个节点配备1张200Gbps的IB网卡。

  在存在训练任务背景流量的情况下,集群的总读取吞吐量达到了约6.6TiB/s。

  2. GraySort

  采用GraySort基准测试,评估smallpond在处理大规模数据集时的排序能力。

  实现采用了两阶段的处理方法:(1) 首先通过键的前缀位进行数据重排来分区数据,(2) 然后在各个分区内部进行排序。这两个阶段的数据读写都依赖于3FS。

  测试所用的集群包括25个存储节点(每个节点有2个NUMA域,每个NUMA域运行1个存储服务,每个节点配备2×400Gbps网卡)和50个计算节点(每个节点有2个NUMA域,192个物理核心,2.2 TiB内存,每个节点配备1×200 Gbps网卡)。

  在8,192个分区中排序110.5 TiB的数据,整个过程耗时30分钟14秒,平均吞吐量达到3.66TiB/min。

  3. KVCache

  KVCache是一种用于提升大型语言模型(LLM)推理效率的技术。

  它通过缓存解码器层中先前token的键和值向量,避免了重复的计算过程。

  顶部图表展示了所有KVCache客户端的读取吞吐量,其中既包括了峰值也包括了平均值,峰值吞吐量可达40GiB/s。

  底部图表则展示了在同一时间段内,垃圾收集(GC)过程中操作次数的变化情况。

  设计与实现

  3FS系统由四个主要部分组成:集群管理器、元数据服务、存储服务和客户端。这些组件通过RDMA网络(InfiniBand或RoCE)相互连接。

  元数据和存储服务定期向集群管理器发送心跳信号,以报告其状态。集群管理器负责处理集群成员的变更,并将集群的配置信息分发到其他服务和客户端。

  系统中部署了多个集群管理器,其中一个被选为主管理器。当主管理器发生故障时,另一个管理器会被提升为主管理器。

  集群配置信息通常存储在一个可靠的分布式协调服务中,例如ZooKeeper或etcd。在生产环境中,为了减少依赖性,我们使用与文件元数据相同的键值存储来保存集群配置。

  文件元数据操作(如打开或创建文件/目录)被发送到元数据服务,由其实现文件系统的语义。由于文件元数据是存储在一个事务性键值存储(例如FoundationDB)中的,因此元数据服务是无状态的,客户端可以连接到任何元数据服务。

  每个存储服务管理一些本地SSD,并提供一个块存储接口。

  为了确保强一致性,存储服务实现了链式复制与分配查询(CRAQ)机制。CRAQ的写入全部读取任意的方法有助于充分利用SSD和RDMA网络的高吞吐量。在3FS中,一个文件被分割成相等大小的数据块,并在多个SSD上复制。

  使用

  使用以下命令从GitHub克隆3FS仓库到本地文件系统:

  git clone https://github.com/deepseek-ai/3fs

  克隆完成后,进入3FS目录,运行以下命令来更新并初始化所有子模块:

  cd 3fs git submodule update --init --recursive ./patches/apply.sh

  根据Ubuntu版本安装所需的依赖项:

  # for Ubuntu 20.04. apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \ libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \ libgoogle-perftools-dev google-perftools libssl-dev ccache libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev # for Ubuntu 22.04. apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \ libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \ libgoogle-perftools-dev google-perftools libssl-dev ccache gcc-12 g++-12 libboost-all-dev

  确保安装了libfuse 3.16.1或更新版本,FoundationDB 7.1或更新版本,以及Rust工具链。

  在构建目录中构建3FS:

  cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON cmake --build build -j 32

  Smallpond:基于3FS的数据处理框架

  项目链接:https://github.com/deepseek-ai/smallpond

  快速入门

  目前smallpond支持从3.8到3.12的Python版本。

  pip install smallpond

  使用下列命令获取示例数据:

  # Download example data wget https://duckdb.org/data/prices.parquet
轻松上手:

  import smallpond sp = smallpond.init() #加载数据 df = sp.read_parquet("prices.parquet") #数据处理 df = df.repartition(3, hash_by="ticker") df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df) #保存结果 df.write_parquet("output/") #显示结果 print(df.to_pandas())
文档

  mallpond同时提供了高级和低级API。

  注意:目前,smallpond提供了两种不同的API,分别用于数据流图的动态和静态构建。由于历史原因,这两种API使用了不同的调度器后端,并支持不同的配置选项。

  高级API:目前使用Ray框架作为后端,支持数据流图的动态构建和执行。

  低级API:使用内置调度器,仅支持静态数据流图的一次性执行。然而,它提供了更多的性能优化和更丰富的配置选项。正在努力将这两种API合并,以便在未来,可以使用统一的高级API,并在Ray框架和内置调度器之间自由选择。

  下列链接提供入门教程、API参考、性能评估等更多内容。

  链接:https://github.com/deepseek-ai/smallpond/blob/main/docs/source/api.rst

  pip install .[dev] # run unit tests,单元测试 pytest -v tests/test*.py # build documentation,构建文档 pip install .[docs] cd docs make html python -m http.server --directory build/html

  性能

  采用GraySort基准测试脚本,在一个由50个计算节点和25个运行3FS的存储节点组成的集群上,对smallpond进行了评估。

  该基准测试在短短30分钟14秒内完成了对110.5TiB数据的排序,平均吞吐量达到了3.66 TiB/min。

  pip install .[dev] # run unit tests pytest -v tests/test*.py # build documentation pip install .[docs] cd docs make html python -m http.server --directory build/html

  连更五天,最新汇总

  DeepSeek开源周,这么快就过去了。连更5天,次次都是小惊喜。

  接下来,我们汇总了过去四天所有的开源项目,参见:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突然,跳水!AI大牛股,突发利空!

突然,跳水!AI大牛股,突发利空!

证券时报
2026-05-05 21:30:04
已致26死!浏阳爆炸现场还有两个高危黑火药库

已致26死!浏阳爆炸现场还有两个高危黑火药库

中国新闻周刊
2026-05-05 14:08:22
李湘与王岳伦现身北京街头被偶遇,李湘穿着大花裙子,瘦了很多!

李湘与王岳伦现身北京街头被偶遇,李湘穿着大花裙子,瘦了很多!

草莓解说体育
2026-05-03 00:20:20
吴宜泽父亲朋友圈曝光:连续10年记录儿子夺冠历程,曾卖掉房子陪孩子打球,决赛前为他整理衣冠,赛后向球迷连声道谢

吴宜泽父亲朋友圈曝光:连续10年记录儿子夺冠历程,曾卖掉房子陪孩子打球,决赛前为他整理衣冠,赛后向球迷连声道谢

极目新闻
2026-05-05 13:02:11
76岁的万科创始人王石,最近彻底成了全网焦点。

76岁的万科创始人王石,最近彻底成了全网焦点。

梦录的西方史话
2026-04-23 14:36:39
深夜,全线上涨!美伊,再传大消息!

深夜,全线上涨!美伊,再传大消息!

新浪财经
2026-05-05 23:05:04
中国一旦发生战争,要记得第一时间要带好这5样东西,才能保命

中国一旦发生战争,要记得第一时间要带好这5样东西,才能保命

轩逸阿II
2026-05-05 16:34:53
特斯拉 Model Y 将大改款?网传有 5 项升级,每个都是车主想要的!

特斯拉 Model Y 将大改款?网传有 5 项升级,每个都是车主想要的!

新浪财经
2026-05-04 22:51:52
赔钱赚吆喝!网传某车企11款车型月销不足3.3万、单款月均3000辆

赔钱赚吆喝!网传某车企11款车型月销不足3.3万、单款月均3000辆

火山詩话
2026-05-05 09:07:51
武汉天河机场提示牌称禁止携带“越王勾践剑”登机,机场回应:高峰期一天拦下四五把文创“宝剑”,需办理暂存、托运或邮寄手续

武汉天河机场提示牌称禁止携带“越王勾践剑”登机,机场回应:高峰期一天拦下四五把文创“宝剑”,需办理暂存、托运或邮寄手续

大风新闻
2026-05-05 15:19:11
再见火箭!再见申京!杜兰特1换2交易曝光,网友:白菜价

再见火箭!再见申京!杜兰特1换2交易曝光,网友:白菜价

舟望停云
2026-05-05 17:47:09
心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

心理学上有个词叫:螃蟹效应。永远要记住,和周围人搞好关系的秘诀就是,不分享喜悦、不炫耀成功、不说三道四、不假装聪明

德鲁克博雅管理
2026-04-28 17:04:30
一命换一命!教授营救至亲溺水去世,年仅39岁,知情人透露更多!

一命换一命!教授营救至亲溺水去世,年仅39岁,知情人透露更多!

云景侃记
2026-05-05 14:41:45
联通取消月租实锤落地:话费明明白白,移动电信跟进有时间表

联通取消月租实锤落地:话费明明白白,移动电信跟进有时间表

林子说事
2026-05-05 20:59:15
五一最堵10大景点出炉!网友:第1名堵到怀疑人生,第5名直接劝退

五一最堵10大景点出炉!网友:第1名堵到怀疑人生,第5名直接劝退

奇思妙想草叶君
2026-05-02 16:12:40
直线拉升!套现约455亿,李嘉诚又卖了

直线拉升!套现约455亿,李嘉诚又卖了

中国基金报
2026-05-05 17:19:50
五一假期突传噩耗!4位名人相继离世,均未满六十岁结局太唏嘘!

五一假期突传噩耗!4位名人相继离世,均未满六十岁结局太唏嘘!

阿纂看事
2026-05-05 10:44:11
千亿巨头明日*ST!25万散户站山顶,一夜亏掉87亿

千亿巨头明日*ST!25万散户站山顶,一夜亏掉87亿

慧眼看世界哈哈
2026-05-05 19:46:36
路人镜头下女星,伊能静老的出奇,杨颖黑土矮,唐艺昕像换了个人

路人镜头下女星,伊能静老的出奇,杨颖黑土矮,唐艺昕像换了个人

白面书誏
2026-05-04 21:40:05
身体一补钾,体重就掉了!6种高钾食物,脂肪一见就溜走

身体一补钾,体重就掉了!6种高钾食物,脂肪一见就溜走

白宸侃片
2026-05-04 14:47:48
2026-05-06 00:15:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15136文章数 66837关注度
往期回顾 全部

科技要闻

传苹果考虑让英特尔、三星代工设备处理器

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

头条要闻

媒体:中国史无前例下"阻断禁令" 美媒迅速捕捉到信号

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

内娱真情谊!杨紫为谢娜演唱会送花篮

财经要闻

浏阳烟花往事

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

本地
亲子
旅游
健康
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

这个五一,带宝宝来北海看海啦~银滩细沙海浪,是小朋友最爱的天

旅游要闻

“五一”郑州低空旅游起飞 超 2700 人次云端览山河

干细胞治烧烫伤面临这些“瓶颈”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版