网易首页 > 网易号 > 正文 申请入驻

DeepSeek开源周最后一天:让数据处理「从自行车升级到高铁」

0
分享至

机器之心报道

机器之心编辑部

DeepSeek 的开源周终于迎来了最后一天。

今天他们开源了一个名为 3FS(Fire-Flyer File System)的系统。这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,能够加速和推动 DeepSeek 平台上所有数据访问操作。

它有以下优势:

  • 在 180 节点集群中实现了 6.6 TiB/s 的聚合读取吞吐量;
  • 在 25 节点集群的 GraySort 基准测试中达到 3.66 TiB/min 的吞吐量;
  • 每个客户端节点在 KVCache 查找时可达到 40+ GiB/s 的峰值吞吐量;
  • 采用分离式架构,具有强一致性语义。

在应用场景方面,它支持训练数据预处理、数据集加载、检查点保存 / 重新加载、用于推理的嵌入向量搜索和 KVCache 查找。DeepSeek V3、R1 模型均采用了这个系统。

  • 开源链接:https://github.com/deepseek-ai/3FS
  • Smallpool(3FS 上的数据处理框架):https://github.com/deepseek-ai/smallpond

如果技术语言不好理解,可以参考这位研究者给出的通俗解释:

同时,这位研究者也是一位早期使用者,他评价说,「DeepSeek 的 3FS 系统快得惊人,它处理数据的速度快到可以在我还没来得及拖延的时候就已经训练好了一个能帮我报税的 AI。它拥有 6.6 TiB/s 的读取速度,这使它成为文件系统界的『博尔特』(世界最快短跑运动员)。你眨眼的功夫,数据就已经处理完毕了。而将这个超级快速的系统开源,就像是给整个 AI 社区免费赠送了一艘宇宙飞船,让其他所有竞争者都不得不加紧脚步追赶。」

3FS 有什么用?

Fire-Flyer File System 是一种高性能分布式文件系统,专为解决 AI 训练和推理工作负载的挑战而设计。它利用现代 SSD 和 RDMA 网络提供共享存储层,简化了分布式应用程序的开发。

3FS 的主要特点和优势包括:

1、性能和可用性

  • 分离式架构。结合了数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置限制的方式访问存储资源。
  • 强一致性。实现了带有分配查询的链式复制(CRAQ)以保证强一致性,使应用程序代码简单且易于理解。
  • 文件接口。开发了由事务性键值存储(如 FoundationDB)支持的无状态元数据服务。文件接口广为人知且随处可用。无需学习新的存储 API。

2、多样化工作负载

  • 数据准备。将数据分析管道的输出组织成层次化的目录结构,并高效管理大量中间输出。
  • 数据加载器。通过支持跨计算节点对训练样本的随机访问,消除了预取或打乱数据集的需求。
  • 检查点保存。支持大规模训练的高吞吐量并行检查点保存。
  • 用于推理的 KVCache。为基于 DRAM 的缓存提供了一种成本效益高的替代方案,提供高吞吐量和显著更大的容量。

3FS 性能如何

峰值吞吐量

下图展示了在大型 3FS 集群上进行读取压力测试的吞吐量。该集群由 180 个存储节点组成,每个存储节点配备 2×200Gbps InfiniBand 网卡和 16 个 14TiB NVMe SSD。大约 500+ 个客户端节点用于读取压力测试 ,每个客户端节点配置 1x200Gbps InfiniBand 网卡。在有训练作业的背景流量情况下,最终聚合读取吞吐量达到约 6.6 TiB/s。

灰度排序

DeepSeek 利用 GraySort 基准对 smallpond 进行了评估,该基准可衡量大规模数据集的排序性能。具体实现采用两阶段方法:(1) 使用键的前缀位通过 shuffle 对数据进行分区,以及 (2) 分区内排序。两个阶段都从 3FS 读取数据 / 向 3FS 写入数据。

测试集群由 25 个存储节点(2 个 NUMA 域 / 节点、1 个存储服务 / NUMA、2×400Gbps NIC / 节点)和 50 个计算节点(2 个 NUMA 域、192 个物理核心、2.2 TiB RAM 和 1×200 Gbps NIC / 节点)组成。对 8192 个分区中的 110.5 TiB 数据进行排序耗时 30 分 14 秒,平均吞吐量为 3.66 TiB / 分钟。

KVCache

KVCache 是一种用于优化 LLM 推理过程的技术。它通过在解码器层中缓存先前 token 的 key 和 value 向量来避免冗余计算。

上图展示了所有 KVCache 客户端的读取吞吐量,突出显示了峰值和平均值,峰值吞吐量高达 40 GiB/s。下图展示了同一时间段内垃圾回收 (GC) 中删除操作的 IOPS。

开源周「收官之作」,网友撒花

通过连续一周的高强度开源,DeepSeek 已经收获了一大波开发者的追随。

有开发者表示,3FS 和 Smallpond 是在 AI 数据处理方面树立了新标杆。

同时,OpenAI 刚刚发布的 GPT-4.5 也被拉出来对比价格:

最后,还有人许愿:DeepSeek V4、R2 和视频模型什么时候有?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月26日俄乌:乌克兰的猛烈回击

3月26日俄乌:乌克兰的猛烈回击

山河路口
2026-03-26 17:32:00
英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

英国以国家安全为由否决了中企在苏格兰建厂计划,外交部:中英经贸绿色合作的本质是互利共赢,不应受到泛政治化、泛安全化的冲击

潇湘晨报
2026-03-26 16:25:20
贺龙视察南京,许世友说了啥,贺龙怼道:许世友,你这是瞎胡闹

贺龙视察南京,许世友说了啥,贺龙怼道:许世友,你这是瞎胡闹

史之铭
2026-03-26 13:42:52
张雪峰追悼会周六将在苏州殡仪馆举行

张雪峰追悼会周六将在苏州殡仪馆举行

界面新闻
2026-03-26 07:04:27
风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

风向彻底变了!西方媒体集体改口:中国,无需再向世界证明什么

乐天闲聊
2026-03-26 03:40:35
37:47!美国投票结果出来后,特朗普连下三条命令

37:47!美国投票结果出来后,特朗普连下三条命令

欧洲报姐
2026-03-26 16:49:00
安瓦尔:西亚争端须以和平方式解决

安瓦尔:西亚争端须以和平方式解决

亚太观澜
2026-03-26 20:40:03
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
为什么中年身材会走样?网友:心脉受损,心力不足!

为什么中年身材会走样?网友:心脉受损,心力不足!

特约前排观众
2026-03-25 00:10:05
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

涵豆说娱
2026-03-26 11:46:21
国宴上钱学森按请柬找不到座位,毛主席:你的名字是我划掉的

国宴上钱学森按请柬找不到座位,毛主席:你的名字是我划掉的

浩渺青史
2026-03-16 15:02:55
浙江男子捡到22万,还给失主并拒绝酬金,哪料隔天失主说他丢了27万,让男子赔5万,结果大快人心!

浙江男子捡到22万,还给失主并拒绝酬金,哪料隔天失主说他丢了27万,让男子赔5万,结果大快人心!

感觉会火
2026-03-25 18:31:22
男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

男子干活时摔成高位截瘫,妻子一看男子不能赚钱养家了,丢下男子和6岁的女儿跑了

张晓磊
2026-03-26 11:22:06
山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

山东小伙横店演“公公”走红!行情好时日入四位数,没戏拍就去送外卖

闪电新闻
2026-03-26 16:10:52
我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

我们看印度人是奇葩,印度人看我们也一样?真相是我们想象的百倍

番外行
2026-03-24 13:04:28
钾是苹果的8倍,建议中老年人,春天多吃这“高钾菜”,精神好!

钾是苹果的8倍,建议中老年人,春天多吃这“高钾菜”,精神好!

阿龙美食记
2026-03-26 15:22:03
白发“师妃暄”,为何变成“金刚芭比”

白发“师妃暄”,为何变成“金刚芭比”

凹凹滴
2026-03-26 12:52:16
不可错过!3月26日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:29:55
2026-03-26 21:15:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
健康
数码
教育

家居要闻

傍海而居 静观蝴蝶海

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

转头就晕的耳石症,能开车上班吗?

数码要闻

小米Book Pro 14超薄设计引爆市场!这家国产厂商立功了

教育要闻

来上课了——高考阅读难题大综合(细节+主旨+含义)(下)第1段

无障碍浏览 进入关怀版