网易首页 > 网易号 > 正文 申请入驻

破解分层之困:XSKY AI 数据湖以智慧流动支撑 5Tbps 训练业务

0
分享至

AI 浪潮已至:数据基石决定模型高度

随着大语言模型(LLM)与多模态模型的参数量和数据量呈指数级增长,AI 技术正以前所未有的深度与广度变革千行百业。从国内顶尖 AI 模型登顶全球 SOTA,到各大智算中心竞相追逐更高的算力,这场智能革命的背后,是对数据存储和处理能力的极致渴求。

一个典型的 AI 工作流,从海量数据采集、清洗预处理,到 GPU 集群的高并发训练,再到最终的模型推理服务,每一个环节都对数据 I/O 提出了严苛挑战。任何环节的瓶颈,都会直接导致昂贵的 GPU 算力闲置,严重拖慢研发效率。

XSKY星辰天合深耕分布式存储领域多年,凭借在金融、运营商等关键行业服务超过 3000 家客户的深厚积累,深刻理解大规模数据管理的复杂性。如今,我们将久经考验的企业级能力注入 AI 领域,以 XEOS 对象存储为核心,成功为某头部 AGI 厂商 M、某国家级 AI 实验室、某大型智算中心等数十家 AI 头部用户提供了稳定、高效的数据底座,支撑客户在 AI 浪潮中乘风破浪。

分层建设:AI 基础设施的必然趋势

面对 AI 全生命周期中迥异的数据访问需求,单一存储类型已难以为继。“全闪+混闪”的分层建设,已成为业界平衡性能与成本的必然选择。

一个典型的 AI 分层数据湖架构如下:

  • 数据预处理平台:负责原始数据的采集、清洗、标注和增强,产生海量温冷数据。
  • 高性能存储层(热层):通常由全闪存介质构成,直接对接模型训练和推理任务,满足其对低延迟、高带宽、高 IOPS 的极致性能要求。
  • 大容量存储层(温/冷层):通常由混闪或大容量 HDD 介质构成,负责承接海量原始数据、中间数据和归档数据,追求极致的成本效益。

通过分层,企业可以将最宝贵的全闪资源用在刀刃上,同时以更经济的方式存储海量数据。然而,理想的架构在落地时却常常遭遇骨感的现实。

传统分层建设的三大“痛点”

传统的分层存储方案,看似美好,实则在数据流动的“最后一公里”隐藏着三大核心痛点,严重制约了 AI 的效率。

1、“盲目”的数据流动

传统方案大多基于数据的创建时间(mtime)进行分层。这意味着,一个正在被高频访问的热点训练集,可能仅仅因为“到期”就被“一刀切”地降级到慢速的混闪池,导致训练任务性能骤降,GPU 大量空等。

2、“割裂”的命名空间

数据在不同存储层之间流动,往往需要数据科学家手动在不同路径、不同挂载点之间进行切换。这不仅增加了操作的复杂性,更容易因路径错误导致训练失败,浪费宝贵的计算资源和时间。

3、“高昂”的隐性成本

为了缓解性能问题,企业不得不将更多数据保留在昂贵的全闪存层,或者在数据被降级后,再耗费大量时间手动将其“拉回”热层。这种反复的数据“搬运”和过度的资源冗余,极大地推高了整体 TCO(总拥有成本)。

某大型智算中心就曾面临此困境:原有开源方案缺少智能分层能力,数据预处理效率低下,导致 GPU 等待时间过长,无法实现热数据高性能训练、冷数据自动归档的顺畅流转。

XEOS 智能数据湖:让数据“按需”流动,为性能“自动”加速

XEOS 智能数据湖架构。在统一命名空间下,XEOS 基于访问时间(atime)实现冷数据的智能沉降,并通过自动缓存机制实现热数据的智能回热,彻底打破传统分层存储的性能与管理瓶颈。

为破解上述难题,XSKY XEOS 6.4.200 版本推出了两大革命性功能,从根本上重塑了 AI 场景下的数据分层逻辑,让数据湖真正“智能”起来。

1、基于访问时间(atime)的生命周期管理:让热数据永远“年轻”

XEOS 创新性地引入了基于“最后访问时间(atime)”的生命周期策略。存储系统能够智能感知业务行为,每一次对数据的访问(GetObject/HeadObject),都会刷新其 atime,从而推迟其分层或删除的计划。

核心优势:只有真正“无人问津”的冷数据才会被流动到低成本存储池。对于正在进行的高频训练任务,其数据集会因为持续被访问而一直保留在高性能的全闪热池中,为业务提供稳定、极致的访问性能。

2、分层数据访问增强:透明访问与自动缓存,“一次慢,次次快”

当数据不可避免地被分层到冷池后,XEOS 提供了增强的“缓存访问模式”。

  • 透明访问:上层应用无需关心数据究竟在哪一层,访问路径始终统一。
  • 自动缓存与代理读:当应用首次访问一个已分层的数据时,XEOS 会从冷池获取数据并返回,保证业务连续性;与此同时,系统会异步地将该数据自动缓存回热池。
  • 访问续期:后续所有对该数据的访问,都将直接从热池的缓存中读取,实现性能加速。并且,每一次访问都会刷新缓存的过期时间(访问续期),确保热点数据能长期驻留在高速缓存中。

这一机制实现了“首次访问从冷池读,后续访问从热池缓存读”的智能加速效果。AI 工程师还可以通过批量 HeadObject 操作,有计划地预热数据集,让其提前进入高速缓存,使业务第一次访问就能获得极致性能。

实践见证:从头部 AGI 厂商到智算中心的效能突破

理论的先进性,最终需要实践来检验。XEOS AI 数据湖方案已在多个业界顶级的 AI 项目中证明了其卓越价值。

1、助力国内某头部 AGI 厂商登顶 SOTA 模型

  • XSKY 为国内某头部 AGI 厂商 M 提供了关键助力,其基于 XEOS 的全闪数据湖,稳定承载了数据采集、处理、训练、推理的全部任务。
  • 在实际负载中,XEOS 以单一存储集群平稳应对了周期性近 2Tbps 的写入和峰值超过 5Tbps 的突发读取,且在极限压力下,读取时延仍保持在8ms以内,充分满足了国际顶尖 AI 大模型对存储的严苛要求。

2、服务某大型智算中心

  • 面对 4 个月内数据增长超 20PB 的迅猛势头,XEOS 混闪对象存储作为数据根基,提供了强大的弹性和性能。
  • 在扩容重平衡期间,依然能支撑训练任务的大量数据加载,实测读取峰值高达 149.34 GB/s,写峰值 61.67 GB/s。
  • 相较于原开源方案,训练效率提升了 300%,极大地释放了 GPU 算力。

这些成功案例充分证明,XEOS AI 数据湖方案不仅能提供 TB/s 级的澎湃带宽和金融级的可靠性,更能通过智能的数据流动与管理,从根本上解决 AI 分层建设的痛点,将 AI 研发和 Infra 团队从繁琐的数据运维中解放出来,专注算法与模型的创新。

选择 XEOS,就是选择一个更懂 AI、更智能、更具成本效益的数据未来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普:伊朗政权已更迭,将放行20艘油轮!伊朗副总统:将重塑霍尔木兹海峡管理制度

特朗普:伊朗政权已更迭,将放行20艘油轮!伊朗副总统:将重塑霍尔木兹海峡管理制度

红星新闻
2026-03-30 13:21:16
3分3失误!赛季罚球命中率33%,北控一年600万又养了个“李慕豪”

3分3失误!赛季罚球命中率33%,北控一年600万又养了个“李慕豪”

弄月公子
2026-03-31 09:23:01
人民日报也发了粉底液将军,居然有粉丝去冲人民日报,劝都劝不住

人民日报也发了粉底液将军,居然有粉丝去冲人民日报,劝都劝不住

动物奇奇怪怪
2026-04-01 00:31:36
莫布里34+17+3,最后5秒,哈登走到场边,一把抱住爵士主教练哈迪

莫布里34+17+3,最后5秒,哈登走到场边,一把抱住爵士主教练哈迪

担酒
2026-03-31 11:23:13
昊铂A800补贴后16.48万元起售,华为乾崑搭配豪华底蕴

昊铂A800补贴后16.48万元起售,华为乾崑搭配豪华底蕴

牛车网
2026-03-05 20:29:57
中国游泳队亚运优势依然明显,但日本队男子新人可能冒头夺金

中国游泳队亚运优势依然明显,但日本队男子新人可能冒头夺金

体娱一家亲
2026-03-31 22:20:21
大规模哗变:美军,反了?

大规模哗变:美军,反了?

美第奇效应
2026-03-30 19:46:55
张雪吐槽:重庆一个子都没帮过我 爆粗回应20年反转:不会说场面话

张雪吐槽:重庆一个子都没帮过我 爆粗回应20年反转:不会说场面话

风过乡
2026-03-31 22:50:08
被裁!精神异常+疯言疯语!天才5号秀彻底玩完了...

被裁!精神异常+疯言疯语!天才5号秀彻底玩完了...

柚子说球
2026-03-31 09:26:33
美媒:哈马斯的5000枚火箭弹,至少打出了中国5年的战略缓冲期

美媒:哈马斯的5000枚火箭弹,至少打出了中国5年的战略缓冲期

轩逸阿II
2026-03-29 12:25:26
被教练性侵27次,她在奥运赛场撞出队友,别再同情她了!

被教练性侵27次,她在奥运赛场撞出队友,别再同情她了!

特约前排观众
2026-02-26 00:15:03
李荣浩凌晨1点46分再发文,6次回应后表态,把态度讲明白了

李荣浩凌晨1点46分再发文,6次回应后表态,把态度讲明白了

情感大头说说
2026-04-01 01:14:59
万科2025年营收2334亿,累计交房11.7万套

万科2025年营收2334亿,累计交房11.7万套

第一财经资讯
2026-03-31 21:50:12
网贷十年血色史,一场以金融科技为名的狂欢与崩塌

网贷十年血色史,一场以金融科技为名的狂欢与崩塌

资本董事局
2026-03-31 19:34:32
87岁“华人神探”李昌钰去世,好友曝其死法,80岁丧偶后再娶新妻

87岁“华人神探”李昌钰去世,好友曝其死法,80岁丧偶后再娶新妻

小叨娱乐
2026-03-30 16:29:31
女人最扛不住的4个“坏动作”,第1个让90%的男人不敢试

女人最扛不住的4个“坏动作”,第1个让90%的男人不敢试

君笙的拂兮
2026-03-30 22:25:54
鲁山孙某菲回应调查结果:舅舅今年10月份退休,撤不撤职有何影响

鲁山孙某菲回应调查结果:舅舅今年10月份退休,撤不撤职有何影响

汉史趣闻
2026-03-31 19:17:52
三野名将不听粟裕调遣,出言不逊后甩手离去,主席:立刻撤职 

三野名将不听粟裕调遣,出言不逊后甩手离去,主席:立刻撤职 

纪实文录
2025-05-10 17:45:35
伊朗国防军为何在本次伊朗战争中未参战?

伊朗国防军为何在本次伊朗战争中未参战?

深度报
2026-03-30 22:04:19
胜吉林采访!满意全队发挥,回应冲冠将目标定在争四,弗格展情商

胜吉林采访!满意全队发挥,回应冲冠将目标定在争四,弗格展情商

篮球资讯达人
2026-03-31 23:49:52
2026-04-01 02:11:00
XSKY星辰天合
XSKY星辰天合
面向 AI 时代的统一数据平台提供商
812文章数 120关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

伊朗:准备好“迎接”美军到来 将战斗到底

头条要闻

伊朗:准备好“迎接”美军到来 将战斗到底

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

手机
数码
教育
公开课
军事航空

手机要闻

vivo X300s线下上手:体验后,不吐不快!

数码要闻

RTX 50又免费升级!DLSS 4.5 6× 多帧生成+动态多帧生成抢先体验

教育要闻

微专题:高考地理中的地理实验

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:即使霍尔木兹海峡仍关闭 也愿意结束战争

无障碍浏览 进入关怀版