焱融科技
该企业由焱融科技投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项评选。
在全球人工智能浪潮,特别是大模型技术迅猛发展的背景下,智能算力已成为驱动AI产业进化的核心基础设施。英智创新(深圳)科技有限公司敏锐把握这一历史性机遇,启动“AI创新赋能中心”项目,旨在建设一个面向大模型训练与推理的先进智算平台,以缓解产业普遍存在的“算力焦虑”,并通过私有大模型代训练服务赋能千行百业。
然而,构建真正高效的智算中心绝非简单地堆砌GPU算力。英智创新深刻认识到,存储性能是决定重资产投入的GPU集群能否实现高效运转、保障终端用户模型训练与推理效率的关键瓶颈。其平台建设面临着严苛的核心需求:必须提供TB级的高聚合带宽(目标达1024GB/s),以确保千卡GPU集群能够满负荷进行数据访问;必须解决海量小文件存取导致的性能衰减难题,以支撑大模型训练的全流程;同时,系统还需具备PB级的可扩展容量,以应对未来数据规模的持续增长。
为突破上述存储瓶颈,英智创新经过严格选型,最终携手焱融科技,引入其专为高性能AI场景打造的追光全闪存储一体机F9000X作为智算平台的核心数据底座。该方案通过顶尖的全闪硬件架构、创新的分布式文件系统以及深度优化的软件栈,成功实现了TB级的高稳定带宽,完全满足了千卡GPU集群的高并发数据供给需求,并将海量小文件处理性能提升6倍以上,有效消除了存储侧的效率瓶颈。
本项目通过构建存储与算力相匹配的高性能AI基础设施(AI Infra),充分释放GPU极致算力,保障了英智创新智算平台资源的高效利用与业务连续性。该实践对于提升整个智算产业的资产回报率与技术服务竞争力具有重要的示范意义,是AI基础设施协同演进、共同支撑AI时代创新应用的标杆案例。
时间周期:
项目开始时间:2024年8月底
中间重要时间节点:项目时间紧、任务重,明确要求在10天内完成部署。我们采用“分批交付、并行作业、业务先行”的敏捷策略,于9月3日交付首个可用存储集群,9月4日顺利完成第二批节点部署与集群扩展;9月6日完成全部交付。
项目完结时间:2024年9月
AI Infra应用需求
英智创新自开始便聚焦于构建真正面向大模型训练与推理、能够充分释放算力潜能的高性能算力集群。在“AI创新赋能中心”智算平台建设过程中,英智创新对底层基础设施提出了全方位、高标准的要求。然而,传统存储架构在高并发访问、超大规模数据吞吐及低时延响应等方面已难以支撑新一代AI工作负载,成为制约算力释放的关键瓶颈。
基于此,英智创新对其算力平台的AI Infra存储能力提出了明确而系统化的需求:
·保障计算集群高效运转:项目一期采用英伟达GPU构建大规模计算集群,存储系统需为GPU提供持续、高效的数据供给,最大限度提升GPU利用率,避免算力空转,确保整体计算资源高效运行。
·高速数据访问与传输能力:存储系统需支撑大规模并行计算与分布式训练场景,确保数据在存储系统与GPU集群之间高速流转,显著降低数据访问与传输时延。明确提出单卡读取性能需达到1GB/s,整体聚合读取带宽达到1024GB/s。
·海量小文件处理能力:大模型训练涉及大量小文件和元数据操作,传统存储在该场景下易出现性能衰减。存储系统需具备高效的小文件处理机制,保障小文件访问性能与整体系统吞吐的稳定性。
·存储容量与弹性扩展能力:面对模型规模和数据量的持续增长,平台需提供不少于2PB的初始存储容量,并支持横向扩展与性能线性增长,以满足未来高密度AI工作负载的持续扩展需求。
·统一数据空间与跨协议访问能力:不同业务系统、训练框架及调度平台对存储接口需求各异,需构建统一的数据命名空间与多协议访问机制,消除数据孤岛,实现数据的高效共享与协同计算。
作为专注于AI场景的专业存储厂商,焱融科技基于对现代AI Infra存储体系的深刻理解,对英智创新的需求进行了体系化拆解,并将其归纳为三个核心维度:
·数据性能与存储效率维度:聚焦解决AI训练与推理过程中的数据访问瓶颈,通过提升系统带宽、降低访问时延、优化海量小文件处理能力,全面支撑高并发AI数据流。
·数据治理与流程协同维度:通过统一命名空间与统一数据访问接口,打通数据孤岛,实现从数据接入、模型训练、验证到推理的全流程数据治理与高效协同。
·平台弹性:提升系统的横向扩展能力,使AI Infra平台具备面向未来业务增长的持续承载能力和稳定运行能力。
基于上述需求与技术判断,焱融追光全闪存储一体机F9000X被选定为英智创新“AI创新赋能中心”智算平台的核心存储方案。该方案依托高性能NVMe全闪架构、分布式并行文件系统设计以及多协议统一访问能力,全面满足英智创新在大模型训练与推理场景下对高性能、高并发、强扩展及统一数据管理的综合需求,为其智算平台的高效运行与持续演进提供了坚实的数据基础。
面临挑战
英智创新的智算平台面向用户提供模型训练与推理算力服务,必须在保障业务稳定、高效运行的同时,提供一致且优质的使用体验。同时,平台还需充分考量高昂GPU资源的投资回报率(ROI),避免算力浪费。为实现上述目标,平台建设过程中必须克服多维度挑战,这些挑战不仅来自底层技术本身,还涉及系统架构设计、数据治理以及运维管理等多个层面。
1.技术架构挑战
在AI模型训练与推理过程中,传统存储架构暴露出明显的性能瓶颈,已难以支撑新一代AI工作负载:
带宽受限:大规模模型训练需要持续、稳定的高带宽数据访问,而传统存储体系难以提供高并发、可持续的带宽输出,导致GPU在等待数据过程中空转,算力利用率显著下降。
时延瓶颈突出:深度学习任务对存储响应时延极为敏感。在高I/O并发场景下,传统存储系统延迟显著抬升,直接影响训练效率与作业完成周期。
小文件 I/O 能力不足:AI 训练及数据预处理阶段涉及大量结构化与半结构化小文件访问。传统存储架构在海量小文件随机I/O场景下性能衰减严重,IOPS急剧下降,成为制约整体性能的重要因素。
2.多协议融合挑战
AI智算平台需同时支撑NFS、SMB、POSIX等多种访问协议,不同AI框架、开发工具及业务系统对存储接口的要求各不相同。如何在统一存储体系下实现多协议并存,并保障其高性能与一致体验,成为基础设施建设中的关键挑战。
3.可扩展性与持续演进挑战
AI模型规模与数据体量呈指数级增长,智算平台需具备平滑演进至更高算力规模的能力。然而,许多传统存储系统在容量扩展时难以实现性能线性增长,或需要复杂的数据迁移与停机维护。这种方式无法满足以服务连续性和稳定性为核心要求的智算平台建设目标。
4.成本与效能平衡挑战
构建高水准的AI Infra需要持续而巨大的资本投入,其挑战不仅体现在初期硬件采购成本上,更体现在长期运营过程中的整体效能成本。低效的存储系统会直接导致计算资源闲置率上升;缺乏全数据生命周期管理能力的存储方案,则会使低频、冷数据长期占用高性能存储资源,进一步推高整体运营成本,削弱平台的投资回报。
战略目标
本项目的目标不仅是部署一套高性能存储系统,更在于构建一个面向AI、具备高效协同能力的智算平台底座,为英智创新智算平台的用户提供稳定、高效、可预期的模型训练与推理算力体验,从根本上提升其智算服务的核心竞争力与商业价值。具体目标体现在以下几个方面:
1.实现算力资源的极致利用
通过突破存储性能瓶颈,保障千卡级GPU集群在大规模分布式训练过程中持续获得高质量、高吞吐的数据供给,使GPU利用率长期稳定维持在高位,避免算力空转,最大化GPU等核心硬件资产的投资回报率。
2.显著加速AI模型生产与迭代周期
为英智创新及其用户提供高效的数据支撑,大幅缩短模型训练与迭代时间。将模型检查点(Checkpoint)的保存与恢复时间从分钟级缩短至秒级,显著提升实验效率与模型调优速度;同时提升推理服务整体吞吐能力,保障高并发推理请求下的实时响应与稳定输出。
3.构建弹性、可持续演进的AI Infra架构
建立一套初始容量达2PB、并支持性能与容量线性扩展的数据基础设施。该架构不仅能够满足当前业务需求,还可在不中断服务的前提下,平滑支撑未来算力规模持续扩展所带来的数据洪流与复杂负载挑战。
实施与部署过程
在项目实施与部署过程中,焱融科技与英智创新团队紧密协作,以系统性工程方法实现了项目的快速交付上线。
1.资源投入与团队配合
焱融科技组建了由解决方案架构师、资深存储研发工程师及交付实施专家等组成的专项项目团队,提供从方案设计、性能验证到部署实施与深度优化的全周期服务。在项目实施过程中,焱融团队与英智创新团队保持紧密协同,确保信息高效同步、决策快速闭环、执行精准落地。
2.核心系统架构设计
![]()
英智创新智算平台建设方案架构图
架构设计核心理念:构建一套兼具高性能、高可用性与高扩展性的智能算力基础设施。整体架构以算力资源与数据资源的协同优化为核心,包含以下层级。
·计算层:智算业务区,GPU服务器集群。
·存储层:采用焱融全闪存储一体机F9000X构建高性能分布式存储集群。支持GPUDirect Storage技术,实现GPU直接访问存储数据,绕过CPU和内存,大幅降低访问延迟。
·网络层:采用400Gb InfiniBand高速无损网络,实现计算节点与存储节点间的高速数据传输。
3.核心技术、产品以及创新性性能优化
·核心产品:焱融追光全闪存储一体机F9000X
焱融全闪F9000X搭载焱融高性能分布式文件系统YRCloudFile,采用企业级PCle 5.0 NVMe全闪存、英特尔®至强®第5代可扩展处理器及NVIDIA ConnectX-7智能网卡(HCA)等顶级硬件配置,并支持NVIDIA NDR 400 InfiniBand高速网络,性能业界领先,能够充分满足智算平台在大模型训练和推理业务中的高并发、低时延、高达数千万IOPS峰值的响应诉求,并为英智创新算力服务业务的连续性、稳定性及高效率提供保障。
·核心技术与创新性性能优化
①实现高带宽、低延时的极致存储性能。为了达到客户1024GB/s的聚合带宽以及低延时要求,我们应用了多项核心技术:
异步非阻塞I/O与网络拥塞控制:焱融高性能分布式文件系统YRCloudFile采用异步模型,结合智能的网络拥塞感知与优化算法,确保在海量并发数据流场景下,网络链路始终高效、稳定,避免因拥塞导致的性能抖动。
智能数据分片与负载均衡:文件数据被智能地切片并分布到集群所有NVMe SSD上,实现了极高的并发访问能力。系统实时监控各节点、各磁盘的负载,动态调度I/O请求,确保无热点瓶颈。
端到端零拷贝与GDS、RDMA加速:支持GPUDirect Storage技术,实现GPU直接访问存储数据。同时,充分利用InfiniBand网络的RDMA(远程直接内存访问)特性,实现数据从存储节点SSD直接传输到GPU服务器内存的“零拷贝”,彻底绕开CPU干预,大幅降低延迟和CPU开销。
②攻克海量小文件元数据性能瓶颈。AI训练数据集常包含数十亿的小图片或文本文件,这对存储系统的元数据性能(如打开、查找、列出文件)是巨大考验。我们通过创新设计解决了此问题:
分布式元数据集群:将元数据服务从数据服务中解耦,并构建独立、可扩展的元数据集群,用于处理海量文件属性操作。
智能元数据缓存与预读:采用存储层元数据缓存技术,并结合metadata readhead等预读机制,将高频访问的元数据常驻内存,实现微秒级响应的元数据操作能力,有效支撑大规模并发I/O。
批量提交与轻量级操作:通过batch commit(批量提交)和lazy close(延迟关闭)等机制,将多个小文件操作合并处理,显著减少网络往返和磁盘同步次数。经实际验证,这些技术将海量小文件场景下的整体性能提升了6倍以上。
③面向AI全生命周期的数据管理,我们的思维不仅限于“存储”,更关注“数据流”在整个AI流程中的效率。
智能数据加载,驱动多云数据高效流动:焱融Dataload功能为多个云平台间的数据流转提供了高效解决方案。通过对象存储与文件目录间的数据迁移,实现了跨云平台的高效数据流转,能够快速统筹加载不同平台之间的数据以供模型训练推理等业务使用。它支持数据的预加载和按需加载,并通过POSIX接口与GPU集群无缝对接,从而提升数据处理效率和灵活性。
智能数据分层降低数据管理成本:焱融智能分层功能使得客户可根据策略定义冷热数据层,冷数据自动流动至本地或公有云对象存储中,向上仍然为业务提供标准的文件访问接口,数据在冷热数据层之间流动对业务完全透明。在保证热层数据高性能的同时,降低了数据存储成本,提升了数据可靠性。
弹性数据网络,满足AI业务全流程不同网络需求:通过弹性数据网络(Elastic Data Network)功能,焱融存储集群可同时支持TCP或RDMA方式访问,满足训练和推理等不同业务集群数据通讯需求,这一创新不仅提高了存储系统的灵活性,也使得其能够更好地适应各种业务场景,帮助企业更有效地管理和访问数据。
企业级多租户存储服务:方案内置了企业级多租户存储服务能力。该功能通过逻辑存储池隔离,为每个租户提供独立、安全的命名空间与访问权限,从根本上确保数据隐私。同时,支持对租户进行细粒度的容量、带宽及IOPS配额管理与服务质量控制,有效防止“噪音邻居”效应,保障各租户性能的稳定与公平。
④率先支持KVCache特性,为AI推理加速降本。
焱融存储方案支持PB级缓存扩展。通过“以存换算”突破GPU显存瓶颈,提升KV命中率与长上下文处理能力,加速推理响应,为大模型推理提供更优性价比技术方案。实测数据显示,TTFT推理性能提升13倍,并发能力增长3倍。
4.部署交付
本项目时间紧、任务重,客户明确要求在10天内完成部署并正式投入使用。在如此有限的时间窗口内,焱融科技与客户团队保持高频协同,创新性地制定并实施了“分批交付、并行作业、业务先行”的敏捷交付策略。在确保整体架构完整性与稳定性的前提下,最大限度压缩实施周期与业务等待时间,实现平台建设与业务启动的同步推进。
焱融科技以“交付即上线”为实施原则,推动业务快速落地。项目启动后,焱融团队在极短时间内完成首批存储节点及核心网络环境部署,并于9月3日交付首个可用存储集群,支撑业务率先上线运行。在首批集群稳定运行的基础上,于9月4日顺利完成第二批节点部署与集群扩展;随后,在前期阶段平稳推进的基础上,于9月6日完成全部资源部署及整体平台交付,确保智算平台按期投入使用。
合作服务效果
通过部署焱融高性能AI Infra存储解决方案,英智创新智算平台在性能、扩展能力、经济效益及服务能力等多个维度实现了显著的商业成效与价值提升:
1.性能显著提升
基于焱融全闪存储架构,平台构建了TB级集群带宽能力,并针对推理场景提供对KVCache的弹性扩展与高效访问能力,有效保障GPU集群在大规模训练与在线推理场景下的数据持续供给,使算力资源在高负载条件下依然能够稳定、高效运行。同时,得益于对元数据路径及小I/O访问的专项优化,小文件访问性能整体提升约6倍,即便在复杂、高并发、跨租户的小文件工作负载下,平台仍可持续输出卓越的整体性能表现。此外,平台通过分布式文件系统的资源隔离与调度机制,支持多租户并发访问与性能隔离,在多团队、多任务并行运行的场景下依然能够保持稳定、可预测的服务质量(QoS)。
2.面向未来的扩展能力
焱融高性能存储方案具备优秀的横向线性扩展能力,能够随着业务规模和数据体量的持续增长,灵活扩展存储容量与性能,为英智创新智算平台的长期发展预留充足空间。这种可持续扩展的AI Infra架构有效避免了重复建设与架构推倒重来的风险,实现了对客户既有投资的长期保护。
3.显著的经济效益提升
通过消除AI训练与推理过程中的存储性能瓶颈,平台整体GPU集群资源利用率得到大幅提升。在硬件规模不变的情况下,AI Infra层面的性能优化使算力资源释放出更大潜能,显著提升了单位算力的产出效率,从而直接提高了智算平台的投资回报率(ROI)与整体市场竞争力。
4.服务能力与行业认可
高性能、稳定可靠的AI Infra基础设施为英智创新提供高质量算力服务奠定了坚实基础,帮助其用户实现更短的模型训练周期与更快的推理响应速度,显著提升用户使用体验与业务交付效率。目前,英智创新已被官方认定为深圳市科技创新“训力券”服务机构,这一资质充分体现了政府及行业对其算力服务能力、平台稳定性及技术先进性的高度认可。
关于企业
·焱融科技
北京焱融科技有限公司成立于2016年,是一家专注于软件定义存储技术的国家高新及“专精特新”企业。公司致力于打造面向AI时代的高性能存储系统,成功入围国家工信部“算力强基揭榜行动”名单,在国际权威AI性能基准测评MLPerf Storage中斩获多项世界第一。同时,焱融连续入选IDC中国文件存储市场份额报告,入选Gartner中国区软件定义存储竞争格局报告,是唯一专注于文件存储方向的厂商。
公司自主研发的高性能分布式文件存储产品YRCloudFile,在全球IO500性能测试中跻身世界前六,并成为国内首个进入CNCF Landscape的云原生存储平台。焱融还在国内率先推出专为推理场景设计的YRCache产品,显著提升大模型推理性能和性价比。截至目前,焱融已服务于人工智能、智算中心、智能汽车、金融量化、互联网、智能制造、能源、国家实验室等多行业标杆客户,并获得丰年资本、北京股权、卓源资本、靖亚资本、耀途资本、海松资本、信雅达、同创伟业等机构的多轮投资。
·英智创新
英智创新致力于以高性能智算算力与先进的大模型技术为核心底座,全面赋能企业在AI时代构建和提升新质生产力。公司围绕“算力×模型×平台×应用”四大层级,打造覆盖基础设施到业务落地的全栈式人工智能服务体系。
公司核心业务涵盖NVIDIA及国产GPU算力租赁、弹性GPU云平台、MaaS API Service、企业级大模型私有化代训练,以及训推调度一体化平台和企业应用智能体(Agent)研发,面向不同行业和应用场景,提供灵活、高效、可持续扩展的智算解决方案。
作为NVIDIA NPN合作伙伴,同时也是深圳市训力券服务机构之一,英智创新已在深圳成功运营全市首个千卡级人工智能智算集群,为科研机构、企业客户和创新团队提供稳定可靠的算力保障,显著提升模型研发、迭代和落地效率。
面向终端客户,英智创新提供企业私有化大模型训练与交付服务,基于客户自有数据构建具备高安全性、高实时性和强业务适配能力的专属大模型体系,并结合企业级AI智能体平台,实现精细化权限管理、业务流程智能化和组织效率提升。
在算力建设与交付层面,公司具备从服务器与GPU资源供应、数据中心网络与存储架构设计,到AI软件系统部署、模型训练—调优—推理平台搭建的全流程能力。同时,英智创新持续建设大模型开发与应用服务社区,推动模型、算力与应用协同演进,助力产业智能化升级与AI生态的长期繁荣发展。
★以上由焱融科技投递申报的企业,最终将会角逐由金猿组委会×数据猿×上海大数据联盟联合推出的《2025中国大数据产业年度AI Infra领先企业》榜单/奖项。
该榜单最终将于1月上旬上海举办的“2025第八届金猿大数据产业发展论坛——暨AI Infra & Data Agent趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.