![]()
内容感知存储(CAS)代表着传统存储系统的一种全新增值范式。CAS将存储解决方案与新型AI工作负载的需求紧密对齐,其核心在于将数据处理功能下推至存储层。具体而言,CAS利用基于大语言模型的嵌入模型在存储系统内部完成文档向量化——这一过程通常在存储系统之外执行——从而为检索增强生成(RAG)流水线提供支撑。
借助CAS方案,IBM让企业能够在统一的数据存储环境下更快速、更便捷、更安全地执行RAG操作。这一新范式是IBM战略愿景的核心组成部分,旨在将AI能力直接集成到企业级存储系统中,使企业无需扩张昂贵的基础设施,即可从自有资产中挖掘出尚未被充分利用的价值。IBM存储总经理Sam Werner表示:"企业可以从存储系统中的所有文档里获取前所未有的洞察。这真正开启了利用AI技术驱动业务成果的新篇章。"
CAS解决方案的核心是向量数据库。向量数据库专为加速数据的语义搜索而设计,能够快速找到与AI应用相关的文档。IBM研究院与三星及英伟达携手合作,成功将原型平台扩展至在单台服务器上支持千亿级向量,同时在不超过700毫秒的查询延迟下,保持超过90%的召回精度。
RAG为企业级AI应用赋能
RAG正迅速成为企业利用AI从专有文档中提取价值的主流技术。其基本思路是:大语言模型通过将用户数据或特定领域信息注入提示词(上下文),从而提供个性化的精准答案。
RAG的主要优势在于以较低成本实现高精度输出,无需昂贵且耗时的微调即可生成更准确的结果。RAG包含四大核心要素:数据摄取流水线、向量数据库、存储系统以及AI加速器。数据摄取流水线借助AI模型和AI加速器,将企业文档转化为语义表示(即向量)。在此过程中,系统首先从PDF、PPT等文档中提取文本并切分为若干片段,随后由嵌入模型将这些片段转换为向量并存入向量数据库。
向量数据库对数据进行有序组织,以便在RAG搜索过程中执行近似最近邻(ANN)搜索,从而找到语义相似的片段。检索时,用户查询会通过与文档向量化相同的嵌入模型转换为向量,再由向量数据库依据某种向量距离度量(如余弦相似度或L2距离)识别相邻向量。最相关向量所对应的文本片段随后作为提示词的一部分传递给大语言模型。这一机制确保了输出内容植根于企业特定知识,有效降低了幻觉现象的发生,并提升了AI输出结果的可信度。
千亿级向量的规模挑战
当今企业级存储系统支持PB级容量,存储着数十亿个文件。在CAS的应用场景下,每个文件可能对应数百个向量,汇总起来可轻易达到数千亿的规模,这些向量最终都需要由CAS向量数据库统一存储与管理。
IBM存储首席技术官及院士Vincent Hsu指出,随着AI部署规模的指数级增长,企业迫切需要这一量级的数据库来组织专有数据,以供AI有效利用。当前市场上的向量数据库解决方案,往往需要跨越数十乃至数百台服务器横向扩展,才能支撑数十亿级别的向量。这种规模带来了独特的挑战:例如,向量索引(或重新索引)以加速搜索所需的时间极长,以及托管和服务这些向量所带来的基础设施成本不断攀升。
IBM CAS的技术架构
IBM的CAS方案同时支持本地部署与云端部署。为降低部署成本和管理复杂性,IBM研究院专门聚焦于提升向量密度、缩短重新索引时间,以减少支撑特定数量文档和向量所需部署的服务器数量。
该方案的第一个核心策略是将向量与索引存储和执行查询的计算资源解耦,从而灵活调配查询服务器与存储系统之间的比例——这一能力由IBM Storage Scale高性能ESS文件系统提供支撑。
IBM Storage Scale System 6000(ESS 6000)是一款专为AI、高性能计算(HPC)及大规模数据工作负载设计的全闪存高性能存储设备。ESS支持4U机架式机箱,最多可配置48块NVMe FlashCore模块(FCM)或标准NVMe QLC/TLC硬盘,单盘容量为7至60TB。系统支持400Gb InfiniBand或200GbitE(以太网)链路,并采用PCIe Gen 5实现更快速的内部通信。单个ESS节点可支持最高340 GB/s读取和175 GB/s写入吞吐量,以及高达700万的IOPS。此外,系统还支持英伟达GPUDirect存储(GDS)技术,实现数据向GPU的高速直传,以及用于网络卸载的英伟达BlueField-3 DPU。
在提升存储性能方面,IBM研究院与全球先进存储技术领军企业三星展开合作。三星为ESS系统提供了48块PM9D3a PCIe Gen5 NVMe企业级固态硬盘,构建起能够承载高吞吐量和并行处理工作负载的均衡架构。这些硬盘基于第八代TLC V-NAND技术,单盘容量高达30.72TB,顺序读取速度最高可达12,000 MB/s,顺序写入速度最高可达6,800 MB/s。作为量产商用企业级固态硬盘,它们既能在真实ESS环境中实际落地,又支持系统的弹性扩展。
为实现超大规模扩展,IBM研究团队构建了一套采用动态分层索引结构的解决方案——多个子索引可随数据的增删独立进行优化和重优化。这种方式同时提升了容错能力,使增量更新和索引构建更易于管理,同时不影响数据访问。IBM研究院存储系统首席研究员Daniel Waddington表示:"规模问题不仅仅是增加更多向量并使这些向量可访问,还包括在数据持续增长的同时,维持服务的性能与可用性。"
分层索引设计还便于实施分阶段的系统维护。在层级结构中,子索引可按需独立重建,而不会影响整体数据库的运行。为支持这种实时维护,研究团队引入英伟达GPU来提升单个索引重建的效率——原本在CPU上需要数小时完成的索引构建,在GPU上可缩短至数分钟。研究团队还特别关注如何最大化单个GPU的利用率,并实现跨多块GPU的横向扩展。
通过使用与真实数据在聚类特性上高度相似的合成数据(通过从真实数据中提取聚类属性模型生成),研究团队成功演示了千亿级向量(384维,全精度浮点数)的加载、索引和查询全流程。初始加载与顶层分区耗时9天,随后使用6块英伟达H200 GPU完成索引构建,额外耗时4天。作为参照,若使用双路Intel CPU,索引构建时间约需120天。向量及索引在存储上的总数据量为153 TiB。团队通过实验对查询延迟和召回精度进行了测量——召回精度通过暴力搜索从海量数据集中提取真实值来验证,该过程本身也耗费了数天时间。最终结果:平均查询延迟为694毫秒,召回精度达到90%。
持续优化的未来方向
IBM AI战略的重要目标之一,是消除阻碍企业向AI开放数据和应用的人为软件壁垒。借助CAS,IBM将RAG流水线中的关键环节交由存储系统承担,并将全新的索引能力无缝集成到用户熟悉的文件系统中,使整个系统易于部署。
IBM与英伟达正携手合作,通过英伟达cuVS加速向量索引构建,进一步压缩索引时间。具体目标包括:将千亿级以上向量的索引时间压缩至一天以内;探索利用GPU加速数据加载与分区,将数据摄取时间从9天缩短至1天;以及探索在90%召回率条件下,将RAG工作流的搜索延迟降至50至100毫秒的优化策略。
Hsu表示:"我们已经在向量数据库中内置了安全机制。现在,我们正在实现大规模扩展,同时又不带来庞大的基础设施占用。"
Q&A
Q1:内容感知存储(CAS)是什么?它和传统存储有什么区别?
A:内容感知存储(CAS)是IBM提出的一种新型存储范式,核心思路是将原本在存储系统之外执行的数据处理功能(如文档向量化)下推至存储系统内部完成。传统存储只负责数据的存取,而CAS整合了基于大语言模型的嵌入模型,能够直接在存储层完成文档向量化,并支持RAG流水线。这样企业无需扩张额外的基础设施,即可在同一存储环境下安全、高效地利用AI处理自有数据,显著降低了部署成本和复杂度。
Q2:IBM千亿级向量数据库的性能表现如何?
A:IBM研究院与三星和英伟达合作,在单台服务器上成功实现了千亿级向量(100亿条,384维全精度浮点数)的加载、索引与查询。索引构建使用6块英伟达H200 GPU,耗时约4天;若用双路Intel CPU则需约120天。向量和索引总存储占用153 TiB。查询性能测试结果为:平均查询延迟694毫秒,召回精度达到90%。目前IBM与英伟达正合作,目标是将索引时间压缩至1天以内,查询延迟降至50至100毫秒。
Q3:RAG技术对企业有什么实际价值?为什么企业需要向量数据库?
A:RAG(检索增强生成)能让大语言模型在回答问题时,自动检索企业自有文档中的相关内容作为上下文,从而生成基于企业专属知识的精准答案,有效减少AI"幻觉"现象,提升输出的可信度。相比模型微调,RAG成本更低、部署更快。向量数据库是RAG的核心组件,负责存储和快速检索文档的语义向量表示。随着企业存储的文件数量达到数十亿级别,对应的向量规模可达数千亿,因此需要高性能、大规模的向量数据库来支撑实际业务需求。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.