网易首页 > 网易号 > 正文 申请入驻

VAST 的 VUA 闪存缓存 扩展 GPU 服务器内存以供 AI token 生成

0
分享至

VAST Data 正在开源其 VUA ( VAST Undivided Attention ) KVCache 软件技术,该技术用于将生成的 AI 模型训练与推理 token 存储在 NVMe 连接的 SSD 中,以便高速传输到 GPU 内存,避免重新计算这些 token。

KVCache 是 AI 大语言模型 ( LLM ) 中在模型推理处理的注意力阶段生成的 token、键和值向量的内存存储。token 是依次生成的,并为模型提供上下文。在这一多阶段过程中,模型一次生成一个 token,而在当前 token 之后的下一步将要求重新计算至今为止序列中的所有 token。将这些 token 保存在服务器的 GPU 以及 CPU 内存中可以避免重复计算,从而加快多步 token 的生成速度。但是,随着大语言模型处理的参数越来越多,可用的 GPU 内存很快被填满甚至溢出,从而限制了 KVCache 中 token 的数量,进而减慢了模型的处理速度。VUA 将从内存缓存中淘汰出来的生成 token 存储在 NVMe 连接的 SSD 上,作为第三层缓存,这样就可以在需要时重用它们而无需重新计算。VUA 正是提供这种 SSD 缓存 KVCache token 的软件。

这样的淘汰上下文可以存储回源数据仓库,例如云对象存储。但 VAST 联合创始人 Jeff Denworth 在博客中写道: "是的,缓存可以从远程磁盘中恢复,但这一过程如今操作笨拙且脱节,常常依赖于(并受到)缓慢的云对象存储的影响。恢复上下文和会话所需的时间如此之长,以致一些顶尖的 AI 即服务提供商宁愿重新计算整个提示历史,而不是从对象存储中提取所有上下文和注意力数据。"

另一篇 VAST 的博客指出 "AI 模型正不断进化以在模型中存储更大范围的上下文或知识。举个例子,LLaMA 1 于 2023 年发布时支持 2,048 token 的上下文窗口;而快进到 Meta 上周刚宣布的 LLaMA 4,其新 AI 模型可支持高达 10,000,000 token……10,000,000 token 消耗的内存远超过 GPU 内存所能容纳的容量,因此需要更大规模的存储与缓存方法。"

Denworth 表示 vLLM 的 GPU 和 CPU 内存分页方案 "没有与基于分布式 NVMe 的系统集成以提供内存层次结构中的另一层,也不是全球性的……因此 GPU 环境被划分为小而分散的缓存。"

VAST 构建的是一个基于 Linux 的代理程序,运行在你的 GPU 服务器上,提供了一个全新的数据呈现层给 AI 框架。它构成了 "一个跨越 GPU 内存、 CPU 内存和共享、 RDMA 连接的 NVMe 存储子系统(例如支持 Nvidia 存储控制器 CPU 绕过并使用 GPUDirect RDMA 协议的 VAST 存储)的分层系统。"

Denworth 解释道:"VUA 增加了智能存储和提供前缀的能力," 使得这些前缀 "能够按照优先级和策略被提供。例如,与某个序列关联的最长前缀可以优先被送往 GPU 设备,从而使得该会话的完整自注意力能够最快被理解。" VUA 能够通过宽扇形 V-Tree,在 SSD 上的 Element Store 数据结构中搜索数十亿到数万亿个前缀,其搜索速度在毫秒级,能够迅速穿越庞大的元数据空间。

另一种描述是称其具有智能前缀缓存功能:"VUA 超越了基础缓存,通过将注意力键拆分为若干块并存储在嵌套结构中,实现了利用最长前缀识别的复杂部分上下文匹配,大大提升了在 Retrieval-Augmented Generation ( RAG ) 等工作负载下的缓存命中率,在这种工作负载中,相同的基本文档会在多个不同的提示中出现。"

VUA 系统是全球性的。每个 GPU 服务器现在都能够共享访问相同的扩展上下文缓存空间、同一快速搜索的元数据空间,以及相同的全局上下文、注意力数据和数据索引。

Denworth 还指出,这个 VUA "加速器在数据共享方面目前仅支持南北向(即每台机器都能看到全局分层数据空间,但机器之间无法看到彼此的缓存……因此一旦 CPU/GPU 内存缓存未命中,必然会访问 NVMe)。" VAST 正在考虑构建一个全球分布式缓存,使得各机器能够在数据中心内或跨数据中心间查看对方的状态,并基于上述前缀过滤以低延迟地检索相关键和值。

VUA 现已作为开源软件推出,提供一个基于前缀搜索的全球及 exabyte 级 KVCache,利用 NVMe SSD 实现,并在整个 GPU 集群中均可访问。它能够与流行的 AI 推理工作负载集成,"提供无限上下文扩展性",同时减少 "首个 token 生成时间 (TTFT) 并显著节省 GPU 及 CPU 内存。"

VUA 不仅缩短了 TTFT,还缩短了生成每个后续 token(即每个输出 token 的时间,TPOT)的平均时间。它 "实现了跨轮次或会话的持续对话状态。代表先前对话的 KV 缓存可以在查询之间存储于非 GPU 内存中,从而释放 GPU 资源,同时能迅速恢复上下文。"

VAST 在 vLLM 系统上测试了使用 Qwen2.5-1.5B-Instruct 模型时有无 VUA 的 TTFT,并发现加入 VUA 后测试系统在 30,000 token 水平下的处理速度提升了 292%。

文章指出,对于那些需要常见问题提示、多轮对话(实现更快的上下文切换)、长文档问答(提升吞吐量)以及高并发场景(减少抢占)的应用来说,VUA 特别具有价值。

WEKA 和 Hammerspace

B&F 在三月的一篇文章中写道,支持并行访问文件系统的供应商 WEKA 宣布 "一项新的 Augmented Memory Grid 功能,能够使 AI 模型将大型模型推理所需的内存扩展到 WEKA 数据平台。这是一种软件定义的扩展技术,提供 exabyte 级缓存,具有微秒级延迟和每秒多 TB 的带宽,从而实现接近内存速度的性能表现。这提供了额外的 PB 级容量,据称比目前固定单 TB DRAM 增量高 1,000 倍。"这与 VAST 的 VUA 类似。

数据编排器 Hammerspace 推出的 Tier Zero 功能则增加了 "将 GPU 服务器本地 NVMe 闪存驱动器作为前端,连接外部通过 GPUDirect 访问的数据集,从而提供微秒级的存储读取以及检查点写入,加速 AI 训练工作负载。"

并且:"通过将这些驱动器整合到其全球数据环境中,作为 Tier 1 外部存储之前的 Tier 0 层,它们能够比直接从外部存储更快地将数据传输至 GPU,同时写入检查点数据的时间也比将数据发送到外部存储的时间更短。"

Hammerspace 并未在此类 Tier 0 SSD 上提供 KVCache 功能——但如果提供,则将进一步加速 AI 推理工作负载。

VAST 表示,欢迎 "AI 社区探索、使用并为 VAST Undivided Attention 项目做出贡献。源代码、文档和初步使用示例均可在 https://github.com/vast-data/vua 上获得。" 我们了解到,将 VUA 与非 VAST 存储一起使用可能会引入延迟或兼容性问题,因为 VUA 的性能依赖于 VAST 通过其 V-Tree 技术以常数时间搜索和提供数据的能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我在中东教汉语,娶了三个本地女孩,虽然年入百万,却并不幸福

我在中东教汉语,娶了三个本地女孩,虽然年入百万,却并不幸福

千秋文化
2026-04-20 19:55:30
驻日武官王庆简:为日本潜伏20年出卖军事机密,却因一动作暴露身份

驻日武官王庆简:为日本潜伏20年出卖军事机密,却因一动作暴露身份

睡前讲故事
2026-02-03 20:55:43
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
蔡振华现状:65岁圆满无遗憾,享受退休生活,唯独37岁儿子让他愁

蔡振华现状:65岁圆满无遗憾,享受退休生活,唯独37岁儿子让他愁

洲洲影视娱评
2026-04-14 13:58:26
黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

黎笋长子曾坦言:越南当年敢打中国有3个原因,结果发现全是错觉

顾史
2026-04-18 09:17:19
制造292球!英国足坛历史第一带刀后卫,欧战史上首位金靴后卫

制造292球!英国足坛历史第一带刀后卫,欧战史上首位金靴后卫

体坛老球迷
2026-04-24 13:18:50
中足联再开罚单!艾尔肯停赛2场罚款1万,飞铲艾孜海尔致重伤

中足联再开罚单!艾尔肯停赛2场罚款1万,飞铲艾孜海尔致重伤

奥拜尔
2026-04-24 11:35:41
柬埔寨姿态摆到最高!美菲军演耀武扬威,中国连访三国定南海大局

柬埔寨姿态摆到最高!美菲军演耀武扬威,中国连访三国定南海大局

纵拥千千晚星
2026-04-24 13:22:55
王志文安排好后事仅4月,担心事发生,私生活被扒,王宝强拒和解

王志文安排好后事仅4月,担心事发生,私生活被扒,王宝强拒和解

白面书誏
2026-04-16 18:04:33
根治摆烂?名宿巴克利:所有没进季后赛的球队,每队抽一个球,就这样全凭运气

根治摆烂?名宿巴克利:所有没进季后赛的球队,每队抽一个球,就这样全凭运气

寒律
2026-04-23 16:12:22
巴雷特33+5+5无缘今日最佳!对不起,你碰到不讲理的戈贝尔了

巴雷特33+5+5无缘今日最佳!对不起,你碰到不讲理的戈贝尔了

世界体育圈
2026-04-24 12:23:08
德国工程师:中国人难道不知南水北调的弊端,环保大国称号何来?

德国工程师:中国人难道不知南水北调的弊端,环保大国称号何来?

心灵得以滋养
2026-03-13 22:44:44
沉默3天,日本向中国抗议,不许在东海建新设施,解放军开始增兵

沉默3天,日本向中国抗议,不许在东海建新设施,解放军开始增兵

小影的娱乐
2026-04-22 12:30:46
外媒:韩飞行员开战机空中拍照致撞机

外媒:韩飞行员开战机空中拍照致撞机

参考消息
2026-04-23 13:10:21
斯诺克世锦赛现罕见失误,罗伯逊算错分认输被罚250英镑

斯诺克世锦赛现罕见失误,罗伯逊算错分认输被罚250英镑

懂球帝
2026-04-23 12:07:03
拒不恢复两岸直航后,捷克禁止专机入台,赖清德后路正被彻底堵死

拒不恢复两岸直航后,捷克禁止专机入台,赖清德后路正被彻底堵死

魔法污A
2026-04-24 11:11:03
特朗普被放鸽子,伊朗政坛地震,面对美国,穆杰塔巴比老爹还强硬

特朗普被放鸽子,伊朗政坛地震,面对美国,穆杰塔巴比老爹还强硬

浪子阿邴聊体育
2026-04-23 10:57:38
因未按规定投放车辆等行为,哈啰被上海市交通委罚款10万元

因未按规定投放车辆等行为,哈啰被上海市交通委罚款10万元

澎湃新闻
2026-04-24 13:04:26
日本自民党前总裁河野洋平拟率团访华

日本自民党前总裁河野洋平拟率团访华

东瀛万事通
2026-04-23 23:44:07
特朗普儿媳抖家族猛料:伊万卡爱提建议,公公喜欢半夜打电话

特朗普儿媳抖家族猛料:伊万卡爱提建议,公公喜欢半夜打电话

像梦一场a
2026-04-23 22:48:46
2026-04-24 14:11:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
17960文章数 49700关注度
往期回顾 全部

科技要闻

刚刚,DeepSeek-V4 预览版发布 百万上下文

头条要闻

华谊兄弟被申请破产:曾坐拥百位明星 如今还不起千万

头条要闻

华谊兄弟被申请破产:曾坐拥百位明星 如今还不起千万

体育要闻

里程碑之战拖后腿,哈登18分8失误

娱乐要闻

王思聪被绿!恋爱期间女友被金主包养

财经要闻

19家企业要"铝代铜",格力偏不

汽车要闻

全景iDrive 续航近800km 新款宝马7系/i7亮相

态度原创

时尚
教育
数码
手机
公开课

衬衫+半裙,比别人好看不止一点点

教育要闻

告诉孩子:千万不要被4种朋友借运,后果比早恋可怕100倍

数码要闻

专访巴可王红波:显示行业竞争下半场,深耕八大垂直行业与构建共赢生态

手机要闻

国产上一代Ultra销量比比看,华为还是最强,小米第二

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版