网易首页 > 网易号 > 正文 申请入驻

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

0
分享至

PEAK:AIO 声称,它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性,而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。

这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示,AI 工作负载正从 “静态提示” 发展为 “动态上下文流、模型创建流水线 以及 长运行代理”,而工作负载不断增长,使得 GPU 的高带宽内存 (HBM) 的有限容量受到压力,令 AI 任务受内存瓶颈限制。

这导致任务的工作内存内容——即 KVCache——超出 HBM 容量,令 Token 被驱逐,并在需要时必须重新计算,从而延长任务运行时间。

包括 VAST Data 推出的 VUA、WEKA 推出的 Augmented Memory Grid,以及 Pliops 推出的 XDP LightningAI PCIe-add-in 卡前端连接 NVMe SSD 等多家供应商,均已尝试通过在外部闪存存储上划分一个类似于虚拟内存交换分区的 HBM 内存区域来扩充 HBM 容量。

PEAK:AIO 正在开发一款 1RU Token 内存产品,该产品将采用 CXL 内存、 PCIe gen 5、 NVMe 以及 GPU Direct 与 RDMA 配合。

PEAK:AIO 首席 AI 策略官兼联合创始人 Eyal Lemberger 在一份声明中表示: “无论您是部署跨会话思考的代理,还是扩展到百万 Token 上下文窗口 —— 在此情况下,每个模型的内存需求可能超过 500GB —— 这款设备都能通过将 Token 历史视为内存而非存储来实现扩展。现在是让内存像计算能力一样实现横向扩展的时候了。”

PEAK:AIO 表示,其设备支持: o 会话、模型与节点间的 KVCache 重用 o 扩展上下文窗口以实现更长的大语言模型历史记录 o 通过 CXL 分层实现 GPU 内存卸载 o 以及通过 NVMe-oF 上的 RDMA 实现超低延迟访问

它宣称,通过利用 CXL 内存级性能,其实现的 Token 内存可表现得如同 RAM 而非文件;而其他供应商(包括 Pliops、 VAST 和 WEKA)则无法做到这一点。PEAK:AIO 联合创始人及首席战略官 Mark Klarzynski 表示: “这正是现代 AI 所期待的 Token 内存体系。”

据悉,该技术使 AI 工作负载开发者能够构建一个系统,以内存级延迟缓存 Token 历史、注意力图以及流数据。PEAK:AIO 表示,其方案 “与 Nvidia 的 KVCache 重用及内存回收模型直接契合”,并且 “为基于 TensorRT-LLM 或 Triton 构建的团队提供插件支持,从而以最小的集成工作加速推理过程。”

理论上,PCIe gen 5 CXL 控制器的延迟约为 200 纳秒,而通过 GPU Direct 访问 NVMe SSD 的延迟约为 1.2 毫秒(即 1,200,000 纳秒),比 CXL 内存访问的延迟长约 6,000 倍。PEAK 的 Token 内存设备能够以 <5 微秒的延迟提供高达 150 GB/秒的持续吞吐量。

Lemberger 指出: “当其他厂商试图将文件系统扭曲得像内存时,我们构建了真正表现如内存的基础设施,因为这正是现代 AI 所需要的。在大规模应用中,问题不在于保存文件,而在于能够在微秒级别让每个 Token 均可访问。这实质上是一个内存问题,而我们正是通过拥抱最新硅层技术来解决它。”

PEAK:AIO 的 Token 内存设备为软件定义型,采用现成服务器,并预计将在第三季度投入生产。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奔驰S级将迎“史上幅度最大改款”,新车1月29日发布

奔驰S级将迎“史上幅度最大改款”,新车1月29日发布

IT之家
2026-01-14 07:29:22
成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

成龙女儿吴卓林结婚现场曝光,紧握爱人的手,洋溢着甜蜜笑容!

娱乐团长
2026-01-13 15:39:28
9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

9岁女童倒地猝死后续:舅舅曝光真相,聊天内容流出,男方被打脸

有范又有料
2026-01-15 15:26:30
出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

出差前,我在妻子睡衣上撒了荧光粉,回来打开紫光灯妻子脸色惨白

清茶浅谈
2026-01-13 21:21:11
我看这消息都有点懵,说真的,还好陈晓当初选择分开了。

我看这消息都有点懵,说真的,还好陈晓当初选择分开了。

小光侃娱乐
2025-12-10 10:45:06
王鸥王仁君新年拜访曹翠芬,81岁没子女住北京,家里简朴挺温馨

王鸥王仁君新年拜访曹翠芬,81岁没子女住北京,家里简朴挺温馨

李健政观察
2026-01-15 12:06:39
无座票乘客站一等座车厢被要求离开?12306回应:无座票仅限二等车厢

无座票乘客站一等座车厢被要求离开?12306回应:无座票仅限二等车厢

闪电新闻
2026-01-15 12:55:11
司晓迪最全瓜:鹿晗证据链越扒越全、范丞丞站不住脚,已实锤三人

司晓迪最全瓜:鹿晗证据链越扒越全、范丞丞站不住脚,已实锤三人

乡野小珥
2026-01-16 01:32:34
湖北一居民挖出疑似战国青铜剑,上交获200元奖励,博物馆回应

湖北一居民挖出疑似战国青铜剑,上交获200元奖励,博物馆回应

扬子晚报
2026-01-15 18:35:01
不止新疆班!闫学晶儿子毕业衫被扒,还有更大瓜,真相越来越近了

不止新疆班!闫学晶儿子毕业衫被扒,还有更大瓜,真相越来越近了

体育小柚
2026-01-16 00:51:41
男人你知道吗?跟你睡过的女人,除了老婆,不一定是真心爱你。

男人你知道吗?跟你睡过的女人,除了老婆,不一定是真心爱你。

热心市民小黄
2026-01-12 16:45:42
已提前做最坏准备,面对伊朗变局,中国或随时准备北上波斯湾

已提前做最坏准备,面对伊朗变局,中国或随时准备北上波斯湾

通文知史
2026-01-14 18:00:03
美国被中国再度拒绝了,美国官员很沮丧。

美国被中国再度拒绝了,美国官员很沮丧。

回京历史梦
2026-01-15 15:22:31
30亿砸进水里,两年就关门!这家“豪华医院”的倒下比想象更扎心

30亿砸进水里,两年就关门!这家“豪华医院”的倒下比想象更扎心

青眼财经
2026-01-14 23:33:13
中央把话说透了:真正的公务员,是这8类人,很多人搞错了

中央把话说透了:真正的公务员,是这8类人,很多人搞错了

搬砖营Z
2026-01-12 21:10:19
广东40分输球揪出最大毒瘤!他上场24分钟,正负值-48,打的真差

广东40分输球揪出最大毒瘤!他上场24分钟,正负值-48,打的真差

篮球专区
2026-01-15 22:24:04
92岁表演艺术家陶玉玲去世,冯远征曹可凡悼念,曾多次战胜病魔

92岁表演艺术家陶玉玲去世,冯远征曹可凡悼念,曾多次战胜病魔

扒虾侃娱
2026-01-15 22:22:52
克洛普向皇马提 6 人引援清单!含利物浦目标,罗马诺曝关键细节

克洛普向皇马提 6 人引援清单!含利物浦目标,罗马诺曝关键细节

奶盖熊本熊
2026-01-15 04:33:20
祝贺!19岁全红婵正式上任,现身广东新岗位,陈芋汐祝福引热议

祝贺!19岁全红婵正式上任,现身广东新岗位,陈芋汐祝福引热议

做一个合格的吃瓜群众
2026-01-15 21:03:08
深渊凝视:为什么从月球看地球,会让人感到一种彻骨的恐惧?

深渊凝视:为什么从月球看地球,会让人感到一种彻骨的恐惧?

观察宇宙
2026-01-14 17:34:31
2026-01-16 04:20:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15492文章数 49685关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

头条要闻

美突袭委内瑞拉动用神秘武器:委士兵跪倒在地吐血

体育要闻

聂卫平:黑白棋盘上的凡人棋圣

娱乐要闻

92岁陶玉玲去世,冯远征曹可凡悼念

财经要闻

央行再次结构性降息0.25个百分点

汽车要闻

吉利帝豪/缤越推冠军一口价 起售价4.88万

态度原创

家居
旅游
数码
公开课
军事航空

家居要闻

自在自宅 个性自由

旅游要闻

龙庆峡冰灯节“上新”

数码要闻

部分内存条价格暴涨超300% 报告称存储市场进入超级牛市

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国已正式开始出售委内瑞拉石油

无障碍浏览 进入关怀版