网易首页 > 网易号 > 正文 申请入驻

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

0
分享至

PEAK:AIO 声称,它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性,而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。

这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示,AI 工作负载正从 “静态提示” 发展为 “动态上下文流、模型创建流水线 以及 长运行代理”,而工作负载不断增长,使得 GPU 的高带宽内存 (HBM) 的有限容量受到压力,令 AI 任务受内存瓶颈限制。

这导致任务的工作内存内容——即 KVCache——超出 HBM 容量,令 Token 被驱逐,并在需要时必须重新计算,从而延长任务运行时间。

包括 VAST Data 推出的 VUA、WEKA 推出的 Augmented Memory Grid,以及 Pliops 推出的 XDP LightningAI PCIe-add-in 卡前端连接 NVMe SSD 等多家供应商,均已尝试通过在外部闪存存储上划分一个类似于虚拟内存交换分区的 HBM 内存区域来扩充 HBM 容量。

PEAK:AIO 正在开发一款 1RU Token 内存产品,该产品将采用 CXL 内存、 PCIe gen 5、 NVMe 以及 GPU Direct 与 RDMA 配合。

PEAK:AIO 首席 AI 策略官兼联合创始人 Eyal Lemberger 在一份声明中表示: “无论您是部署跨会话思考的代理,还是扩展到百万 Token 上下文窗口 —— 在此情况下,每个模型的内存需求可能超过 500GB —— 这款设备都能通过将 Token 历史视为内存而非存储来实现扩展。现在是让内存像计算能力一样实现横向扩展的时候了。”

PEAK:AIO 表示,其设备支持: o 会话、模型与节点间的 KVCache 重用 o 扩展上下文窗口以实现更长的大语言模型历史记录 o 通过 CXL 分层实现 GPU 内存卸载 o 以及通过 NVMe-oF 上的 RDMA 实现超低延迟访问

它宣称,通过利用 CXL 内存级性能,其实现的 Token 内存可表现得如同 RAM 而非文件;而其他供应商(包括 Pliops、 VAST 和 WEKA)则无法做到这一点。PEAK:AIO 联合创始人及首席战略官 Mark Klarzynski 表示: “这正是现代 AI 所期待的 Token 内存体系。”

据悉,该技术使 AI 工作负载开发者能够构建一个系统,以内存级延迟缓存 Token 历史、注意力图以及流数据。PEAK:AIO 表示,其方案 “与 Nvidia 的 KVCache 重用及内存回收模型直接契合”,并且 “为基于 TensorRT-LLM 或 Triton 构建的团队提供插件支持,从而以最小的集成工作加速推理过程。”

理论上,PCIe gen 5 CXL 控制器的延迟约为 200 纳秒,而通过 GPU Direct 访问 NVMe SSD 的延迟约为 1.2 毫秒(即 1,200,000 纳秒),比 CXL 内存访问的延迟长约 6,000 倍。PEAK 的 Token 内存设备能够以 <5 微秒的延迟提供高达 150 GB/秒的持续吞吐量。

Lemberger 指出: “当其他厂商试图将文件系统扭曲得像内存时,我们构建了真正表现如内存的基础设施,因为这正是现代 AI 所需要的。在大规模应用中,问题不在于保存文件,而在于能够在微秒级别让每个 Token 均可访问。这实质上是一个内存问题,而我们正是通过拥抱最新硅层技术来解决它。”

PEAK:AIO 的 Token 内存设备为软件定义型,采用现成服务器,并预计将在第三季度投入生产。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骑士3-3猛龙!哈登谈抢七把话挑明,米切尔毫无退路,2点也成关键

骑士3-3猛龙!哈登谈抢七把话挑明,米切尔毫无退路,2点也成关键

鱼崖大话篮球
2026-05-02 16:31:09
鲁尼:我觉得阿森纳会赢下所有比赛,而曼城丢分是可以想象的

鲁尼:我觉得阿森纳会赢下所有比赛,而曼城丢分是可以想象的

懂球帝
2026-05-03 09:21:12
苏巧慧竞选阵容曝光,蓝营青年批:苏贞昌在垂廉听政

苏巧慧竞选阵容曝光,蓝营青年批:苏贞昌在垂廉听政

海峡导报社
2026-05-02 10:24:09
“大儒”竟是老流氓!人大教授乱情十多女:还要女生倒贴20万

“大儒”竟是老流氓!人大教授乱情十多女:还要女生倒贴20万

大江看潮
2026-05-01 23:33:35
香港酒店偶遇李亚鹏,被年轻女士拉着手,女方神似前妻海哈金喜

香港酒店偶遇李亚鹏,被年轻女士拉着手,女方神似前妻海哈金喜

枫尘余往逝
2026-05-02 11:46:53
又一起悲剧!安徽19岁男子遗体被找到,地势隐秘,生前举动很反常

又一起悲剧!安徽19岁男子遗体被找到,地势隐秘,生前举动很反常

奇思妙想草叶君
2026-05-02 21:55:53
5月3日,券商给予评级并且给出目标价的公司一览

5月3日,券商给予评级并且给出目标价的公司一览

A股数据表
2026-05-03 05:45:03
开国大校姚天成戳破抗日神剧滤镜:同等火力对射,日军有效杀伤凭啥是苏军两倍国军百倍?

开国大校姚天成戳破抗日神剧滤镜:同等火力对射,日军有效杀伤凭啥是苏军两倍国军百倍?

历史回忆室
2026-05-02 20:58:17
纳因戈兰:麦克托米奈虽然能进很多球,但他就是个普通球员

纳因戈兰:麦克托米奈虽然能进很多球,但他就是个普通球员

懂球帝
2026-05-03 09:21:12
阿森纳争冠利好 阿尔特塔轮换了 3球大胜多2场6分领跑+4净胜球

阿森纳争冠利好 阿尔特塔轮换了 3球大胜多2场6分领跑+4净胜球

智道足球
2026-05-03 10:42:37
安娴公开曝光山姆经济情况,还没有财富自由,买房分分钟的问题!

安娴公开曝光山姆经济情况,还没有财富自由,买房分分钟的问题!

阿郎娱乐
2026-05-03 08:54:13
广州发布暴雨、雷雨大风黄色预警

广州发布暴雨、雷雨大风黄色预警

新快报新闻
2026-05-03 11:44:05
赛后谢场环节,浙江死忠球迷区打出横幅:拒绝外行指导内行

赛后谢场环节,浙江死忠球迷区打出横幅:拒绝外行指导内行

懂球帝
2026-05-02 22:44:16
终于,一位接地气的专家说了大实话:中国老百姓的负担太重了

终于,一位接地气的专家说了大实话:中国老百姓的负担太重了

巢客HOME
2026-04-28 05:25:03
医生告诫:一旦吃上他汀药,3件事就不要做了,别拿身体开玩笑

医生告诫:一旦吃上他汀药,3件事就不要做了,别拿身体开玩笑

刘哥谈体育
2026-05-03 02:59:05
性能超4060 国产自研6nm显卡即将开卖!售多少你买

性能超4060 国产自研6nm显卡即将开卖!售多少你买

3DM游戏
2026-05-03 06:44:06
“富人才不会把女儿养这么胖”,家长晒女儿喝60元矿泉水,被群嘲

“富人才不会把女儿养这么胖”,家长晒女儿喝60元矿泉水,被群嘲

番外行
2026-04-22 14:51:19
堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

堕落的“清纯女星”酒井法子,这张腿间蝴蝶背后,隐藏着的故事

七阿姨爱八卦
2026-03-29 10:12:33
国家出手!37岁女明星被行拘,官媒发文怒批,一点都不值得同情

国家出手!37岁女明星被行拘,官媒发文怒批,一点都不值得同情

橙星文娱
2026-04-21 12:46:18
五一返程顺风车大单爆了!抢单大厅全是大单车主却不想接单了!

五一返程顺风车大单爆了!抢单大厅全是大单车主却不想接单了!

网约车观察室
2026-05-03 09:52:39
2026-05-03 12:20:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
18162文章数 49702关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

头条要闻

牛弹琴:比网红还网红 快80岁的特朗普一晚上发8张图

体育要闻

裁判准备下班,结果吴宜泽进了决赛

娱乐要闻

蔡卓妍婚后首现身 戴结婚戒指笑容不断

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
游戏
本地
数码
军事航空

艺术要闻

Dale terbush:当代美国风景画家

《黑神话》五一活动现场照曝光!杨奇惊现官方吐槽

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

Perplexity称赞Mac mini是其Personal Computer的最佳本地部署平台

军事要闻

伊朗公布伊方最新谈判方案

无障碍浏览 进入关怀版