网易首页 > 网易号 > 正文 申请入驻

焱融YRCloudFile KVCache实测:推理性能提升13倍,延时缩短超4倍

0
分享至

DeepSeek 引爆大模型在千行百业落地的背景下,存储与计算的协同优化正成为企业提升 AI 推理效率、降低运营成本的关键。KVCache 技术通过“以存换算”的创新模式,显著提升了推理性能,成为企业构建大模型基础设施的必要选择。此前,焱融科技率先推出 YRCloudFile 分布式文件系统的 KVCache 特性,支持 PB 级缓存扩展,大幅提高 KV 缓存命中率与长上下文处理能力,为大模型推理提供更优性价比技术方案。

焱融存储技术团队基于公开数据集和业界公认的测试工具,基于 NVIDIA GPU 硬件平台模拟真实的推理业务场景,进一步探索并发布 KVCache 在推理场景中的详细性能优化数据。测试结果显示,在相同规模和推理延迟 TTFT (Time-To-First-Token) 下,YRCloudFile KVCache 可支持更高并发查询请求,为用户提供更贴近实际使用场景的性能验证与优化方案。这些数据不仅验证了 KVCache 技术的有效性,并揭示了高性能 KVCache 给推理业务带来的可量化的价值。

实测 YRCloudFile KVCache

在推理场景中的性能优化数据

为了验证将 GPU 内存扩展至 YRCloudFile KVCache 对 token 处理效率的显著提升效果,并充分展示焱融 AI 存储架构的卓越性能,我们进行了多轮测试。通过针对不同 token 数量和配置的测试,深入探索该架构在实际应用中的优化潜力。以下测试均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

测试一:长上下文提问下,推理 TTFT 的对比数据。

  • 背景:输入长上下文,对比单次提问的回答总耗时(指超过 20K 长度的 token)
  • 显卡:NVIDIA T4
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 测试方法:基于同样的上下文,使用相同的问题,通过 QA chatbot 上进行提问模拟
  • 测试结论:在长上下文场景中,使用 YRCloudFile KVCache 可实现高达 13 倍的 TTFT 性能提升。这一显著优化得益于其高效缓存命中率和对大规模数据的快速处理能力,为大模型推理提供了更优的性能支持。

用户普遍能接受的 TTFT 在 2 秒以内。基于这一背景,我们设计了测试二,以验证系统在长上下文场景下的性能表现。

测试二:使用不同上下文长度,在 TTFT ≤ 2 秒时,相同 GPU 能支撑的并发数对比数据。

  • 背景:在相同显卡配置与 2 秒 TTFT 延迟约束条件下,通过对比原生 vLLM 与集成 YRCloudFile KVCache 的解决方案在不同上下文长度(--max-prompt-length 参数)下的并发支持能力,验证存储扩展对并发推理请求的提升效果。
  • 显卡:NVIDIA L20
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 测试工具:使用 evalscope 测试工具, --dataset 参数为 longalpaca,以及指定不同 --max-prompt-length 参数值,进行测试。
  • 测试结论:在相同 GPU 配置下,当 TTFT ≤ 2 秒时,YRCloudFile KVCache 可承载的并发数可提升 8 倍。这意味着,在相同数量的 GPU 配置下,系统能够满足更高并发请求的需求,显著优化了推理性能和资源利用率。

测试三:在相同 GPU 配置和较高并发数下,使用不同上下文长度的 TTFT 性能对比数据

  • 背景:在相同显卡配置下,通过设置不同的上下文长度(--max-prompt-length 参数),在并发数为 30 情况下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。
  • 显卡:NVIDIA L20
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 测试工具:evalscope,--dataset 使用longalpaca,指定不同--max-prompt-length,并发为 30 的情况下,进行测试。
  • 测试结论:在较高并发数下,对于不同的上下文长度,YRCloudFile KVCache 所提供的 TTFT 延迟可缩小 4 倍以上;这表明 YRCloudFile KVCache 在高并发场景下,能够有效优化推理性能,显著减少延迟,提升用户体验。

本次测试通过多维度验证表明,YRCloudFile KVCache 在长上下文处理与高并发场景中展现出显著性能优势:在 TTFT≤2 秒的严苛约束下,其支持的并发数提升达 8 倍,且在高并发负载中延迟可降低 4 倍以上。这一成果不仅印证了 “存储 - 计算协同优化” 对 AI 推理效率的核心价值,更揭示了通过分布式存储架构扩展显存资源的技术路径,能够有效突破传统 GPU 算力瓶颈,实现资源利用率的指数级提升。

当前,随着 DeepSeek 等大模型在千行百业的规模化落地,企业对推理效率与成本优化的需求愈发迫切。YRCloudFile KVCache 通过 PB 级缓存扩展能力,将存储资源转化为计算性能增益,为行业提供了兼顾高性能与低成本的实践范例。这种以存储架构创新驱动算力释放的模式,或将成为企业构建下一代 AI 基础设施的关键突破点,加速大模型从技术突破到商业闭环的演进进程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026金球奖预测排名!姆巴佩第1,亚马尔第3,梅西第11,C罗第14

2026金球奖预测排名!姆巴佩第1,亚马尔第3,梅西第11,C罗第14

夏侯看英超
2026-02-22 00:41:20
央视曝:全程追踪美航母,歼-20S“猎杀”能力让美媒炸锅

央视曝:全程追踪美航母,歼-20S“猎杀”能力让美媒炸锅

蔡蔡说史
2026-02-21 20:52:27
杨瀚森赛后采访:想亲约基奇是表示尊重 回应连续4罚不中引争议

杨瀚森赛后采访:想亲约基奇是表示尊重 回应连续4罚不中引争议

醉卧浮生
2026-02-21 15:57:33
“妈,我想死你了!”河南小伙离家出走1年,母亲在短视频刷到其在南京一菜场附近出现

“妈,我想死你了!”河南小伙离家出走1年,母亲在短视频刷到其在南京一菜场附近出现

都市快报橙柿互动
2026-02-20 14:07:47
不是迷信!一旦房地产救不起来,明年楼市或有“4个”大难题?

不是迷信!一旦房地产救不起来,明年楼市或有“4个”大难题?

猫叔东山再起
2026-02-21 10:30:03
7名中国游客在贝加尔湖溺亡,一家4口来自江苏,旅游不是错

7名中国游客在贝加尔湖溺亡,一家4口来自江苏,旅游不是错

九方鱼论
2026-02-21 18:34:42
男子打麻将连续自摸胡牌后突然瘫倒在牌桌前!送医时血压飙到201/115mmHg

男子打麻将连续自摸胡牌后突然瘫倒在牌桌前!送医时血压飙到201/115mmHg

闪电新闻
2026-02-20 22:54:48
朱珠回天津婆家过年,婆婆在师范大学工作,做13道菜热情招待儿媳

朱珠回天津婆家过年,婆婆在师范大学工作,做13道菜热情招待儿媳

八怪娱
2026-02-19 20:39:37
溥仪100w大洋出掉的翡翠青椒惊现苏富比

溥仪100w大洋出掉的翡翠青椒惊现苏富比

阿裤趣闻君
2026-02-15 14:08:24
印度精英层达成统一:要想成为世界大国,必须先除掉身旁一个障碍

印度精英层达成统一:要想成为世界大国,必须先除掉身旁一个障碍

明天后天大后天
2026-02-21 16:23:52
乌克兰的“坏消息”:破坏团结,扎卢日内公开指控泽连斯基

乌克兰的“坏消息”:破坏团结,扎卢日内公开指控泽连斯基

鹰眼Defence
2026-02-20 17:49:36
四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

喜欢历史的阿繁
2026-02-07 14:21:17
东北人,为啥都爱打扮和穿名牌?

东北人,为啥都爱打扮和穿名牌?

冰咖
2026-02-19 15:17:03
摔倒被扶反索赔22万后续:律师发声,案件焦点已明,赔偿跑不掉了

摔倒被扶反索赔22万后续:律师发声,案件焦点已明,赔偿跑不掉了

爱下厨的阿酾
2026-02-21 06:55:42
3比4惜败外战,奥运冠军王曼昱失利引热议,网友称赛前准备不足

3比4惜败外战,奥运冠军王曼昱失利引热议,网友称赛前准备不足

卿子书
2026-02-21 11:22:07
和李铁相伴25年,离开央视后财富自由,上海定居白发坦然

和李铁相伴25年,离开央视后财富自由,上海定居白发坦然

春之韵
2026-02-21 23:14:10
中雨、大雨、暴雨即将抵达!福建天气马上大反转

中雨、大雨、暴雨即将抵达!福建天气马上大反转

今日海沧
2026-02-21 20:14:07
特朗普:原本10%的全球进口关税税率将升至15%

特朗普:原本10%的全球进口关税税率将升至15%

财联社
2026-02-22 00:22:11
彭宇案再现,整个国家的水源被污染了

彭宇案再现,整个国家的水源被污染了

家传编辑部
2026-02-21 15:53:34
前曼联助教:哈托去切尔西的交易令人失望,英超球队该关注他

前曼联助教:哈托去切尔西的交易令人失望,英超球队该关注他

懂球帝
2026-02-21 21:20:06
2026-02-22 01:39:00
数智前线 incentive-icons
数智前线
关注数字化和智能化
1247文章数 618关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

头条要闻

贝加尔湖7名遇难者身份全部确认 1家4口仅1人生还

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

本地
时尚
家居
数码
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

冬天穿衣尽量别露腿,这些基础穿搭可尝试,简单大方又不挑人

家居要闻

本真栖居 爱暖伴流年

数码要闻

物理销毁SSD:结果根本没贯穿PCB!直接就扔到垃圾桶了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版