网易首页 > 网易号 > 正文 申请入驻

焱融YRCloudFile KVCache实测:推理性能提升13倍,延时缩短超4倍

0
分享至

DeepSeek 引爆大模型在千行百业落地的背景下,存储与计算的协同优化正成为企业提升 AI 推理效率、降低运营成本的关键。KVCache 技术通过“以存换算”的创新模式,显著提升了推理性能,成为企业构建大模型基础设施的必要选择。此前,焱融科技率先推出 YRCloudFile 分布式文件系统的 KVCache 特性,支持 PB 级缓存扩展,大幅提高 KV 缓存命中率与长上下文处理能力,为大模型推理提供更优性价比技术方案。

焱融存储技术团队基于公开数据集和业界公认的测试工具,基于 NVIDIA GPU 硬件平台模拟真实的推理业务场景,进一步探索并发布 KVCache 在推理场景中的详细性能优化数据。测试结果显示,在相同规模和推理延迟 TTFT (Time-To-First-Token) 下,YRCloudFile KVCache 可支持更高并发查询请求,为用户提供更贴近实际使用场景的性能验证与优化方案。这些数据不仅验证了 KVCache 技术的有效性,并揭示了高性能 KVCache 给推理业务带来的可量化的价值。

实测 YRCloudFile KVCache

在推理场景中的性能优化数据

为了验证将 GPU 内存扩展至 YRCloudFile KVCache 对 token 处理效率的显著提升效果,并充分展示焱融 AI 存储架构的卓越性能,我们进行了多轮测试。通过针对不同 token 数量和配置的测试,深入探索该架构在实际应用中的优化潜力。以下测试均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

测试一:长上下文提问下,推理 TTFT 的对比数据。

  • 背景:输入长上下文,对比单次提问的回答总耗时(指超过 20K 长度的 token)
  • 显卡:NVIDIA T4
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 测试方法:基于同样的上下文,使用相同的问题,通过 QA chatbot 上进行提问模拟
  • 测试结论:在长上下文场景中,使用 YRCloudFile KVCache 可实现高达 13 倍的 TTFT 性能提升。这一显著优化得益于其高效缓存命中率和对大规模数据的快速处理能力,为大模型推理提供了更优的性能支持。

用户普遍能接受的 TTFT 在 2 秒以内。基于这一背景,我们设计了测试二,以验证系统在长上下文场景下的性能表现。

测试二:使用不同上下文长度,在 TTFT ≤ 2 秒时,相同 GPU 能支撑的并发数对比数据。

  • 背景:在相同显卡配置与 2 秒 TTFT 延迟约束条件下,通过对比原生 vLLM 与集成 YRCloudFile KVCache 的解决方案在不同上下文长度(--max-prompt-length 参数)下的并发支持能力,验证存储扩展对并发推理请求的提升效果。
  • 显卡:NVIDIA L20
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 测试工具:使用 evalscope 测试工具, --dataset 参数为 longalpaca,以及指定不同 --max-prompt-length 参数值,进行测试。
  • 测试结论:在相同 GPU 配置下,当 TTFT ≤ 2 秒时,YRCloudFile KVCache 可承载的并发数可提升 8 倍。这意味着,在相同数量的 GPU 配置下,系统能够满足更高并发请求的需求,显著优化了推理性能和资源利用率。

测试三:在相同 GPU 配置和较高并发数下,使用不同上下文长度的 TTFT 性能对比数据

  • 背景:在相同显卡配置下,通过设置不同的上下文长度(--max-prompt-length 参数),在并发数为 30 情况下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。
  • 显卡:NVIDIA L20
  • 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
  • 测试工具:evalscope,--dataset 使用longalpaca,指定不同--max-prompt-length,并发为 30 的情况下,进行测试。
  • 测试结论:在较高并发数下,对于不同的上下文长度,YRCloudFile KVCache 所提供的 TTFT 延迟可缩小 4 倍以上;这表明 YRCloudFile KVCache 在高并发场景下,能够有效优化推理性能,显著减少延迟,提升用户体验。

本次测试通过多维度验证表明,YRCloudFile KVCache 在长上下文处理与高并发场景中展现出显著性能优势:在 TTFT≤2 秒的严苛约束下,其支持的并发数提升达 8 倍,且在高并发负载中延迟可降低 4 倍以上。这一成果不仅印证了 “存储 - 计算协同优化” 对 AI 推理效率的核心价值,更揭示了通过分布式存储架构扩展显存资源的技术路径,能够有效突破传统 GPU 算力瓶颈,实现资源利用率的指数级提升。

当前,随着 DeepSeek 等大模型在千行百业的规模化落地,企业对推理效率与成本优化的需求愈发迫切。YRCloudFile KVCache 通过 PB 级缓存扩展能力,将存储资源转化为计算性能增益,为行业提供了兼顾高性能与低成本的实践范例。这种以存储架构创新驱动算力释放的模式,或将成为企业构建下一代 AI 基础设施的关键突破点,加速大模型从技术突破到商业闭环的演进进程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东医生重磅成果发布:乙肝服药24周即可功能性治愈

广东医生重磅成果发布:乙肝服药24周即可功能性治愈

刘哥谈体育
2026-05-29 17:01:41
一架美军MQ-9“死神”无人机在也门马里卜省坠毁

一架美军MQ-9“死神”无人机在也门马里卜省坠毁

国际在线
2026-05-30 06:48:03
人到中年才懂:婚姻最稳的底气,是身心相依

人到中年才懂:婚姻最稳的底气,是身心相依

青苹果sht
2026-05-19 05:15:07
辽宁舰“闯入”菲律宾海,美航母火速赶到!解放军:送上门的陪练

辽宁舰“闯入”菲律宾海,美航母火速赶到!解放军:送上门的陪练

晓旓就是我
2026-05-29 10:28:35
当年,赖昌星被遣返时,加拿大没收了他多少财产?

当年,赖昌星被遣返时,加拿大没收了他多少财产?

疯狂的小历史
2026-05-23 10:47:10
承诺“不限次数”,就该接住顾客的“天天来”

承诺“不限次数”,就该接住顾客的“天天来”

南风不及你温柔
2026-05-16 01:02:57
北京一男子掏空积蓄,凑500万入股中国人寿,20年后分红吓人

北京一男子掏空积蓄,凑500万入股中国人寿,20年后分红吓人

一刀故事
2025-05-14 13:32:29
整个萨尔布吕肯笼罩在伤感中:樊振东和狂热的中国球迷都要离开了

整个萨尔布吕肯笼罩在伤感中:樊振东和狂热的中国球迷都要离开了

杨华评论
2026-05-30 02:39:28
“特变电工”潜力巨大!

“特变电工”潜力巨大!

木禾黑猫
2026-05-29 21:37:41
孙子外孙女双双考上大学,我一人奖励10000,儿媳女儿却吵了起来

孙子外孙女双双考上大学,我一人奖励10000,儿媳女儿却吵了起来

人间百态大全
2026-05-30 06:40:03
7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

7年败光2个亿,邹市明冉莹颖共同发文,终究还是踏出了这一步

林轻吟
2026-02-11 11:29:40
近1个月涨幅超34%,太疯狂了

近1个月涨幅超34%,太疯狂了

菜鸟理财
2026-05-30 00:02:08
反派莫里亚蒂个人剧集开发中,犯罪心理学教授的双面人生

反派莫里亚蒂个人剧集开发中,犯罪心理学教授的双面人生

影视情报室
2026-05-29 01:44:47
两头得罪!情侣富士山跳舞被日本骂惨,国内账号被扒,难怪会翻车

两头得罪!情侣富士山跳舞被日本骂惨,国内账号被扒,难怪会翻车

做一个合格的吃瓜群众
2026-05-30 15:42:01
你见过最惨的人生有多惨?网友:不会有人经历这些还不疯吧!

你见过最惨的人生有多惨?网友:不会有人经历这些还不疯吧!

夜深爱杂谈
2026-05-20 08:02:52
别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

别阻止娃玩手机!马斯克:刷视频是如何让大脑变笨,得让孩子知晓

西红柿妈妈
2026-05-27 09:00:18
网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

网购时要注意了,“旗舰店”和“官方店”一字之差,天壤地别!

另子维爱读史
2026-05-25 07:55:09
清朝一位16岁穷苦船员,因闹肚子下船方便,谁知从此走上人生巅峰

清朝一位16岁穷苦船员,因闹肚子下船方便,谁知从此走上人生巅峰

史之铭
2026-05-17 16:39:54
“两岸统一”突破点不在马英九、也不在国民党,可能在此人身上

“两岸统一”突破点不在马英九、也不在国民党,可能在此人身上

胖子的勇气
2026-05-30 09:21:20
星舰又是“基本成功”,中国航天界这次真开始怀疑马斯克了

星舰又是“基本成功”,中国航天界这次真开始怀疑马斯克了

深层奥秘
2026-05-29 11:30:00
2026-05-30 16:28:49
数智前线 incentive-icons
数智前线
关注数字化和智能化
1351文章数 619关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

香港著名演员刘洵离世 《倩女幽魂》中曾饰演普渡慈航

头条要闻

香港著名演员刘洵离世 《倩女幽魂》中曾饰演普渡慈航

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

向太曝黄晓明曾当众给她下跪

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

教育
游戏
时尚
健康
旅游

教育要闻

四川大学第1专业,就业现状与报考性价比分析!#金榜同行人

《古惑狼》影像主题商标曝出 或推真人影视作品

2026夏天最新5款发型合集,每一款都超心动!

尝试干细胞疗法如何避免踩坑?

旅游要闻

Design Hotels™再添新成员,万豪中餐厅与广州酒家同创菜单 | 一周旅行指南

无障碍浏览 进入关怀版