网易首页 > 网易号 > 正文 申请入驻

推理性能提升13倍,延时缩短超4倍|实测 YRCloudFile KVCache

0
分享至

DeepSeek 引爆大模型在千行百业落地的背景下,存储与计算的协同优化正成为企业提升 AI 推理效率、降低运营成本的关键。KVCache 技术通过“以存换算”的创新模式,显著提升了推理性能,成为企业构建大模型基础设施的必要选择。此前,焱融科技率先推出 YRCloudFile 分布式文件系统的 KVCache 特性,支持 PB 级缓存扩展,大幅提高 KV 缓存命中率与长上下文处理能力,为大模型推理提供更优性价比技术方案。

在本篇文章中,焱融存储技术团队基于公开数据集和业界公认的测试工具,基于 NVIDIA GPU 硬件平台模拟真实的推理业务场景,进一步探索并发布 KVCache 在推理场景中的详细性能优化数据。测试结果显示,在相同规模和推理延迟 TTFT(Time-To-First-Token) 下,YRCloudFile KVCache 可支持更高并发查询请求,为用户提供更贴近实际使用场景的性能验证与优化方案。这些数据不仅验证了 KVCache 技术的有效性,并揭示了高性能 KVCache 给推理业务带来的可量化的价值。

实测 YRCloudFile KVCache 在推理场景中的性能优化数据

为了验证将 GPU 内存扩展至 YRCloudFile KVCache 对 token 处理效率的显著提升效果,并充分展示焱融 AI 存储架构的卓越性能,我们进行了多轮测试。通过针对不同 token 数量和配置的测试,深入探索该架构在实际应用中的优化潜力。以下测试均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

测试一:长上下文提问下,推理 TTFT 的对比数据

· 背景:输入长上下文,对比单次提问的回答总耗时(指超过 20K 长度的 token)

· 显卡:NVIDIA T4

· 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

· 测试方法:基于同样的上下文,使用相同的问题,通过QA chatbot上进行提问模拟

· 测试结论:在长上下文场景中,使用 YRCloudFile KVCache 可实现高达 13 倍的 TTFT 性能提升。这一显著优化得益于其高效缓存命中率和对大规模数据的快速处理能力,为大模型推理提供了更优的性能支持。

用户普遍能接受的 TTFT 在 2 秒以内。基于这一背景,我们设计了测试二,以验证系统在长上下文场景下的性能表现。

测试二:使用不同上下文长度,在 TTFT ≤ 2 秒时,相同 GPU 能支撑的并发数对比数据。

· 背景:在相同显卡配置与 2 秒 TTFT 延迟约束条件下,通过对比原生 vLLM 与集成 YRCloudFile KVCache 的解决方案在不同上下文长度(--max-prompt-length 参数)下的并发支持能力,验证存储扩展对并发推理请求的提升效果。

· 显卡:NVIDIA L20

· 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

· 测试工具:使用 evalscope 测试工具, --dataset 参数为 longalpaca,以及指定不同 --max-prompt-length 参数值,进行测试。

· 测试结论:在相同 GPU 配置下,当 TTFT ≤ 2 秒时,YRCloudFile KVCache 可承载的并发数可提升 8 倍。这意味着,在相同数量的 GPU 配置下,系统能够满足更高并发请求的需求,显著优化了推理性能和资源利用率。

测试三:在相同 GPU 配置和较高并发数下,使用不同上下文长度的 TTFT 性能对比数据。

· 背景:在相同显卡配置下,通过设置不同的上下文长度(--max-prompt-length 参数),在并发数为 30 情况下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 进行的数据对比。

· 显卡:NVIDIA L20

· 模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

· 测试工具:evalscope,--dataset 使用longalpaca,指定不同--max-prompt-length,并发为 30 的情况下,进行测试。

· 测试结论:在较高并发数下,对于不同的上下文长度,YRCloudFile KVCache 所提供的 TTFT 延迟可缩小 4 倍以上;这表明 YRCloudFile KVCache 在高并发场景下,能够有效优化推理性能,显著减少延迟,提升用户体验。

本次测试通过多维度验证表明,YRCloudFile KVCache 在长上下文处理与高并发场景中展现出显著性能优势:在 TTFT≤2 秒的严苛约束下,其支持的并发数提升达 8 倍,且在高并发负载中延迟可降低 4 倍以上。这一成果不仅印证了 “存储 - 计算协同优化” 对 AI 推理效率的核心价值,更揭示了通过分布式存储架构扩展显存资源的技术路径,能够有效突破传统 GPU 算力瓶颈,实现资源利用率的指数级提升。

当前,随着 DeepSeek 等大模型在千行百业的规模化落地,企业对推理效率与成本优化的需求愈发迫切。YRCloudFile KVCache 通过 PB 级缓存扩展能力,将存储资源转化为计算性能增益,为行业提供了兼顾高性能与低成本的实践范例。这种以存储架构创新驱动算力释放的模式,或将成为企业构建下一代 AI 基础设施的关键突破点,加速大模型从技术突破到商业闭环的演进进程。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑钦文泪洒发布会:这是一场沉重的失利,考虑从低级别赛事打起

郑钦文泪洒发布会:这是一场沉重的失利,考虑从低级别赛事打起

全景体育V
2026-05-25 21:39:23
沙利文万字长文承认:面对中国,我们确实错了!

沙利文万字长文承认:面对中国,我们确实错了!

浪子的烟火人间
2026-05-26 01:30:03
青海一监委人员辱骂当事人家属不构成侵权?免罪金牌让人不寒而栗

青海一监委人员辱骂当事人家属不构成侵权?免罪金牌让人不寒而栗

空瓶子
2026-05-25 22:57:37
行车视频55公里/小时,监控抓拍却是121公里/小时;两张抓拍照间隔0.081秒,记者现场测算发现疑点

行车视频55公里/小时,监控抓拍却是121公里/小时;两张抓拍照间隔0.081秒,记者现场测算发现疑点

大风新闻
2026-05-25 22:28:10
有50年从业经历的煤老板坑了博士县长

有50年从业经历的煤老板坑了博士县长

深度财线
2026-05-25 14:32:25
韬定律掀的是台积电们的桌子

韬定律掀的是台积电们的桌子

智远同学
2026-05-25 21:23:45
44岁中国男子德国强奸4名中国女性后续,8人团伙作案,加密群交流;身份曝光:多人系名校留学生,1人自杀5人被起诉

44岁中国男子德国强奸4名中国女性后续,8人团伙作案,加密群交流;身份曝光:多人系名校留学生,1人自杀5人被起诉

大象新闻
2026-05-25 23:45:54
美军突然宣布:在伊朗南部实施自卫打击!伊朗位于霍尔木兹海峡附近沿海多地传出爆炸声!特朗普刚称美伊谈判“进展顺利”

美军突然宣布:在伊朗南部实施自卫打击!伊朗位于霍尔木兹海峡附近沿海多地传出爆炸声!特朗普刚称美伊谈判“进展顺利”

每日经济新闻
2026-05-26 07:26:11
莫迪磨五年刀精心摆杀猪盘 马斯克跑了还顺走大印度一把葱

莫迪磨五年刀精心摆杀猪盘 马斯克跑了还顺走大印度一把葱

牛锅巴小钒
2026-05-26 01:31:24
洛阳市政府入股主导的金融公司爆雷,被控近10年非吸200多亿

洛阳市政府入股主导的金融公司爆雷,被控近10年非吸200多亿

追月数星
2026-05-25 14:36:08
邢台一别墅小区被举报有大量违建,物业和房产中介表示“可以违建”,官方回应

邢台一别墅小区被举报有大量违建,物业和房产中介表示“可以违建”,官方回应

大象新闻
2026-05-25 09:22:07
博主“硬刚”稻城亚丁景区“截断近40公里省道收费”,多方回应

博主“硬刚”稻城亚丁景区“截断近40公里省道收费”,多方回应

上游新闻
2026-05-25 14:46:47
10亿存款不够花?71岁张国立刚迎来喜讯,43岁巨婴儿子就又惹上事

10亿存款不够花?71岁张国立刚迎来喜讯,43岁巨婴儿子就又惹上事

秋姐居
2026-05-25 09:45:01
0-11!不打了!官宣缺席生死战

0-11!不打了!官宣缺席生死战

篮球教学论坛
2026-05-26 08:40:07
炸裂!阿森纳 1 亿镑豪购世界第一人!全队彻底升级冲三冠王

炸裂!阿森纳 1 亿镑豪购世界第一人!全队彻底升级冲三冠王

澜归序
2026-05-26 06:28:47
人口大迁徙已成定局?明后年,越来越多人会流入这4座城市

人口大迁徙已成定局?明后年,越来越多人会流入这4座城市

米果说识
2026-05-25 19:37:07
天王山要崩?雷霆马刺伤病更新,奥尼尔分析西决走向,确实太难了

天王山要崩?雷霆马刺伤病更新,奥尼尔分析西决走向,确实太难了

你的篮球频道
2026-05-26 08:07:26
9死、11人失联!一夜暴雨,重庆永川多个村庄被山洪与泥石流吞噬

9死、11人失联!一夜暴雨,重庆永川多个村庄被山洪与泥石流吞噬

火山詩话
2026-05-25 16:53:35
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

中吴网
2026-05-25 22:42:39
男子被卖妙瓦底后续!同学被刑拘,网友曝猛料,50万也难换回一命

男子被卖妙瓦底后续!同学被刑拘,网友曝猛料,50万也难换回一命

奇思妙想草叶君
2026-05-25 14:17:03
2026-05-26 09:11:00
光锥智能 incentive-icons
光锥智能
来这里,看千行百业的数字化、智能化。
985文章数 139关注度
往期回顾 全部

科技要闻

今年秋季,麒麟芯片将首次落地"逻辑折叠"

头条要闻

燃油车齐降价捷豹路虎打对折 网友:感觉燃油车又香了

头条要闻

燃油车齐降价捷豹路虎打对折 网友:感觉燃油车又香了

体育要闻

如果不好好守门,他可能早就继承家业了

娱乐要闻

李晨郑恺跑男停宣:12年元老被边缘化

财经要闻

走近何庭波

汽车要闻

启境GT7定档5月29日预售 提供三电机版本

态度原创

游戏
教育
亲子
公开课
军事航空

魔兽世界:时光服提升难度谁受益?只管输出DPS,TN却在疯狂抗压

教育要闻

高考报志愿如何不浪费分数?

亲子要闻

央视新闻探访君乐宝奶粉产业链

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄军出动“榛树”导弹袭击乌克兰

无障碍浏览 进入关怀版