网易首页 > 网易号 > 正文 申请入驻

颠覆!NVIDIA发明新技术KVTC:内存使用量缩减20倍

0
分享至

快科技3月22日消息,NVIDIA研究人员推出一项全新技术KVTC(KV快取转换编码),能把大型语言模型(LLM)追踪对话历史的内存用量,最高缩减20倍,而且不用修改模型本身。

这一突破有望解决大型语言模型长对话推理时的内存不够用问题,大大降低企业使用AI的硬件成本,同时还能把模型首次生成回应的时间,最高提速8倍。

简单来说,KVTC技术的核心就是压缩大型语言模型背后的KV缓存——它相当于AI模型的"短期记忆"。我们可以把KV缓存理解成学生记笔记:模型处理对话时,会把关键信息(也就是Key和Value)记下来,下次生成回应时,不用从头重新计算整段对话,响应速度就能大幅提升。

但问题是,对话越长,这份"笔记"就越大,甚至会膨胀到几个GB,占用大量GPU内存,反而拖慢模型运行、限制其处理能力。

NVIDIA资深深度学习工程师Adrian Lancucki表示:"大型语言模型进行推论时,性能瓶颈往往不在运算能力,而在GPU内存。"那些暂时不用的KV缓存,会一直占用宝贵的GPU资源,逼得系统只能把它们转移到CPU内存或硬盘里,这样不仅会增加数据传输的负担,还可能出现新的卡顿问题,这些额外成本最终也会体现在企业的使用费用中。

和现有压缩技术相比,KVTC没有那些明显的局限,它借鉴了我们熟悉的JPEG图片压缩思路,通过"主成分分析、自适应量化、熵编码"三个简单步骤,就能实现高效压缩。

更方便的是,这项技术不用改动模型的核心设置和代码,属于"非侵入式"设计,企业拿来就能快速部署。它的核心优势是,能抓住KV缓存"数据高度相关"的特点,在保留关键信息的同时,去掉冗余数据,而且解压时可以分块、逐层进行,不会影响模型实时回应。

多轮测试显示,KVTC的表现远超现有主流方法。在参数量从15亿到700亿的多种模型(包括Llama 3系列、R1-Qwen 2.5等)上,即便将内存压缩20倍,模型准确率也几乎不受影响,损失不到1%,与未压缩时相差无几;而传统压缩方法仅压缩5倍,就会出现明显的准确率下降。

另外,在H100 GPU上处理8000个Token的提示时,不使用KVTC需要3秒才能生成第一个回应,使用后仅需380毫秒,提速整整8倍。

需要注意的是,KVTC更适合长对话、多轮互动场景,比如编程助手、迭代式代理推理等,若对话较短,很难发挥其压缩价值。

目前,NVIDIA正计划将这项技术整合进Dynamo框架的KV块管理器,使其能与vLLM等主流开源推论引擎兼容。

业内人士认为,随着大型语言模型可处理的对话长度不断增加,KVTC这类标准化压缩技术,未来可能会像视频压缩一样普及,助力AI更广泛地落地应用。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

中国最“尴尬”的5个地级市:它们根本不该在本省,应该“改嫁”

好笑娱乐君每一天
2026-03-26 01:22:35
张雪峰离世的警示:人一定要学会避谶

张雪峰离世的警示:人一定要学会避谶

代伟看世界
2026-03-26 15:21:09
裁员裁到大动脉是啥体验?网友:我现在感觉我也是别人的大动脉

裁员裁到大动脉是啥体验?网友:我现在感觉我也是别人的大动脉

解读热点事件
2026-03-27 00:05:10
林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

林青霞亲口爆料:当年我全裸给他看,他却吓得扭头就跑!

达文西看世界
2026-03-04 15:07:30
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

看了新加坡媒体的披露,我才知道,中国已经没必要向世界证明什么

触摸史迹
2026-03-21 02:58:06
觉得五常权力大,新加坡呼吁约束一票否决权,却不认同美国是霸权

觉得五常权力大,新加坡呼吁约束一票否决权,却不认同美国是霸权

近史阁
2026-03-27 03:28:33
意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

意大利附加赛大决战先发:中场实力相对稳妥,锋线颓势令人忧

里芃芃体育
2026-03-26 16:00:06
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

无需大量运动!《柳叶刀》:每天多动5分钟、少坐半小时,足以显著降低死亡风险

生物世界
2026-03-25 16:05:30
朝鲜通告全球,确定“头号敌国”,李在明做选择,有中国在乱不了

朝鲜通告全球,确定“头号敌国”,李在明做选择,有中国在乱不了

说历史的老牢
2026-03-26 05:05:53
财政部答中经报记者问:居民参保长护险获财政补助

财政部答中经报记者问:居民参保长护险获财政补助

中国经营报
2026-03-26 19:43:15
伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

伊朗获得强援,又一中东国家下场,还是美国亲自送上门的帮手

徐云流浪中国
2026-03-26 14:45:25
1210km续航!长安官宣:新车正式上市

1210km续航!长安官宣:新车正式上市

T科技衍生
2026-03-27 00:31:33
AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

环球网资讯
2026-03-26 19:40:07
巴蒂:我们那个年代前锋比现在更强,如今看比赛到处都是空间

巴蒂:我们那个年代前锋比现在更强,如今看比赛到处都是空间

懂球帝
2026-03-26 10:52:23
2026-03-27 06:43:00
快科技 incentive-icons
快科技
一起关注每日科技热点
108983文章数 260214关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

头条要闻

特朗普:对伊朗能源设施空袭再推迟10天

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
旅游
数码
游戏
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

旅游要闻

利马的文明对话(旅人心语)

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版