网易首页 > 网易号 > 正文 申请入驻

英伟达MIT出手!华人团队重磅开源,大模型推理内存暴降10倍

0
分享至


新智元报道

编辑:元宇

【新智元导读】一张普通的24G家用显卡,竟然能让一个32B的超大模型一口气读完6份长文档、自动写出周报?英伟达、MIT、浙大华人研究者联合出新招,让内存消耗直接暴降10倍,不降智也不爆显存,彻底击穿硬件天花板。

一张RTX 4090,24GB显存,跑一个32B参数的大模型做agent任务。

不做任何KV压缩,显存直接爆掉,连模型都跑不起来。

换上TriAttention,模型稳稳跑起来,顺利读完6份文档,自动生成了一份完整周报。

这不是社区大神的魔改,而是一篇来自MIT、英伟达、浙大的联合论文。


https://arxiv.org/pdf/2604.04921

核心思路是在pre-RoPE空间里,用Q/K的三角集中度来估计每个KV token到底有多重要,然后只保留真正重要的那些。

打个比方来说,别的方法压KV cache像是把所有行李都塞进压缩袋,不管里面是羽绒服还是砖头一律压扁。

TriAttention是先翻一遍行李箱,把砖头扔掉,只给羽绒服打包。

TriAttention demo演示,展示单张RTX 4090上Qwen3-32B完成OpenClaw agent任务的完整过程

作者之一Yukang Chen在X上发布了这组对比,左边不压缩,显存直接报错;右边开了TriAttention,agent一路读完6份文档,周报完整输出。


2.5倍吞吐

10.7倍内存缩减

效果怎么样?数字说话。

在AIME25数学推理任务上,TriAttention在匹配Full Attention准确率(40.8%)的前提下,吞吐量提升了2.5倍。

再看内存:KV cache内存缩减10.7倍。


在AIME25(Qwen3-8B)上的性能权衡。(A) 在相同准确率(40.8%)下,TriAttention的吞吐量比Full Attention高2.5倍。(B) TriAttention在保持与Full Attention相同准确率的同时,将KV缓存内存减少了10.7倍。

注意,这里说的是KV cache memory,不是整机显存,也不是模型参数占用的总内存。

但就算只是KV cache这一项,对长序列推理场景来说,KV cache往往就是压垮显存的最后一根稻草。

砍掉这一项,就是能跑和不能跑的分界线。

主实验是在Qwen3-8B上做的,覆盖AIME24、AIME25、MATH500等任务。

在32K token的生成长度条件下,TriAttention几乎没有牺牲精度,但把推理效率拉到了一个新台阶。

单张4090跑通32B大模型

这篇论文附录中提到了一个真实部署案例。

场景是OpenClaw,一个多轮agent工作流。任务是读6份markdown文档,生成一份周报。

模型是Qwen3-32B,用了AWQ INT4量化,跑在一张RTX 4090(24GB)上。

不压缩KV cache直接跑这个任务?显存当场爆掉。

长系统提示加上多轮文档读取,KV cache膨胀到显存根本兜不住。

TriAttention接管之后,agent顺利读完所有文档,生成了完整报告。

模型用的是Qwen3-32B AWQ INT4量化版,不是原始FP16满血版;跑的是OpenClaw agent工作流,不是通用长文本benchmark。

但它刚好证明了「一个完整的、有实际生产价值的agent任务,可以在消费级硬件上跑通」。

vLLM插件已就位

MLX实验性起步

TriAttention不只停在论文里。

作者已经在GitHub仓库中提供了vLLM集成,README明确写到TriAttention包含一个vLLM插件,并给出了OpenAI兼容API的server mode、Python API以及OpenClaw接入说明。

相比论文中的实验结果,这属于仓库层面的工程化扩展。

这意味着,你不需要改模型架构,不需要重新训练,只需要挂上这个插件,就能在现有的vLLM推理管线上获得KV压缩收益。

在Apple Silicon方向上,官方仓库里单独放了一份docs/mlx.md,覆盖M1到M4全系芯片,基于MLX框架和mlx-lm运行,附带示例代码和硬件benchmark。


TriAttention官方仓库已提供MLX实验性支持文档,覆盖M1-M4芯片https://github.com/WeianMao/triattention/blob/main/docs/mlx.md

不过,官方文档标题中也标注了这还是实验性支持,这说明他们已经在早期试水MLX了,但离成熟的Mac本地部署还有距离。

KV压缩赛道的两条路线

KV cache压缩赛道存在两条路线。

一条是量化派。

Google Research在3月24日发布了TurboQuant,官方博客中的定位是「在零精度损失下实现极致压缩」的方案,主打把KV cache和向量搜索的bit数压到极低。


Google Research官方博客中LongBench基准测试图,TurboQuant在LongBench基准测试中,相较于多种压缩方法,在Llama-3.1-8B-Instruct模型上展现出稳健的KV缓存压缩性能

社区已经有人在Apple Silicon上用TurboQuant跑通了Gemma 4 31B。

另一条是选择性保留派。

TriAttention就是这条路线的新代表,不压bit,而是直接判断哪些token的KV值得留、哪些可以扔。

两条路线的终点其实一样:让大模型跑在消费级硬件上,显存不炸,精度不掉。

但方法论完全不同。

量化是把每个行李都压扁,选择性保留是直接减少行李数量。

理论上,两者甚至可以叠加使用。

目前还没有严格的同模型、同硬件、同任务的head-to-head对比,所以「谁碾压谁」还说不了。

但可以确定的是,这两条路线正在加速向消费级部署推进。

一年前,「本地跑大模型」还是极客圈的行为艺术,跑个7B都要折腾半天。

现在,32B模型在单张消费级卡上完成agent任务,Apple Silicon上的MLX生态一周一个新仓库,vLLM插件让KV压缩变成「挂上就用」的一键方案。

KV cache压缩这条赛道,正在从论文里的消融实验,变成每个开发者都能触碰到的工程现实。

作者简介

Weian Mao


Weian Mao

Weian Mao现为MIT CSAIL博士后研究员,博士毕业于阿德莱德大学AIML,师从沈春华教授。其当前研究聚焦大语言模型,尤其关注推理效率与长上下文推理中的KV cache压缩;此前也从事过计算机视觉与蛋白质设计等方向研究。

Xi Lin


Xi Lin

Xi Lin是浙江大学计算机科学与技术专业高年级本科生,研究兴趣集中在高效AI的算法—系统协同设计,尤其关注面向硬件友好的稀疏与量化模块设计,以及高效推理策略。其工作与高性能计算、机器学习系统等方向密切相关。

Wei Huang


Wei Huang

Wei Huang现为香港大学博士生,研究聚焦Efficient AI与大型视觉/语言模型。

目前,他在NVIDIA Research实习,与Yukang Chen等研究者合作,并在Song Han 指导下开展相关研究,参与了QeRL、LongLive等工作。

参考资料:

https://arxiv.org/abs/2604.04921

https://x.com/yukangchen_/status/2041366586423165152

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
电动森林音乐节现婴儿遗体,警方介入调查

电动森林音乐节现婴儿遗体,警方介入调查

娱圈观察员
2026-06-30 01:12:39
高市突然强硬!日本宣布攻克稀土磁铁,外媒:稀土牌恐将失效?

高市突然强硬!日本宣布攻克稀土磁铁,外媒:稀土牌恐将失效?

疯狂小菠萝
2026-06-30 14:04:50
世界杯:荷兰点球3-4无缘16强!创队史最差战绩 摩洛哥踢加拿大

世界杯:荷兰点球3-4无缘16强!创队史最差战绩 摩洛哥踢加拿大

念洲
2026-06-30 11:55:27
韩红:致以深深的歉意

韩红:致以深深的歉意

观察者网
2026-06-30 18:03:27
6月30日,人社部和财政部关于2026年上调基本养老金通知下发了吗

6月30日,人社部和财政部关于2026年上调基本养老金通知下发了吗

小谈食刻美食
2026-06-30 08:06:38
鲍鹏山:如果中国真的足够强大!我们没必要脆弱到那么害怕批评!

鲍鹏山:如果中国真的足够强大!我们没必要脆弱到那么害怕批评!

用冷眼洞悉世界
2026-06-24 00:44:14
岚图董事长卢放批评“浮夸营销”:广告法为什么对这几个人没效呢

岚图董事长卢放批评“浮夸营销”:广告法为什么对这几个人没效呢

IT之家
2026-06-30 11:53:10
性资源分配不均导致的性压抑只是众多压抑中最微不足道的一个!

性资源分配不均导致的性压抑只是众多压抑中最微不足道的一个!

黯泉
2026-06-07 19:47:59
纳格尔斯曼下课?克洛普就担任德国队教练坦诚发表看法

纳格尔斯曼下课?克洛普就担任德国队教练坦诚发表看法

本泽体育
2026-06-30 12:33:49
刘亚仁吸毒缓刑未满,签约金已高达50亿,李小璐看了要哭晕在厕所

刘亚仁吸毒缓刑未满,签约金已高达50亿,李小璐看了要哭晕在厕所

娱乐E君
2026-06-30 17:49:49
2026苹果最抢手颜色:樱桃红iPhone 18 Pro测试照片流出

2026苹果最抢手颜色:樱桃红iPhone 18 Pro测试照片流出

IT之家
2026-06-30 16:30:15
奥迪A6L出现“骨折价”,垫底BBA保值率跌破50%

奥迪A6L出现“骨折价”,垫底BBA保值率跌破50%

侃故事的阿庆
2026-07-01 03:00:36
多城“地王”重现江湖

多城“地王”重现江湖

第一财经资讯
2026-06-30 14:25:39
自然界脑科学证实:雌性对某个雄性疯狂上瘾,压根不是情感在作祟,而是他偶然间点燃了她大脑深处一套隐秘的成瘾机制

自然界脑科学证实:雌性对某个雄性疯狂上瘾,压根不是情感在作祟,而是他偶然间点燃了她大脑深处一套隐秘的成瘾机制

心理观察局
2026-06-24 07:27:05
县处级领导子女的就业路径,远比想象中多

县处级领导子女的就业路径,远比想象中多

细说职场
2026-06-29 21:50:33
为什么大获全胜的歼-10卖不出去,一败涂地的阵风却销量火爆?

为什么大获全胜的歼-10卖不出去,一败涂地的阵风却销量火爆?

基斯默默
2026-05-28 11:06:03
87克金项链送去维修后少了11克,项链主人和金店都报了警,金店老板:维修前没称重是个“疏忽”,老庙黄金:可以道歉,不会补偿|三农早餐

87克金项链送去维修后少了11克,项链主人和金店都报了警,金店老板:维修前没称重是个“疏忽”,老庙黄金:可以道歉,不会补偿|三农早餐

农民日报
2026-07-01 05:45:49
林小龙已任深圳机场集团党委书记、董事长

林小龙已任深圳机场集团党委书记、董事长

南方都市报
2026-06-30 19:04:17
为什么今年没人提“消费降级”了?

为什么今年没人提“消费降级”了?

黯泉
2026-05-20 17:47:21
3天热死上千人后!法国政府终于妥协,连夜从中国抢购救命空调?

3天热死上千人后!法国政府终于妥协,连夜从中国抢购救命空调?

深度解析热点
2026-06-30 06:26:15
2026-07-01 08:24:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15574文章数 66943关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

时尚
家居
数码
教育
本地

Meiinpsn的穿衣风格,清新又叛逆

家居要闻

传奇筑 日常诗

数码要闻

曝微软停产Surface Go与Surface Laptop Go,无后续机型研发计划

教育要闻

教师如何有效管理课堂?

本地新闻

贵州小城的新目标:举办“村超”世界杯!

无障碍浏览 进入关怀版