网易首页 > 网易号 > 正文 申请入驻

超越TurboQuant,长上下文推理真2-bit KV Quantization算法问世

0
分享至



本文作者 Zhongzhu Zhou 是 TogetherAI 的 Senior Research Scientist,悉尼大学博士,研究方向为高效机器学习系统,方向覆盖 模型训推算法与系统协同设计,LLM 压缩与量化。团队成员均来自 TogetherAI,悉尼大学以及伊利诺伊大学厄巴纳 — 香槟分校。

Together AI 于 2022 年 6 月创立,由苹果前高管 Vipul Ved Prakash、斯坦福大模型研究中心主任 Percy Liang、芝加哥大学副教授 Ce Zhang、Flash Attention 作者 Tri Dao 联合创办。

超越 TurboQuant,内存有救了!TogetherAI 最新论文OSCAR直面冲击 TurboQuant,提出一个面向长上下文推理服务的真正的 2-bit KV Cache 系统,开盒即用。



  • 论文标题:OSCAR: Offline Spectral Covariance-Aware Rotation for 2-bit KV Cache Quantization
  • 论文链接:https://arxiv.org/abs/2605.17757
  • 项目主页:https://oscar-quantize.github.io/
  • 代码:https://github.com/FutureMLS-Lab/OSCAR;
  • RotationZoo:https://huggingface.co/Zhongzhu/OSCAR-RotationZoo
  • 作者:Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu

长上下文模型越来越强,但服务时的瓶颈往往不是算力,而是 KV Cache:每生成一个 token,都要从显存中读取越来越长的历史 key,value。上下文越长、batch 越大,KV Cache 越吃显存,也越吃带宽。把历史 KV 压到 2-bit,理论上可以让历史段显存减少约8 倍;但真正难的是,压完之后推理能力不能崩,系统也必须能在真实 serving 框架里跑起来。

为什么 2-bit KV Cache 这么难?INT2 只有 4 个量化等级,而 KV activation 中常常有少数幅值极大的 outlier channel。如果这些 outlier 主导量化尺度,大多数正常值会被挤到很少的有效等级里,注意力分布很快漂移。普通 Hadamard 旋转能把 outlier 摊平,但它不知道模型在 attention 里真正读哪些方向。OSCAR 的核心就是把旋转目标从「重建原始 K/V 向量」改成「保留 attention 消费 KV 的方式」。

相比之前量化的工作,比如 TurboQuant 压缩的是向量,但忽略了真正影响模型的是 attention 的质量,OSCAR 保留的是 attention 真正会读的方向。朴素 INT2 和全模型层的 3-bit K/V TurboQuant 都会在困难推理任务上明显掉分;OSCAR 在约2.28 effective bits per KV element下仍能接近 BF16,并在 Qwen3-4B-Thinking 上相对 3-bit K/V TurboQuant 最高提升40.1 分。

OSCAR 的动机



图 1:为什么只看 K/V 重建误差会误导判断

图 1 对比了 naive INT2、Hadamard-only、clip-only 和 OSCAR 在量化误差传播链路上的差异。关键点是,原始 K/V 的重建误差并不能完全解释模型最终表现;真正影响推理质量的是 attention-score KL、attention-block output MSE 以及后续 hidden-state error。OSCAR 的优势不只是让向量数值更平滑,而是把量化误差压到 attention 不敏感的方向上。

OSCAR 的设计

具体来说,对 key 来说,量化误差会进入 attention logits,也就是 QKᵀ,因此 OSCAR 用 query covariance(QᵀQ)构造 key 的旋转目标;对 value 来说,误差经过注意力权重进入输出,因此 OSCAR 使用 score-weighted value covariance(VᵀSᵀSV)。离线校准阶段,OSCAR 从少量校准样本中估计这些 attention-aware covariance,为每层、每个 head 生成固定旋转和 clipping 阈值。最终旋转写作R = U・Hadamard・bit-reversal:U 对准 attention 相关方向,Hadamard 分散 outlier,bit-reversal 平衡 INT2 分组,避免某个 group 被少数通道支配。

更重要的是,OSCAR 不是以往的量化论文,离线跑量化得到指标,而是已经接入SGLang,做到开箱即用的 2-bit KV serving。OSCAR 在 SGLANG 中维护一个 token 池:

BF16 sink (64 tokens) | INT2 history (~2.28 BPE) | BF16 recent (256 tokens)

其中 sink token 和 recent window 保持 BF16,用来保护 attention sink 与短期局部上下文;中间最长的历史段存成旋转后的 INT2。新 token 先写入 recent window,随着解码推进,最老的 recent token 再由融合 Triton kernel 执行 rotate /clip/quantize/pack,并 demote 到 INT2 history。每 4 个 2-bit 值打包进 1 个 byte。decode 阶段,OSCAR 在 GPU 上把缓存分成 BF16 段和 INT2 段:INT2 kernel 负责 unpack、scale/zero point 还原和浮点累加,BF16 kernel 处理 sink/recent,最后用 online softmax merge 合并结果。它同时兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline,因此可以直接用于长上下文 workload,而不是停留在论文图表里。



图 2:OSCAR 整体流程图

图 2 展示 OSCAR 从离线校准到在线 serving 的完整路径。左侧是离线阶段:OSCAR 从少量校准样本中估计 attention-aware rotation 和 clipping threshold,让 KV activation 在进入 INT2 前变得更适合量化。右侧是在线阶段:sink/recent token 继续保持 BF16,中间最长的 history KV 进入旋转后的 INT2 cache,并在 SGLang paged KV 中完成真实 serving。因此 OSCAR 不是单一量化技巧,而是一整套 2-bit KV Cache pipeline。

评估结果

OSCAR 在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上测试,任务覆盖 GPQA、HumanEval、LiveCodeBench v6、AIME25、MATH500,生成长度最高 32K,每个设置运行 5 次取均。

OSCAR 在2.28 BPE下,Qwen3-4B-Thinking 距 BF16 仅3.78分,Qwen3-8B 距 BF16 仅1.42 分,Qwen3-32B 与 GLM-4.7-FP8 基本与 BF16 持平。相比之下,QuaRot-INT2 和 naive INT2 在这些 reasoning /coding 任务上大多直接崩溃;TurboQuant 在全层 3-bit K/V、无 mixed-precision 保护的公平设置下,也在小模型推理任务上掉分明显。

OSCAR还在128K长上下文设置下对中 / 大规模模型做了 RULER-NIAH 测试:OSCAR 在 Qwen3-8B 和 GLM-4.7-FP8 上都保持了明显更稳定的检索性能,说明这种 attention-aware 旋转不仅能撑住短评测,也能抵抗超长历史中 KV 误差的累积。换句话说,OSCAR 是少数能在真近 2-bit 设置下仍保持现代 reasoning model 质量的方法。

系统收益也非常直接:相对 BF16 history storage,OSCAR 可减少约8×KV Cache memory;在 100k context、batch-size-1、full prefix-cache hit 设置下,decode 最高约3×加速;在大 batch、同显存预算下,job-level throughput 最高约7×。prefix cache 命中率越高,OSCAR 越能利用更小的 KV footprint 提升并发吞吐,这对共享系统提示、多轮 Agent、工具调用循环等长前缀复用场景尤其重要。

精度损失



图 3:完整主结果表,多种 KV 量化方法同场对比



图 4:AIME25 32K 生成,和 KIVI / Kitty 的专项对比

图 3 是论文主结果表,包含 BF16、Saw-INT4、TurboQuant、QuaRot-INT2、Naive INT2 和 OSCAR 在四个模型、五个任务上的完整对比。BF16 是精度上界;Saw-INT4 是强 4-bit 参考,BPE 为4.25;TurboQuant 在这里使用无 mixed-precision 保护的全层3-bit K/V设置,BPE 为3.25;QuaRot-INT2 和 Naive INT2 是接近 2-bit 的旋转 / 朴素基线,BPE 约2.25;OSCAR 则在2.28 BPE下运行。

这张表的重点不是单一模型,而是「低比特能不能稳定」。在 Qwen3-4B-Thinking 上,TurboQuant mean 为31.74,QuaRot-INT2 只有1.40,Naive INT2 为0.00;OSCAR 达到71.86,距离 BF16 只差3.78,并相对 TurboQuant 提升40.1 分。在 Qwen3-8B 上,OSCAR mean 为69.42,距离 BF16 只差1.42,而 TurboQuant 为56.88。到 Qwen3-32B 和 GLM-4.7-FP8,OSCAR 基本与 BF16 持平。换句话说,在接近 2-bit 的 KV 预算下,OSCAR 是表中唯一能在多模型、多任务上稳定贴近 BF16 的 INT2 方法。

图 4 单独看 AIME25 这个高难数学推理任务,并对比 KIVI-KV2、Kitty 和 OSCAR。但由于 KIVI, KITTY 没有 framework 支持,无法进行 long context run,所以选取了他们方法唯一在 32K 汇报的结果 - AIME25。在 Qwen3-8B 上,OSCAR 以2.38 BPE达到66.67,基本追平 BF16 的66.00,明显高于 KIVI-KV2 和 Kitty;在 Qwen3-32B 上,OSCAR 达到74.00,甚至略高于 BF16 的72.59,也超过 Kitty 的69.26。这说明 OSCAR 不只是相对 TurboQuant 有优势,在已有 KV-cache 量化方法中,也能在接近 2-bit 的预算下保住困难数学推理能力。

系统加速



图 5:100k 长上下文下的 decode /batch throughput

图 5 展示 100k 上下文下的系统性能。OSCAR 在 batch-size-1、full prefix-cache hit 的纯 decode 场景下最高约3×加速;在固定显存预算下,batch size 增大时,INT2 history 带来的 KV footprint 降低可以显著提高 job-level throughput,最高约7×。这说明 OSCAR 不只是精度能保住,也能实打实降低显存带宽压力。



图 6:prefix cache 命中率越高,吞吐前沿越往外推

图 6 展示 prefix-cache hit ratio 对端到端 serving throughput 的影响。横轴是单用户吞吐,纵轴是单 GPU 吞吐;从 cache disabled 到 normal cache,再到接近 100% warmup replay,吞吐前沿逐步外扩。OSCAR 保持标准 paged KV /prefix cache 抽象,因此共享系统提示、多轮 Agent、工具调用循环等长前缀复用场景可以直接受益。

这些结果的一个重要含义是,OSCAR 并没有依赖「挑选少数层保留高精度」来保住分数。很多低比特方法在真正部署时会借助混合精度:第一层、最后一层或若干敏感层仍然保留较高 bit,这会让平均 bit 数上升,也会让 kernel 和 cache layout 变复杂。OSCAR 的对比更严格:历史 KV 主体保持统一的 INT2 表示,只在 sink 和 recent 两个很小窗口保留 BF16。这样做的好处是,系统工程上更容易接入 paged cache、prefix cache 和批量调度,也更接近真实服务场景中的显存预算。

总结

另一个值得强调的点是,OSCAR 的收益不是只在小模型或短上下文上成立。论文同时测试了 4B、8B、32B 以及 GLM-4.7-FP8 这样的大模型;既看了数学、代码、知识问答等 32K 推理生成任务,也看了 128K RULER-NIAH 长上下文检索。短评测里,OSCAR 能接近 BF16;长上下文里,它也能让 attention 分布随上下文增长更稳定。这说明 attention-aware rotation 不是只在某个 benchmark 上调参有效,而是在缓解 KV 误差随历史长度累积这个根本问题。

从应用角度看,这对长上下文 Agent 特别关键。真实 Agent 往往包含很长的系统提示、工具说明、历史对话和检索内容,并且不同请求之间存在大量共享前缀。如果 KV Cache 只能用 BF16 存,系统很快会被显存卡住;如果直接做朴素 INT2,又可能让推理链条失真。OSCAR 的设计刚好夹在两者之间:长历史用 INT2 降显存和带宽,关键 sink/recent 用 BF16 兜住稳定性,再让 prefix cache 复用共享前缀。换句话说,它把「能压到 2-bit」和「能上线 serving」 放在同一个系统里考虑。

TurboQuant 是很强的通用 online vector quantization 方法;OSCAR 针对的是 attention-aware 2-bit KV serving。二者不是简单替代关系,例如OSCAR 的 最新codebase中已经在attention-aware rotation 引入了更强的 Lloyd Max Codebook,将压缩推向极致。OSCAR 带来了一个独特的观点:2-bit KV Cache 要能上线,旋转不只是「有没有」,而是必须对准 attention,并且要有真实 serving 系统支撑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗媒体发布穆杰塔巴照片:怀抱孩童,面带微笑

伊朗媒体发布穆杰塔巴照片:怀抱孩童,面带微笑

澎湃新闻
2026-06-02 23:04:02
半导体不香了?大基金套现210亿,不是跑路,是去接下一个孩子

半导体不香了?大基金套现210亿,不是跑路,是去接下一个孩子

户外钓鱼哥阿旱
2026-06-02 17:36:14
最近,广州骑警摩托上多了一个“小白箱”,专门抓拍电动自行车这些行为……

最近,广州骑警摩托上多了一个“小白箱”,专门抓拍电动自行车这些行为……

番禺台
2026-06-02 18:01:27
被申请破产!又一网红品牌跌落神坛,曾在李佳琦直播间爆卖

被申请破产!又一网红品牌跌落神坛,曾在李佳琦直播间爆卖

品牌观察官
2026-06-02 17:42:26
正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

健康科普365
2026-05-09 21:05:04
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
天呐,看到窦骁和周冬雨2010年的合影,才懂何超莲为啥一见钟情

天呐,看到窦骁和周冬雨2010年的合影,才懂何超莲为啥一见钟情

真的八卦小学弟
2026-06-02 11:30:14
宝妈吐槽有儿子后总被玩具枪怼头,生无可恋,我却笑死在评论区!

宝妈吐槽有儿子后总被玩具枪怼头,生无可恋,我却笑死在评论区!

夜深爱杂谈
2026-06-02 20:56:52
灰姑娘传奇!世界第114波兰黑马继续梦幻之旅,首进大满贯8强

灰姑娘传奇!世界第114波兰黑马继续梦幻之旅,首进大满贯8强

体育妞世界
2026-06-02 08:40:16
女选手走光画面被直播,组委会:痛定思痛、彻底整改

女选手走光画面被直播,组委会:痛定思痛、彻底整改

南方都市报
2026-06-01 23:27:33
卡塔尔人于2011年以7000万至1亿美元的价格收购了巴黎圣日耳曼。

卡塔尔人于2011年以7000万至1亿美元的价格收购了巴黎圣日耳曼。

岁月有情1314
2026-06-03 06:54:30
波兰要求泽连斯基道歉

波兰要求泽连斯基道歉

参考消息
2026-06-02 15:25:20
39岁大学教师猝然离世:青年学者们拿命换职称、熬夜赶课题,值吗

39岁大学教师猝然离世:青年学者们拿命换职称、熬夜赶课题,值吗

教师吧
2026-06-02 19:57:40
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
终于,豆瓣还是朝着《给阿嬷的情书》打拳了,这拳打得对不对呢?

终于,豆瓣还是朝着《给阿嬷的情书》打拳了,这拳打得对不对呢?

蓬辉堂
2026-06-01 23:40:20
你无意中发现了不得的事?网友:大保健里遇见嫂子

你无意中发现了不得的事?网友:大保健里遇见嫂子

夜深爱杂谈
2026-05-28 07:59:33
奚梦瑶婚后首现身!乘坐保姆车离开圣米歇尔山,和宾客挥手告别

奚梦瑶婚后首现身!乘坐保姆车离开圣米歇尔山,和宾客挥手告别

娱乐圈圈圆
2026-06-02 17:43:06
古特雷斯:人民币不能成为通行货币!话音刚落,拉夫罗夫立刻回怼

古特雷斯:人民币不能成为通行货币!话音刚落,拉夫罗夫立刻回怼

海佑讲史
2026-06-02 06:45:09
“脖子上已经有草莓了”,贫民窟大小姐,证明了富养教育的必要

“脖子上已经有草莓了”,贫民窟大小姐,证明了富养教育的必要

泽泽先生
2026-05-09 18:11:34
安徽恶婆婆后续:儿媳后悔,找邻居说和,娘家全体出动求原谅晚了

安徽恶婆婆后续:儿媳后悔,找邻居说和,娘家全体出动求原谅晚了

米果说识
2026-05-31 16:45:27
2026-06-03 07:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13151文章数 142660关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

房产
家居
手机
教育
艺术

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

家居要闻

流线型轮廓 包容多元身形

手机要闻

华为凌霄子母路由Q7电线版星闪电竞专链功能首批支持机型公布

教育要闻

进位制之谜,一个视频学明白!

艺术要闻

二十年前割麦的场景

无障碍浏览 进入关怀版