网易首页 > 网易号 > 正文 申请入驻

小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构

0
分享至

小米Mimo大模型团队投稿
量子位 | 公众号 QbitAI

小米MiMo大模型团队,加入AI拜年战场——

推出HySparse,一种面向Agent时代的混合稀疏注意力架构

HySparse创新使用极少的全注意力(Full Attention)层提供“token选择+KV Cache”,其余稀疏注意力(Sparse Attention)层直接复用这些信息,实现高效精准的长上下文建模。

在总共49层的80B-A3BMoE模型实验中,仅保留5层Full Attention仍能保持甚至提升模型能力,同时显著降低KVCache存储与计算开销,实现效果与效率的兼顾,展示出混合稀疏注意力在超长上下文建模中的巨大潜力。



HySparse的设计灵感来源于学术界已有研究工作的经验和观察之上。

一部分是显著token在相邻层之间相对稳定。

已有工作如TidalDecode等,观察到连续层的 “重要 token” 会高度重合,因此可以在某层识别重要token并在后续层复用。

HySparse将这一观察提升用于模型结构设计并直接训练。

还有部分受启发于跨层KV Cache共享能显著省显存且不显著伤性能,YOCO、Gemma3n等架构层面工作已经证明了跨层共享KV的可行性。

HySparse将共享直接落在“Full Attention层 → 其后Sparse Attention层” 的hybrid block内共享上。

背景:Sparse Attention的 “两朵乌云”

多数Sparse Attention方法都遵循同一基本范式:先选择,再计算。

在真正计算注意力之前,先用一个“选择器” 决定哪些重要token是值得注意的,只在这些位置上进行注意力计算。

这一范式降低了计算量,但始终绕不开两个根本问题。

一个问题是重要 Token 的选择依赖代理(Proxy)

Sparse Attention的核心在于 “选哪些重要token”。

但现实中,这一选择往往依赖proxy信号:固定模式、启发式规则、近似估计,或额外的轻量化选择模块。

这些proxy本质上都是对真实注意力分布的近似,无法保证能完全精准地识别最重要的token;在长上下文、持续生成的场景下,这种近似误差还会不可避免地累积。

即便是可训练的Sparse Attention方法,往往也只是将人工设计的选择规则替换为可学习的轻量化选择代理模块,通过训练来对齐选择行为。

这在一定程度上缓解了选择误差,但同时显著增加了训练复杂度,难以从根本上摆脱这一“代理瓶颈”。

第二个问题是计算量降低,但KV Cache存储未减

目前,主流的动态Sparse Attention注意力方法主要减少的是计算开销。

这类做法不再对所有token执行注意力计算;但为了避免在生成过程中不可逆地错误丢弃KV Cache(因为token的重要性会随生成动态变化),推理阶段通常仍需保留全量KV Cache。

带来的结果就是计算量确实下降了,但显存与带宽这一主要瓶颈依然存在。

HySparse:把 “选择” 和 “缓存”交给Full Attention

HySparse做的事是把 “选择” 和 “缓存” 这两件对Sparse Attention来说最难的事,交给Full Attention来做

为此,HySparse采用hybrid block结构。

每个hybrid block由1层Full Attention+N层Sparse Attention组成。

Hybrid block内部的Sparse Attention层并不再独立做token选择和维护全量KV,而是直接复用前置Full Attention层产生的重要token索引和 KV Cache。

这背后的动机是Full Attention在完成自身计算的同时,已经生成了KV Cache,并且计算出了最准确的token重要性信息,自然可以供后续N个Sparse Attention层直接复用。



这一设计表面上非常简洁,却巧妙地同时解决了上述 Sparse Attention 的两大核心问题,

  • 选择不再依赖proxy;
  • Sparse层不引入额外KV Cache开销。

同时,HySparse稀疏层不是单一路径,稀疏层内部也做了一次 “全局稀疏 + 局部窗口” 的混合结构。

HySparse 的每一层 Sparse Attention 包含两条分支:

  • 块级稀疏注意力分支(全局):在TopK索引对应的共享KV Cache上进行全局Sparse Attention计算;
  • 滑动窗口注意力分支(局部):维护一个很小的本地窗口KV Cache(默认窗口大小为128)以保证局部建模能力。

两分支输出通过轻量门控(sigmoid gate)进行融合。

直观地看,HySparse并不是用Sparse Attention取代Full Attention ,而是将全局信息通路拆解为 “少量昂贵但可靠的全注意力”+“多次廉价而高效的全局稀疏检索与局部建模”。

实验结果:整体更优

为了验证HySparse的有效性,研究团队将其与两类主流架构进行对比:

  • Full-Attn:所有层均为Full Attention;
  • Hybrid SWA:按比例混合Full Attention和Sliding Window Attention;
  • HySparse:采用与Hybrid SWA相同的Full Attention比例,但将滑动窗口层升级为“全局稀疏 + 局部窗口”的Sparse Attention。

研究人员分别在7B的Dense模型和80B的MoE模型上进行了实验。

结果显示,7B模型共有36层,其中9层是Full Attention;80B MoE模型共有49层,只有5层是Full Attention,这为HySparse带来了接近10×的KV Cache存储降低。

在多项通用、数学、代码和中文评测中,HySparse在7B Dense和80B MoE两种规模均带来稳定提升。

特别是在80B MoE的激进混合比例下,HySparse通过全局稀疏检索通路有效保持长距离信息访问,维持了全局推理能力,还在部分任务上超越了全注意力基线,充分体现了全局稀疏通路的重要作用。



RULER长文测试表明,HySparse即便将Full Attention层压到极少,也能稳定保持长距离关键信息访问,充分展现了其混合稀疏结构的优势。



小米MiMo表示,计划在更大规模模型上进一步验证HySparse的极限和潜力,并持续探索降低Full Attention层数量的可能性,让超长上下文更高效。

arXiv链接:
https://arxiv.org/abs/2602.03560

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

还有谁!杨瀚森100%命中率!20+9+5打出完美一战!

柚子说球
2026-03-26 13:07:05
小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

小小的但有硬派味,丰田酷路泽 FJ 正式发售,约 26.7 万元

爱范儿
2026-03-26 15:27:20
新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

新加坡预测:印度将赶中超美!美印争世界老大,中国将成新阿三

荷兰豆爱健康
2026-03-26 08:26:08
个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

个人公众号“千问”停更近10年,近期接连遭阿里投诉均被驳回,号主:规避风险不发AI文章,如果我不发声,账号就不保了

中国能源网
2026-03-25 13:53:05
路虎“大揽胜亮相 长5.1米,大6座,售30万起?

路虎“大揽胜亮相 长5.1米,大6座,售30万起?

网上车市
2026-03-26 21:41:53
A股:市场要开始准备了!明天(3月27日)的市场会这样走

A股:市场要开始准备了!明天(3月27日)的市场会这样走

风风顺
2026-03-27 00:00:04
因妈妈姓氏太特殊,全家一致通过“随母姓”,网友:是我也随母姓

因妈妈姓氏太特殊,全家一致通过“随母姓”,网友:是我也随母姓

谭老师地理大课堂
2026-03-24 07:37:08
上海警方发布警情通报:左某某已被警方依法刑事拘留

上海警方发布警情通报:左某某已被警方依法刑事拘留

新京报
2026-03-25 20:46:14
张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

张雪峰去世仅1天,办公室内景曝光,写真照被指像遗照,摆设奇怪

180视角
2026-03-26 08:43:01
李幼平同志逝世

李幼平同志逝世

澎湃新闻
2026-03-26 18:05:03
15名津巴布韦人被俄罗斯骗去乌克兰当炮灰战死,当局怒揭残酷真相

15名津巴布韦人被俄罗斯骗去乌克兰当炮灰战死,当局怒揭残酷真相

老马拉车莫少装
2026-03-27 00:00:37
重磅!新加坡国立大学原副校长,全职加盟清华大学

重磅!新加坡国立大学原副校长,全职加盟清华大学

TOP大学来了
2026-03-26 17:43:56
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

张雪峰付幸多张合影被扒,每次团建她都偷瞄张雪峰,眼神满是崇拜

古希腊掌管松饼的神
2026-03-26 16:52:30
CBA焦点战!广东vs北京,赛前带来广东队徐杰、崔永熙、杜峰以及北京队赵睿、周琦最新消息

CBA焦点战!广东vs北京,赛前带来广东队徐杰、崔永熙、杜峰以及北京队赵睿、周琦最新消息

凯丰侃球
2026-03-27 00:10:59
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

《火遮眼》北美定档,近10年最强动作片,没人能挡住谢苗成为巨星

阿纂看事
2026-03-26 16:03:34
2026-03-27 00:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176425关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
教育
数码
本地
手机

亲子要闻

看看把孩子吓得哈哈哈

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

无障碍浏览 进入关怀版