网易首页 > 网易号 > 正文 申请入驻

小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构

0
分享至

来源:市场资讯

(来源:量子位)

小米MiMo大模型团队,加入AI拜年战场——

推出HySparse,一种面向Agent时代的混合稀疏注意力架构

HySparse创新使用极少的全注意力(Full Attention)层提供“token选择+KV Cache”,其余稀疏注意力(Sparse Attention)层直接复用这些信息,实现高效精准的长上下文建模。

在总共49层的80B-A3BMoE模型实验中,仅保留5层Full Attention仍能保持甚至提升模型能力,同时显著降低KVCache存储与计算开销,实现效果与效率的兼顾,展示出混合稀疏注意力在超长上下文建模中的巨大潜力。


HySparse的设计灵感来源于学术界已有研究工作的经验和观察之上。

一部分是显著token在相邻层之间相对稳定。

已有工作如TidalDecode等,观察到连续层的 “重要 token” 会高度重合,因此可以在某层识别重要token并在后续层复用。

HySparse将这一观察提升用于模型结构设计并直接训练。

还有部分受启发于跨层KV Cache共享能显著省显存且不显著伤性能,YOCO、Gemma3n等架构层面工作已经证明了跨层共享KV的可行性。

HySparse将共享直接落在“Full Attention层 → 其后Sparse Attention层” 的hybrid block内共享上。

多数Sparse Attention方法都遵循同一基本范式:先选择,再计算。

在真正计算注意力之前,先用一个“选择器” 决定哪些重要token是值得注意的,只在这些位置上进行注意力计算。

这一范式降低了计算量,但始终绕不开两个根本问题。

一个问题是重要 Token 的选择依赖代理(Proxy)

Sparse Attention的核心在于 “选哪些重要token”。

但现实中,这一选择往往依赖proxy信号:固定模式、启发式规则、近似估计,或额外的轻量化选择模块。

这些proxy本质上都是对真实注意力分布的近似,无法保证能完全精准地识别最重要的token;在长上下文、持续生成的场景下,这种近似误差还会不可避免地累积。

即便是可训练的Sparse Attention方法,往往也只是将人工设计的选择规则替换为可学习的轻量化选择代理模块,通过训练来对齐选择行为。

这在一定程度上缓解了选择误差,但同时显著增加了训练复杂度,难以从根本上摆脱这一“代理瓶颈”。

第二个问题是计算量降低,但KV Cache存储未减

目前,主流的动态Sparse Attention注意力方法主要减少的是计算开销。

这类做法不再对所有token执行注意力计算;但为了避免在生成过程中不可逆地错误丢弃KV Cache(因为token的重要性会随生成动态变化),推理阶段通常仍需保留全量KV Cache。

带来的结果就是计算量确实下降了,但显存与带宽这一主要瓶颈依然存在。

HySparse:把 “选择” 和 “缓存”交给Full Attention

HySparse做的事是把 “选择” 和 “缓存” 这两件对Sparse Attention来说最难的事,交给Full Attention来做

为此,HySparse采用hybrid block结构。

每个hybrid block由1层Full Attention+N层Sparse Attention组成。

Hybrid block内部的Sparse Attention层并不再独立做token选择和维护全量KV,而是直接复用前置Full Attention层产生的重要token索引和 KV Cache。

这背后的动机是Full Attention在完成自身计算的同时,已经生成了KV Cache,并且计算出了最准确的token重要性信息,自然可以供后续N个Sparse Attention层直接复用。


这一设计表面上非常简洁,却巧妙地同时解决了上述 Sparse Attention 的两大核心问题,

同时,HySparse稀疏层不是单一路径,稀疏层内部也做了一次 “全局稀疏 + 局部窗口” 的混合结构。

HySparse 的每一层 Sparse Attention 包含两条分支:

两分支输出通过轻量门控(sigmoid gate)进行融合。

直观地看,HySparse并不是用Sparse Attention取代Full Attention ,而是将全局信息通路拆解为 “少量昂贵但可靠的全注意力”+“多次廉价而高效的全局稀疏检索与局部建模”。

为了验证HySparse的有效性,研究团队将其与两类主流架构进行对比:

研究人员分别在7B的Dense模型和80B的MoE模型上进行了实验。

结果显示,7B模型共有36层,其中9层是Full Attention;80B MoE模型共有49层,只有5层是Full Attention,这为HySparse带来了接近10×的KV Cache存储降低。

在多项通用、数学、代码和中文评测中,HySparse在7B Dense和80B MoE两种规模均带来稳定提升。

特别是在80B MoE的激进混合比例下,HySparse通过全局稀疏检索通路有效保持长距离信息访问,维持了全局推理能力,还在部分任务上超越了全注意力基线,充分体现了全局稀疏通路的重要作用。


RULER长文测试表明,HySparse即便将Full Attention层压到极少,也能稳定保持长距离关键信息访问,充分展现了其混合稀疏结构的优势。


小米MiMo表示,计划在更大规模模型上进一步验证HySparse的极限和潜力,并持续探索降低Full Attention层数量的可能性,让超长上下文更高效。

arXiv链接:

https://arxiv.org/abs/2602.03560

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深夜突发!美联储,降息大消息!

深夜突发!美联储,降息大消息!

魏家东
2026-02-14 10:27:38
修鞋老翁为女孩修复假肢:成功省下万元费用,老人家属提出请求

修鞋老翁为女孩修复假肢:成功省下万元费用,老人家属提出请求

不写散文诗
2026-02-14 18:50:47
闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

闺蜜大婚我随了5000,她回礼雨伞,看见伞柄刻着地址和6个数字

磊子讲史
2026-01-23 16:54:49
傻瓜,我有私人飞机!扎克伯格提宅逃离加州,躲避额外加5%税

傻瓜,我有私人飞机!扎克伯格提宅逃离加州,躲避额外加5%税

移光幻影
2026-02-14 14:40:56
不打了!宣布赛季报销!正式俯冲NBA状元签

不打了!宣布赛季报销!正式俯冲NBA状元签

篮球实战宝典
2026-02-14 20:34:34
跟王毅谈了一个小时后,鲁比奥做出决定,取消和欧盟领导人的会晤

跟王毅谈了一个小时后,鲁比奥做出决定,取消和欧盟领导人的会晤

东极妙严
2026-02-14 18:04:06
5个月用AI做了120多个App,职高毕业的小伙在杭州上城开“一人公司” 火到了海外

5个月用AI做了120多个App,职高毕业的小伙在杭州上城开“一人公司” 火到了海外

都市快报橙柿互动
2026-02-13 12:48:31
郭言:恩格尔系数创新高凸显日本民生窘境

郭言:恩格尔系数创新高凸显日本民生窘境

经济日报
2026-02-14 07:00:32
13岁体操冠军傅佳丽被虐待导致跳楼 央媒跟进:2名涉事教练被立案

13岁体操冠军傅佳丽被虐待导致跳楼 央媒跟进:2名涉事教练被立案

观察鉴娱
2026-02-13 14:52:22
百果园一根甘蔗87元,市民吐槽太贵,店员:买之前讲过的,黄金手撕甘蔗按斤卖,已为该消费者退款

百果园一根甘蔗87元,市民吐槽太贵,店员:买之前讲过的,黄金手撕甘蔗按斤卖,已为该消费者退款

大风新闻
2026-02-14 10:01:07
女子骗妈妈春节不回,偷偷回家见全家10口热闹聚餐,女子轻声问:妈在哪?父亲却皱眉问:你是谁?

女子骗妈妈春节不回,偷偷回家见全家10口热闹聚餐,女子轻声问:妈在哪?父亲却皱眉问:你是谁?

黎兜兜
2026-02-13 21:21:05
高市飘了!公开喊话俄罗斯,不到24小时,普京一句话堵死日本后路

高市飘了!公开喊话俄罗斯,不到24小时,普京一句话堵死日本后路

书纪文谭
2026-02-14 19:19:36
娘家每月给1万美金?湖北小伙娶非洲酋长女儿,生女儿后定居成都

娘家每月给1万美金?湖北小伙娶非洲酋长女儿,生女儿后定居成都

寒士之言本尊
2026-02-14 15:47:52
待宰大鹅流泪引网友喊话求放过,市民只好把鹅送人,鹅真会被“吓哭”吗?专家解答来了

待宰大鹅流泪引网友喊话求放过,市民只好把鹅送人,鹅真会被“吓哭”吗?专家解答来了

大风新闻
2026-02-13 22:20:04
欧洲富婆来中国旅游,回国一周后哭诉:瑞士跟中国差距一目了然

欧洲富婆来中国旅游,回国一周后哭诉:瑞士跟中国差距一目了然

而长终
2026-02-12 18:01:30
人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

人间铁律!别人的儿子永远养不熟,天下的继父没有一个有好结果!

历史按察使司
2026-02-13 08:00:22
突然暴跌!北京降了!价格再下跌!

突然暴跌!北京降了!价格再下跌!

美丽大北京
2026-02-13 16:41:07
冬奥会惊天冷门!21岁美国头号夺冠热门自由滑3跳空+2摔 仅获第8

冬奥会惊天冷门!21岁美国头号夺冠热门自由滑3跳空+2摔 仅获第8

念洲
2026-02-14 06:50:32
坐3.6亿飞机,戴1000万名表,拿5000万炒股的秦奋究竟什么背景

坐3.6亿飞机,戴1000万名表,拿5000万炒股的秦奋究竟什么背景

涵豆说娱
2026-01-19 17:21:55
0点已过,中方反制准时启动!6:21局面出现,欧盟内部先陷入混乱

0点已过,中方反制准时启动!6:21局面出现,欧盟内部先陷入混乱

知鉴明史
2026-02-13 17:00:02
2026-02-14 22:12:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2220860文章数 5475关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

王毅:日本如果再赌一次 只能败得更快输得更惨

头条要闻

王毅:日本如果再赌一次 只能败得更快输得更惨

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

房产
手机
健康
游戏
公开课

房产要闻

三亚新机场,又传出新消息!

手机要闻

小米新机矩阵曝光:17 Max、MIX系列、18系列,覆盖所有价格段

转头就晕的耳石症,能开车上班吗?

回归正常审美的守望先锋新英雄,把外网逆天群体急破防了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版