网易首页 > 网易号 > 正文 申请入驻

面向Agent时代!小米MiMo推出HySparse混合稀疏注意力架构

0
分享至


智东西
作者 王涵
编辑 漠影

智东西2月7日报道,昨天,小米MiMo大模型团队宣布推出HySparse,一种面向Agent时代的混合稀疏注意力架构,使用“极少的全注意力(Full Attention)+ 稀疏注意力(Sparse Attention)”核心设计。


随着Agent模型与应用的爆发式发展,精准高效处理超长文本正在成为模型必不可少的基础能力。Agent不仅需要在超长上下文中完成稳定检索、推理与多轮规划,还必须在推理阶段保持足够快的响应速度,目前最大的挑战已经不只是“能不能算”,而是“算不算得起”。

为此,小米MiMo提出了HySparse架构。在多项通用、数学、代码和中文评测中,HySparse在7B Dense和80B MoE两种规模均带来提升。

其中,在总共49层的80B-A3B MoE模型实验中,HySparse仅保留5层Full Attention仍能保持或提升模型能力,KV Cache存储降低至原来的1/11,实现效果与效率的兼顾。


RULER长文测试表明,HySparse即便将Full Attention层压到极少,也能稳定保持长距离关键信息访问,展现了其混合稀疏结构的优势。


HySparse采用hybrid block结构:每个hybrid block由1层Full Attention+N层Sparse Attention组成。Hybrid block内部的Sparse Attention层并不再独立做token选择和维护全量KV,而是直接复用前置Full Attention层产生的重要token索引和KV Cache。

这背后的动机是Full Attention在完成自身计算的同时,已经生成了KV Cache,并且计算出了最准确的 token重要性信息,自然可以供后续N个Sparse Attention层直接复用。

HySparse可以视为是在MiMo-V2-Flash的Hybrid SWA结构的基础上,为SWA增加了全局的、更重要的token信息补充。这一改进不仅提升了性能,还没有增加KV Cache存储,也没有显著增加计算开销。


HySparse结构为Agent时代的超长文本处理提供了高效精准的技术解决方案,也为大模型高效注意力结构的研究与落地提供了全新参考。

小米MiMo透露,团队计划在更大规模模型上进一步验证HySparse的极限和潜力,并持续探索降低Full Attention层数量的可能性,让超长上下文更高效。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
多个伊拉克民兵组织宣布拟解除武装

多个伊拉克民兵组织宣布拟解除武装

财联社
2026-06-03 01:24:05
乌袭击圣彼得堡市,俄称将系统性回击

乌袭击圣彼得堡市,俄称将系统性回击

界面新闻
2026-06-03 18:35:20
非法收受他人财物,数额特别巨大!“老虎”王莉霞被逮捕、提起公诉

非法收受他人财物,数额特别巨大!“老虎”王莉霞被逮捕、提起公诉

上海法治声音
2026-06-03 15:22:56
“哪怕坐牢,我也不后悔!”

“哪怕坐牢,我也不后悔!”

阿振观点
2026-06-02 12:19:48
比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

比开塞露还管用!这3种“推屎”食物,每天吃一点,清空宿便

白宸侃片
2026-05-19 11:56:50
“鸟叔”被移送检方

“鸟叔”被移送检方

澎湃新闻
2026-06-02 14:59:04
名导克林特·伊斯特伍德退休,95岁传奇落幕

名导克林特·伊斯特伍德退休,95岁传奇落幕

自愈小日子
2026-06-02 01:42:48
2026国聘行动正式启动 应届、往届未就业毕业生均可报名

2026国聘行动正式启动 应届、往届未就业毕业生均可报名

闪电新闻
2026-06-02 19:00:06
员工下班偷南瓜后出车祸,被人社局认定工伤,公司不服,官司打到二审仍维持工伤认定

员工下班偷南瓜后出车祸,被人社局认定工伤,公司不服,官司打到二审仍维持工伤认定

大象新闻
2026-06-02 19:12:18
15个副省级市已明确,浙江2个,江苏仅有1个,湖南、河北1个都无

15个副省级市已明确,浙江2个,江苏仅有1个,湖南、河北1个都无

混沌录
2026-06-01 21:47:13
55岁俞飞鸿彻底火了!谢霆锋演唱会全员大咖,偏偏她凭状态赢麻了

55岁俞飞鸿彻底火了!谢霆锋演唱会全员大咖,偏偏她凭状态赢麻了

小椰的奶奶
2026-06-03 13:28:02
53岁任泉近况曝光!被曝与黄绮雯隐婚17年,身价几十亿成人生赢家

53岁任泉近况曝光!被曝与黄绮雯隐婚17年,身价几十亿成人生赢家

观史搜寻着
2026-06-01 10:57:12
死囚被执行前,那狠劲去哪了?网友:既定的结局,不喊不叫少遭罪

死囚被执行前,那狠劲去哪了?网友:既定的结局,不喊不叫少遭罪

夜深爱杂谈
2026-06-03 08:03:15
寿命长不长,看脸就知道?寿命短的人,脸上一般会有这5个特征!

寿命长不长,看脸就知道?寿命短的人,脸上一般会有这5个特征!

芹姐说生活
2026-06-02 23:16:44
为什么明知道槟榔有毒,还在生产?背后的现实,远比想象中复杂

为什么明知道槟榔有毒,还在生产?背后的现实,远比想象中复杂

消化石医生
2026-05-30 11:33:21
《主角》翻车现场:一块公交站牌,把整个西安整笑了

《主角》翻车现场:一块公交站牌,把整个西安整笑了

动物奇奇怪怪
2026-06-03 16:54:06
1955年,万隆会议上周总理的替身,真实身份是大使夫人

1955年,万隆会议上周总理的替身,真实身份是大使夫人

历史龙元阁
2026-06-03 12:20:19
难怪说千万不要买二手物品,质量是其次,他的来历才更让人避讳

难怪说千万不要买二手物品,质量是其次,他的来历才更让人避讳

另子维爱读史
2026-06-03 21:56:51
杨瀚森:NBA节奏很快自身还要提升,我要为中国男篮多做贡献

杨瀚森:NBA节奏很快自身还要提升,我要为中国男篮多做贡献

懂球帝
2026-06-03 14:10:31
广东一大叔,因“阳台养花”被投诉,引全层效仿,物业:啪啪打脸

广东一大叔,因“阳台养花”被投诉,引全层效仿,物业:啪啪打脸

记录生活日常阿蜴
2026-06-03 17:54:47
2026-06-03 22:24:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11969文章数 117090关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

游乐园机器人表演踢中男童腹部致其痛苦倒地 家长发声

头条要闻

游乐园机器人表演踢中男童腹部致其痛苦倒地 家长发声

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

专访蒋平:安全不做高低配 长安要让安全技术普惠

态度原创

本地
艺术
数码
时尚
公开课

本地新闻

用杨柳青年画的方式,打开天津

艺术要闻

二十年前割麦的场景

数码要闻

说真的,Type-C界需要一个“秦始皇”

月经、初潮与生育真相,那些藏在动画片里的性启蒙

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版