网易首页 > 网易号 > 正文 申请入驻

北大团队改造DeepSeek注意力,速度快四倍还不丢精度

0
分享至

听雨 发自 凹非寺量子位 | 公众号 QbitAI

就在大家都急头白脸地等待DeepSeek-V4的时候,冷不丁一篇新论文引起了网友们的注意——

提出新稀疏注意力机制HISA(分层索引稀疏注意力),突破64K上下文的索引瓶颈,相比DeepSeek正在用的DSA(DeepSeek Sparse Attention)提速2-4倍。



不仅做到了大幅提速,而且几乎不丢精度、即插即用不用重新训练



论文直接在DeepSeek-V3.2和GLM-5上替换索引器,无需微调。

并且在找关键信息、长文本理解等任务上,精度都和原方法几乎持平。



两步消除上下文索引瓶颈

这篇论文想解决的问题很明确:给大模型的稀疏注意力机制换个更高效的 “检索器”。

现有主流的DSA等token级稀疏注意力,核心就是通过只计算关键token的注意力,降低了核心计算成本。

但这个设计有个致命隐藏问题:要挑出相关字符,得靠一个 “索引器”——它需要把每个待查字符,和前面所有字符挨个打分,再选分数最高的。

文本长度L越长,这个打分的工作量是L的平方级增长。比如长度翻倍,工作量就会翻4倍。

到超长文本时,这个索引器的平方级成本,反而成了拖慢速度的元凶,甚至反而比真正的注意力计算还耗时。

基于此,研究团队开始思考一个问题:能否在不改变最终稀疏注意力结果的前提下,降低索引器的搜索成本?

于是,他们提出了HISA(分层索引稀疏注意力),核心思路也很简单:

既然挨个打分太费时间,那就先按块筛掉大部分无关内容,再在剩下的小块里精细选。



在功能逻辑上实现对原有模块的等价替换,无需修改后续注意力计算逻辑,相当于 “换了个更高效的筛子,筛出来的东西几乎没变”。

具体就两步,全程复用原模型的打分规则,零学习成本:

块级粗过滤

  • 把长文本切成固定大小的 “字符块”(比如128个字符一块),给每个块算一个 “整体特征向量”(相当于给每块贴个总标签)
  • 用原索引器的打分方式,只给这些块标签打分
  • 挑出分数最高的m个块(比如64个),直接扔掉剩下的所有块——块的数量远少于字符数。

这一步能省掉绝大部分工作量。

块内精挑字符

只在第一步选出来的m个块里,用原索引器的规则给单个字符打分,再挑出最终需要的k个相关字符。

还加了个小优化:文本的第一个块和最后一个块必选,保证开头的背景信息、结尾的最新上下文不被误筛,也能处理文本拼接的边界问题。



HISA的关键优势在于:复杂度骤降,还能 “无缝替换”

HISA把原索引器每一层 O (L²) 的算力成本,降到了O(L²/B + L×m×B)(B 是块大小、m 是选的块数)

文本越长、块选得越精准,提速效果越明显。

更重要的是它的工程友好性

输出和原索引器完全一致,下游的注意力计算模块不用改;

不用重新训练模型、不用调整KV缓存结构,直接替换原索引器就行;

短文本时会自动 “退化” 成原方法,只有超长文本时才触发分层筛选,全程自适应。

实测提速超猛,精度几乎没丢

论文在DeepSeek-V3.2、GLM-5两大主流大模型上做了全面测试,结果很亮眼:

速度上,在64K长度的文本下,HISA 比原DSA索引器最高提速3.75倍,常规设置也能提速2倍多。



上下文长度越长,HISA的提速效果越显著,完全契合超长上下文(128K/1M)的实际应用需求。

精度上,HISA也几乎完全保留原DSA的精度,且显著优于纯块稀疏方法。

论文进行了“大海捞针”测试,该测试衡量在超长无关文本中,精准检索指定位置关键信息的能力。

结果HISA和DSA几乎一样准,在所有长度和插入深度下,检索精度均接近DSA的近乎满分。



长文本理解(LongBench 基准)上,HISA的分数也和DSA基本持平。

甚至在部分场景,比如合成检索、少样本学习等对token筛选精度要求高的任务中,HISA做到了小幅反超。



而在超参数测试中,不同块大小、选块数量下,HISA表现都很稳定,分数均与DSA高度接近,无显著性能差异



这也说明HISA对超参数的选择不敏感,鲁棒性强,工程落地时无需精细调参。

不过目前HISA还有小瑕疵,作者也提出了后续改进思路:

第一,现在块是固定大小的,若一个块里混了无关和相关内容,块的 “整体标签” 会不准。

未来可以搞自适应块、重叠块,或换更好的块特征计算方式。

第二,目前只是推理时直接用,未来可以把块筛选和模型一起训练,让筛选更精准。

第三,现在只测了索引器的速度,未来整合到完整的大模型服务框架里,测端到端的吞吐量和延迟。

团队背景

这篇论文出自北京大学的张牧涵团队。

张牧涵,北京大学人工智能研究院的Tanure-track助理教授和博士生导师。

回国前曾在Facebook AI(现为 Meta AI)担任研究员,从事大规模图学习系统和问题的研究。



其Google Scholar总引用量超过13000次,其中两篇一作文章引用量分别达到3100+和2400+次,连续多年入选Elsevier全球前2%顶尖科学家(生涯影响力榜单)

Yufei Xu(徐宇飞)和Fanxu Meng(孟繁续)为论文的共同一作。


[1]https://arxiv.org/abs/2603.28458

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重庆真正最大的乡镇曝光,一个镇比两个主城区还大,网友:太大了

重庆真正最大的乡镇曝光,一个镇比两个主城区还大,网友:太大了

带着瓶盖儿去旅行
2026-04-06 22:48:31
日本摩圈集体破防!张雪夺冠后日媒评价撕开“中国制造”百年偏见

日本摩圈集体破防!张雪夺冠后日媒评价撕开“中国制造”百年偏见

行者聊官
2026-04-04 16:05:43
安徽怀远一男子骑电动自行车载妻子去接娃,锂电池突然爆燃致妻子全身70%面积深度烧伤,男子悔恨:两块电池7000元,医疗费花费20余万元

安徽怀远一男子骑电动自行车载妻子去接娃,锂电池突然爆燃致妻子全身70%面积深度烧伤,男子悔恨:两块电池7000元,医疗费花费20余万元

极目新闻
2026-04-05 23:06:03
刘维伟:我们年轻球员背负了巨大的包袱,今天大家豁出去了

刘维伟:我们年轻球员背负了巨大的包袱,今天大家豁出去了

懂球帝
2026-04-07 01:05:06
王楚钦冠军仅1天,奥委会16字评价一针见血

王楚钦冠军仅1天,奥委会16字评价一针见血

仙味少女心
2026-04-06 19:18:14
别追阿隆索了!瓜迪奥拉力荐的世界级名帅,才是利物浦的救命稻草

别追阿隆索了!瓜迪奥拉力荐的世界级名帅,才是利物浦的救命稻草

澜归序
2026-04-07 05:11:42
34岁内马尔神助攻:1脚挑传穿透9人!遭对手砍伐 引爆冲突

34岁内马尔神助攻:1脚挑传穿透9人!遭对手砍伐 引爆冲突

叶青足球世界
2026-04-03 08:37:02
“寻味地图”上新 春鲜消费撬动文旅热潮

“寻味地图”上新 春鲜消费撬动文旅热潮

环球网资讯
2026-04-06 09:02:58
太狠了!博士称结婚13年,大专妻子操持家务,他用两套别墅回馈她

太狠了!博士称结婚13年,大专妻子操持家务,他用两套别墅回馈她

火山詩话
2026-04-06 09:42:50
从20%到35%!财政部定调:烟草石油电力利润上缴翻倍

从20%到35%!财政部定调:烟草石油电力利润上缴翻倍

趣味萌宠的日常
2026-04-06 12:30:12
中国曾承诺不先动用核武器,要是美国炸毁北斗卫星,中国就输了?

中国曾承诺不先动用核武器,要是美国炸毁北斗卫星,中国就输了?

通文知史
2026-04-06 06:20:05
爆大冷!西甲第3倒下,揪出头号罪人:乌龙球送大礼

爆大冷!西甲第3倒下,揪出头号罪人:乌龙球送大礼

足球狗说
2026-04-07 05:15:37
交易达成!齐祖出山!

交易达成!齐祖出山!

刘哥谈体育
2026-04-06 07:13:03
注意!家中老人一旦迈入80岁高龄,以下这6条建议一定要牢记

注意!家中老人一旦迈入80岁高龄,以下这6条建议一定要牢记

医学原创故事会
2026-04-06 23:58:03
他已任安徽一县委常委,政法委书记

他已任安徽一县委常委,政法委书记

凤凰网安徽
2026-04-06 17:30:57
脸疼不疼?没想到李亚鹏被陈光标白嫖后,张雪为他狠狠出了口恶气

脸疼不疼?没想到李亚鹏被陈光标白嫖后,张雪为他狠狠出了口恶气

小兔子的快乐
2026-04-07 03:54:59
中方的资本,已经开始不受管控了,政府必须要提高警惕!

中方的资本,已经开始不受管控了,政府必须要提高警惕!

大静吖
2026-02-07 23:30:36
我国首位女航天员刘洋,结婚8年未生子,临行前给丈夫留下2条遗言

我国首位女航天员刘洋,结婚8年未生子,临行前给丈夫留下2条遗言

霁寒飘雪
2026-04-01 07:40:42
14年前索尼PS广告太炸裂!女模特长出“两对胸部”

14年前索尼PS广告太炸裂!女模特长出“两对胸部”

游民星空
2026-04-05 15:28:45
国际油价快速下挫 报道称美伊调解方为争取45天停火做最后努力

国际油价快速下挫 报道称美伊调解方为争取45天停火做最后努力

财联社
2026-04-06 10:50:46
2026-04-07 06:40:49
量子位 incentive-icons
量子位
追踪人工智能动态
12428文章数 176443关注度
往期回顾 全部

科技要闻

折叠屏iPhone要来了,富士康已在试产!

头条要闻

特朗普再发威胁:7日20时是“最后期限”

头条要闻

特朗普再发威胁:7日20时是“最后期限”

体育要闻

官方:中国女足球员邵子钦加盟本菲卡

娱乐要闻

唐嫣罗晋新加坡遛娃,6岁女儿身高抢镜

财经要闻

史诗级暴跌"一周年" A股接下来如何走?

汽车要闻

阿维塔06T快上市了 旅行车还能这么玩?

态度原创

健康
家居
游戏
本地
公开课

干细胞抗衰4大误区,90%的人都中招

家居要闻

温馨多元 爱的具象化

一人开发!国产独立游戏《破晓》4月9日发售

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版