网易首页 > 网易号 > 正文 申请入驻

Kimi开源新线性注意力架构,首次超越全注意力模型,推理加速6倍

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

Transformer的时代,正在被改写。

月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型



在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。



有网友表示期待:这个架构下的Kimi K2.5何时来??



不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。

让注意力真正线性化

Transformer确实聪明,但聪明得有点太烧钱。

它的注意力机制是全连接的,每个token都要和其他所有token打交道。

计算量也随着输入长度呈平方增长(O(N²)),而且每生成一个新词,还要查一遍之前的所有缓存。

这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。

模型越强,显卡越崩,钱包越痛。



所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N²) 降到 O(N),让模型能又快又省。

但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。

现在,Kimi Linear以既要又要还要的姿态登场了。



Kimi Linear的核心创新是Kimi Delta Attention(KDA)

它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。

更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。

它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。

这也让Kimi Linear能在超长上下文中跑得稳。

整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。

团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。

结果,没有RoPE,模型反而更稳、更泛化。



在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。

核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍。

此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。

在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。

这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。

实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。



长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。



不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。



One More Thing

不得不说,Transformer的地位正在被重新审视。

Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。

之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。

苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。

现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。

或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。

但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。

技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
哈登尽力了!35+10+11难救主,快船惜败老鹰,替补奇兵轰8记三分

哈登尽力了!35+10+11难救主,快船惜败老鹰,替补奇兵轰8记三分

湖人崛起
2025-11-11 14:02:14
湖南人民医院事件后续,偷拍者身份已曝光,曾医生有口难辩

湖南人民医院事件后续,偷拍者身份已曝光,曾医生有口难辩

平老师666
2025-11-10 23:42:34
新华视评:一些镇政府在大门口设门卫,群众进出审查严格!直面群众的镇政府,为何要设“门禁”呢?

新华视评:一些镇政府在大门口设门卫,群众进出审查严格!直面群众的镇政府,为何要设“门禁”呢?

新京报政事儿
2025-11-10 22:28:06
维金斯空接暴扣压哨绝杀!热火加时险胜骑士 米切尔28+15+8

维金斯空接暴扣压哨绝杀!热火加时险胜骑士 米切尔28+15+8

醉卧浮生
2025-11-11 11:40:42
近代日本学者的中国观:唯利是图、气质文弱、善于虚言、民风败坏

近代日本学者的中国观:唯利是图、气质文弱、善于虚言、民风败坏

沈言论
2025-11-10 18:40:03
长公主也老了,腰也变圆润了

长公主也老了,腰也变圆润了

双色球的方向舵
2025-11-10 10:16:44
中国将向菲律宾人民提供紧急人道主义援助

中国将向菲律宾人民提供紧急人道主义援助

观察者网
2025-11-11 14:32:04
小米汽车“挖孔”机盖外观专利获授权

小米汽车“挖孔”机盖外观专利获授权

界面新闻
2025-11-11 11:36:15
苏州警方通报骑警因操作失误擦碰观众:对涉事队员批评教育,三名伤者均已离院回家

苏州警方通报骑警因操作失误擦碰观众:对涉事队员批评教育,三名伤者均已离院回家

界面新闻
2025-11-11 16:55:19
16级大风+大暴雨!具有灾难性破坏力!今年最大的台风要来了

16级大风+大暴雨!具有灾难性破坏力!今年最大的台风要来了

鲁中晨报
2025-11-11 09:39:06
男子追赶偷狗贼遭棒击并被毒针射死,15年后一主犯仍在逃,受害者儿子:想为父亲申报见义勇为

男子追赶偷狗贼遭棒击并被毒针射死,15年后一主犯仍在逃,受害者儿子:想为父亲申报见义勇为

极目新闻
2025-11-11 09:22:54
公司倒查半年考勤辞退员工!员工不服:你动机不纯,想0成本裁员!法院怎么判?

公司倒查半年考勤辞退员工!员工不服:你动机不纯,想0成本裁员!法院怎么判?

上观新闻
2025-11-11 14:38:07
全运会大爆冷!头号种子1:4被淘汰,无缘4强,陈幸同逆转晋级4强

全运会大爆冷!头号种子1:4被淘汰,无缘4强,陈幸同逆转晋级4强

国乒二三事
2025-11-11 14:17:37
神舟二十号航天员乘组返回任务有序推进

神舟二十号航天员乘组返回任务有序推进

新华社
2025-11-11 10:30:08
马斯克最想要的“一双手”,藏在南京

马斯克最想要的“一双手”,藏在南京

正解局
2025-11-10 13:07:31
持有大量现金,是非常危险的事情

持有大量现金,是非常危险的事情

请辩
2025-11-11 14:32:04
国际奥委会主席看了广东全运会开幕式,估计想哭的心都有了!

国际奥委会主席看了广东全运会开幕式,估计想哭的心都有了!

奇思妙想草叶君
2025-11-10 22:45:50
纳指涨超2%!英伟达涨近6%,市值大增1.9万亿元!存储概念股普涨,闪迪涨近12%!金价涨2.8%

纳指涨超2%!英伟达涨近6%,市值大增1.9万亿元!存储概念股普涨,闪迪涨近12%!金价涨2.8%

每日经济新闻
2025-11-11 07:00:06
华农27岁博士校园溺亡后续:父亲被安保抬出,姐姐怀孕6月哭晕

华农27岁博士校园溺亡后续:父亲被安保抬出,姐姐怀孕6月哭晕

180视角
2025-11-11 13:30:42
中美俄每月养老金对比:美国一个月1.3万,俄罗斯1692元,中国呢

中美俄每月养老金对比:美国一个月1.3万,俄罗斯1692元,中国呢

阿伧说事
2025-11-11 10:40:35
2025-11-11 17:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
11657文章数 176329关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

欧委会要求欧盟成员排除中兴、华为设备 外交部回应

头条要闻

欧委会要求欧盟成员排除中兴、华为设备 外交部回应

体育要闻

维金斯0.4秒空接暴扣绝杀 热火险胜骑士

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

数码
家居
本地
公开课
军事航空

数码要闻

小米憋大招!10000mAh超大电池方案可量产,充电宝要被淘汰了

家居要闻

国美学子 打造筑梦空间

本地新闻

这届干饭人,已经把博物馆吃成了食堂

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

空军发布重磅视频 多款新型战机亮相

无障碍浏览 进入关怀版