网易首页 > 网易号 > 正文 申请入驻

Kimi开源新线性注意力架构,首次超越全注意力模型,推理加速6倍

0
分享至

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

Transformer的时代,正在被改写。

月之暗面最新发布的开源Kimi Linear架构,用一种全新的注意力机制,在相同训练条件下首次超越了全注意力模型

在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。

有网友表示期待:这个架构下的Kimi K2.5何时来??

不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。

让注意力真正线性化

Transformer确实聪明,但聪明得有点太烧钱。

它的注意力机制是全连接的,每个token都要和其他所有token打交道。

计算量也随着输入长度呈平方增长(O(N²)),而且每生成一个新词,还要查一遍之前的所有缓存。

这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。

模型越强,显卡越崩,钱包越痛。

所以,过去几年无数团队都在研究线性注意力,希望把计算从 O(N²) 降到 O(N),让模型能又快又省。

但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。

现在,Kimi Linear以既要又要还要的姿态登场了。

Kimi Linear的核心创新是Kimi Delta Attention(KDA)

它在原有线性注意力的基础上,引入了细粒度遗忘门控,不再像传统线性注意力那样一刀切地遗忘,而是让模型可以在每个通道维度上独立地控制记忆保留,把重要信息留下,把冗余信息扔掉。

更关键的是,KDA的状态更新机制是基于一种改进的Delta Rule(增量学习规则)。

它在数学上保证了稳定性,即使是在百万级token序列中,梯度也不会爆炸或消失。

这也让Kimi Linear能在超长上下文中跑得稳。

整个模型采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力。这样既保留全局语义的建模能力,又能在多数层用线性计算节省资源。

团队还干脆把传统的RoPE(旋转位置编码)砍掉,让KDA自己通过时间衰减核函数学习序列位置信息。

结果,没有RoPE,模型反而更稳、更泛化。

在KDA的状态更新过程中,Kimi Linear用了一种叫Diagonal-Plus-Low-Rank(DPLR)的结构。

核心思路是把注意力矩阵拆成「对角块+低秩补丁」,这样GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍。

此外,团队还引入了分块并行计算和kernel fusion优化(内核融合),极大地减少了显存I/O开销。

在工程部署上,它还能无缝对接vLLM推理框架,不需要改模型结构,也不需要改缓存管理,直接替换即可。

这意味着,任何基于Transformer的系统在理论上都能一键升级为Kimi Linear。

实验结果显示,在相同训练规模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer。

长上下文推理中,解码速度提升最高达6倍,KV缓存减少75%。

不仅没丢精度,还在数学推理、代码生成等任务上更稳定、更高分。

One More Thing

不得不说,Transformer的地位正在被重新审视。

Mamba的作者曾用长文论述Transformer并非最终解法,状态空间模型(SSM)在长序列建模和高效计算上展现出强大的替代潜力,这也让人们重新思考注意力是否真的是唯一答案。

之前谷歌推出的MoR架构,探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理,进一步提升效率。

苹果公司也在多项研究中倾向采用Mamba,而非传统Transformer,理由很现实——SSM架构更节能、延迟更低、适合在终端设备上部署。

现在,Kimi Linear则从另一条路线突围,在线性注意力方向上取得突破。

或许这也预示着,AI架构正在告别对传统Transformer的路径依赖,迈向多元创新时代。

但值得一提的是,刚刚坐上开源模型王座的MiniMax M2,却重新用回了全注意力机制。

技术报告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏比门迪:所有人都想冲击欧冠,和马竞的次回合一定无比精彩

苏比门迪:所有人都想冲击欧冠,和马竞的次回合一定无比精彩

懂球帝
2026-05-05 13:19:27
莫氏鸡煲上线汤料包5分钟售罄4000多份,累计卖出4万多份,总销售额破160万元,记者实测:1分钟抢到两包

莫氏鸡煲上线汤料包5分钟售罄4000多份,累计卖出4万多份,总销售额破160万元,记者实测:1分钟抢到两包

极目新闻
2026-05-04 09:46:46
绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

绝色美人艾梅柏:曾经迷倒德普和马斯克,如今带着3个娃“隐居”

小书生吃瓜
2026-05-02 22:22:47
帕斯+3000万欧换巴斯托尼+邓弗里斯,一笔注定三赢的顶级互换交易

帕斯+3000万欧换巴斯托尼+邓弗里斯,一笔注定三赢的顶级互换交易

林子说事
2026-05-05 11:31:39
急疯了!白宫强设访华倒计时,中方四字硬怼:保持沟通,不买不等

急疯了!白宫强设访华倒计时,中方四字硬怼:保持沟通,不买不等

兰妮搞笑分享
2026-05-05 10:38:21
陕西道协会长胡诚林被实名举报:隐婚,养情人,挪用庙产

陕西道协会长胡诚林被实名举报:隐婚,养情人,挪用庙产

李万卿
2026-05-05 01:10:06
13岁被富豪疯狂追求6年,放弃父亲巨额遗产,如今成为人生赢家

13岁被富豪疯狂追求6年,放弃父亲巨额遗产,如今成为人生赢家

阿废冷眼观察所
2026-05-05 07:39:09
男子五一带朋友回家喝酒,不顾妻子隐私,当场大打出手,丢尽脸面

男子五一带朋友回家喝酒,不顾妻子隐私,当场大打出手,丢尽脸面

天天热点见闻
2026-05-04 06:21:57
远东快打光了,普京为何放过车臣?唯一不征兵禁区:不敢征不敢用

远东快打光了,普京为何放过车臣?唯一不征兵禁区:不敢征不敢用

浩舞纆画
2026-04-13 14:20:37
官媒报道豆包将全面收费,字节跳动撕下最后一块“科技公司”面具

官媒报道豆包将全面收费,字节跳动撕下最后一块“科技公司”面具

歪歌社团
2026-05-05 05:55:32
1991年苏联解体后,当年叛逃苏联的开国少将马尔果夫通过外交致信恳请归国,我国如何处理的

1991年苏联解体后,当年叛逃苏联的开国少将马尔果夫通过外交致信恳请归国,我国如何处理的

花开无田
2026-05-05 10:44:31
A股:不用等了,三个信号来了,明天周三走势分析!

A股:不用等了,三个信号来了,明天周三走势分析!

明心
2026-05-05 09:43:35
孙楠参加五一晚会压轴出场,瘦成锥子脸,自爆通过饮食法瘦20斤

孙楠参加五一晚会压轴出场,瘦成锥子脸,自爆通过饮食法瘦20斤

白面书誏
2026-05-04 15:40:22
法国媒体表示,随着输给韩国队和瑞典队,中国队不再是不可战胜的

法国媒体表示,随着输给韩国队和瑞典队,中国队不再是不可战胜的

凤幻洋
2026-05-04 16:32:23
别信!别围观!多地街头出现,东莞也有!网友直呼看不下去

别信!别围观!多地街头出现,东莞也有!网友直呼看不下去

东莞好生活
2026-05-04 18:40:07
燕麦被发现!研究:吃得越多,三高人群血管或越干净?真假?

燕麦被发现!研究:吃得越多,三高人群血管或越干净?真假?

垚垚分享健康
2026-05-05 10:36:17
政府200亿挽留失败,ASML光刻机巨头坚持迁离荷兰

政府200亿挽留失败,ASML光刻机巨头坚持迁离荷兰

璀璨明星
2026-05-04 01:00:04
55岁的阿姨,旅游时贪图新鲜感出轨,回到家后十分痛苦

55岁的阿姨,旅游时贪图新鲜感出轨,回到家后十分痛苦

惟来
2026-05-04 10:22:19
爱德华兹13中8!森林狼104-102马刺,看数据:他就是头号功臣!

爱德华兹13中8!森林狼104-102马刺,看数据:他就是头号功臣!

运筹帷幄的篮球
2026-05-05 10:48:13
文班镇守篮下大帽爱德华兹,11记盖帽刷新历史纪录

文班镇守篮下大帽爱德华兹,11记盖帽刷新历史纪录

懂球帝
2026-05-05 11:54:04
2026-05-05 13:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12573文章数 176461关注度
往期回顾 全部

科技要闻

OpenAI/Anthropic同日被曝拉拢华尔街建合资公司

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

头条要闻

吴宜泽18-17夺冠:1家3口"兵分两路"10年 已押上一切

体育要闻

全世界都等着看他笑话,他带国米拿下冠军

娱乐要闻

英皇25周年演唱会 张敬轩被救护车拉走

财经要闻

五一假期,中国年轻人的“首尔病”犯了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

旅游
时尚
游戏
手机
军事航空

旅游要闻

十载筑梦向新行 乐享初夏梦享券——2026上海国际旅游度假区第二轮“梦享券”开抢在即

参观了设计师花7年打磨的家,太开眼了!

索尼大招藏不住了!PS6自研帧生成技术曝光

手机要闻

苹果2026旗舰18 Pro\\Max,iPhone Ultra 折叠怎么选?一文说透不纠结

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版