网易首页 > 网易号 > 正文 申请入驻

深度|Kimi Linear颠覆注意力架构:1M长文本解码提速6.3倍,显存占用骤减75%

0
分享至


在过去两年,大语言模型的极限,已经不再是参数量的堆叠,而是推理速度与算力效率的极限。所有模型都在变聪明,但也都变得“太重”——尤其是在长上下文和强化学习场景下,标准的 Softmax 全注意力机制让模型一次推理就要吃掉海量显存和时间。

Moonshot 的团队在这篇论文中,提出了一个让人眼前一亮的架构:Kimi Linear。它的目标很直接——在不牺牲性能的前提下,让注意力计算变成“线性”的

结果是:在公平训练下,Kimi Linear 不仅在 MMLU、RULER 等主流基准上超过了传统全注意力模型,还实现了长达 6 倍的解码加速

为什么所有人都卡在“注意力”的墙上

Transformer 诞生以来,AI 的爆发式增长正是靠这堵墙撑起来的:它让模型能“全局看见”,能把一句话、一段代码、甚至整本书的上下文串联成连续的理解。但问题也在这里——它太贵、太慢、太重

所谓“全注意力”,就是每个 token 都要和其他所有 token 计算相似度。数学上这意味着 O(n^2)的复杂度:上下文长度翻十倍,算力需求翻一百倍。模型越聪明,推理成本越像雪球一样滚大。短短几千字的对话还好,一旦拉长到几十万、上百万字节,显卡的显存就像泄洪的水库,怎么加都不够。

更棘手的是记忆开销。每次生成新 token,模型都要把之前所有的 key 和 value 缓存在显存里——这就是所谓的 KV cache。它像一列不断加长的火车,拉得越远越吃力。到最后,你的显卡不是在计算,而是在搬数据。于是长上下文、长轨迹、强化学习这些更高层的任务,几乎都被这堵墙挡住了。

理论上工程手段能挪动一点空间,比如 FlashAttention、张量并行、KV 量化,但这些都是“抠常数”的优化。你再怎么抠,也改变不了平方级复杂度的宿命。这就像在高速公路上修更平的柏油,但车流量已经多到要换立交桥——结构不变,问题不会根本解决。

于是人们把希望寄托在线性注意力(Linear Attention)上。它把复杂度从平方降到线性,用更像 RNN 的记忆方式去近似全注意力。但新的问题又出现了:线性注意力“便宜是便宜”,可记忆力不行。它压缩信息太狠,短序列还能用,长序列就开始遗忘。尤其是语言、代码、数学推理这些任务里,模型要能精准地回忆上下文,而线性结构往往记不住关键点。

更微妙的一点是位置编码的错配。全注意力里,RoPE(旋转位置编码)早已成了标准配置,它帮模型理解“前后顺序”。可一旦改用线性结构,RoPE 的作用就不再稳定。很多混合模型出现“短期灵敏、长期失真”的问题——短文表现很好,一旦拉长,上下文就断了。

Kimi 的论文指出了另一个关键事实:当 AI 模型进入“长轨迹推理时代”,这些结构性缺陷会被成倍放大。大模型不再只是在写句子、翻译,而是在做推理、规划、甚至多步决策(RL、Agent 场景)。模型的思考路径被无限拉长,每一步都要记住之前所有动作的状态。这时,全注意力的平方爆炸、KV 缓存的线性堆积、位置机制的错配、以及线性注意力表达力的不足,全都交织成一堵墙。

你可以理解为:AI 正在试图跨越一个“时空瓶颈”。模型既想看得远、记得久,又要算得快、用得省;但在旧结构下,这四个目标是互相拉扯的。工程手段治标不治本,只有重新发明结构,才能同时满足“长”“快”“稳”“省”。

这正是 Kimi Linear 诞生的背景。它不是简单把注意力改成线性,而是重新分工:谁来负责记忆,谁来负责全局,谁来负责位置感知。它用细粒度门控替代粗放遗忘,用高效 DPLR 结构压缩算子,用 3:1 的混合布局维持全局一致性。结果是在不丢质量的前提下,推理速度提升六倍,KV 占用减掉四分之三。

Kimi Delta Attention:一次“记忆革命”

Kimi Linear 的核心模块叫Kimi Delta Attention(KDA)


它的灵感来自 Gated DeltaNet,但在此基础上引入了一个关键变化:把原本粗粒度的“遗忘门”(forget gate)改成了逐通道可学习的细粒度门控(channel-wise gating)

以往模型的记忆衰减是“一刀切”的,而 KDA 能让不同维度的信息以不同速度“遗忘”或“保留”。结果是,模型能在有限状态下实现更精准的上下文控制——既不会遗忘关键信息,也能更快舍弃无关噪声。

更重要的是,KDA 在底层数学上采用了一种高效的Diagonal-Plus-Low-Rank(DPLR)近似结构,但进行了硬件优化:它移除了冗余矩阵乘法与分块运算,使内核效率比传统 DPLR 提升近一倍。

在算子层面,这意味着:Kimi Linear 的核心 attention kernel,能在相同硬件上跑出约 2× 的速度。

混合架构:3:1 的黄金比例

Kimi Linear 不是完全抛弃全注意力,而是采用了混合式结构(Hybrid Architecture)。论文中的设计是一个经验黄金比:每 3 层 KDA 线性注意力,就插入 1 层全注意力层

  • 轻量的线性注意力层(Kimi Delta Attention,简称 KDA),它速度快、占显存少,但全局理解力有限;

  • 传统的全注意力层(Multi-Head Latent Attention,简称 MLA),它能建立全局依赖、维持语义一致性,却在长序列时耗费巨大。

它背后不是简单的层数搭配,而是一种对“效率”与“理解力”的系统性权衡。Moonshot 团队花了大量时间在这里做实验,结果发现——只有在这个比例下,AI 才能既快又稳、既记得住又理解得准

过去很多研究者尝试过“混合”这两种层,结果要么太省导致模型变“短视”,要么太重又回到了原点。Kimi 团队的做法是:在三层 KDA 后面插入一层全注意力层,形成固定的 3:1 周期。换句话说,每四层中,有三层是“高效工作层”,一层是“全局校准层”。

为什么要这么配比?论文在消融实验中测了多个比例:1:1、3:1、7:1、纯全注意力(0:1),最终发现:

  • 7:1 虽然省了算力,但模型的“记忆力”明显下滑。训练时损失下降还不错,但验证集性能劣化严重,说明模型学到的模式泛化不了。

  • 1:1 虽然稳定,但速度损失太大。解码时延、显存占用都几乎等于传统 Transformer,没解决效率问题。

  • 纯全注意力(0:1)更不用说,性能和速度都掉队。

唯独 3:1 形成了一个“甜点区”:它的训练损失低、验证集表现稳、推理速度提升最明显。在论文的数据里,这个比例让模型在 1M 上下文长度下达到6× 的解码加速,同时将KV cache 占用削减 75%。

更关键的是,性能指标上,它还超过了全注意力模型——也就是说,这不再是“效率换精度”,而是真正的“双赢”。

从工程角度讲,这个比例还有另一个隐藏好处:系统更容易被优化

很多混合架构因为线性层和全注意力层混杂在同一层内部(intra-layer hybrid),导致计算路径复杂,无法很好地分布式并行。Kimi 采用的是inter-layer hybrid——层与层之间分工明确,三层 KDA 用统一算子,一层 MLA 独立执行,全模型在流水线上运行更顺畅。

这让它能直接兼容现有的推理框架,比如 vLLM,不需要修改缓存机制或调度接口。

同时,Kimi 团队还发现,3:1 结构与另一项创新——NoPE(无位置编码)——配合得尤其好。

过去全注意力层用 RoPE(旋转位置编码)来维持位置感,但在混合架构中,这种强相对位置信号容易“过度主导”,导致短文本表现好、长文本失真。

而在 3:1 的节奏里,KDA 自身带有轻量的记忆衰减和位置信号,全注意力层反而可以去掉 RoPE,使用更轻的 NoPE,让模型的位置偏置在层间自然分布——短程靠线性层感知,长程靠全局层校正。这种分布式的“位置信息调度”,让 Kimi Linear 在超长上下文任务(如 RULER、RepoQA)中展现了强劲的外推能力。

所以,当论文说这是“黄金比例”,并不是指某个巧合的数字,而是一个深度融合性能、速度、稳定性和工程可落地性的系统平衡点。
它让 Kimi Linear 同时具备三种优势:

  • 线性层的高吞吐与低显存,解决效率问题;

  • 全注意力层的全局对齐与稳健理解,保证语义质量;

  • 统一节奏与模块化设计,降低工程复杂度、增强扩展性。

性能对比:首次全面超越 Full Attention

在 1.4 万亿 token 的等规模训练中,Kimi Linear 与传统全注意力 MLA(Multi-Head Latent Attention)进行了正面对比。结果如下:


也就是说:Kimi Linear 是第一个在公平条件下全面超过 Full Attention 的线性架构。

Kimi Linear 最令人惊叹的地方,是它的解码速度。在 1M token 的上下文下,传统全注意力模型的每个输出 token 要花11.48 毫秒,而 Kimi Linear 只需1.84 毫秒。

这不仅是一个“快六倍”的优化,更意味着复杂度从O(n²)降到了接近O(n)的增长律。

在超长推理任务中,比如 Agent 规划、链式思维、多回合对话、代码生成等场景,吞吐量的提升几乎是线性的。更重要的是,这种提速不是“牺牲质量”换来的,而是结构上自然带来的收益


行业意义:结构效率成为新战场

从更高的视角看,这篇论文的重要性,不仅在于一次算法提速,而是注意力结构设计的范式转向

过去 5 年,AI 模型的性能主要依赖算力叠加——堆参数、扩算力。而 Kimi Linear 的出现,意味着“结构效率”开始重新被定义。

Moonshot 的团队让我们看到:算力的边际收益在递减,结构的边际收益正在回归。


参考文献:

[1] https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

欢迎扫码加群参与讨论

我们相信认知能够跨越阶层,

致力于为年轻人提供高质量的科技和财经内容。

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。

我们正在招募新一期的实习生

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台湾宜兰县海域发生6.6级地震,震源深度60千米,福建多地网友表示震感强烈

台湾宜兰县海域发生6.6级地震,震源深度60千米,福建多地网友表示震感强烈

台州交通广播
2025-12-27 23:33:17
83分钟绝杀!曼城2-1年度收官:英超6连胜狂飙 给阿森纳施压

83分钟绝杀!曼城2-1年度收官:英超6连胜狂飙 给阿森纳施压

叶青足球世界
2025-12-27 22:22:52
交警私下透露:车险别买全险,只买这2样,每年白省2000块

交警私下透露:车险别买全险,只买这2样,每年白省2000块

老特有话说
2025-12-27 14:45:28
新进展!庞叔令被调查组问询5小时,亚洲周刊遭水军围攻!

新进展!庞叔令被调查组问询5小时,亚洲周刊遭水军围攻!

知法而形
2025-12-26 23:21:46
俄罗斯志愿军团创始人兼指挥官卡普斯京在扎波罗热前线阵亡

俄罗斯志愿军团创始人兼指挥官卡普斯京在扎波罗热前线阵亡

山河路口
2025-12-27 16:01:34
台北持续摇晃近1分钟!台湾海域突发6.6级地震,多地震感强烈:“楼在晃,我以为是我晕了”

台北持续摇晃近1分钟!台湾海域突发6.6级地震,多地震感强烈:“楼在晃,我以为是我晕了”

新民晚报
2025-12-27 23:52:45
姜昆彻底不装了:此生无悔入华夏,家在加利福尼亚!咋啦?

姜昆彻底不装了:此生无悔入华夏,家在加利福尼亚!咋啦?

细雨中的呼喊
2025-12-26 17:22:45
张镇麟加盟首次0分!上海大胜送四川7连败 古德温20+5+6

张镇麟加盟首次0分!上海大胜送四川7连败 古德温20+5+6

醉卧浮生
2025-12-27 21:16:05
一新能源汽车高速上电量耗尽,2人慢车道上推车被撞身亡,距服务区约500米

一新能源汽车高速上电量耗尽,2人慢车道上推车被撞身亡,距服务区约500米

台州交通广播
2025-12-27 09:15:55
银行女经理挪用12个储户3000万,事发后与丈夫双双自尽,储户天塌了

银行女经理挪用12个储户3000万,事发后与丈夫双双自尽,储户天塌了

观世记
2025-12-27 15:02:35
太稀罕了!深圳一家公司通知供应商赶紧对账,12月底结清所有货款

太稀罕了!深圳一家公司通知供应商赶紧对账,12月底结清所有货款

火山詩话
2025-12-27 09:04:18
全世界在看北京怎么亮剑!针锋相对扣押运走美国货轮货物

全世界在看北京怎么亮剑!针锋相对扣押运走美国货轮货物

柳扶风
2025-12-26 09:08:54
黄循财:不允许任何国家和企业借新加坡为中转点转运芯片出口中国

黄循财:不允许任何国家和企业借新加坡为中转点转运芯片出口中国

百态人间
2025-12-27 16:40:18
他们吸过毒,曾经是“烂人”,想要个机会

他们吸过毒,曾经是“烂人”,想要个机会

大风新闻
2025-12-27 15:04:03
"驱逐"中国外交官,准备与中国战斗!叫嚣:中国必须收下货品

"驱逐"中国外交官,准备与中国战斗!叫嚣:中国必须收下货品

花花娱界
2025-12-27 16:10:16
东莞20年:亲眼目睹工厂女工的性生活,她们的孤独压抑和肆意欢歌

东莞20年:亲眼目睹工厂女工的性生活,她们的孤独压抑和肆意欢歌

农村情感故事
2025-04-06 20:07:35
36岁银行女经理和丈夫先后自杀:生前花180万元预订豪车,身后留下两个幼女丨红星调查

36岁银行女经理和丈夫先后自杀:生前花180万元预订豪车,身后留下两个幼女丨红星调查

红星新闻
2025-12-27 10:37:08
中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

爱吃醋的猫咪
2025-12-27 16:24:13
白宫发言人莱维特宣布怀孕,发文感谢特朗普支持,赞扬其“在白宫营造了支持家庭的环境”

白宫发言人莱维特宣布怀孕,发文感谢特朗普支持,赞扬其“在白宫营造了支持家庭的环境”

都市快报橙柿互动
2025-12-27 15:07:34
75岁港星小36岁未婚妻被曝已婚,冬至与丈夫在老家吃饭,儿子16岁

75岁港星小36岁未婚妻被曝已婚,冬至与丈夫在老家吃饭,儿子16岁

观察鉴娱
2025-12-27 10:00:22
2025-12-28 01:00:49
ZFinance
ZFinance
Z世代的一站式AI、科技和财经资讯
99文章数 2关注度
往期回顾 全部

科技要闻

小米也涨价了!业界称终端再不涨明年必亏

头条要闻

美媒:特朗普显然触及了中国的红线 中方怒了

头条要闻

美媒:特朗普显然触及了中国的红线 中方怒了

体育要闻

83分钟绝杀!曼城2-1年度收官:英超6连胜狂飙

娱乐要闻

张昊唯逃税涉黄风波落幕:法院认定朋友造谣

财经要闻

注意,开始拉物价了!

汽车要闻

好音响比大屏更重要?车企开始“听”用户的

态度原创

健康
教育
家居
旅游
军事航空

这些新疗法,让化疗不再那么痛苦

教育要闻

南京市首创杯金属机器人系列交流展示活动

家居要闻

格调时尚 智慧品质居所

旅游要闻

“请3休8”倒计时,12月27日迎来元旦假期首波出游高峰

军事要闻

俄称已控制库皮扬斯克 正清缴乌军

无障碍浏览 进入关怀版