网易首页 > 网易号 > 正文 申请入驻

深度|Kimi Linear颠覆注意力架构:1M长文本解码提速6.3倍,显存占用骤减75%

0
分享至


在过去两年,大语言模型的极限,已经不再是参数量的堆叠,而是推理速度与算力效率的极限。所有模型都在变聪明,但也都变得“太重”——尤其是在长上下文和强化学习场景下,标准的 Softmax 全注意力机制让模型一次推理就要吃掉海量显存和时间。

Moonshot 的团队在这篇论文中,提出了一个让人眼前一亮的架构:Kimi Linear。它的目标很直接——在不牺牲性能的前提下,让注意力计算变成“线性”的

结果是:在公平训练下,Kimi Linear 不仅在 MMLU、RULER 等主流基准上超过了传统全注意力模型,还实现了长达 6 倍的解码加速

为什么所有人都卡在“注意力”的墙上

Transformer 诞生以来,AI 的爆发式增长正是靠这堵墙撑起来的:它让模型能“全局看见”,能把一句话、一段代码、甚至整本书的上下文串联成连续的理解。但问题也在这里——它太贵、太慢、太重

所谓“全注意力”,就是每个 token 都要和其他所有 token 计算相似度。数学上这意味着 O(n^2)的复杂度:上下文长度翻十倍,算力需求翻一百倍。模型越聪明,推理成本越像雪球一样滚大。短短几千字的对话还好,一旦拉长到几十万、上百万字节,显卡的显存就像泄洪的水库,怎么加都不够。

更棘手的是记忆开销。每次生成新 token,模型都要把之前所有的 key 和 value 缓存在显存里——这就是所谓的 KV cache。它像一列不断加长的火车,拉得越远越吃力。到最后,你的显卡不是在计算,而是在搬数据。于是长上下文、长轨迹、强化学习这些更高层的任务,几乎都被这堵墙挡住了。

理论上工程手段能挪动一点空间,比如 FlashAttention、张量并行、KV 量化,但这些都是“抠常数”的优化。你再怎么抠,也改变不了平方级复杂度的宿命。这就像在高速公路上修更平的柏油,但车流量已经多到要换立交桥——结构不变,问题不会根本解决。

于是人们把希望寄托在线性注意力(Linear Attention)上。它把复杂度从平方降到线性,用更像 RNN 的记忆方式去近似全注意力。但新的问题又出现了:线性注意力“便宜是便宜”,可记忆力不行。它压缩信息太狠,短序列还能用,长序列就开始遗忘。尤其是语言、代码、数学推理这些任务里,模型要能精准地回忆上下文,而线性结构往往记不住关键点。

更微妙的一点是位置编码的错配。全注意力里,RoPE(旋转位置编码)早已成了标准配置,它帮模型理解“前后顺序”。可一旦改用线性结构,RoPE 的作用就不再稳定。很多混合模型出现“短期灵敏、长期失真”的问题——短文表现很好,一旦拉长,上下文就断了。

Kimi 的论文指出了另一个关键事实:当 AI 模型进入“长轨迹推理时代”,这些结构性缺陷会被成倍放大。大模型不再只是在写句子、翻译,而是在做推理、规划、甚至多步决策(RL、Agent 场景)。模型的思考路径被无限拉长,每一步都要记住之前所有动作的状态。这时,全注意力的平方爆炸、KV 缓存的线性堆积、位置机制的错配、以及线性注意力表达力的不足,全都交织成一堵墙。

你可以理解为:AI 正在试图跨越一个“时空瓶颈”。模型既想看得远、记得久,又要算得快、用得省;但在旧结构下,这四个目标是互相拉扯的。工程手段治标不治本,只有重新发明结构,才能同时满足“长”“快”“稳”“省”。

这正是 Kimi Linear 诞生的背景。它不是简单把注意力改成线性,而是重新分工:谁来负责记忆,谁来负责全局,谁来负责位置感知。它用细粒度门控替代粗放遗忘,用高效 DPLR 结构压缩算子,用 3:1 的混合布局维持全局一致性。结果是在不丢质量的前提下,推理速度提升六倍,KV 占用减掉四分之三。

Kimi Delta Attention:一次“记忆革命”

Kimi Linear 的核心模块叫Kimi Delta Attention(KDA)


它的灵感来自 Gated DeltaNet,但在此基础上引入了一个关键变化:把原本粗粒度的“遗忘门”(forget gate)改成了逐通道可学习的细粒度门控(channel-wise gating)

以往模型的记忆衰减是“一刀切”的,而 KDA 能让不同维度的信息以不同速度“遗忘”或“保留”。结果是,模型能在有限状态下实现更精准的上下文控制——既不会遗忘关键信息,也能更快舍弃无关噪声。

更重要的是,KDA 在底层数学上采用了一种高效的Diagonal-Plus-Low-Rank(DPLR)近似结构,但进行了硬件优化:它移除了冗余矩阵乘法与分块运算,使内核效率比传统 DPLR 提升近一倍。

在算子层面,这意味着:Kimi Linear 的核心 attention kernel,能在相同硬件上跑出约 2× 的速度。

混合架构:3:1 的黄金比例

Kimi Linear 不是完全抛弃全注意力,而是采用了混合式结构(Hybrid Architecture)。论文中的设计是一个经验黄金比:每 3 层 KDA 线性注意力,就插入 1 层全注意力层

  • 轻量的线性注意力层(Kimi Delta Attention,简称 KDA),它速度快、占显存少,但全局理解力有限;

  • 传统的全注意力层(Multi-Head Latent Attention,简称 MLA),它能建立全局依赖、维持语义一致性,却在长序列时耗费巨大。

它背后不是简单的层数搭配,而是一种对“效率”与“理解力”的系统性权衡。Moonshot 团队花了大量时间在这里做实验,结果发现——只有在这个比例下,AI 才能既快又稳、既记得住又理解得准

过去很多研究者尝试过“混合”这两种层,结果要么太省导致模型变“短视”,要么太重又回到了原点。Kimi 团队的做法是:在三层 KDA 后面插入一层全注意力层,形成固定的 3:1 周期。换句话说,每四层中,有三层是“高效工作层”,一层是“全局校准层”。

为什么要这么配比?论文在消融实验中测了多个比例:1:1、3:1、7:1、纯全注意力(0:1),最终发现:

  • 7:1 虽然省了算力,但模型的“记忆力”明显下滑。训练时损失下降还不错,但验证集性能劣化严重,说明模型学到的模式泛化不了。

  • 1:1 虽然稳定,但速度损失太大。解码时延、显存占用都几乎等于传统 Transformer,没解决效率问题。

  • 纯全注意力(0:1)更不用说,性能和速度都掉队。

唯独 3:1 形成了一个“甜点区”:它的训练损失低、验证集表现稳、推理速度提升最明显。在论文的数据里,这个比例让模型在 1M 上下文长度下达到6× 的解码加速,同时将KV cache 占用削减 75%。

更关键的是,性能指标上,它还超过了全注意力模型——也就是说,这不再是“效率换精度”,而是真正的“双赢”。

从工程角度讲,这个比例还有另一个隐藏好处:系统更容易被优化

很多混合架构因为线性层和全注意力层混杂在同一层内部(intra-layer hybrid),导致计算路径复杂,无法很好地分布式并行。Kimi 采用的是inter-layer hybrid——层与层之间分工明确,三层 KDA 用统一算子,一层 MLA 独立执行,全模型在流水线上运行更顺畅。

这让它能直接兼容现有的推理框架,比如 vLLM,不需要修改缓存机制或调度接口。

同时,Kimi 团队还发现,3:1 结构与另一项创新——NoPE(无位置编码)——配合得尤其好。

过去全注意力层用 RoPE(旋转位置编码)来维持位置感,但在混合架构中,这种强相对位置信号容易“过度主导”,导致短文本表现好、长文本失真。

而在 3:1 的节奏里,KDA 自身带有轻量的记忆衰减和位置信号,全注意力层反而可以去掉 RoPE,使用更轻的 NoPE,让模型的位置偏置在层间自然分布——短程靠线性层感知,长程靠全局层校正。这种分布式的“位置信息调度”,让 Kimi Linear 在超长上下文任务(如 RULER、RepoQA)中展现了强劲的外推能力。

所以,当论文说这是“黄金比例”,并不是指某个巧合的数字,而是一个深度融合性能、速度、稳定性和工程可落地性的系统平衡点。
它让 Kimi Linear 同时具备三种优势:

  • 线性层的高吞吐与低显存,解决效率问题;

  • 全注意力层的全局对齐与稳健理解,保证语义质量;

  • 统一节奏与模块化设计,降低工程复杂度、增强扩展性。

性能对比:首次全面超越 Full Attention

在 1.4 万亿 token 的等规模训练中,Kimi Linear 与传统全注意力 MLA(Multi-Head Latent Attention)进行了正面对比。结果如下:


也就是说:Kimi Linear 是第一个在公平条件下全面超过 Full Attention 的线性架构。

Kimi Linear 最令人惊叹的地方,是它的解码速度。在 1M token 的上下文下,传统全注意力模型的每个输出 token 要花11.48 毫秒,而 Kimi Linear 只需1.84 毫秒。

这不仅是一个“快六倍”的优化,更意味着复杂度从O(n²)降到了接近O(n)的增长律。

在超长推理任务中,比如 Agent 规划、链式思维、多回合对话、代码生成等场景,吞吐量的提升几乎是线性的。更重要的是,这种提速不是“牺牲质量”换来的,而是结构上自然带来的收益


行业意义:结构效率成为新战场

从更高的视角看,这篇论文的重要性,不仅在于一次算法提速,而是注意力结构设计的范式转向

过去 5 年,AI 模型的性能主要依赖算力叠加——堆参数、扩算力。而 Kimi Linear 的出现,意味着“结构效率”开始重新被定义。

Moonshot 的团队让我们看到:算力的边际收益在递减,结构的边际收益正在回归。


参考文献:

[1] https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf

欢迎扫码加群参与讨论

我们相信认知能够跨越阶层,

致力于为年轻人提供高质量的科技和财经内容。

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。

我们正在招募新一期的实习生

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Lisa上萝莉岛伺候资本大佬!?

Lisa上萝莉岛伺候资本大佬!?

八卦疯叔
2026-02-10 11:31:25
完爆了勇士防线!马刺后场核心的重要性真是被严重低估了?

完爆了勇士防线!马刺后场核心的重要性真是被严重低估了?

稻谷与小麦
2026-02-13 01:42:32
《太平年》大结局:孙太真病逝,李元清编百家姓,范仲淹生父赢麻

《太平年》大结局:孙太真病逝,李元清编百家姓,范仲淹生父赢麻

全球风情大揭秘
2026-02-13 01:32:40
上海男篮卫冕CBA杯冠军引热议!山西6人犯满离场洛夫顿获MVP

上海男篮卫冕CBA杯冠军引热议!山西6人犯满离场洛夫顿获MVP

狼叔评论
2026-02-12 22:34:06
博主吐槽被拒载于是自己买车载狗,看到当事狗后,网友集体反水:你知道的,我很少站司机这边除了这次!

博主吐槽被拒载于是自己买车载狗,看到当事狗后,网友集体反水:你知道的,我很少站司机这边除了这次!

爱宠物
2026-02-12 21:48:37
上海夺冠更衣室!卢伟点赞外援+3本土球员,刘铮展露傲娇表情!

上海夺冠更衣室!卢伟点赞外援+3本土球员,刘铮展露傲娇表情!

篮球资讯达人
2026-02-12 23:54:21
国米意甲0次获利自证清白,全主力阵容应对魔鬼赛程!

国米意甲0次获利自证清白,全主力阵容应对魔鬼赛程!

肥强侃球
2026-02-12 23:27:35
重庆双胞胎器官衰竭,医院却查不出病因,父亲煮面时发现致命线索

重庆双胞胎器官衰竭,医院却查不出病因,父亲煮面时发现致命线索

天梦见证
2025-04-01 20:46:34
南丁格尔做了张“玫瑰图”,结果把士兵的死亡率从42%降到2.2%

南丁格尔做了张“玫瑰图”,结果把士兵的死亡率从42%降到2.2%

果壳
2026-02-12 16:48:42
除夕夜都别睡了!“春节红包大战”总额飙至近100亿

除夕夜都别睡了!“春节红包大战”总额飙至近100亿

极目新闻
2026-02-11 19:26:54
三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

三峡大坝“账本”曝光:运行了20余年,2500亿投入如今回本了吗?

墨兰史书
2026-01-26 08:20:07
李立群回河南祭祖:曾给同父异母的大哥三笔钱,让他从贫穷到富有

李立群回河南祭祖:曾给同父异母的大哥三笔钱,让他从贫穷到富有

笔墨V
2026-02-13 02:07:48
姚晨没想到,离春节不到7天,前夫凌潇肃靠着佟大为,又火了一把

姚晨没想到,离春节不到7天,前夫凌潇肃靠着佟大为,又火了一把

天天热点见闻
2026-02-12 10:42:06
10分钟内股价直线涨停!光伏巨头最新公告:未直接与SpaceX发生合作

10分钟内股价直线涨停!光伏巨头最新公告:未直接与SpaceX发生合作

每日经济新闻
2026-02-12 18:32:07
刘青云夫妇洛阳度假,58岁郭蔼明穿破洞裤,不用带娃不愁钱像40岁

刘青云夫妇洛阳度假,58岁郭蔼明穿破洞裤,不用带娃不愁钱像40岁

八怪娱
2026-02-12 11:03:53
除夕当天,家里这3个地方千万别熄灯!老辈人传下的“引财方”

除夕当天,家里这3个地方千万别熄灯!老辈人传下的“引财方”

小陆搞笑日常
2026-02-08 17:24:09
深夜突变!金价闪崩,直线暴跌3%!美股全线跳水,超4100股下跌,苹果市值蒸发超8000亿元,中概股跌幅扩大

深夜突变!金价闪崩,直线暴跌3%!美股全线跳水,超4100股下跌,苹果市值蒸发超8000亿元,中概股跌幅扩大

每日经济新闻
2026-02-13 01:02:05
马斯克谈Seedance 2.0:发展速度太快

马斯克谈Seedance 2.0:发展速度太快

财联社
2026-02-12 13:40:07
宗熙先生:春节将至,为什么成片的黄灯笼会引发不适?

宗熙先生:春节将至,为什么成片的黄灯笼会引发不适?

宗熙先生
2026-02-08 12:40:58
跳水队新春晚会,陈芋汐当主持人,谁注意全红婵回北京待遇改变

跳水队新春晚会,陈芋汐当主持人,谁注意全红婵回北京待遇改变

不冻港来了
2026-02-11 18:54:02
2026-02-13 04:39:00
ZFinance
ZFinance
Z世代的一站式AI、科技和财经资讯
121文章数 2关注度
往期回顾 全部

科技要闻

10倍速的一夜:三大模型春节前的暗战

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

艺术
家居
数码
手机
公开课

艺术要闻

震惊!罗布泊的模特竟然如此美艳动人!

家居要闻

本真栖居 爱暖伴流年

数码要闻

英伟达App更新,搞定Optimus MUX显卡切换难题

手机要闻

科技记者古尔曼:预计苹果将在未来几周内推出iPhone 17e以及M4芯片版iPad Air

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版