网易首页 > 网易号 > 正文 申请入驻

线性注意力回归!Kimi新模型引爆,MiniMax却悄悄换回传统架构

0
分享至


LLM领域,线性注意力机制正在回归,工程实践主要还是国产模型在推进,主要原因大家都清楚,我们算力有限,当然也有长期的目标,Agent要真正落地干货,注意力机制必须要改变,目前国外主要模型都是闭源的,技术细节我们不了解,看起来都是仗着有卡,暴力解算,以下是这场技术路线之争的简要梳理

早期:效率与精度的两难

线性注意力并非新技术。早在2020年代,相关论文就已大量涌现。

其核心目标是将注意力机制的时间和内存复杂度从O(n²)降低到O(n),从而在处理长序列时实现更高的效率。

然而,这些早期的尝试从未真正获得主流认可。根本原因在于,它们以牺牲模型精度为代价,因此从未被应用在任何一个开源的、达到业界顶尖水平(SOTA)的大语言模型中。

新的浪潮:国产模型引领

转折点发生在今年下半年,线性注意力变体迎来了一轮复兴

6月,MiniMax-M1:拥有4560亿总参数、460亿激活参数的MoE模型,采用了“闪电注意力”(lightning attention)

8月,Qwen3-Next:由Qwen3团队推出,采用了线性注意力变体

9月,DeepSeek V3.2:由DeepSeek团队发布,采用了稀疏注意力(sparse attention),虽然并非严格的线性,但仍是亚二次方复杂度

这三个模型的共同点是,在大部分或所有层中,都用高效的线性或亚二次方注意力变体取代了传统的二次方注意力

剧情反转:MiniMax悄然“倒戈”

就在线性注意力看似前景大好之时,剧情出现了反转。

MiniMax团队发布了其新的2300亿参数模型M2,但出人意料地放弃了线性注意力,回归了常规注意力机制

团队给出的解释是,线性注意力在生产环境的LLM中非常棘手。虽然它在处理常规提示时表现尚可,但在推理和多轮对话任务中存在明显的精度问题——而这两项能力对于聊天会话和智能体应用至关重要

这一举动一度让外界认为,线性注意力的探索或许不值得再继续下去

Kimi入局:混合策略带来新解法

然而,上周,Kimi团队发布了其全新的Kimi Linear模型,再次将线性注意力拉回舞台中央。

官方数据显示,与常规的全注意力(full attention)相比,Kimi Linear实现了:

75%的KV缓存缩减

最高达6倍的解码吞吐量

在架构上,Kimi Linear与Qwen3-Next有诸多相似之处,两者都依赖于一种混合注意力策略。

具体来说,它们都将轻量级的线性注意力与重量级的全注意力层结合使用。两者的比例均为3:1,即每三个采用线性注意力(Gated DeltaNet变体)的Transformer块,就搭配一个使用全注意力的块

但Kimi Linear在此基础上进行了改进:

1.线性部分:采用了Kimi Delta Attention (KDA)机制,这是对Gated DeltaNet的精炼,关于KDA解读可以看我之前的文章

2.全注意力部分:用多头潜在注意力(multi-head latent attention, MLA)取代了标准的全注意力模块

虽然Kimi Linear的论文中没有与Qwen3-Next的直接比较,但与Gated DeltaNet论文中的Gated DeltaNet-H1模型(本质上是Gated DeltaNet与滑动窗口注意力的结合)相比,Kimi Linear在保持相同token生成速度的同时,实现了更高的建模精度

需要的注意的目前Kimi Linear中的多头潜在注意力(MLA)尚未整合输出门(sigmoid bypass),但团队计划在未来加入这一特性

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
文班31+13伤退马刺19分逆转尼克斯 尚帕尼36+11三分队史第一

文班31+13伤退马刺19分逆转尼克斯 尚帕尼36+11三分队史第一

醉卧浮生
2026-01-01 10:57:19
“i茅台”1499元茅台热抢过后,用户晒单称“买到了梦中情酒”

“i茅台”1499元茅台热抢过后,用户晒单称“买到了梦中情酒”

新浪财经
2026-01-01 13:08:17
黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

黎笋之子黎坚诚坦言:父亲选择同中国开战,是其毕生最大的失策

磊子讲史
2025-12-24 11:04:05
几个出轨女人的自白:和情人久了,身体感受只剩下这几种滋味

几个出轨女人的自白:和情人久了,身体感受只剩下这几种滋味

王二哥老搞笑
2026-01-02 00:03:44
知名港星袁祥仁去世,享年69岁,原因曝光,最后露面呼吸困难

知名港星袁祥仁去世,享年69岁,原因曝光,最后露面呼吸困难

180视角
2026-01-02 01:29:16
CBA最新消息!山西男篮更换教练,辽宁或裁掉莫兰德

CBA最新消息!山西男篮更换教练,辽宁或裁掉莫兰德

体坛瞎白话
2026-01-01 08:17:18
从总统再到阶下囚,美国“弃子”在狱中疯了?

从总统再到阶下囚,美国“弃子”在狱中疯了?

老簿尾声体育解说
2026-01-01 20:10:53
真相大白!广东男篮31分惨败原因曝光,杜峰不开心,徐杰伤了!

真相大白!广东男篮31分惨败原因曝光,杜峰不开心,徐杰伤了!

曹说体育
2026-01-02 01:33:34
新年开新局|追光而行

新年开新局|追光而行

新华社
2026-01-01 16:37:03
特朗普转载文章:俄罗斯总统普京是和平路上的绊脚石

特朗普转载文章:俄罗斯总统普京是和平路上的绊脚石

一种观点
2026-01-01 11:51:31
朱元璋下葬过程有多恐怖?明史的记载,让人胆颤心惊

朱元璋下葬过程有多恐怖?明史的记载,让人胆颤心惊

旧时楼台月
2025-12-19 19:31:37
让人眼红!上海一宝妈晒出21.96万生育津贴,直呼产后抑郁都没了

让人眼红!上海一宝妈晒出21.96万生育津贴,直呼产后抑郁都没了

火山詩话
2026-01-01 17:38:23
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
突发黑天鹅,闪崩暴跌!

突发黑天鹅,闪崩暴跌!

中国基金报
2026-01-02 00:12:12
厦门楼市来势汹汹,厦门待售二手房数量是从39163套变成了39039套

厦门楼市来势汹汹,厦门待售二手房数量是从39163套变成了39039套

有事问彭叔
2026-01-01 23:25:08
铜价冲破历史新高,单日暴涨超40%。

铜价冲破历史新高,单日暴涨超40%。

流苏晚晴
2026-01-01 16:23:46
“天安门墙体画”让河南吴营村爆火:新年第一天进村车辆排长队,游客排队半小时才看到“天安门”,不少老人来此圆梦

“天安门墙体画”让河南吴营村爆火:新年第一天进村车辆排长队,游客排队半小时才看到“天安门”,不少老人来此圆梦

极目新闻
2026-01-01 18:17:17
一个国家正在崩塌:伊朗女孩扔掉头巾,如同大清朝开始剪辫子

一个国家正在崩塌:伊朗女孩扔掉头巾,如同大清朝开始剪辫子

社会日日鲜
2025-12-31 12:38:34
英伟达要求台积电扩产 H200 以应对中国订单潮

英伟达要求台积电扩产 H200 以应对中国订单潮

鞭牛士
2026-01-01 08:54:06
2026-01-02 02:15:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1025文章数 393关注度
往期回顾 全部

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

头条要闻

收到情报后 卢卡申科“提醒普京不要赴会”

头条要闻

收到情报后 卢卡申科“提醒普京不要赴会”

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跑调风波越演越烈!沈佳润被网友喊话

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

亲子
家居
游戏
艺术
健康

亲子要闻

产检全免费,通过减负促进生育健康

家居要闻

无形有行 自然与灵感诗意

LPL最惨选手诞生!圈内主播爆料RNG离谱合同,LPL概念神陪玩挣钱

艺术要闻

你绝对想不到,这位东方画家竟将印象派推向巅峰!

元旦举家出行,注意防流感

无障碍浏览 进入关怀版