网易首页 > 网易号 > 正文 申请入驻

线性注意力回归!Kimi新模型引爆,MiniMax却悄悄换回传统架构

0
分享至


LLM领域,线性注意力机制正在回归,工程实践主要还是国产模型在推进,主要原因大家都清楚,我们算力有限,当然也有长期的目标,Agent要真正落地干货,注意力机制必须要改变,目前国外主要模型都是闭源的,技术细节我们不了解,看起来都是仗着有卡,暴力解算,以下是这场技术路线之争的简要梳理

早期:效率与精度的两难

线性注意力并非新技术。早在2020年代,相关论文就已大量涌现。

其核心目标是将注意力机制的时间和内存复杂度从O(n²)降低到O(n),从而在处理长序列时实现更高的效率。

然而,这些早期的尝试从未真正获得主流认可。根本原因在于,它们以牺牲模型精度为代价,因此从未被应用在任何一个开源的、达到业界顶尖水平(SOTA)的大语言模型中。

新的浪潮:国产模型引领

转折点发生在今年下半年,线性注意力变体迎来了一轮复兴

6月,MiniMax-M1:拥有4560亿总参数、460亿激活参数的MoE模型,采用了“闪电注意力”(lightning attention)

8月,Qwen3-Next:由Qwen3团队推出,采用了线性注意力变体

9月,DeepSeek V3.2:由DeepSeek团队发布,采用了稀疏注意力(sparse attention),虽然并非严格的线性,但仍是亚二次方复杂度

这三个模型的共同点是,在大部分或所有层中,都用高效的线性或亚二次方注意力变体取代了传统的二次方注意力

剧情反转:MiniMax悄然“倒戈”

就在线性注意力看似前景大好之时,剧情出现了反转。

MiniMax团队发布了其新的2300亿参数模型M2,但出人意料地放弃了线性注意力,回归了常规注意力机制

团队给出的解释是,线性注意力在生产环境的LLM中非常棘手。虽然它在处理常规提示时表现尚可,但在推理和多轮对话任务中存在明显的精度问题——而这两项能力对于聊天会话和智能体应用至关重要

这一举动一度让外界认为,线性注意力的探索或许不值得再继续下去

Kimi入局:混合策略带来新解法

然而,上周,Kimi团队发布了其全新的Kimi Linear模型,再次将线性注意力拉回舞台中央。

官方数据显示,与常规的全注意力(full attention)相比,Kimi Linear实现了:

75%的KV缓存缩减

最高达6倍的解码吞吐量

在架构上,Kimi Linear与Qwen3-Next有诸多相似之处,两者都依赖于一种混合注意力策略。

具体来说,它们都将轻量级的线性注意力与重量级的全注意力层结合使用。两者的比例均为3:1,即每三个采用线性注意力(Gated DeltaNet变体)的Transformer块,就搭配一个使用全注意力的块

但Kimi Linear在此基础上进行了改进:

1.线性部分:采用了Kimi Delta Attention (KDA)机制,这是对Gated DeltaNet的精炼,关于KDA解读可以看我之前的文章

2.全注意力部分:用多头潜在注意力(multi-head latent attention, MLA)取代了标准的全注意力模块

虽然Kimi Linear的论文中没有与Qwen3-Next的直接比较,但与Gated DeltaNet论文中的Gated DeltaNet-H1模型(本质上是Gated DeltaNet与滑动窗口注意力的结合)相比,Kimi Linear在保持相同token生成速度的同时,实现了更高的建模精度

需要的注意的目前Kimi Linear中的多头潜在注意力(MLA)尚未整合输出门(sigmoid bypass),但团队计划在未来加入这一特性

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗爆发三年来最大动乱,矛头对准哈梅内伊,危难关头高层内讧

伊朗爆发三年来最大动乱,矛头对准哈梅内伊,危难关头高层内讧

温度历史
2025-12-31 19:23:27
申花官宣6人离队

申花官宣6人离队

五星体育
2026-01-01 13:24:17
英格拉姆本有机会扳平比分的3分球被判无效,猛龙队最终输掘金队

英格拉姆本有机会扳平比分的3分球被判无效,猛龙队最终输掘金队

好火子
2026-01-02 03:21:09
台军专家一语惊人:台军已经把机密信息,都双手奉送给解放军了。

台军专家一语惊人:台军已经把机密信息,都双手奉送给解放军了。

时时有聊
2026-01-01 21:02:36
白嫖羽绒服女子已社死!关键证据曝光,不止穿过一次,商家恐闭店

白嫖羽绒服女子已社死!关键证据曝光,不止穿过一次,商家恐闭店

相思赋予谁a
2026-01-01 01:24:07
饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

饭后吃药,等于白吃?医生多次提醒:一天中这些时间吃药才最好

路医生健康科普
2025-12-16 12:45:03
上海一女子掏空公司3500万!养了上百只猫,还痴迷于“云祭祀”……

上海一女子掏空公司3500万!养了上百只猫,还痴迷于“云祭祀”……

环球网资讯
2026-01-01 11:20:08
53岁晚节不保?踩着赵本山上位的闫学晶,终是为荒唐行径买了单

53岁晚节不保?踩着赵本山上位的闫学晶,终是为荒唐行径买了单

米师傅安装
2026-01-02 03:46:49
1克毒素比黄金贵1000倍!2024年深圳发现白毒伞,专家:不要采

1克毒素比黄金贵1000倍!2024年深圳发现白毒伞,专家:不要采

万象硬核本尊
2025-12-30 18:30:12
67岁王朔现状:满头白发神似李亚鹏,手上没钱,靠朋友接济过活

67岁王朔现状:满头白发神似李亚鹏,手上没钱,靠朋友接济过活

一盅情怀
2025-12-29 17:11:04
第400场!库里又创造NBA历史第一纪录,37岁年薪5960万是有原因的

第400场!库里又创造NBA历史第一纪录,37岁年薪5960万是有原因的

大西体育
2026-01-01 10:39:52
炒股从巨亏到巨赚,我只坚持:"并列阳线满仓买,并列阳线清仓卖"

炒股从巨亏到巨赚,我只坚持:"并列阳线满仓买,并列阳线清仓卖"

股经纵横谈
2026-01-01 18:08:25
马斯克预测世界大战时间,大战最可能爆发在两地区

马斯克预测世界大战时间,大战最可能爆发在两地区

妙知
2025-12-29 00:08:32
湖南永州男子带妻儿开直升机回老家过元旦,80多公里车程开飞机只需15分钟

湖南永州男子带妻儿开直升机回老家过元旦,80多公里车程开飞机只需15分钟

极目新闻
2026-01-01 15:15:14
大快人心!邵佳一接手中国男足,这3名“废柴”被踢出国家队

大快人心!邵佳一接手中国男足,这3名“废柴”被踢出国家队

国足风云
2026-01-01 12:36:49
父亲再婚后没联系,我39岁申请车贷,银行经理:您名下有一账户

父亲再婚后没联系,我39岁申请车贷,银行经理:您名下有一账户

红豆讲堂
2025-12-23 12:50:05
赵丽颖冯绍峰活动现场同框,二叔低头瞬间引关注

赵丽颖冯绍峰活动现场同框,二叔低头瞬间引关注

付老师种植技术团队
2026-01-01 19:52:18
果然不出大陆所料,2026年第一天,赖清德称:台湾已经没时间等了

果然不出大陆所料,2026年第一天,赖清德称:台湾已经没时间等了

荐史
2026-01-01 11:32:54
善恶终有报,57岁央视女主持王小丫,原来早已经走上另一条大路

善恶终有报,57岁央视女主持王小丫,原来早已经走上另一条大路

梦录的西方史话
2025-10-29 15:48:51
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
2026-01-02 07:55:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1025文章数 393关注度
往期回顾 全部

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

头条要闻

卢卡申科:西方所有人都明白 若除掉普京一切都会不同

头条要闻

卢卡申科:西方所有人都明白 若除掉普京一切都会不同

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跑调风波越演越烈!沈佳润被网友喊话

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

健康
本地
时尚
公开课
军事航空

元旦举家出行,注意防流感

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

2025年,记住她们的名字!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

泽连斯基:乌全力推动恢复战俘交换工作

无障碍浏览 进入关怀版