网易首页 > 网易号 > 正文 申请入驻

线性注意力回归!Kimi新模型引爆,MiniMax却悄悄换回传统架构

0
分享至

LLM领域,线性注意力机制正在回归,工程实践主要还是国产模型在推进,主要原因大家都清楚,我们算力有限,当然也有长期的目标,Agent要真正落地干货,注意力机制必须要改变,目前国外主要模型都是闭源的,技术细节我们不了解,看起来都是仗着有卡,暴力解算,以下是这场技术路线之争的简要梳理

早期:效率与精度的两难

线性注意力并非新技术。早在2020年代,相关论文就已大量涌现。

其核心目标是将注意力机制的时间和内存复杂度从O(n²)降低到O(n),从而在处理长序列时实现更高的效率。

然而,这些早期的尝试从未真正获得主流认可。根本原因在于,它们以牺牲模型精度为代价,因此从未被应用在任何一个开源的、达到业界顶尖水平(SOTA)的大语言模型中。

新的浪潮:国产模型引领

转折点发生在今年下半年,线性注意力变体迎来了一轮复兴

6月,MiniMax-M1:拥有4560亿总参数、460亿激活参数的MoE模型,采用了“闪电注意力”(lightning attention)

8月,Qwen3-Next:由Qwen3团队推出,采用了线性注意力变体

9月,DeepSeek V3.2:由DeepSeek团队发布,采用了稀疏注意力(sparse attention),虽然并非严格的线性,但仍是亚二次方复杂度

这三个模型的共同点是,在大部分或所有层中,都用高效的线性或亚二次方注意力变体取代了传统的二次方注意力

剧情反转:MiniMax悄然“倒戈”

就在线性注意力看似前景大好之时,剧情出现了反转。

MiniMax团队发布了其新的2300亿参数模型M2,但出人意料地放弃了线性注意力,回归了常规注意力机制

团队给出的解释是,线性注意力在生产环境的LLM中非常棘手。虽然它在处理常规提示时表现尚可,但在推理和多轮对话任务中存在明显的精度问题——而这两项能力对于聊天会话和智能体应用至关重要

这一举动一度让外界认为,线性注意力的探索或许不值得再继续下去

Kimi入局:混合策略带来新解法

然而,上周,Kimi团队发布了其全新的Kimi Linear模型,再次将线性注意力拉回舞台中央。

官方数据显示,与常规的全注意力(full attention)相比,Kimi Linear实现了:

75%的KV缓存缩减

最高达6倍的解码吞吐量

在架构上,Kimi Linear与Qwen3-Next有诸多相似之处,两者都依赖于一种混合注意力策略。

具体来说,它们都将轻量级的线性注意力与重量级的全注意力层结合使用。两者的比例均为3:1,即每三个采用线性注意力(Gated DeltaNet变体)的Transformer块,就搭配一个使用全注意力的块

但Kimi Linear在此基础上进行了改进:

1.线性部分:采用了Kimi Delta Attention (KDA)机制,这是对Gated DeltaNet的精炼,关于KDA解读可以看我之前的文章

2.全注意力部分:用多头潜在注意力(multi-head latent attention, MLA)取代了标准的全注意力模块

虽然Kimi Linear的论文中没有与Qwen3-Next的直接比较,但与Gated DeltaNet论文中的Gated DeltaNet-H1模型(本质上是Gated DeltaNet与滑动窗口注意力的结合)相比,Kimi Linear在保持相同token生成速度的同时,实现了更高的建模精度

需要的注意的目前Kimi Linear中的多头潜在注意力(MLA)尚未整合输出门(sigmoid bypass),但团队计划在未来加入这一特性

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全球90%都来自日本,一旦断供,中国如何应对?为啥别国无法生产

全球90%都来自日本,一旦断供,中国如何应对?为啥别国无法生产

霁寒飘雪
2026-04-19 10:03:43
张海迪是个谜!她1955年出生,虽然曾患有多种疾病,但面色红润

张海迪是个谜!她1955年出生,虽然曾患有多种疾病,但面色红润

岁月有情1314
2026-05-23 01:19:55
一个家最好的风水,从来不是优秀的孩子,而是被善待的妈妈

一个家最好的风水,从来不是优秀的孩子,而是被善待的妈妈

青苹果sht
2026-05-30 05:15:46
把泽卡踢进医院:不道歉,不谢场!鲁媒:这是砸人饭碗

把泽卡踢进医院:不道歉,不谢场!鲁媒:这是砸人饭碗

建哥说体育
2026-05-31 08:14:11
董路的“强盗逻辑”:你必须召我的人,召了还必须当首发核心使

董路的“强盗逻辑”:你必须召我的人,召了还必须当首发核心使

中场阴谋家
2026-05-30 09:19:34
清朝二品大员告老还乡,手中已无实权,为何连知县都得客气三分

清朝二品大员告老还乡,手中已无实权,为何连知县都得客气三分

鹤羽说个事
2026-05-29 22:54:09
“谁敢质疑最高领袖?”——伊朗强硬派掀桌子,革命47年来头一遭

“谁敢质疑最高领袖?”——伊朗强硬派掀桌子,革命47年来头一遭

民间胡扯老哥
2026-05-31 11:57:37
瑞典将向乌克兰交付36架“鹰狮”

瑞典将向乌克兰交付36架“鹰狮”

参考消息
2026-05-31 15:02:22
1960年,赵一曼的儿子写信讽刺毛主席,主席没有追究,说了6个字

1960年,赵一曼的儿子写信讽刺毛主席,主席没有追究,说了6个字

帝哥说史
2026-05-23 06:30:03
1.2万亿顺差创百年纪录,张燕生却警告:再赚下去,中国要有麻烦

1.2万亿顺差创百年纪录,张燕生却警告:再赚下去,中国要有麻烦

趣文说娱
2026-05-29 20:13:52
官方:陈涛不再担任深圳新鹏城一线队主教练

官方:陈涛不再担任深圳新鹏城一线队主教练

懂球帝
2026-05-31 10:50:09
为什么古代的死士肯为主人卖命,网友:换我我也无法拒绝

为什么古代的死士肯为主人卖命,网友:换我我也无法拒绝

夜深爱杂谈
2026-05-18 22:01:13
40岁教师咽痒、干咳,一度以为肺癌……医生只给三个“土办法”,不吃药就奇迹好转

40岁教师咽痒、干咳,一度以为肺癌……医生只给三个“土办法”,不吃药就奇迹好转

呼吸界
2026-05-30 18:06:24
你的公积金是什么段位?

你的公积金是什么段位?

职场资深秘书
2026-05-26 16:25:54
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
同事请丧假,理由父亲去世。后勤主任开车100多公里慰问,拿了一大包烧纸,还拿着大大的花圈,结果人家爹开门了...

同事请丧假,理由父亲去世。后勤主任开车100多公里慰问,拿了一大包烧纸,还拿着大大的花圈,结果人家爹开门了...

背包旅行
2026-05-30 17:36:28
中国没给面子,普京回国后认清现实

中国没给面子,普京回国后认清现实

共工之锚
2026-05-31 14:56:37
陈慧琳为何会看上光头刘建浩?原因很简单

陈慧琳为何会看上光头刘建浩?原因很简单

南万说娱26
2026-05-24 09:25:20
一个美国游客的心里话:走遍全世界,中国,就是黄种人的底气!

一个美国游客的心里话:走遍全世界,中国,就是黄种人的底气!

千秋历史
2026-05-25 19:47:49
樊振东距离三冠王仅一步之遥!决赛时间出炉,三大平台全程直播

樊振东距离三冠王仅一步之遥!决赛时间出炉,三大平台全程直播

安海客
2026-05-31 10:27:55
2026-05-31 15:27:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1040文章数 395关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

男子怀疑妻子出轨在车上装定位:兄弟不给我借钱给她借

头条要闻

男子怀疑妻子出轨在车上装定位:兄弟不给我借钱给她借

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

家居
艺术
旅游
数码
公开课

家居要闻

云栖 舒展如流云

艺术要闻

Luis Alvarez Roure | 美国现实主义画家

旅游要闻

厂房老宅变身文旅热土,古村落何以孕育“新风景”

数码要闻

球星亚马尔预热Beats Studio Pro 2耳机:全新设计,粉色配色

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版