网易首页 > 网易号 > 正文 申请入驻

线性注意力回归!Kimi新模型引爆,MiniMax却悄悄换回传统架构

0
分享至


LLM领域,线性注意力机制正在回归,工程实践主要还是国产模型在推进,主要原因大家都清楚,我们算力有限,当然也有长期的目标,Agent要真正落地干货,注意力机制必须要改变,目前国外主要模型都是闭源的,技术细节我们不了解,看起来都是仗着有卡,暴力解算,以下是这场技术路线之争的简要梳理

早期:效率与精度的两难

线性注意力并非新技术。早在2020年代,相关论文就已大量涌现。

其核心目标是将注意力机制的时间和内存复杂度从O(n²)降低到O(n),从而在处理长序列时实现更高的效率。

然而,这些早期的尝试从未真正获得主流认可。根本原因在于,它们以牺牲模型精度为代价,因此从未被应用在任何一个开源的、达到业界顶尖水平(SOTA)的大语言模型中。

新的浪潮:国产模型引领

转折点发生在今年下半年,线性注意力变体迎来了一轮复兴

6月,MiniMax-M1:拥有4560亿总参数、460亿激活参数的MoE模型,采用了“闪电注意力”(lightning attention)

8月,Qwen3-Next:由Qwen3团队推出,采用了线性注意力变体

9月,DeepSeek V3.2:由DeepSeek团队发布,采用了稀疏注意力(sparse attention),虽然并非严格的线性,但仍是亚二次方复杂度

这三个模型的共同点是,在大部分或所有层中,都用高效的线性或亚二次方注意力变体取代了传统的二次方注意力

剧情反转:MiniMax悄然“倒戈”

就在线性注意力看似前景大好之时,剧情出现了反转。

MiniMax团队发布了其新的2300亿参数模型M2,但出人意料地放弃了线性注意力,回归了常规注意力机制

团队给出的解释是,线性注意力在生产环境的LLM中非常棘手。虽然它在处理常规提示时表现尚可,但在推理和多轮对话任务中存在明显的精度问题——而这两项能力对于聊天会话和智能体应用至关重要

这一举动一度让外界认为,线性注意力的探索或许不值得再继续下去

Kimi入局:混合策略带来新解法

然而,上周,Kimi团队发布了其全新的Kimi Linear模型,再次将线性注意力拉回舞台中央。

官方数据显示,与常规的全注意力(full attention)相比,Kimi Linear实现了:

75%的KV缓存缩减

最高达6倍的解码吞吐量

在架构上,Kimi Linear与Qwen3-Next有诸多相似之处,两者都依赖于一种混合注意力策略。

具体来说,它们都将轻量级的线性注意力与重量级的全注意力层结合使用。两者的比例均为3:1,即每三个采用线性注意力(Gated DeltaNet变体)的Transformer块,就搭配一个使用全注意力的块

但Kimi Linear在此基础上进行了改进:

1.线性部分:采用了Kimi Delta Attention (KDA)机制,这是对Gated DeltaNet的精炼,关于KDA解读可以看我之前的文章

2.全注意力部分:用多头潜在注意力(multi-head latent attention, MLA)取代了标准的全注意力模块

虽然Kimi Linear的论文中没有与Qwen3-Next的直接比较,但与Gated DeltaNet论文中的Gated DeltaNet-H1模型(本质上是Gated DeltaNet与滑动窗口注意力的结合)相比,Kimi Linear在保持相同token生成速度的同时,实现了更高的建模精度

需要的注意的目前Kimi Linear中的多头潜在注意力(MLA)尚未整合输出门(sigmoid bypass),但团队计划在未来加入这一特性

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

北青网-北京青年报
2026-03-25 19:43:12
47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

47岁袁泉被骂“断崖式衰老”,素颜糙脸背后,藏着演员最狠的自律

情感大头说说
2026-03-26 17:04:32
三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

三分命中率64.1%,断层全联盟第一!郭士强该给他一个国家队名额

弄月公子
2026-03-26 11:03:13
强化金融风险源头防控

强化金融风险源头防控

经济日报
2026-03-26 06:48:05
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
57岁的宋祖英,虽是大妈年龄,却散发出中年女性的气质。

57岁的宋祖英,虽是大妈年龄,却散发出中年女性的气质。

情感大头说说
2026-03-27 00:16:52
大巨变!发现没有?农村越来越多四五十岁的人,都不出去打工了

大巨变!发现没有?农村越来越多四五十岁的人,都不出去打工了

复转这些年
2026-03-22 17:26:02
宝格丽晚宴:刘亦菲兜不住副乳,海瑟薇手歪曲,金智媛生图没眼看

宝格丽晚宴:刘亦菲兜不住副乳,海瑟薇手歪曲,金智媛生图没眼看

嫹笔牂牂
2026-03-25 07:14:56
一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

一审重判整整17年,柯文哲当庭最后一搏,藏着赖清德最担心的结局

李健政观察
2026-03-26 18:16:56
撕破脸!郑丽文公开炮轰卢秀燕,蓝营内斗彻底公开化!

撕破脸!郑丽文公开炮轰卢秀燕,蓝营内斗彻底公开化!

达文西看世界
2026-03-25 10:53:39
伊朗称已组织超百万人为地面战斗做准备

伊朗称已组织超百万人为地面战斗做准备

界面新闻
2026-03-26 22:53:08
省下一亿镑!曼联自有 “新吉马良斯”,卡里克手握王炸

省下一亿镑!曼联自有 “新吉马良斯”,卡里克手握王炸

澜归序
2026-03-26 04:56:27
柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

柯文哲被判重刑,黄国昌蒋万安回应,赖清德又盯上郑丽文?

DS北风
2026-03-26 17:58:06
外资大撤退:亚洲股市遭遇2009年以来...

外资大撤退:亚洲股市遭遇2009年以来...

新浪财经
2026-03-27 01:06:32
A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

A股:紧急提醒3亿股民股民,主力已摊牌,周五,将迎来狂风暴雨

云鹏叙事
2026-03-27 00:00:07
李莉没有说过“伊朗半小时灭以色列”,

李莉没有说过“伊朗半小时灭以色列”,

雪中风车
2026-03-01 08:11:49
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

蒙古总理当众给斯大林一耳光,走出宴会厅3小时后,被扣上间谍帽子枪决

老杉说历史
2026-03-23 22:17:08
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
陪玩陪睡不过冰山一角?张艺谋团队爆猛料,让女演员“小三逼婚”

陪玩陪睡不过冰山一角?张艺谋团队爆猛料,让女演员“小三逼婚”

情感大头说说
2026-03-25 03:04:32
2026-03-27 01:51:00
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1035文章数 396关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
数码
游戏
家居
公开课

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版