网易首页 > 网易号 > 正文 申请入驻

线性注意力回归!Kimi新模型引爆,MiniMax却悄悄换回传统架构

0
分享至


LLM领域,线性注意力机制正在回归,工程实践主要还是国产模型在推进,主要原因大家都清楚,我们算力有限,当然也有长期的目标,Agent要真正落地干货,注意力机制必须要改变,目前国外主要模型都是闭源的,技术细节我们不了解,看起来都是仗着有卡,暴力解算,以下是这场技术路线之争的简要梳理

早期:效率与精度的两难

线性注意力并非新技术。早在2020年代,相关论文就已大量涌现。

其核心目标是将注意力机制的时间和内存复杂度从O(n²)降低到O(n),从而在处理长序列时实现更高的效率。

然而,这些早期的尝试从未真正获得主流认可。根本原因在于,它们以牺牲模型精度为代价,因此从未被应用在任何一个开源的、达到业界顶尖水平(SOTA)的大语言模型中。

新的浪潮:国产模型引领

转折点发生在今年下半年,线性注意力变体迎来了一轮复兴

6月,MiniMax-M1:拥有4560亿总参数、460亿激活参数的MoE模型,采用了“闪电注意力”(lightning attention)

8月,Qwen3-Next:由Qwen3团队推出,采用了线性注意力变体

9月,DeepSeek V3.2:由DeepSeek团队发布,采用了稀疏注意力(sparse attention),虽然并非严格的线性,但仍是亚二次方复杂度

这三个模型的共同点是,在大部分或所有层中,都用高效的线性或亚二次方注意力变体取代了传统的二次方注意力

剧情反转:MiniMax悄然“倒戈”

就在线性注意力看似前景大好之时,剧情出现了反转。

MiniMax团队发布了其新的2300亿参数模型M2,但出人意料地放弃了线性注意力,回归了常规注意力机制

团队给出的解释是,线性注意力在生产环境的LLM中非常棘手。虽然它在处理常规提示时表现尚可,但在推理和多轮对话任务中存在明显的精度问题——而这两项能力对于聊天会话和智能体应用至关重要

这一举动一度让外界认为,线性注意力的探索或许不值得再继续下去

Kimi入局:混合策略带来新解法

然而,上周,Kimi团队发布了其全新的Kimi Linear模型,再次将线性注意力拉回舞台中央。

官方数据显示,与常规的全注意力(full attention)相比,Kimi Linear实现了:

75%的KV缓存缩减

最高达6倍的解码吞吐量

在架构上,Kimi Linear与Qwen3-Next有诸多相似之处,两者都依赖于一种混合注意力策略。

具体来说,它们都将轻量级的线性注意力与重量级的全注意力层结合使用。两者的比例均为3:1,即每三个采用线性注意力(Gated DeltaNet变体)的Transformer块,就搭配一个使用全注意力的块

但Kimi Linear在此基础上进行了改进:

1.线性部分:采用了Kimi Delta Attention (KDA)机制,这是对Gated DeltaNet的精炼,关于KDA解读可以看我之前的文章

2.全注意力部分:用多头潜在注意力(multi-head latent attention, MLA)取代了标准的全注意力模块

虽然Kimi Linear的论文中没有与Qwen3-Next的直接比较,但与Gated DeltaNet论文中的Gated DeltaNet-H1模型(本质上是Gated DeltaNet与滑动窗口注意力的结合)相比,Kimi Linear在保持相同token生成速度的同时,实现了更高的建模精度

需要的注意的目前Kimi Linear中的多头潜在注意力(MLA)尚未整合输出门(sigmoid bypass),但团队计划在未来加入这一特性

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
战争已打响!特朗普兵分两路,收割中国资产,开始全面反华?

战争已打响!特朗普兵分两路,收割中国资产,开始全面反华?

南宗历史
2026-02-17 01:33:03
谈判前夕俄乌互相大空袭,俄乌重兵厮杀盖丘尓河,战场变绞肉机

谈判前夕俄乌互相大空袭,俄乌重兵厮杀盖丘尓河,战场变绞肉机

铁血战史1927
2026-02-17 22:57:09
巴黎球迷在对阵马赛时燃放约100个烟雾弹,队报:巴黎将受罚

巴黎球迷在对阵马赛时燃放约100个烟雾弹,队报:巴黎将受罚

懂球帝
2026-02-18 02:57:12
美媒报道:中国将以压倒性优势摧毁90%美军战机

美媒报道:中国将以压倒性优势摧毁90%美军战机

时光在作祟
2026-02-16 16:31:29
DeepSeek推荐:一个家庭越来越富有的七个习惯

DeepSeek推荐:一个家庭越来越富有的七个习惯

洞见
2026-02-06 09:43:30
说实话,王菲今年唱的歌不是不好听,也不是听不懂,而是难度太高

说实话,王菲今年唱的歌不是不好听,也不是听不懂,而是难度太高

小染说台球
2026-02-17 12:33:20
湖人传闻:若勒布朗·詹姆斯不退役,下赛季他真的会“回归”吗

湖人传闻:若勒布朗·詹姆斯不退役,下赛季他真的会“回归”吗

好火子
2026-02-17 23:53:53
李思思给恩师拜年,开100万奔驰送茅台酒,彭老师已是艺术界泰斗

李思思给恩师拜年,开100万奔驰送茅台酒,彭老师已是艺术界泰斗

地理三体说
2026-02-14 23:43:11
很多人已经进入过年式破产!

很多人已经进入过年式破产!

黯泉
2026-02-13 22:56:04
西方军事专家:“只有泰国知道,中国早已是世界最强超级大国了”

西方军事专家:“只有泰国知道,中国早已是世界最强超级大国了”

风云人物看历史
2026-02-02 09:13:32
中国哪个城市的水质最好?经评比:这10个城市上榜,快来看看,有你的家乡吗?

中国哪个城市的水质最好?经评比:这10个城市上榜,快来看看,有你的家乡吗?

美食格物
2026-01-23 17:04:10
香港网红陈雅欣爆红!这身材颜值绝了,网友:简直是翻版港姐冠军

香港网红陈雅欣爆红!这身材颜值绝了,网友:简直是翻版港姐冠军

TVB的四小花
2026-02-17 15:50:57
马斯克又下一城!星链包围东南亚,事情不简单,对我们不是好消息

马斯克又下一城!星链包围东南亚,事情不简单,对我们不是好消息

大卫聊科技
2026-02-16 14:40:04
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
你们会花5百大洋换苹果原装电池吗?过来人实话实说,看完再决定

你们会花5百大洋换苹果原装电池吗?过来人实话实说,看完再决定

小蜜情感说
2026-02-17 10:13:38
麦基加盟北京内幕:薪水CBA顶级水平 多支强队报价后选择首钢

麦基加盟北京内幕:薪水CBA顶级水平 多支强队报价后选择首钢

醉卧浮生
2026-02-17 17:30:42
300亿没了?市值缩水9成,“茶饮第一股”被消费者狠狠上了一课

300亿没了?市值缩水9成,“茶饮第一股”被消费者狠狠上了一课

小熊侃史
2026-01-04 12:36:18
顶级大花差点被噶在国外的瓜!

顶级大花差点被噶在国外的瓜!

香港内地文娱
2026-02-15 21:50:52
史诗级封杀!2000万网红“听风的蚕”彻底凉了

史诗级封杀!2000万网红“听风的蚕”彻底凉了

互联网品牌官
2026-02-12 01:17:23
斯诺克最新赛况!吴宜泽致命失误3-6出局,50岁希金斯6-1拔掉萝卜

斯诺克最新赛况!吴宜泽致命失误3-6出局,50岁希金斯6-1拔掉萝卜

郝小小看体育
2026-02-18 00:14:22
2026-02-18 04:36:49
AI寒武纪 incentive-icons
AI寒武纪
专注于人工智能,科技领域
1033文章数 396关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

夺银被问丢金 谷爱凌回击外媒“很荒谬”

头条要闻

夺银被问丢金 谷爱凌回击外媒“很荒谬”

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

本地
时尚
数码
艺术
公开课

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

今年春天最流行的4组配色,过年穿时髦又高级!

数码要闻

艾湃电竞推出YOGA 360一体式水冷散热器,799元

艺术要闻

成都468烂尾楼,复工迹象越来越明显!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版