阿里、Kimi、蚂蚁集体押注，混合注意力从可选项变必答题？|算子|上下文|新论文|kimi|阿里巴巴集团

阿里、Kimi、蚂蚁集体押注，混合注意力从可选项变必答题？

2026-03-20 19:27:31　来源: 智东西

北京举报

分享至

智东西
作者陈骏达
编辑漠影

智东西3月20日报道，昨天，小米发布了Mimo-V2 Pro大模型，又一次把混合注意力架构推到了行业的聚光灯下。

这款万亿参数的大模型，采用了1:7的混合注意力比例，在提供接近Claude Opus 4.6能力的同时，API定价仅为后者的1/5。

实际上，小米的混合注意力架构探索，延续了国内大模型头部厂商在效率优化上的技术共识。过去一段时间里，国内多个大模型头部玩家都展示了他们在混合注意力方面的突破性进展。

今年2月，蚂蚁推出全球首个混合线性注意力架构的万亿参数思考模型；去年9月，阿里则在下一代模型架构Qwen-Next中采用混合线性注意力。与此同时，月之暗面、MiniMax等玩家也在各自的模型迭代中引入了类似的架构优化方案。

混合注意力架构的探索，已经几乎成为大模型厂商的必答题。不同的只是技术路径的选择，相同的是对效率与性能平衡点的共同追求。

一、头部玩家押注混合注意力，多条技术路径并行

在深度学习中，注意力机制让模型能够有选择地关注输入信息中的重要部分，而Softmax一直是主流架构的核心注意力计算机制。

这种机制每次计算都“翻阅”完整上下文，精准捕捉词与词的关联，赋予模型强大表达力和细粒度对齐能力。

但其代价明显：随着文本长度增加，其计算量呈平方级增长。它还需要存储大量KV缓存，带来显存压力。这在越来越追求推理效率和成本控制的商业化场景中，展现出不足。

面对这一共同挑战，业界探索出了三条主要的技术路径。

第一条路径是稀疏注意力（Sparse Attention），其核心思想是通过“少算”、“有重点地算”来提升效率，代表模型是DeepSeek。

第二条路径是滑动窗口注意力（Sliding Window Attention），它仍然使用Softmax计算注意力权重，但只关注固定窗口内的邻近token，借此提高计算效率。

第三条路径是线性注意力（Linear Attention）。与其他方案不同，它彻底改写了Softmax公式，将复杂度从O(N²)的平方级降至O(N)，近似线性级别，推理成本大幅下降。

不过，这三条路径都有自身的局限性，而如今业界对混合架构的集体转向，本质上是对单一技术路径的修正。

值得关注的是，越来越多方案正向混合线性注意力收敛，这是唯一在理论上突破序列长度限制的路径。它重构了注意力的计算范式，这种彻底性既是它的风险所在，也是其潜力所在。

二、混合线性注意力，如何成为行业共识？

在国内，已有不少大模型企业开始了混合线性注意力架构的探索。

按时间维度来看，2025年初，MiniMax Text-01模型发布，这一模型采用1:7的混合线性注意力，并在456B参数的模型上实现落地。

此后，MiniMax-M1模型也采用了同款架构。当时，MiniMax-M1的团队判断，混合架构将会成为模型设计的主流，但仍面临基础设施等维度的瓶颈。

更多混合线性注意力的探索，在2025年下半年爆发。

去年9月，阿里通义实验室发布了下一代基础模型架构Qwen3-Next，并在80B模型上完成验证。该模型用线性注意力和门控注意力的组合替换标准注意力，实现长上下文的有效建模。在1:3的混合比例下，其性能可以超过单一架构。

阿里的研究团队发现，相比常用的滑动窗口注意力，线性注意力拥有更强大的上下文学习能力。

同样在去年9月，蚂蚁百灵团队开源了Ring-mini-linear-2.0与Ring-flash-linear-2.0，验证了其研发的Lightning Linear线性注意力在工业规模训练和长上下文推理中的可用性。

这两款模型采用了更多的线性注意力层，验证了1:7的混合比例。其在高FLOP预算下表现，明显优于纯Softmax结构。

在这项研究中，蚂蚁百灵还进一步探索了架构创新与基础设施系统工程优化的协同。他们打造的FP8融合算子，将FP8混合精度训练的计算效率提升至原来的1.5-1.7倍左右。

在推理端，他们开发了更高效的线性注意力融合算子，进一步提升推理引擎的吞吐。

架构优化与高性能算子协同之下，两款Ring-linear模型在深度推理场景下的成本仅为同尺寸稠密模型的约1/10，相较原有Ring系列成本也下降超过50%。

去年10月，月之暗面开源了混合线性注意力架构Kimi Linear。其核心是Kimi Delta Attention（KDA），这是一个新型的线性注意力模块，通过细粒度设计改进了门控delta规则。这一线性架构采用1:3的混合比例，在减少内存占用的同时超越了全注意力模型的质量。

尽管上述探索已在多维度验证了混合线性注意力架构的潜力，但大多数成果仍停留在中小规模。而在真实应用中，大模型需要直面万亿级参数、百万级上下文窗口、高并发推理等工程挑战。

因此，下一步的关键在于：将这些技术探索推向真正的超大规模模型，在工业级应用中系统验证其可靠性、可扩展性与经济价值。

三、万亿模型成试金石，效率与成本的终极验证

将混合线性注意力架构推向万亿参数量级的工程落地，正在稳步推进。

月之暗面创始人兼CEO杨植麟对混合线性注意力的前景表达了明确信心。他认为线性架构是一个非常值得探索的方向，其团队已在Kimi Linear等项目中积累了大量研究。

在下一代模型Kimi K3中，月之暗面计划在混合线性注意力架构的基础上，引入更多架构层面的优化。他相信，下一代模型Kimi K3就算没比K2.5强出10倍，也必然会“强得多”。

同样押注这一技术路线的蚂蚁百灵团队，已经接连交出两个万亿参数大模型。一个是超大型混合线性注意力架构模型Ling-2.5-1T，另一个是全球首个混合线性注意力架构的万亿参数思考模型Ring-2.5-1T。

在前期研究基础上,蚂蚁百灵团队通过增量训练方式构建了Ling 2.5架构。该架构将GQA+Lightning Linear升级为更高效的MLA+Lightning Linear组合，在进一步压缩KV缓存的同时，保留了模型的表达能力。

Ling 2.5架构采用1:7混合比例，还保留了QK Norm、Partial RoPE等核心机制，确保架构迁移过程中模型性能不发生退化。

在降本增效方面，Ling-2.5-1T仅需约6000个token的平均输出长度，即可完成前沿模型需要1.5万-2.3万个token才能胜任的复杂任务。其访存规模压缩至传统架构的1/10，生成吞吐量提升至3倍。

上述种种对混合线性注意力架构的探索，意义已不止于性能提升本身，而是在重新划定大模型的应用边界与商业形态。

试想一下，当推理成本显著下降、token使用效率持续优化，模型调用成本或许不再是限制其大规模落地的核心瓶颈。

随之而来的，是应用范式的自然转变。企业不再需要精打细算地“按需调用”模型，而可以将其作为一种默认能力嵌入到更多业务环节之中，实现更广泛、更深入的效率提升。

大模型在高频与实时场景中的角色可能因此发生变化，在搜索、推荐、智能客服等场景中，它们不再只是传统系统的补充模块，而是有望扮演核心驱动引擎，成为如同数据库、操作系统般默认存在的底层基础设施。

结语：从堆参数到拼工程，大模型广泛落地更近了

混合线性注意力架构的探索仍在不断深化，但这条路径注定不会一帆风顺。不同技术路线之间仍在反复博弈与验证，例如MiniMax在阶段性探索后选择回归全注意力模型，以优先保证复杂场景下的稳定性与可靠性。

不过，更深层的信号已经愈发清晰：大模型竞争正从“暴力堆参数”转向“工程效率的精算”。当行业逐渐形成共识，决定胜负的将不再只是规模本身，而是单位算力所能释放的有效能力。

架构层面的细微差异，最终会在企业级落地中放大为显著的成本优势与体验差距，并推动大模型从“可用”迈向“好用”，再走向真正的广泛普及。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

汽车要闻

手机 / 数码

房产 / 家居

阿里、Kimi、蚂蚁集体押注，混合注意力从可选项变必答题？

中国等了90年，王虹邓煜同时摘下菲尔兹奖

浙江一幼儿园女生走光照片被选入毕业相册 家长发声

浙江一幼儿园女生走光照片被选入毕业相册 家长发声

小布泽：越看越不像他爸爸

张凌赫公主抱王楚然，比工业糖精好嗑

长鑫科技会成为下一个“中石油”吗？

吉利的方盒子：来晚了，但打磨得刚好

态度原创

2026建博会(广州) 公装联探展交流活动

37人抢1套房…海棠湾资产拍卖，爆了！

教你三步快速识别中风

宝蓝开启职业体验，化身小小工作人员，帮家人们解决各种小难题

特朗普威胁对伊发动空前打击 伊朗、胡塞武装强势回应

浙江一幼儿园女生走光照片被选入毕业相册家长发声

浙江一幼儿园女生走光照片被选入毕业相册家长发声

特朗普威胁对伊发动空前打击伊朗、胡塞武装强势回应