网易首页 > 网易号 > 正文 申请入驻

阿里、Kimi、蚂蚁集体押注,混合注意力从可选项变必答题?

0
分享至


智东西
作者 陈骏达
编辑 漠影

智东西3月20日报道,昨天,小米发布了Mimo-V2 Pro大模型,又一次把混合注意力架构推到了行业的聚光灯下。

这款万亿参数的大模型,采用了1:7的混合注意力比例,在提供接近Claude Opus 4.6能力的同时,API定价仅为后者的1/5。

实际上,小米的混合注意力架构探索,延续了国内大模型头部厂商在效率优化上的技术共识。过去一段时间里,国内多个大模型头部玩家都展示了他们在混合注意力方面的突破性进展。

今年2月,蚂蚁推出全球首个混合线性注意力架构的万亿参数思考模型;去年9月,阿里则在下一代模型架构Qwen-Next中采用混合线性注意力。与此同时,月之暗面、MiniMax等玩家也在各自的模型迭代中引入了类似的架构优化方案。

混合注意力架构的探索,已经几乎成为大模型厂商的必答题。不同的只是技术路径的选择,相同的是对效率与性能平衡点的共同追求。

一、头部玩家押注混合注意力,多条技术路径并行

在深度学习中,注意力机制让模型能够有选择地关注输入信息中的重要部分,而Softmax一直是主流架构的核心注意力计算机制。

这种机制每次计算都“翻阅”完整上下文,精准捕捉词与词的关联,赋予模型强大表达力和细粒度对齐能力。


但其代价明显:随着文本长度增加,其计算量呈平方级增长。它还需要存储大量KV缓存,带来显存压力。这在越来越追求推理效率和成本控制的商业化场景中,展现出不足。

面对这一共同挑战,业界探索出了三条主要的技术路径。

第一条路径是稀疏注意力(Sparse Attention),其核心思想是通过“少算”、“有重点地算”来提升效率,代表模型是DeepSeek。

第二条路径是滑动窗口注意力(Sliding Window Attention),它仍然使用Softmax计算注意力权重,但只关注固定窗口内的邻近token,借此提高计算效率。

第三条路径是线性注意力(Linear Attention)。 与其他方案不同,它彻底改写了Softmax公式,将复杂度从O(N²)的平方级降至O(N),近似线性级别,推理成本大幅下降。

不过,这三条路径都有自身的局限性,而如今业界对混合架构的集体转向,本质上是对单一技术路径的修正。

值得关注的是,越来越多方案正向混合线性注意力收敛,这是唯一在理论上突破序列长度限制的路径。它重构了注意力的计算范式,这种彻底性既是它的风险所在,也是其潜力所在。

二、混合线性注意力,如何成为行业共识?

在国内,已有不少大模型企业开始了混合线性注意力架构的探索。

按时间维度来看,2025年初,MiniMax Text-01模型发布,这一模型采用1:7的混合线性注意力,并在456B参数的模型上实现落地。

此后,MiniMax-M1模型也采用了同款架构。当时,MiniMax-M1的团队判断,混合架构将会成为模型设计的主流,但仍面临基础设施等维度的瓶颈。


更多混合线性注意力的探索,在2025年下半年爆发。

去年9月,阿里通义实验室发布了下一代基础模型架构Qwen3-Next,并在80B模型上完成验证。该模型用线性注意力和门控注意力的组合替换标准注意力,实现长上下文的有效建模。在1:3的混合比例下,其性能可以超过单一架构。

阿里的研究团队发现,相比常用的滑动窗口注意力,线性注意力拥有更强大的上下文学习能力。


同样在去年9月,蚂蚁百灵团队开源了Ring-mini-linear-2.0与Ring-flash-linear-2.0,验证了其研发的Lightning Linear线性注意力在工业规模训练和长上下文推理中的可用性。

这两款模型采用了更多的线性注意力层,验证了1:7的混合比例。其在高FLOP预算下表现,明显优于纯Softmax结构。

在这项研究中,蚂蚁百灵还进一步探索了架构创新与基础设施系统工程优化的协同。他们打造的FP8融合算子,将FP8混合精度训练的计算效率提升至原来的1.5-1.7倍左右。


在推理端,他们开发了更高效的线性注意力融合算子,进一步提升推理引擎的吞吐。

架构优化与高性能算子协同之下,两款Ring-linear模型在深度推理场景下的成本仅为同尺寸稠密模型的约1/10,相较原有Ring系列成本也下降超过50%。

去年10月,月之暗面开源了混合线性注意力架构Kimi Linear。其核心是Kimi Delta Attention(KDA),这是一个新型的线性注意力模块,通过细粒度设计改进了门控delta规则。这一线性架构采用1:3的混合比例,在减少内存占用的同时超越了全注意力模型的质量。


尽管上述探索已在多维度验证了混合线性注意力架构的潜力,但大多数成果仍停留在中小规模。而在真实应用中,大模型需要直面万亿级参数、百万级上下文窗口、高并发推理等工程挑战。

因此,下一步的关键在于:将这些技术探索推向真正的超大规模模型,在工业级应用中系统验证其可靠性、可扩展性与经济价值。

三、万亿模型成试金石,效率与成本的终极验证

将混合线性注意力架构推向万亿参数量级的工程落地,正在稳步推进。

月之暗面创始人兼CEO杨植麟对混合线性注意力的前景表达了明确信心。他认为线性架构是一个非常值得探索的方向,其团队已在Kimi Linear等项目中积累了大量研究。

在下一代模型Kimi K3中,月之暗面计划在混合线性注意力架构的基础上,引入更多架构层面的优化。他相信,下一代模型Kimi K3就算没比K2.5强出10倍,也必然会“强得多”。

同样押注这一技术路线的蚂蚁百灵团队,已经接连交出两个万亿参数大模型。一个是超大型混合线性注意力架构模型Ling-2.5-1T,另一个是全球首个混合线性注意力架构的万亿参数思考模型Ring-2.5-1T。

在前期研究基础上,蚂蚁百灵团队通过增量训练方式构建了Ling 2.5架构。该架构将GQA+Lightning Linear升级为更高效的MLA+Lightning Linear组合,在进一步压缩KV缓存的同时,保留了模型的表达能力。

Ling 2.5架构采用1:7混合比例,还保留了QK Norm、Partial RoPE等核心机制,确保架构迁移过程中模型性能不发生退化。


在降本增效方面,Ling-2.5-1T仅需约6000个token的平均输出长度,即可完成前沿模型需要1.5万-2.3万个token才能胜任的复杂任务。其访存规模压缩至传统架构的1/10,生成吞吐量提升至3倍。

上述种种对混合线性注意力架构的探索,意义已不止于性能提升本身,而是在重新划定大模型的应用边界与商业形态。

试想一下,当推理成本显著下降、token使用效率持续优化,模型调用成本或许不再是限制其大规模落地的核心瓶颈。

随之而来的,是应用范式的自然转变。企业不再需要精打细算地“按需调用”模型,而可以将其作为一种默认能力嵌入到更多业务环节之中,实现更广泛、更深入的效率提升。

大模型在高频与实时场景中的角色可能因此发生变化,在搜索、推荐、智能客服等场景中,它们不再只是传统系统的补充模块,而是有望扮演核心驱动引擎,成为如同数据库、操作系统般默认存在的底层基础设施。

结语:从堆参数到拼工程,大模型广泛落地更近了

混合线性注意力架构的探索仍在不断深化,但这条路径注定不会一帆风顺。不同技术路线之间仍在反复博弈与验证,例如MiniMax在阶段性探索后选择回归全注意力模型,以优先保证复杂场景下的稳定性与可靠性。

不过,更深层的信号已经愈发清晰:大模型竞争正从“暴力堆参数”转向“工程效率的精算”。当行业逐渐形成共识,决定胜负的将不再只是规模本身,而是单位算力所能释放的有效能力。

架构层面的细微差异,最终会在企业级落地中放大为显著的成本优势与体验差距,并推动大模型从“可用”迈向“好用”,再走向真正的广泛普及。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这个被低估的水果,凭什么叫代谢超级食物?

这个被低估的水果,凭什么叫代谢超级食物?

心事寄山海
2026-04-24 08:58:36
日本一妈妈连生两个女儿均患怪病,俩姐妹以正常人5倍的速度衰老!19岁体重仅8.5公斤…

日本一妈妈连生两个女儿均患怪病,俩姐妹以正常人5倍的速度衰老!19岁体重仅8.5公斤…

东京新青年
2026-04-24 18:25:37
主场崩盘!国安2-4完败津门虎,赛后蒙哥马利怒批球员无心应战!

主场崩盘!国安2-4完败津门虎,赛后蒙哥马利怒批球员无心应战!

田先生篮球
2026-04-25 22:47:44
浙江足协:我们不怕技不如人,但怕看到迷茫的眼神和松散的队形

浙江足协:我们不怕技不如人,但怕看到迷茫的眼神和松散的队形

懂球帝
2026-04-25 22:23:26
他曾担任广东省委书记,被调任湖北省委书记时,却被年轻人代替

他曾担任广东省委书记,被调任湖北省委书记时,却被年轻人代替

老范谈史
2026-04-22 09:22:44
霍勒迪:双方都想赢所以都上身体,阿夫迪亚牙被打掉还被吹犯规

霍勒迪:双方都想赢所以都上身体,阿夫迪亚牙被打掉还被吹犯规

懂球帝
2026-04-25 17:59:18
吴六一平定宫变后才知道,康熙升他做九门提督,根本不是信他忠义

吴六一平定宫变后才知道,康熙升他做九门提督,根本不是信他忠义

芳芳历史烩
2026-04-25 05:32:10
49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

49岁翁帆高调露面!换造型惊艳全场,一句话让英国定居传闻破灭

一盅情怀
2026-03-16 16:58:07
北矿之王系列:不择手段(1/8)

北矿之王系列:不择手段(1/8)

金昔说故事
2026-04-25 20:45:19
台北买房无望,马筱梅吐槽北京房子旧,楼上装修太吵,人设崩塌了

台北买房无望,马筱梅吐槽北京房子旧,楼上装修太吵,人设崩塌了

八斗小先生
2026-04-17 11:14:22
退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

退休人员速查!1992年前干过这4类工作 每月多领一笔钱 别白吃亏

混沌录
2026-04-22 19:51:07
大泽乡起义成功后,陈胜为何要杀掉吴广,司马迁说出了其中的原因

大泽乡起义成功后,陈胜为何要杀掉吴广,司马迁说出了其中的原因

芳芳历史烩
2026-04-23 02:45:51
谁把东方甄选的主播们逼走了? 俞敏洪一天损失四员大将!主播明明等发公开信直指新管理层“不友好”

谁把东方甄选的主播们逼走了? 俞敏洪一天损失四员大将!主播明明等发公开信直指新管理层“不友好”

新浪财经
2026-04-25 18:08:34
那年帮邻村寡妇耕田,晚饭时她说:你帮了我好几年,今晚就留下吧

那年帮邻村寡妇耕田,晚饭时她说:你帮了我好几年,今晚就留下吧

星宇共鸣
2025-07-01 15:43:51
肠癌术后复查一切正常,三个月后肝上长满肿瘤,陪爸度过最后50天

肠癌术后复查一切正常,三个月后肝上长满肿瘤,陪爸度过最后50天

刘哥谈体育
2026-04-25 17:06:37
两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

两性关系:55-65岁这十年,惜命最好的方式,不是锻炼,而是这6点

周哥一影视
2026-04-17 06:45:59
真正有后劲的三大生肖!4月底靠自律攒下第1桶金,开启人生新起点

真正有后劲的三大生肖!4月底靠自律攒下第1桶金,开启人生新起点

毅谈生肖
2026-04-25 11:31:37
外交部一锤定音!赖清德没资格,郑丽文就算赢了选举也不认!

外交部一锤定音!赖清德没资格,郑丽文就算赢了选举也不认!

果妈聊娱乐
2026-04-25 13:48:35
王平河系列:北海风起结局

王平河系列:北海风起结局

金昔说故事
2026-04-24 23:21:37
“替父出征”夏卡武与洪森“心乱如麻”:柬埔寨王位暗战终局将至

“替父出征”夏卡武与洪森“心乱如麻”:柬埔寨王位暗战终局将至

民间平淡生活
2026-04-25 03:02:36
2026-04-25 23:23:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11685文章数 117047关注度
往期回顾 全部

科技要闻

DeepSeek V4发布!黄仁勋预言的"灾难"降临

头条要闻

台媒:毛里求斯表态戳破台当局谎言

头条要闻

台媒:毛里求斯表态戳破台当局谎言

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《我们的爸爸2》第一季完美爸爸翻车了

财经要闻

90%订单消失,中东旺季没了

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

健康
房产
教育
艺术
旅游

干细胞如何让烧烫伤皮肤"再生"?

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

教育要闻

吴欣歆:整本书阅读的五种基本策略

艺术要闻

服了!苏州20栋“墓碑楼”,出自英国设计师之手

旅游要闻

珠海梦幻水城今日开园,五一“湿身”派对提前锁定

无障碍浏览 进入关怀版