网易首页 > 网易号 > 正文 申请入驻

深度解析:MiniMax M2为何选择全注意力机制?

0
分享至


自 MiniMax M2 发布以来,全球开发者社区的热度持续攀升。短短几天内,M2 便跃升为OpenRouter 全球调用量前三HuggingFace Trending 榜单第一的模型,并成为OpenRouter 上首个日 Token 消耗量突破 500 亿的中国模型

然而,当 M2 被迅速推上聚光灯后,一个问题也随之浮出水面:在整个行业几乎一致押注Efficient Attention的当下,为什么 MiniMax 却选择了看似“保守”的Full Attention路线?

不久前,M2 的预训练负责人孙昊海用一篇长文回应了这些质疑,把他们过去一两年在结构探索、评测体系、基建改造上的经历摊开给社区看。

本文会试图顺着那篇原文,梳理清楚这件事的前因后果。在今天的工业级 LLM 语境里,“效率”到底意味着什么,“结构创新”究竟卡在了哪里。


风口上的 Efficient Attention 与 M2 的逆行

先看大背景。

过去两年,大模型的叙事从“能不能对话”一路走到“能不能长文本、能不能便宜、能不能全天候跑在线上”。长上下文、Agent、多模态、代码与数学推理这些场景不断堆叠,大家很快发现一个残酷事实。

算力永远不够用。

在这样的压力下,Efficient Attention 自然而然成为风口:Linear Attention 用结构改写复杂度公式,Sparse Attention 用稀疏模式节省算力,Hybrid 架构试图两头兼顾——在论文和小规模实验里,它们都给出了足够动人的故事。

于是,当 MiniMax M2 宣布核心架构回到 Full Attention 时,质疑声几乎是本能反应:

在一个“人人都在讲效率”的时代,为什么有人选择“走回头路”?

在论文的世界里,一个 Attention 结构的好坏,往往可以通过一组 benchmark 或复杂度公式来讲清楚;但在一个真实的大模型产品里,Attention 只是整个链路中的一环,而且是被 Code / Math、多轮对话、Agent 编排、多模态输入、长链思维、RL 调优、低精度推理、Speculative Decoding、在线 cache 等一整套系统约束“夹击”的那一环。

换句话说,结构设计已经从一个“数学题”,变成了一个“系统工程题”。原文反复强调的一点是,工业系统里,所有结构创新最终都要接受三件事的拷问:

  • 效果——各种任务上的综合表现,尤其是复杂推理与真实业务场景;

  • 速度——线上 TPS,是否能支撑规模化 Agent、工具调用与多模态交互;

  • 价格——综合训练 + 推理算力成本下,能否给用户足够有竞争力的报价。

在这个框架下,看 Efficient Attention 的问题就变了味。它不再是“能否把复杂度从 O(n²) 变成 O(n)”这么简单,而是:在真实业务负载和工程约束下,它是否真的有“性价比”?

原文的回答非常坦诚:就当前阶段来看,Efficient Attention 离这个目标还有明显距离。


评测体系的失真:榜单刷满分,不等于结构正确

过去几年,MMLU、BBH、Math、LongBench 等榜单不断涌现,每一个诞生之初,都声称更接近“真实能力”;但事实证明:只要一个榜单足够流行,就一定有人“把它刷爆”。

对结构创新来说,这会带来一个极危险的假象。

在小模型规模、有限 benchmark 上,某种 Linear / Hybrid Attention 可能表现得完美无缺,甚至看起来“完全不输 Full Attention”;但当模型规模拉大、场景变复杂,尤其是落到多跳推理、复杂 Agent 任务和极端长上下文时,问题才会慢慢浮出水面——而那时,训练成本已经砸下去了。

原文举了一个典型经验。在早期的 MiniMax-Text-01 阶段,一套 Hybrid 架构在当时主流榜单上表现很好,看起来似乎“找到了免费午餐”;然而当规模扩展之后,复杂多跳推理任务出现了肉眼可见的缺陷,逼得团队不得不重做代理指标、重建评测链路。

更棘手的是,指标本身也会随规模而“失效”

在小模型上能指示结构优劣的特征,到了大规模模型上可能不再有意义:数据分布在变,学习到的 Pattern 在变,优化器和训练范式也在变。结构创新像是在走一条“黑箱楼梯”——你永远不知道下一层台阶是向上,还是突然塌陷。

从这个角度看,M2 回到 Full Attention,不只是结构选择,更是对当前评测体系的一次现实判断:在缺乏可靠、便宜、可扩展的观测手段之前,贸然大规模上 Efficient Attention,很可能是用真金白银验证一个不稳定的假设。


基建视角:谁才是真正“省钱”的 Attention?

原文的另一个关键视角,是把 Attention 结构放回到“基建”这个维度上来看。

这几年,整个生态在 Full Attention 上已经砸下了海量工程资源。框架、编译器、内核、推理引擎、Cache 机制、Speculative Decoding 策略……几乎所有底层优化都默认了这一套计算模式,并围绕它做到极端压榨。

相比之下,Linear / Sparse / Hybrid Attention 在基建层面的成熟度,其实远远落后。

MiniMax 的经验是:不少线性结构在训练阶段本身就是访存 bound,GPU 利用率并不高——也就是说,从“单步计算”的复杂度公式看起来很漂亮,但在真实硬件、真实 IO 条件下,并不一定比高度优化的 Full Attention 更省。

推理端更明显。理论上,Linear Attention 的优势,是在上下文长度足够长时,以更低复杂度撑住更长的序列。但原文给出的判断是:在今天的大模型规模与常见业务请求分布下,理论交点通常落在“几千 token”的长度上,而大部分真实请求的上下文长度,未必长期在这个区间。

更现实的问题则是:

  • Linear Attention 对数值精度更敏感,低精度存储与计算需要额外设计;

  • 现有业务对 Prefix Cache 的依赖极强,线性结构下要重建一整套高命中率的缓存逻辑;

  • Speculative Decoding 已经深度绑定了 Full Attention 的行为假设,要在 Linear 架构下重新设计,几乎等于“重造一遍推理栈”。

也就是说,如果只看论文里的复杂度公式,很容易高估 Efficient Attention 的短期收益。

真正算上基建成本、训练迭代成本、线上维护成本,Full Attention 反而在当下阶段呈现出一种“工程上的确定性红利”。


M2 的选择:一次从 M1 教训出发的“延迟创新”

要理解 M2 的决策,还得把时间线往前拉一点。

在前期,MiniMax 已经做了大量结构实验,包括 Lightning Attention、Hybrid 架构以及更激进的 SWA 混合方案。很多尝试在论文视角下都算得上“优雅”:层间混合、层内混合、CPT 过渡成 Hybrid SWA……逻辑上很顺、复杂度公式也动人。

但实际结果非常现实:Context 越长,性能下降越严重,尤其在 Agent 场景下几乎难以接受。

事后的分析认为,这与模型在预训练早期就已经形成的全局 Attention Pattern 密切相关,例如 retrieval head、induction head 等;这些 Pattern 一旦在 Full Attention 下收敛,后续通过 CPT 很难被线性化结构重新塑形。

从理论上讲,如果能构建出足够聪明的数据探针,把关键 head 精准挑出来并保留 Full Attention,确实可能缓解问题;但在实际工程中,靠人类先验去挖这些 Pattern,既不现实也不稳定。

这就是“前因”。一轮轮在结构创新上的试错,让团队意识到——在当前评测、基建和算力环境下,大规模押注 Efficient Attention 的风险非常高。

于是才有了“后果”。在 M2 上回到 Full Attention,把主要精力投入到数据、训练范式、RL 与推理系统的打磨上,同时继续在“边缘”和“实验线”推进 Efficient Attention 的探索,为未来做准备。

从这个角度说,M2 的架构并非“保守”,而更像是一种延迟兑现的创新策略。先用稳定、确定的结构盘好当前产品和商业化节奏,把风险更高的结构创新放到更合适的时间窗口去收割。


技术理性与工程诚实,对行业意味着什么?

它真正指向的是一个更大的命题。当大模型从实验室走向全天候在线服务时,技术决策的重心正在从“结构想象力”,迁移到“系统理性”与“工程诚实”。

一方面,论文里的复杂度、榜单上的分数,只是创新的起点,不是终点。真正决定技术路线成败的,是评测体系是否可靠、基建是否匹配、系统是否可控。

另一方面,Efficient Attention 的时代大概率会到来,但那是一个关于时间轴和准备程度的问题——需要硬件、数据、评测、工程四条线一起成熟,而不是靠“一篇论文 + 一次发布会”来强行提早启动。

在算力有限、业务多变、结构探索仍处早期的当下,比“效率”更稀缺的,是可预期、可解释、可维护的确定性。

参考文献:

我们相信认知能够跨越阶层,致力于为年轻人提供高质量的科技和财经内容。

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。

我们正在招募新一期的实习生

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
高市拒绝撤回谬论,不到48小时,中方深切哀悼,日本重要人物逝世

高市拒绝撤回谬论,不到48小时,中方深切哀悼,日本重要人物逝世

博览历史
2025-11-12 16:50:23
全运会乒乓球:决赛名单诞生,世界冠军3-4出局,樊振东再剃光头

全运会乒乓球:决赛名单诞生,世界冠军3-4出局,樊振东再剃光头

知轩体育
2025-11-13 11:47:42
演员张艺洋已执行死刑!中国娱乐圈首例,倪大红、李雪健被牵连

演员张艺洋已执行死刑!中国娱乐圈首例,倪大红、李雪健被牵连

阿纂看事
2025-07-25 17:12:19
热搜!“取4万元现金遭银行盘问并报警”,网友炸锅!上海情况如何

热搜!“取4万元现金遭银行盘问并报警”,网友炸锅!上海情况如何

新民晚报
2025-11-13 15:12:53
狗咬人被摔死,狗主人上门理论被反杀,案件今日开庭

狗咬人被摔死,狗主人上门理论被反杀,案件今日开庭

澎湃新闻
2025-11-13 10:58:13
冠中冠第三日战报:塞尔比绝杀马威晋级四强,肖国栋晚十一点登场

冠中冠第三日战报:塞尔比绝杀马威晋级四强,肖国栋晚十一点登场

夜深聊球
2025-11-13 21:51:39
王楚钦晋级全运会男单四强,半决赛将迎战樊振东!最新回应:去向东哥学习

王楚钦晋级全运会男单四强,半决赛将迎战樊振东!最新回应:去向东哥学习

大象新闻
2025-11-13 22:46:28
传奇归来!退役AV女优高桥圣子再现日本杂志

传奇归来!退役AV女优高桥圣子再现日本杂志

随波荡漾的漂流瓶
2025-11-12 15:55:58
陈伟霆妈妈到北京看孙子儿媳,何穗晒产后美照,哺乳期特征很明显

陈伟霆妈妈到北京看孙子儿媳,何穗晒产后美照,哺乳期特征很明显

阅识
2025-11-12 14:24:18
卡森:瓜帅是改变守门员角色的关键人物;埃德森的全面性无可挑剔

卡森:瓜帅是改变守门员角色的关键人物;埃德森的全面性无可挑剔

懂球帝
2025-11-13 22:06:12
深度|维尼修斯还是姆巴佩?阿隆索还没有搞明白谁才是皇马真核

深度|维尼修斯还是姆巴佩?阿隆索还没有搞明白谁才是皇马真核

K唐伯虎
2025-11-13 08:05:17
15岁男孩被骗柬埔寨后续:园区态度嚣张,赎人条件曝光,父母崩溃

15岁男孩被骗柬埔寨后续:园区态度嚣张,赎人条件曝光,父母崩溃

以茶带书
2025-11-12 15:54:54
国米花4280万欧法甲刮彩票失败 计划冬窗出售恩里克+迪乌夫

国米花4280万欧法甲刮彩票失败 计划冬窗出售恩里克+迪乌夫

智道足球
2025-11-13 21:15:45
离婚六年偶遇前岳母在卖菜,我塞给她两万块,隔天前妻的快递到了

离婚六年偶遇前岳母在卖菜,我塞给她两万块,隔天前妻的快递到了

涛哥讲堂
2025-11-11 16:00:58
500美元买废仓库盲盒,打开是750万巨款?!原主出120万赎回,他真还了...

500美元买废仓库盲盒,打开是750万巨款?!原主出120万赎回,他真还了...

英国那些事儿
2025-11-12 23:20:59
花两千多住上海世茂深坑酒店,清晨被隔壁房间直播吵醒,酒店致歉

花两千多住上海世茂深坑酒店,清晨被隔壁房间直播吵醒,酒店致歉

极目新闻
2025-11-13 14:53:53
王自如被恢复执行1.94亿

王自如被恢复执行1.94亿

界面新闻
2025-11-13 12:41:45
离世爱猫托梦已投胎,主人发帖寻新主人,与“转世”小猫奇迹重逢

离世爱猫托梦已投胎,主人发帖寻新主人,与“转世”小猫奇迹重逢

Magic宠物社
2025-11-09 21:35:04
天津65岁男子冠脉造影手术顺利,4小时死亡,医生:犯了致命错误

天津65岁男子冠脉造影手术顺利,4小时死亡,医生:犯了致命错误

健身狂人
2025-11-13 13:13:57
日本记者:必须驱逐薛剑,要在100多年前,我们就直接打过去了

日本记者:必须驱逐薛剑,要在100多年前,我们就直接打过去了

历史有些冷
2025-11-12 20:20:03
2025-11-13 23:27:00
呼呼历史论
呼呼历史论
分享有趣的历史
258文章数 15613关注度
往期回顾 全部

科技要闻

月产能突破百万片,中芯国际Q3净利增43.1%

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表 警方介入

头条要闻

网红博主称从柬飞北京丢失350万元手镯手表 警方介入

体育要闻

跟豪门传了十年绯闻,他却偏要“择一队终老”

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

家居
房产
本地
公开课
军事航空

家居要闻

莫奈时间 重构先锋概念

房产要闻

8200元/㎡!海口宝龙城,彻底杀疯了!

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国在委内瑞拉海岸动用无人机和F-35

无障碍浏览 进入关怀版