请记住 MiniMax M1：MiniMax 用自己的方法追上R1们，直奔最强Agent模型而去|算法|预训练|agent|深度思考模型|minimax

请记住 MiniMax M1：MiniMax 用自己的方法追上R1们，直奔最强Agent模型而去

2025-06-18 09:44:40　来源: 硅星人

北京举报

分享至

　　作者｜王兆洋
邮箱｜ wangzhaoyang@pingwest.com

　　要不要完全跟随 DeepSeek？

　　这是每个仍想自己追逐基础模型圣杯的公司，在过去半年里一直面对的灵魂拷问。

　　而 MiniMax 的答案很清楚，它要走自己的路。

　　6月17日，MiniMax 发布了新模型MiniMax M1。这是一个继续激进地使用线性注意力 Lightning Attention机制的模型，同时它还巧妙地找到一种方式，将这种激进的预训练机制带来的长文本能力用到后训练阶段，提出一种全新的强化学习技巧，从而大幅提高了模型的推理能力。

　　按照MiniMax的形容，这是“世界上第一个开源的大规模混合架构的推理模型”。这些技术创新让它有业内最高的性价比——

　　整个强化学习阶段只用到512张H800 GPU，只需三周的时间训练完成，也就是租赁成本只有53.47万美金。

　　显然，MiniMax M1 让 MiniMax 迎来了一个类似 DeepSeek R1 的关键时刻。

　　基座模型里久违的新鲜感

　　MiniMax M1 是近期各种模型中，彻底开源且公开了自己最多新方法的一个，无需先去讨论它的评测成绩，仅从这些技术创新上就足够吸引人。

　　这是模型层面久违了的新鲜感。

　　与此前发布的 MiniMax-01 系列相同，它继续使用线性注意力Lightning Attention与传统 softmax attention注意力相结合的混合结构。配比依然是7:1，每7个 Lightning Attention 模块插入1个传统 Transformer 模块。

　　如我们在报道MiniMax-01系列时所介绍，传统Transformer使用的Softmax注意力，需要为此构建一个N×N 的全连接矩阵，对于超长序列，这个矩阵会非常庞大。而 Lightning Attention 这样的线性注意力机制则是进行“分块计算”（tiling），先计算块内部的词之间的关系，然后再传递块与块之间的信息，最终可以捕捉到全局语义关系。

　　一个便于理解的类比是，如果把完全基于Softmax的传统架构看作看书时候每个字都看，那么混合架构类似是挑重点看，然后偶尔看一下目录对照一下整体。效率高了很多。它会大大减少计算和内存需求，从传统 Softmax 注意力的平方复杂度降低为线性。

　　根据M1 的技术报告，“它有一个显著的优势是支持目前业内最高的100万上下文的输入，跟闭源模型里面的 Google Gemini 2.5 Pro 一样，是 DeepSeek R1 的 8 倍，以及业内最长的8万Token的推理输出。”

　　8倍，夸张的提升。DeepSeek R1 目前的输入长度是128K ，输出为64K 。

　　在混合架构上，M1在01基础上用更大的7.5T token的数据集做了进一步训练，而对于M1来说，更重要的是这种混合架构基础天然适合用来训练一个推理模型。

　　“这种混合架构设计在理论上能有效地将推理长度扩展到数十万个标记。”技术报告称。而且是以一种更加高效的方式实现——与DeepSeek R1 相比，M1在64k token 长度的FLOP不到50%，100K token 长度更是只有25%。FLOP即每秒浮点运算次数，用来体现算力。

　　但要实现这一效果，不是仅仅使用了混合框架就可以做到的。反而，这种新框架在理论上有优越性，但还没有人在大规模生产环境里真正实现过。这意味着在后训练阶段，也需要有匹配这种新架构的创新。

　　MiniMax 在M1 的训练中，创新了一种名为 CISPO（Clipped IS-weight Policy Optimization）的全新强化学习方法：

　　过往为了训练的稳定性，以及由于模型上下文长度能力的限制，在强化学习过程里会采取裁剪token的做法，把那些看起来不那么重要的token给裁剪掉。

　　但这导致了一些虽然看起来不重要——往往是因为出现频率低，但其实对于思考能力，尤其是更复杂的自我反思等推理能力很关键的token。

　　比如，However, Recheck, Wait, Aha这样明显带有反思和转折含义的词汇，这些词汇对于引导模型进行深入推理和修正思考路径具有关键作用。但在过往的方法里可能就被抛弃了。

　　CISPO放弃了直接裁剪 token 的做法，而是保留所有 token 的更新，只裁剪 importance sampling 权重，从而更好地保留了长推理链条中的关键转折点，提高了学习效率与稳定性。

　　实验显示，CISPO 算法的强化学习收敛速度达到现有主流方法的两倍以上——“在AIME 的实验中，我们发现这比包括字节近期提出的 DAPO 等强化学习算法收敛性能快了一倍，显著的优于 DeepSeek 早期使用的 GRPO”。报告中提到。

　　MiniMax 用自己的方式越过大山

　　在这些看起来很激进的创新背后，MiniMax 却并不是纯粹地在做实验，它这些改进充满了工程落地和实际提供服务的考量。这都体现在它的评测表现里。

　　MiniMax M1在业内主流的 17 个评测集上具体的结果如下：

　　在 AIME 2024 数学奥赛中，MiniMax-M1-80k 达到 86.0%的成绩，仅次于 DeepSeek R1-0528（91.4%）；而在真实代码修复的 SWE-bench Verified 测评中，成绩达到 56.0%，与 DeepSeek R1-0528 的 57.6% 非常接近，并明显领先于其他开源模型。

　　在长文本理解的 OpenAI-MRCR（128K）评测中，M1 达到 76.1%的高分，甚至超过了闭源的OpenAI o3 和 Claude 4 Opus，仅次于 Gemini 2.5 Pro。

　　从测评表现来看，它比 DeepSeek R1 等模型更加贴近真实场景的需求。

　　“与最新的 DeepSeek-R1-0528 模型相比，MiniMax-M1 在数学和编码竞赛中落后，但在更现实的工具使用和长上下文场景中实现了可比或更优的性能。值得注意的是，MiniMax-M1 在代理工具使用基准 TAU-Bench上优于 Gemini 2.5 Pro，并在长上下文理解基准上超过了 OpenAI o3 和 Claude 4 Opus。通过有效的测试时间扩展，我们认为 MiniMax-M1 为下一代语言模型Agent解决现实世界挑战奠定了坚实的基础。”报告里提到。

　　关注 AI 落地进展的人们会立即意识到，这些指标明显指向了 MiniMax M1 背后的真正野心与方向：成为面向真实世界解决复杂生产力场景需求最强的模型，进而最终打造一个最强的 AI Agent 系统基座。

　　今天AI agent的爆发已经是实实在在正在发生的事情，这些agent需要更长的上下文，需要更长的推理时间，需要更便宜的价格。它们需要MiniMax M1这样的模型。

　　在此前MiniMax-01系列发布时，MiniMax官方就曾表示，“我们希望这个模型能为接下来的AI Agent爆发做出贡献。”

　　而很多时候关键创新就是这样接踵而来的。

　　MiniMax-01作出的生产环境里最激进的一次线性注意力的引入，带来了长文本的能力，在推理模型变成竞争重地的今天，给强化学习过程带来了新机会，从而带来了CISPO的出现。最终两个技术创新共同让MiniMax M1性能提升且成本大降。当然，别忘了还有在MiniMax 01时就提到过的，它直接自己从零开始开发的适合线性注意力的CUDA 内核，相应的各种配套的框架，以及把硬件榨干到极致的软硬件结合的技术。

　　这也是一个MiniMax十分熟悉的过程，这个在ChatGPT出现之前就已经投入到大模型技术研发里去的公司，习惯于根据自己对技术演进的判断做重投入、甚至全员扑上去做带有赌注意味的创新。这自然会让它遇到了一系列前所未见的新问题。

　　这也体现在此次M1的细节里：

　　比如，当 Lightning Attention 带来了更长的推理空间时，也首次出现了训练与推理阶段的精度不匹配问题，倒逼团队不得不更深入地理解模型内部运行机制，在输出头部统一了计算精度；

　　当训练过程中发现复杂的提示可能诱导有问题的长且重复的响应、威胁模型稳定性时，MiniMax 果断决定“先发制人地终止这些生成循环，而不是事后惩罚已经重复的文本”；

　　在合成数据这一被外界视作关键训练环节上，M1 训练的实际表现却指向了另一种可能——无论是在预训练阶段，还是后训练的长达80K输出的模型训练阶段，它都主动降低甚至完全避免了合成数据的使用。这也很可能会引发行业跟进的讨论。

　　这些观察与应对，呈现出一种类似 OpenAI、Anthropic 和 DeepSeek 等在做开创性研究时的味道——这些来自新训练技巧所带来的模型内部机制观察，非常有趣且重要，因为它们往往就是取胜的关键。

　　在模型基本训练技巧日趋透明的今天，最终的竞争必然回归到这些关键细节，以及对模型内部运转机制更深刻的理解之上，它们积少成多，最终构成模型的护城河。第一个直面并解决这些新问题的团队，将对这些技巧拥有最深刻的理解，而这正是坚持自己训练模型的最大意义。

　　沿着 DeepSeek 指引的路，努力复刻并无限逼近它的效果，当然是一种选择。在 DeepSeek R1 的巨大冲击之后，许多仍在进行预训练的公司正选择这样的跟随路径。

　　但 MiniMax M1 显然走的是另一条截然不同的道路：它是一个典型的“只有 MiniMax 能做出”的模型。在预训练阶段坚定地走线性注意力架构路线，并因为这种大胆的架构探索，激发并驱动了强化学习方法的创新，最终实现了预训练架构和后训练技巧在深度推理能力上的完美汇合与相互成全，彼此推动，共同使模型实现跨越式进步。

　　这绝非最容易的路，但如果你相信 AI 是一次前所未有的一生一次的机会，那它本就应当是星辰大海，今天的格局还远远未定呢。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.