MiniMax M3发布：百万上下文推理成本削至1/20|编程|新论文|minimax

MiniMax M3发布：百万上下文推理成本削至1/20

2026-06-01 18:14:52　来源: 全栈遛狗员

北京举报

分享至

处理一份百万token长度的技术文档，模型单次推理的算力消耗从“一辆卡车”变成了“一个背包”——这个听起来有点夸张的效率跃迁，在6月1日MiniMax发布的新模型M3上成了现实。该公司给出的数据是，在100万上下文规模下，M3单token计算量仅为上一代模型的约1/20，直接把长文本处理的成本曲线掰弯。

M3的核心秘密是一套名为MiniMax Sparse Attention（MSA）的自研稀疏注意力架构。与传统全注意力机制每个位置都要相互“打招呼”不同，MSA只在关键节点间建立连接，大幅砍掉了长上下文中的冗余计算，同时将上下文窗口拉到了100万token。这背后还有一层推理算子的底活——MiniMax重新设计了数据读取与计算路径，让相关性能相比主流开源方案提升了4倍以上。

靠着这套架构，M3成了国内首个同时集齐“前沿编程能力、1M超长上下文、原生多模态”三项技能的大模型，并且是目前全球唯一以开源姿态拿出这个完整组合的选手。用MiniMax自己的话说，就是三个条件必须同时满足，少一个都不算真·全能。

具体的评测成绩也摆上了台面：在编码能力测试SWE-Bench Pro上，M3压过了GPT-5.5和Gemini 3.1 Pro，紧追Opus 4.7；在综合评估SVG生成性能的SVG-Bench上，则直接把Opus 4.7甩在身后。多模态文档理解测试OmniDocBench里，M3得分超过Gemini 3.1 Pro；而在专门考验自主智能体的端到端评测框架Claw-Eval上，M3直接登顶。

这些成绩的推手之一，是MiniMax在编程与智能体训练中引入的交互式用户模拟器框架。简单来说，就是训练阶段让模型跟一个虚拟的“真实开发者”搭档干活，模拟实际协作中的需求变更、多轮对话、代码调试等场景，让模型从一开始就习惯应付混乱的现实世界，而不是只会在干净数据上拿高分。

多模态能力同样从训练起点就开始渗透。M3采用了文本、图片、视频混合训练，并进一步扩大了数据规模和训练管线。除了看懂图像和视频，它还学会了操作桌面——能在跨应用环境中执行Computer Use任务，比如从邮件里捡附件、转存到云盘、再同步到项目管理工具，整条链跑通。MiniMax合伙人说，AI进入实际执行层的速度比他们去年预期的要快得多。

与M3同天露面的还有MiniMax Code，一套专为M3设计训练的智能体产品。面对长程复杂任务，它的Agent Team能把大目标拆成多阶段、可并发、可动态调整的工作流，由一群Agent分头协作推进。这就好比一个项目经理把需求切成小块，分给前端、后端和测试同时跑，中间还能根据进展随时调兵遣将。

在闭源巨头们把持着最强推理和代理能力的当下，M3用“开源+全能”的姿态切入了对数据隐私极度敏感、又对智能体性能要求极高的企业客群。毕竟，金融、政务、制造这些领域的决策者，很难接受把核心数据喂进一个黑箱模型，哪怕那个黑箱再聪明。MiniMax的差异牌，打的正是这个心理缝隙。

商业化的脚步也跟得很紧。同步推出的Token Plan订阅方案把使用成本拉进了“百元时代”：Plus版月费49元，给6亿token；Max版119元换18亿token；Ultra版469元包55亿token。对开发者来说，这相当于花一顿火锅钱就能让模型帮自己读几十本长篇小说量的文档，性价比的算盘打得噼啪响。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.