网易首页 > 网易号 > 正文 申请入驻

MiniMax M3来了!

0
分享至



编辑|Panda、冷猫

MiniMax M3来了,而且很震撼!



看到 MiniMax M3 的发布公告,我们第一反应不是「又一个国产模型」,而是:Frontier 三件套同时开源,这是真的吗?

按照 MiniMax 的定义,Frontier 三件套是指三项模型能力:前沿 Coding/Agentic 能力百万 token 级长上下文窗口原生多模态

在此之前,能同时满足三项的只有 Claude Opus 4.7、Gemini 3.1、GPT-5.5 这类头部闭源模型。而 MiniMax M3 宣称自己是第一个做到这一点的开源模型(模型权重将在几天后与技术报告一起发布),并且也是第一做到这一点的国产模型。

这个命题太大,得自己验证才放心。于是我们直接上手,带着三个问题去验证:Coding 和 Agentic 能力到底能不能打?1M 上下文是不是真好用,还是只是数字?多模态理解对实际工作任务有没有帮助?

先说结论:比我们预期的要强,并且 Frontier 三件套都很强。

首个集齐 Frontier 三件套的国产和开源模型

要理解这件事的意义,我们需要先厘清「Frontier 三件套」这个概念为什么重要。

过去两年,顶级闭源模型之间的竞争,逐渐收敛出一套事实标准:要想被认为是真正的前沿模型,必须同时具备三项能力:

  • 强大的 Coding/Agentic 能力(能接管真实软件工程任务)
  • 超长上下文窗口(百万 token 级)
  • 原生多模态(从预训练阶段开始融合视觉信息,而非事后接插件)

三者缺一,在真实复杂任务上就会露出明显短板。

MiniMax M3 是第一个把这三块拼图同时拿到手的国产开源模型。

前沿 Coding 与 Agentic 能力

从官方披露的基准数据看,M3 的 Coding 表现已属国际第一梯队:SWE-Bench Pro(衡量真实软件工程任务解决能力)59.0%,超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7;Terminal Bench 2.1 得分 66.0%;KernelBench Hard 28.8%;面向自主 Agent 端到端评测的 Claw-Eval 上,M3 排名第一。



但数字之外,还有一个更值得关注的细节。M3 不仅能生成代码,还能在长线程任务中持续迭代、自我验证、拒绝放弃

在 MiniMax 内部的 CUDA 算子优化测试中,他们让 M3 从一份残缺的 Triton 骨架出发,在 NVIDIA Hopper 架构 GPU 上独立优化 FP8 矩阵乘法 kernel。这类任务通常需要资深团队一两周集中投入。M3 自主运行约 24 小时,完成了 147 次 benchmark 提交和 1959 次工具调用,将硬件峰值利用率从 7.6% 推进至 71.3%,实现 9.4 倍加速。



更耐人寻味的是,M3 的最优解出现在第 145 次提交。在此之前,模型经历了多个性能「平台期」,但没有选择退出,而是继续探索新的优化路径。相比之下,其余大多数模型在前 30 次提交后便主动停止。这种「坚持探索」的行为,在某种程度上比单次代码生成的质量更能说明问题。

训练侧,MiniMax 构建了一套「交互式用户模拟器框架」,让模型在训练阶段就接触到接近真实生产环境的协作场景:不只是单轮指令执行,而是需要在同一个 Session 里持续澄清需求、根据反馈调整方案、跨任务切换。这使得 M3 的 Agent 能力更贴近真实使用体验,而非只是针对 benchmark 调优。

100 万 token 上下文窗口

100 万 token 的上下文窗口意味着什么?大约相当于 15 本普通长篇小说的文字量,或数万行代码加上完整的项目文档。对于律师审合同、研究员分析学术文献、开发者排查大型代码库来说,这是质的跃升,而非量的叠加。

更重要的是,100 万 token 上下文是一项基础设施。所有长程 Agent、长视频理解、复杂多轮协作任务,都建立在它之上。没有这个底座,很多「高阶能力」在实际应用中根本站不住脚。

原生多模态

M3 的多模态不是「事后接入」的视觉模块,而是从训练第一步起就混合了文本、图文交织(Interleaved)数据、图文对(Caption)和视频数据。这种原生路线让文本与视觉的语义空间高度对齐,处理需要同时理解公式图表、代码注释、实验结果的复杂任务时,表现更为自然流畅。

整体预训练数据规模已扩充至100T(百万亿)token 量级

我们上手测了测

数据这么强,实际表现又如何呢?带着最初的三个问题,我们直接上手测试。

首先,针对 Coding 与 Agentic 能力,我们直接使用 MiniMax Code,选择 MiniMax M3 模型,然后给它委派了一个有点「刁难」性质的任务:调研目前主流 LLM 提供商的 token plan(至少包含 OpenAI、Anthropic、MiniMax、DeepSeek),将数据整理后构建一个网页比价工具,对比各家的 token plan。

这个任务的难点不是写代码,而是「信息获取+工程实现」的完整链路必须一气呵成,中间如果卡壳就得来问我们。

M3 没有来问我们。它自主检索了各家定价页面、完成数据整理,并交付了一个网页比价工具。而让我们没想到的是,它还自作主张加了几个原本提示词里没有要求的功能:分组对比、汇率换算、主题切换。这不是「按要求完成任务」,这是「把任务做得比要求更好」。



可以看到,MiniMax 的 token plan 定价相当有竞争力,其中Max 套餐在 token 单价指标上被认为是当前市场上最划算的方案

接下来我们想试试 M3 对多模态输入的理解能力,以及它在创意性 UI 构建上的表现。于是把 M3 接进了我们自己的 Claude Code 环境,下了一道稍微有点异想天开的指令:构建一个可爱的音乐播放器,它的背景是我提供的猫图片,并且让猫跟随我的光标转动。它不仅能播放本地音乐,还能自动检索当前播放音乐的专辑封面和歌词。

音乐播放、专辑封面、歌词检索,全部实现。M3 还自己加了一个点击歌词可以直接跳转到对应播放节点的功能,这个我们没要求,它判断加上的。界面配色也是直接从猫图片里提取的,看起来相当协调 —— 这是多模态能力在发挥作用,不是凑巧。

最后是我们私心测得最认真的一项,因为它和我们的日常工作直接相关:能不能把一段视频直接变成一篇像样的报道?

我们丢给 M3 一个 40 分钟、270MB 大小的视频文件 ——Andrej Karpathy 的《AI 时代的软件》演讲,以及一句提示词:读取分析文件夹中的 Kaparthy 演讲视频,将其中的内容整理成一份 5000 字左右的媒体报道文章。注意适当划分章节,还要给文章搭配上合适的配图,使用视频中的截图即可。

没有大纲,没有格式要求,没有样例参考。就这一句话,剩下的全交给 M3。



16 分钟的处理之后,我们得到了一个 md 文件和一个图片文件夹,看看效果:



M3 生成的报道文章节选,上下滑动查看

我们翻完第一遍的反应是:…… 这好像能直接发?

章节结构清晰,截图选取和段落节奏对得上,没有那种一眼就能认出来的「AI 腔」。对媒体编辑来说,最高的评价不是「写得很好」,而是「不用改」。这篇基本达到了这个标准。

或许很快,你就能看到 MiniMax M3 出现在我们的作者署名中 —— 让人很兴奋,也让我们有点慌……

技术解读

MSA 架构创新:让上下文可被 Scale

MiniMax M3 支持 1M 上下文窗口,背后是一个全新设计的注意力模块:MiniMax Sparse Attention(MSA)



标准 Transformer 使用的全注意力机制,要求每个 token 都和序列中所有其他 token 做一次交互计算。这意味着上下文从 32K 扩展到 1M 时,计算量会膨胀近 1000 倍。这就是为什么过去大多数模型的上下文窗口被卡在 128K 以内。

要让百万级上下文真正可用,必须从最底层的注意力机制入手,让模型学会「有选择地看」。

MSA 属于稀疏注意力(Sparse Attention)的范畴,是一种 Blockwise Sparse Attention,简洁且易于扩展。

目前业界已有多种稀疏注意力方案,比如 DeepSeek 的 DSA 和 Kimi 的 MoBA。它们的共同思路是把长序列的 KV cache 切成若干块,然后用某种打分机制选出最重要的块。

MSA 的做法也是分块,但在「怎么分」和「怎么选」上做了更精细的设计。具体来说,MSA 对 KV 的分块粒度更精确,能够更好地覆盖有效上下文。打个比方:如果把百万 token 的上下文想象成一本厚书, MSA 可以按段落级别精准定位,既不会遗漏关键信息,也不会在无关内容上浪费算力。

在算子层面,MiniMax 也做了直接优化:采用以 KV 块为外层来聚合命中 query 的 KV outer gather Q 策略。每块只读一次、访存连续,在 M3 的 head 配比下计算访存比显著优于通行方法,比开源的 Flash-Sparse-Attention、FlashMoBA 快 4 倍以上。

效率提升的数据非常直观:

  • 在 100 万上下文下,M3 每 token 计算量仅为上代模型的 1/20
  • Prefilling 阶段加速超过 9 倍
  • Decoding 阶段加速超过 15 倍

训练侧同样值得关注。通过优化训练过程中的梯度流,MSA 在整个训练过程中没有出现任何 loss spike,并支持原生 32K 乃至更长上下文的预训练。多组对照实验中,MSA 的绝大部分能力与 full attention 打平。

1M 上下文本身就是一项基础设施。后面所有长程 Agent、长程 Coding、长视频理解能力,都建立在它之上。

原生多模态:从 Step 0 开始的百万亿 Token 混合训练

M3 是一个从 Step 0 开始进行多模态混合训练的模型。这种原生多模态的路线能让不同模态数据的语义空间更天然、更高度地融合。

在数据配比和构成上,MiniMax 的大量实验揭示了一个重要发现:Interleaved data(交错数据)对模型性能带来的提升,比一般认为的更加关键。

什么是交错数据?简单来说,就是文本和图像在训练序列中交替自然排列的数据。比如一篇带插图的技术文档,文字描述和对应的图表交替出现。这类数据的特点是:图文之间有天然的语义关联和位置关系,模型在学习过程中能自然地建立跨模态的对应。

MiniMax 的实验表明,大规模引入交错数据后,模型对图像的理解会从「看图说话」升级为「在上下文中理解视觉信息」,这对于复杂任务至关重要。

为此,MiniMax 重构了整套数据管线,将纯文本数据、图文交织数据、图文对以及视频数据等预训练数据的整体规模扩充至 100T(百万亿)量级。

M3 的文本和视觉语义空间高度对齐,支持图片和视频的输入,并能操作电脑桌面。在多模态测试集 OmniDocBench 上,M3 得分超过 Gemini 3.1 Pro,验证了这条路线的有效性。

MiniMax Code 与 Token Plan

模型之外,MiniMax 还同步推出了两个配套产品。

MiniMax Code是专为 M3 设计、并与 M3 一起训练的 Agent 产品,核心亮点是 Agent Team 工作流:大型任务会被拆解为多阶段、可并发、可动态调整的子任务,通过 Producer + Verifier 对抗式循环持续产出和自我修正,理论上可无人干预运行数天。我们在评测中配置过,整体体验和 M3 的能力上限高度匹配。



定价上,Token PlanPlus档 ¥49 / 月提供 6 亿 token,Max档 ¥119 / 月提供 18 亿 token,Ultra档 ¥469 / 月提供 55 亿 token,按相同价格折算约是 Claude 订阅的 15 倍用量。M3 API 现已开放,同时支持 thinking 和 non-thinking 两种模式,按上下文长度分两档计价。



感觉 MiniMax 官方的宣传有点佛系 —— 如此能打的性价比,竟然还没做到人尽皆知。

结语

测完 M3 之后,我们的感受可以用一句话来概括:这是第一次,一个开源模型让我们觉得闭源的护城河正在变窄。

Frontier 三件套不再是 Opus、Gemini、GPT 的专属标配。这个事实本身就足以改变开发者在选型时的默认逻辑。更重要的是,开源意味着这些能力可以被本地部署、被微调、被集成进各类垂直场景,而不是永远被 API 调用的方式锁住。

接下来 10 天内,MiniMax 会更新模型的技术报告,并开源对应的模型权重。我们也会持续关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中组部公示8位“七一勋章”提名人选!这些平凡英雄值得被看见

中组部公示8位“七一勋章”提名人选!这些平凡英雄值得被看见

生活魔术专家
2026-06-02 08:42:45
2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

2950枚导弹无一命中,霹雳-2的惨痛代价谁人知

起喜电影
2026-05-23 11:24:35
云南滇池一女神太漂亮了,五官精致, 身高169,美得让人移不开眼

云南滇池一女神太漂亮了,五官精致, 身高169,美得让人移不开眼

喜欢历史的阿繁
2026-06-02 06:20:59
黄仁勋:AI时代无需过度纠结“应该学什么专业”,工作中所需的“人性”部分无法被AI取代

黄仁勋:AI时代无需过度纠结“应该学什么专业”,工作中所需的“人性”部分无法被AI取代

每日经济新闻
2026-05-31 19:10:24
耿同学再下一城!南开免去陈某院长职务,14张图表确认学术不端

耿同学再下一城!南开免去陈某院长职务,14张图表确认学术不端

听心堂
2026-05-30 20:24:06
强渡大渡河十八勇士战功卓著,1955 年授衔最高军衔是什么

强渡大渡河十八勇士战功卓著,1955 年授衔最高军衔是什么

唠叨说历史
2026-05-25 16:02:14
一碗隔夜米饭毒死7人?医生警告:米饭尽量别这样吃,比砒霜还毒

一碗隔夜米饭毒死7人?医生警告:米饭尽量别这样吃,比砒霜还毒

路医生健康科普
2026-05-31 20:15:03
武汉商学院原党委书记刘志辉被查

武汉商学院原党委书记刘志辉被查

新京报
2026-06-01 21:24:41
科学家挖出2000年前种子,尝试种植后,竟长出灭绝1500多年的植物

科学家挖出2000年前种子,尝试种植后,竟长出灭绝1500多年的植物

春风秋雨
2026-05-27 19:25:06
你庆幸自己看过哪本含金量极高的书?网友:颠覆了认知,再不内耗

你庆幸自己看过哪本含金量极高的书?网友:颠覆了认知,再不内耗

夜深爱杂谈
2026-05-30 08:34:39
台湾省2330万民众真实收入与生活现状,普通人日子过得怎么样?

台湾省2330万民众真实收入与生活现状,普通人日子过得怎么样?

复转这些年
2026-05-31 20:31:39
临汾市召开全市领导干部会议 宣布省委关于临汾市委主要领导调整的决定

临汾市召开全市领导干部会议 宣布省委关于临汾市委主要领导调整的决定

环球网资讯
2026-06-01 19:18:07
酸奶被关注!医生发现:喝得越多,肌少症老年人肌肉流失或越慢?

酸奶被关注!医生发现:喝得越多,肌少症老年人肌肉流失或越慢?

侯医生谈健康
2026-06-02 07:05:07
暴走团200人夜闯国道,喊话无人理,司机一脚油门:让你走个痛快

暴走团200人夜闯国道,喊话无人理,司机一脚油门:让你走个痛快

徐侠客有话说
2025-07-28 13:40:47
库里官宣签约李宁,终结“乱穿鞋”时代

库里官宣签约李宁,终结“乱穿鞋”时代

每日经济新闻
2026-06-02 08:55:08
小泉进次郎喊我没核弹,日本网友笑了:你不是没核弹,你是没救了

小泉进次郎喊我没核弹,日本网友笑了:你不是没核弹,你是没救了

浪子的烟火人间
2026-06-02 00:20:03
深圳住宅网签时隔14个月再破万套:多个新盘“日光”,二手房成交价重回“6字头”

深圳住宅网签时隔14个月再破万套:多个新盘“日光”,二手房成交价重回“6字头”

澎湃新闻
2026-06-02 08:28:27
全线失守!克里米亚制空权被乌军强势夺走了

全线失守!克里米亚制空权被乌军强势夺走了

知兵
2026-06-02 08:00:16
54岁吴越下厨被拍,单身生活细节让无数人沉默

54岁吴越下厨被拍,单身生活细节让无数人沉默

天马幸福的人生
2026-05-31 14:54:35
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
2026-06-02 09:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13139文章数 142658关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了打电话痛骂以色列

头条要闻

牛弹琴:伊朗突然发飙 特朗普急了打电话痛骂以色列

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

3910亿公募基准调整落地 导致A股大跌?

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

亲子
艺术
健康
本地
手机

亲子要闻

多彩童年,欢乐共享 —— 手牵手幼儿园六一庆祝活动预告

艺术要闻

蒋中正办公室对联引热议:方正书法好,还是个性好?

干细胞临床研究向患者收费?别踩坑

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

苹果iOS 27内置聚餐分摊工具,iPhone 17等拍照即可分配账单

无障碍浏览 进入关怀版