今天这篇本来早上就该发的
MiniMax 凌晨发了 M2.5,一看数据就知道得写,但这两天实在有点累,拖到晚上才弄出来。先跟 MiniMax 的朋友们说一句,恭喜,这次发的东西确实硬
有个事情官方没说:M2.5 为 229B,激活只有 10B
![]()
https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json
但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。编程跟 Opus 4.6 基本持平,多语言编程直接拿了全行业最高。搜索和工具调用也到了顶尖水平
![]()
M2.5 核心 benchmark 一览
第一梯队里参数规模最小的旗舰模型。10B 激活参数打到了跟 Opus 4.6 一个级别。做私有化部署的朋友可以品品这个显存占用和推理能效比
看看经济账:M2.5 有两个版本,能力完全一样,速度和价格不同
快的叫 M2.5-Lightning,100 TPS,每百万 token 输入 0.3 美金、输出 2.4 美金。
慢的叫 M2.5,50 TPS,价格再砍一半,每百万 token 输入 0.3 美金、输出 1.2 美金。
两个版本都支持缓存,按输出价格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20
![]()
换成更具象的数字:在以每秒输出 100 个 token 的情况下,连续工作一小时只需要 1 美金,而在每秒输出 50 个 token 的情况下,只需要 0.3 美金。
1 万美金,够一个 Agent 连续跑 4 年
这个账算得过来之后,很多之前「舍不得让 Agent 长时间跑」的场景就打开了。跑完一整套 SWE-Bench Verified 评测,M2.5 单任务的总成本只有 Opus 4.6 的 10%
编程 ![]()
编程 benchmark
有个细节挺有意思。M2.5 在训练过程中自己演化出了一个「写 Spec」的行为,动手写代码之前会先从架构师视角把功能、结构、UI 设计全部拆解规划一遍。这个行为是涌现出来的,不是手动设计的
训练覆盖了 10 多种语言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超过 20 万个真实环境上跑
能力不只是修 bug,从 0 到 1 的系统设计、1 到 10 的开发、10 到 90 的功能迭代、90 到 100 的 code review 和系统测试,全流程都能接。覆盖 Web、Android、iOS、Windows 的全栈项目,包含 Server 端 API、业务逻辑、数据库
MiniMax 把 VIBE benchmark 升级了一个 Pro 版,任务复杂度和领域覆盖度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表现相当
![]()
VIBE Pro 对比
脚手架泛化性也验过了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。换了脚手架照样打
搜索和工具调用 ![]()
搜索 benchmark
MiniMax 自建了一个评测集叫 RISE(Realistic Interactive Search Evaluation),专门测真实专业任务上的搜索能力。逻辑是这样的:人类专家做搜索任务的时候,用搜索引擎本身只占一小部分,大量工作是在专业网页里深度探索。M2.5 在这类场景上表现很强
比上一代还省。在 BrowseComp、Wide Search、RISE 多项任务上,M2.5 用更少的搜索轮次拿到了更好的结果,轮次消耗比 M2.1 少了大约 20%
模型学会了用更短的路径逼近答案
办公 ![]()
办公场景对比
这块 MiniMax 找了金融、法律、社科领域的资深从业者一起做训练数据,把行业的隐性知识带进了模型训练。Word 排版、PPT 编辑、Excel 金融建模这些场景上有明显提升
他们内部的 GDPval-MM 评测框架会同时评交付质量和 Agent 执行轨迹的专业性,还监控全流程 token 成本。对比主流模型平均胜率 59.0%
速度
M2.5 比 M2.1 完成 SWE-Bench 任务快了 37%
具体来说:端到端运行时间从平均 31.3 分钟降到 22.8 分钟,跟 Opus 4.6 的 22.9 分钟几乎一样。每个任务的 token 消耗从 3.72M 降到了 3.52M
变快了,还变省了
迭代速度
108 天,M2、M2.1、M2.5 三个版本
在 SWE-Bench Verified 上,M2 系列的进步曲线斜率比 Claude、GPT、Gemini 系列都陡
![]()
M2 系列 vs 同行的进步速度,自己看斜率
MiniMax 说「行业最快的进步速度」,从这张图看,不虚
Agent RL
技术层面简单记几个点
M2.5 的核心训练框架叫 Forge,原生 Agent RL 框架。通过引入中间层完全解耦了训推引擎和 Agent,支持任意 Agent 脚手架接入。这让模型在不同编程工具和 Agent 环境之间的泛化性很强
![]()
Forge 架构
算法上用的是他们去年初提出的 CISPO 算法保障 MoE 模型训练稳定性,加上 Process Reward 做全链路监控,再用真实任务耗时作为 Reward 来平衡效果和速度。训练侧通过树状合并样本实现了大约 40 倍加速
![]()
Agent RL 算法与 Reward 设计
MiniMax 说后续会单独发一篇技术博客详细讲 RL scaling,到时候可以再看看
MiniMax 内部在用
MiniMax 内部已经全面上线 M2.5,覆盖研发、产品、销售、HR、财务
整体任务的 30% 由 M2.5 自主完成,编程场景里新提交代码的 80% 由模型生成
产品侧,MiniMax Agent 做了一套标准化的 Office Skills,在 MAX 模式下会根据文件类型自动加载对应能力。用户还可以把 Office Skills 和行业经验结合起来创建可复用的「专家」(Expert),目前平台上已经有超过 1 万个用户创建的 Expert
模型权重会在 HuggingFace 开源,支持本地部署
![]()
更多 benchmark 还没完...但先碎觉
这两天,国产模型扎堆发布,GLM-5、DeepSeek 更新、M2.5,春节前的密度有点离谱
以及....这些 AI 厂的春节发布,还没完
然后...晚安...碎觉...
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.