网易首页 > 网易号 > 正文 申请入驻

MiniMax M2.5 发布:10B 激活参数,打进头部模型

0
分享至

今天这篇本来早上就该发的

MiniMax 凌晨发了 M2.5,一看数据就知道得写,但这两天实在有点累,拖到晚上才弄出来。先跟 MiniMax 的朋友们说一句,恭喜,这次发的东西确实硬

有个事情官方没说:M2.5 为 229B,激活只有 10B


https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。编程跟 Opus 4.6 基本持平,多语言编程直接拿了全行业最高。搜索和工具调用也到了顶尖水平


M2.5 核心 benchmark 一览

第一梯队里参数规模最小的旗舰模型。10B 激活参数打到了跟 Opus 4.6 一个级别。做私有化部署的朋友可以品品这个显存占用和推理能效比

看看经济账:M2.5 有两个版本,能力完全一样,速度和价格不同

快的叫 M2.5-Lightning,100 TPS,每百万 token 输入 0.3 美金、输出 2.4 美金。
慢的叫 M2.5,50 TPS,价格再砍一半,每百万 token 输入 0.3 美金、输出 1.2 美金。

两个版本都支持缓存,按输出价格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20


换成更具象的数字:在以每秒输出 100 个 token 的情况下,连续工作一小时只需要 1 美金,而在每秒输出 50 个 token 的情况下,只需要 0.3 美金。

1 万美金,够一个 Agent 连续跑 4 年

这个账算得过来之后,很多之前「舍不得让 Agent 长时间跑」的场景就打开了。跑完一整套 SWE-Bench Verified 评测,M2.5 单任务的总成本只有 Opus 4.6 的 10%

编程
编程 benchmark

有个细节挺有意思。M2.5 在训练过程中自己演化出了一个「写 Spec」的行为,动手写代码之前会先从架构师视角把功能、结构、UI 设计全部拆解规划一遍。这个行为是涌现出来的,不是手动设计的

训练覆盖了 10 多种语言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超过 20 万个真实环境上跑

能力不只是修 bug,从 0 到 1 的系统设计、1 到 10 的开发、10 到 90 的功能迭代、90 到 100 的 code review 和系统测试,全流程都能接。覆盖 Web、Android、iOS、Windows 的全栈项目,包含 Server 端 API、业务逻辑、数据库

MiniMax 把 VIBE benchmark 升级了一个 Pro 版,任务复杂度和领域覆盖度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表现相当


VIBE Pro 对比

脚手架泛化性也验过了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。换了脚手架照样打

搜索和工具调用
搜索 benchmark

MiniMax 自建了一个评测集叫 RISE(Realistic Interactive Search Evaluation),专门测真实专业任务上的搜索能力。逻辑是这样的:人类专家做搜索任务的时候,用搜索引擎本身只占一小部分,大量工作是在专业网页里深度探索。M2.5 在这类场景上表现很强

比上一代还省。在 BrowseComp、Wide Search、RISE 多项任务上,M2.5 用更少的搜索轮次拿到了更好的结果,轮次消耗比 M2.1 少了大约 20%

模型学会了用更短的路径逼近答案

办公
办公场景对比

这块 MiniMax 找了金融、法律、社科领域的资深从业者一起做训练数据,把行业的隐性知识带进了模型训练。Word 排版、PPT 编辑、Excel 金融建模这些场景上有明显提升

他们内部的 GDPval-MM 评测框架会同时评交付质量和 Agent 执行轨迹的专业性,还监控全流程 token 成本。对比主流模型平均胜率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任务快了 37%

具体来说:端到端运行时间从平均 31.3 分钟降到 22.8 分钟,跟 Opus 4.6 的 22.9 分钟几乎一样。每个任务的 token 消耗从 3.72M 降到了 3.52M

变快了,还变省了

迭代速度

108 天,M2、M2.1、M2.5 三个版本

在 SWE-Bench Verified 上,M2 系列的进步曲线斜率比 Claude、GPT、Gemini 系列都陡


M2 系列 vs 同行的进步速度,自己看斜率

MiniMax 说「行业最快的进步速度」,从这张图看,不虚

Agent RL

技术层面简单记几个点

M2.5 的核心训练框架叫 Forge,原生 Agent RL 框架。通过引入中间层完全解耦了训推引擎和 Agent,支持任意 Agent 脚手架接入。这让模型在不同编程工具和 Agent 环境之间的泛化性很强


Forge 架构

算法上用的是他们去年初提出的 CISPO 算法保障 MoE 模型训练稳定性,加上 Process Reward 做全链路监控,再用真实任务耗时作为 Reward 来平衡效果和速度。训练侧通过树状合并样本实现了大约 40 倍加速


Agent RL 算法与 Reward 设计

MiniMax 说后续会单独发一篇技术博客详细讲 RL scaling,到时候可以再看看

MiniMax 内部在用

MiniMax 内部已经全面上线 M2.5,覆盖研发、产品、销售、HR、财务
整体任务的 30% 由 M2.5 自主完成,编程场景里新提交代码的 80% 由模型生成

产品侧,MiniMax Agent 做了一套标准化的 Office Skills,在 MAX 模式下会根据文件类型自动加载对应能力。用户还可以把 Office Skills 和行业经验结合起来创建可复用的「专家」(Expert),目前平台上已经有超过 1 万个用户创建的 Expert

模型权重会在 HuggingFace 开源,支持本地部署


更多 benchmark 还没完...但先碎觉

这两天,国产模型扎堆发布,GLM-5、DeepSeek 更新、M2.5,春节前的密度有点离谱

以及....这些 AI 厂的春节发布,还没完

然后...晚安...碎觉...

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗神权崩塌前夜:9000万高知青年与内战危机

伊朗神权崩塌前夜:9000万高知青年与内战危机

夏至陌离殇
2026-01-14 15:34:27
YU7成1月中国卖最好车 投诉率几乎为0!小米高管:高强度研发造出高质量好车

YU7成1月中国卖最好车 投诉率几乎为0!小米高管:高强度研发造出高质量好车

快科技
2026-02-13 16:26:22
邮报:埃泽逐渐沦为边缘人,可能无缘英格兰队的世界杯阵容

邮报:埃泽逐渐沦为边缘人,可能无缘英格兰队的世界杯阵容

懂球帝
2026-02-13 16:47:23
离岸人民币创两年半新高,汇率强势格局延续

离岸人民币创两年半新高,汇率强势格局延续

王二哥老搞笑
2026-02-14 04:22:39
换座风波升级!辛芷蕾倪妮聊天疑似讨论座位,微表情才是一出好戏

换座风波升级!辛芷蕾倪妮聊天疑似讨论座位,微表情才是一出好戏

八卦南风
2026-02-11 14:38:37
国防部重磅警告!海马斯敢部署澎湖东引,解放军直接覆盖摧毁

国防部重磅警告!海马斯敢部署澎湖东引,解放军直接覆盖摧毁

Ck的蜜糖
2026-02-12 20:05:30
过年打麻将一场输赢超300就算赌博

过年打麻将一场输赢超300就算赌博

观威海
2026-02-13 14:50:05
茶叶是血糖的“杀手”?医生忠告:不想血糖飙升,最好少喝5种茶

茶叶是血糖的“杀手”?医生忠告:不想血糖飙升,最好少喝5种茶

阿莱美食汇
2026-02-13 18:23:50
云南大理一校花太漂亮了,身高172五官精致,美得让人移不开眼

云南大理一校花太漂亮了,身高172五官精致,美得让人移不开眼

小椰的奶奶
2026-02-14 04:14:45
济南一消防员在高速公路执行救援任务时不幸牺牲,年仅24岁,亲属:凌晨一两点出的事

济南一消防员在高速公路执行救援任务时不幸牺牲,年仅24岁,亲属:凌晨一两点出的事

极目新闻
2026-02-13 16:38:09
中国最丰满的5位女星,美的各有千秋,她们的身材也太犯规了

中国最丰满的5位女星,美的各有千秋,她们的身材也太犯规了

林轻吟
2026-02-09 16:41:54
志愿军2000人失踪7天,美军宣称被全歼,他们却押着300俘虏回家了

志愿军2000人失踪7天,美军宣称被全歼,他们却押着300俘虏回家了

睡前讲故事
2026-02-05 21:15:42
当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

当你接触的人多了,你会明白:如果一个人还在穿5年前的衣服,只说明3个问题

LULU生活家
2026-01-16 18:51:53
日系车败退中国:2.9L油耗击碎“省油神话”,00后为何不再买账?

日系车败退中国:2.9L油耗击碎“省油神话”,00后为何不再买账?

财经保探长
2025-09-11 22:20:43
怪不得做饭总是有很多要保密的秘方 ​​!网友:这得多少调味包

怪不得做饭总是有很多要保密的秘方 ​​!网友:这得多少调味包

夜深爱杂谈
2026-01-25 20:33:13
年收1.75亿!曾是中国“最难喝的饮料”,如今被“老广人”买疯了

年收1.75亿!曾是中国“最难喝的饮料”,如今被“老广人”买疯了

墨印斋
2026-02-13 11:30:04
曼市现标语反击拉爵:移民为这里做的贡献远比那些逃税的亿万富翁更多

曼市现标语反击拉爵:移民为这里做的贡献远比那些逃税的亿万富翁更多

懂球帝
2026-02-14 00:12:17
断星链又封Telegram!俄兵恐慌喊话普京:夺走保命工具,种瓜得瓜

断星链又封Telegram!俄兵恐慌喊话普京:夺走保命工具,种瓜得瓜

老马拉车莫少装
2026-02-11 17:15:53
89年,罗瑞卿次子官至正师级,出差法国为何选择叛国,成罗家禁忌

89年,罗瑞卿次子官至正师级,出差法国为何选择叛国,成罗家禁忌

抽象派大师
2026-02-10 12:50:21
现货铂金收跌6.19%

现货铂金收跌6.19%

每日经济新闻
2026-02-13 06:25:07
2026-02-14 05:40:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
290文章数 35关注度
往期回顾 全部

数码要闻

罗技Pro X2 Superstrike鼠标导致《Apex英雄》玩家遭永久封禁

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

教育
家居
亲子
时尚
军事航空

教育要闻

成绩提升的关键,不是天赋而是策略

家居要闻

中古雅韵 乐韵伴日常

亲子要闻

爸爸带的孩子是什么样的?妈妈看完沉默了,网友:活着就好!

穿上这些鞋拥抱春天

军事要闻

多次成功应对外舰、外机挑衅 太原舰展示052D硬核实力

无障碍浏览 进入关怀版