网易首页 > 网易号 > 正文 申请入驻

MiniMax M2.5震撼来袭:小巧机型超越Opus 4.6,速度与价格双丰收

0
分享至


MiniMax M2.5 正式发布了,可以肯定的说这一个非常优秀的国产模型,国产模型每一家都有自己的聚焦,MiniMax在进行的是极致优化,没有过多花哨的技术实验,专注于推出的是一款极其方便部署,价格具实惠,能干活,性能对标世界顶尖的模型,咱也不尬吹,数据好看不代表真实体验就好,但至少M2.5的确是在向真实生产环境可用和体验在努力

我先放两张图大家感受一下

MiniMax的进化,看一下MiniMax M系列的来时路:


尺寸对比,这就有意思了,感觉具有极高的可用性,非常适合家庭实验室部署,据说推理服务提供商或许能在这个模型上挖掘出惊人的每秒token生成速度


我们来看看MiniMax M 2.5 做到了什么以及如何做到的

MiniMax M 2.5做到了什么

首先看硬指标,它在各项SOTA性能上表现抢眼:MiniMax 测试了Agent工作流程中最重要的三项基准测试:SWE-Bench(它能否真正修复真实代码库中的真实错误)、BrowseComp(能否搜索网络并找到正确的信息)和 BFCL(能否可靠地调用工具)。测试结果分别为 80.2%、76.3% 和 76.8%



针对复杂任务,M2.5进行了执行效率的优化,速度提升了37%,速度提升听起来似乎只是锦上添花,但当你运行一个Agent循环,模型在每个任务中调用自身 50 次以上时,速度的提升就显得至关重要了

每秒100token运行,每小时成本仅需1美元,这让长周期Agent的无限扩展在经济上成为了可能。

具体来看,M2.5在以下几个维度实现了突破。

像架构师一样思考的代码能力

在编程评估中,M2.5相比前代产品有了显著提升,达到了SOTA水平,尤其是在多语言编程任务中表现突出。

与以往最大的不同在于,M2.5展现出了软件架构师的思维与规划能力。在训练过程中,模型涌现出了编写规格说明书的倾向:在敲下第一行代码前,它会主动从资深架构师的视角出发,对项目的功能、结构和UI设计进行拆解与规划。

在超过20万个真实世界环境中,针对Go、Rust、Python、Java等10多种编程语言进行了训练。这使得M2.5的能力远超简单的代码修复,而是覆盖了复杂系统的完整开发生命周期:从0到1的系统设计与环境搭建,到1到10的开发,再到后续的功能迭代、代码审查和系统测试。

它能处理跨Web、Android、iOS和Windows的全栈项目,涵盖服务端API、业务逻辑和数据库,而不仅仅是前端网页的演示。

在更复杂的VIBE-Pro基准测试中,M2.5的表现与Opus 4.5持平。


在SWE-Bench Verified评估集的Droid和OpenCode不同代码代理框架下,M2.5的得分分别为79.7和76.1,均超越了Opus 4.6。

更精准的搜索与工具调用


为了应对更复杂的任务,高效的工具调用和搜索能力是必选项。

在BrowseComp和Wide Search等基准测试中,M2.5均取得了业界领先的成绩。即便面对不熟悉的脚手架环境,它的表现也更加稳定。

针对现实中专业人士不仅仅是使用搜索引擎,而是需要在信息密集的网页中进行深度探索的特点,MiniMax构建了RISE评估体系。结果显示,M2.5在真实场景下的专家级搜索任务中表现优异。

更重要的是决策效率的提升。相比前代M2.1,M2.5在解决同类任务时使用的轮次减少了约20%。这意味着模型不再仅仅是找对答案,而是在用更高效的路径进行推理。

真正的办公场景交付

M2.5在训练之初就确立了产出可交付成果的目标。

通过与金融、法律和社会科学领域的资深专家深度合作,将行业隐性知识注入模型训练流程。这使得M2.5在Word、PowerPoint和Excel金融建模等高价值工作场景中能力显著提升。

在内部构建的Cowork Agent评估框架GDPval-MM中,通过对交付物质量和代理轨迹专业性的双重评估,M2.5在与主流模型的对比中取得了59.0%的平均胜率。


极致的效率与成本控制

现实世界充满各种deadline,速度即正义,现在模型都太贵了,我们急需要一款能打的便宜的模型


M2.5的原生服务速度达到每秒100 token,几乎是其他前沿模型的两倍。加上强化学习对高效推理的激励,其在复杂任务上的时间节省效果明显。

以运行SWE-Bench Verified为例,M2.5完成每个任务平均消耗352万token,端到端运行时间从31.3分钟缩短至22.8分钟,速度提升37%。这一速度与Claude Opus 4.6相当,但单任务总成本仅为后者的十分之一。

为了实现智能不仅强大而且便宜到无需计费的愿景,M2.5推出了两个版本:

M2.5-Lightning:稳定吞吐量每秒100 token,每百万输入token 0.3美元,输出2.4美元。

M2.5:吞吐量每秒50 token,价格减半。

这意味着,以每秒100 token的速度连续运行一小时仅需1美元。如果以每秒50 token运行,价格降至0.3美元。换算下来,只需1万美元,就可以让4个M2.5实例连续运行一整年。

从去年10月下旬至今,M2系列经历了三次迭代,改进速度超出了预期,特别是在SWE-Bench Verified基准上,进步速度明显快于Claude、GPT和Gemini系列。

MiniMax M 2.5如何做到的

这一切进步的核心驱动力来自于强化学习的规模化。

MiniMax将公司内部的任务和工作空间转化为RL训练环境,目前已有数十万个此类环境。

为了支持这种规模的训练,团队自研了代理原生RL框架Forge。该框架引入中间层,将底层训练推理引擎与代理完全解耦,支持任意代理集成,并优化了模型在不同脚手架和工具间的泛化能力。通过优化异步调度策略和树状结构的样本合并策略,训练速度提升了约40倍。


在算法层面,沿用了CISPO算法以确保MoE模型在大规模训练中的稳定性,并引入过程奖励机制来解决长上下文中的信用分配难题。


M2.5的实战演练

目前,M2.5已全面部署在MiniMax Agent中。

通过将核心信息处理能力提炼为标准化的Office技能,当处理Word格式化、PPT编辑和Excel计算等任务时,Agent会自动加载相应技能。用户还可以结合特定领域的行业SOP与Office技能,构建针对特定场景的专家。

例如在行业研究中,Agent可以严格遵循成熟的研究框架SOP,配合Word技能,自动抓取数据、梳理逻辑并输出格式规范的研究报告,而非简单的文本堆砌。

在MiniMax公司内部,M2.5已经承担了日常运营中30%的任务,覆盖研发、产品、销售、HR和财务等部门。在编码场景中,M2.5生成的代码更是占到了新提交代码量的80%。

参考:

https://www.minimax.io/news/minimax-m25

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方2026年首场硬仗:虎口救羊,立威之战已打响

中方2026年首场硬仗:虎口救羊,立威之战已打响

星落山间
2026-01-30 23:10:26
《太平年》郭荣2位妻子都很美,就是长得像分不清,前妻成白月光

《太平年》郭荣2位妻子都很美,就是长得像分不清,前妻成白月光

娱君坠星河
2026-02-13 18:00:59
成功了!传来好消息,我国向世界宣布突破性科技成果量子网络

成功了!传来好消息,我国向世界宣布突破性科技成果量子网络

随梦而飞起
2026-02-13 11:08:51
遗憾!林孝埈小组倒1出局+无缘1000米决赛:成绩在其他组可排第1

遗憾!林孝埈小组倒1出局+无缘1000米决赛:成绩在其他组可排第1

风过乡
2026-02-13 07:58:40
张扣扣案:多年前目睹母亲被人锯开头皮,长大后手刃仇人一家

张扣扣案:多年前目睹母亲被人锯开头皮,长大后手刃仇人一家

没有偏旁的常庆
2026-02-13 06:35:06
70岁北京大妈囤8吨废品,塞满800万两居室,家里还有蟑螂老鼠

70岁北京大妈囤8吨废品,塞满800万两居室,家里还有蟑螂老鼠

观威海
2026-02-13 09:23:05
1982年外宾专机在华被劫,劫匪提出要见中央领导,后来如何解决的

1982年外宾专机在华被劫,劫匪提出要见中央领导,后来如何解决的

阿胡
2024-12-13 12:43:12
不是失败,是胜利!中国火箭“掉海里”,却让马斯克都得重新算账

不是失败,是胜利!中国火箭“掉海里”,却让马斯克都得重新算账

戗词夺理
2026-02-12 10:36:03
河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

河南小伙在非洲16年,当地一夫多妻制,男人只用玩,女人挣钱养家

网络易不易
2026-02-08 11:32:05
胡塞导弹撕碎F-35神话,歼35量产终结美西太制空权

胡塞导弹撕碎F-35神话,歼35量产终结美西太制空权

岁暮的归南山
2026-02-14 03:40:01
大衣哥女儿婚礼寒酸,背靠厕所拜父母,新郎愁容满面,亲戚白眼多

大衣哥女儿婚礼寒酸,背靠厕所拜父母,新郎愁容满面,亲戚白眼多

阿废冷眼观察所
2026-02-14 00:54:31
不会唱别上了,小年夜春晚这个混子毁了节目,刘宇宁周深都救不了

不会唱别上了,小年夜春晚这个混子毁了节目,刘宇宁周深都救不了

娱乐圈十三太保
2026-02-12 17:47:00
什么男人一眼看上去很穷?网友:最后一句,有多少男人会破防啊

什么男人一眼看上去很穷?网友:最后一句,有多少男人会破防啊

夜深爱杂谈
2026-01-17 19:45:40
教会徒弟饿死师傅,巴基斯坦枭龙战斗机大卖,把歼10市场抢光了?

教会徒弟饿死师傅,巴基斯坦枭龙战斗机大卖,把歼10市场抢光了?

人间放映厅
2026-02-12 15:23:53
四渡赤水最惊人的真相:他瞒过了所有人,甚至连他自己都骗过了

四渡赤水最惊人的真相:他瞒过了所有人,甚至连他自己都骗过了

文史明鉴
2026-02-13 13:22:10
恭喜王楚钦、孙颖莎!已提前入围世乒赛单打,不占用中国队名额

恭喜王楚钦、孙颖莎!已提前入围世乒赛单打,不占用中国队名额

全言作品
2026-02-14 01:25:54
人民币究竟要涨到哪里?

人民币究竟要涨到哪里?

虎嗅APP
2026-02-13 22:32:08
对睡眠特好的3种食物,一周吃个两三次,入睡快,睡的香,精神足

对睡眠特好的3种食物,一周吃个两三次,入睡快,睡的香,精神足

秀厨娘
2025-12-13 18:47:24
军委副主席,过去四十年来人数上的变化

军委副主席,过去四十年来人数上的变化

深度财线
2025-10-21 13:06:54
罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

罪有应得!官方彻查后,闫学晶再迎噩耗,她最担心的事还是发生了

来科点谱
2026-01-23 11:08:02
2026-02-14 05:36:49
我不叫阿哏
我不叫阿哏
分享有趣、有用的故事!
356文章数 6388关注度
往期回顾 全部

数码要闻

罗技Pro X2 Superstrike鼠标导致《Apex英雄》玩家遭永久封禁

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

艺术
健康
游戏
房产
军事航空

艺术要闻

砸25亿,中原第一高楼绿地造,坐标郑州!

转头就晕的耳石症,能开车上班吗?

癫疯之坐!今年年夜饭批准坐在黄金马桶上吃

房产要闻

三亚新机场,又传出新消息!

军事要闻

多次成功应对外舰、外机挑衅 太原舰展示052D硬核实力

无障碍浏览 进入关怀版