网易首页 > 网易号 > 正文 申请入驻

M2.5登顶OpenRouter:如何做出大家最需要的那个模型

0
分享至


作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

先看一组数据:

评估模型编程能力的主流榜单SWE-bench Verified上,Claude Opus 4.6 得分80.8%,Gemini 3.1 Pro 80.6%,MiniMax 2.5 80.2%,GLM-5 77.8%,Kimi K2.5 76.8%。

最大分差也不超过4分,差距就这么点大。开发者今天其实已经很难只靠这些“考试分数”来选择要用的模型。

但最近还有另一组很有意思的数据,来自最重要的模型调用平台之一OpenRouter:


官方统计显示,最近其平台上的token调用激增,且其中很多需求来自100K-1M长文本任务,也就是agent工作流最典型消耗区间。刺激这些需求爆发的一个重要因素是一个新模型的发布——MiniMax M2.5。单是在OpenRouter上,它发布后七天的调用量就到了破纪录的 3.07T tokens。

这说明什么?

今天公开的benchmark也就是打榜式的评测已经没那么重要了,因为差别不再明显。但与此同时,真实使用者的感受越来越关键,做好了,你就可以成为最受欢迎的那一个,因为用户们对模型的需求远远未被满足。

所以,关键的问题变成,如何做出大家最需要的那个模型。

可以先来看看这个备受欢迎的MiniMax M2.5是一个什么样的模型。

1.模型部署上:10B激活参数,实战中总结的甜点位

MiniMax M2.5,一个总参数 230B,激活参数只有10b的模型。它不会叫自己端侧模型,但已经是私有化部署最友好的模型。这是一个实战中总结出来的性价比甜点位,也是头部模型里这种友好度里的唯一选择。

2.价格:没有波动,这是开发者最在意的负担

人们想尽可能多消耗token,但对价格变化又有负担,M2.5通过各种工程和算法更新,在性能提升同时,把价格维持住了,这其实说明MiniMax自己也清楚知道真实的开发者的最大负担是什么。

3.模型的核心能力:死磕Coding和Agent,让开发者真的认真考虑用它替代Claude

此次M2.5在编程上性能提升的来源,不再是“不论过程只管对标结果”的方式,而是把开发过程里的代码工程甚至开发思维训练到模型里。M2.5的spec能力就是一个典型的代表。

官方报告这样形容:M2.5 具备了像架构师一样思考和构建的能力,比如模型演化出了原生 Spec 行为:在动手写代码前,以架构师视角主动拆解功能、结构和 UI 设计,实现完整的前期规划。

M系列阶段性目标明确,此时此刻,它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已经做到80.2%的水平,同时约1 元/小时的成本给你100 tokens/秒的吞吐,还要什么自行车。

这当然是个带有赌注成分的决定,并且需要做出trade off,但目前看起来效果不错收益明显。大量Claude Code用户在选择模型时真的逃不开要考虑M系列模型,这就很能说明问题。

4.推理:推理效率的极致优化,每一环都是在解决业务压力

M2.5在工程化上持续补全:平衡吞吐和稳定的Windowed FIFO,把大量重复前缀合并处理、解放出40倍效率的树状结构……推理的每个环节都在继续优化。

5.以及可能是最重要的,又一个技术创新:RL框架Forge

MiniMax在技术上一直挺有追求,不少新的思路是它第一批尝试然后反馈给行业里,比如此前的交错思维链式推理等。而这一次它重点介绍了用在M2.5训练里的一个新的 RL 框架 Forge 。

这是一个工业级的Agent RL 训练方案,也就是它的目标非常务实,就是面向真实复杂的场景大规模训练AI Agent。

上个阶段把Agent训入模型的方式其实依然粗糙,它们有点“混为一谈”的感觉,而Forge这次核心探索了对Agent部分和模型本身基础能力做解耦的方法。

先把Agent和它需要的环境抽象出来,与模型本身区分开,然后在两者间增加一个中间层,既扮演物理隔离的作用,也提供智能调度和实施策略调整的角色。这很巧妙。


更有意思的是,这样解耦后,还解锁了一个新的scale的方向,就是把各种Agent框架放进去做训练,最终获得泛化能力。这是个非常有用,甚至直接能影响开发者体验的泛化,它让M2.5可以适配各种见过没见过的“脚手架”。

这同样是真实agent场景里非常需要的能力。

看过M 2.5的这些训练重点,你会发现,它的这些优化都不是为了刷榜,而是为了解决非常具体的问题——在Agent的需求快速取代了所谓对话场景的需求后,模型该提供什么样的智能。

它需要在效果和价格上找到微妙平衡,持续提升性能的同时降低成本。

这说来简单,但对这个度的把握很难。模型厂要对这些开发者的需求有最直接的感知。而MiniMax的“手感”其实正来自这家公司自己内部。

M2.5背后,MiniMax 的M系列模型最重要的研发思路就是要解决它内部各个团队在开发agent的过程里遇到的问题。

闫俊杰曾在M1发布后分享过:“公司内部的小伙伴一直在搭建各种各样的Agent,来帮助解决公司飞速发展中遇到的各项挑战……但是我们发现没有一款模型在这些Agent上能完全满足我们的需求。这里面的挑战在于好的模型需要在效果、价格和推理速度上取得好的平衡,这几乎是一个‘不可能三角’……我们一直在探索,能不能有一款模型能在效果、价格和速度上能取得比较好的平衡,从而让更多的人能受益于Agent时代的智能提升。”

所以,MiniMax M2发布时,它做到当时Claude主力模型价格的8%,而最新的MiniMax M2.5价格是Claude主力模型的1/12。甚至,M2.5直接被形容为“1万美元可以让4个Agent连续工作一年”的模型,这几乎意味着你可以不需要考虑使用成本地近乎无限使用它。

同时,从死磕编程能力、开发Forge框架再到各种推理优化,它继续榨出更好的模型效果和更快推理速度。



而其中像Forge框架这种创新,就是整个M2.5背后思路的典型代表:只有那些自己在日常工作环境里对各种agent脚手架之间的适配感到过绝望,对真实环境里模型与agent能力之间的关系真正“抓狂”过的模型团队才会去解决这些问题。

M2.5显然是MiniMax自己在面对“不可能三角”时最需要的那类模型。现在,它也成了开发者们最需要的那类模型。

所以作为模型公司本身,当你一直在牌桌上,你自己其实就是最能检验模型实际能力和体验的第一道关。

当一家模型公司自己对生产力AI的需求达到最先进程度,它自己面对的体验困局也就会是人们最重要和普遍的需求,它的创新方向就会是大家期待的模型的进步方向。

它自己喜欢的那个模型,就会是大家最喜欢的模型。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4吨重的新能源不合理?不如先聊聊养路费怎么收

4吨重的新能源不合理?不如先聊聊养路费怎么收

新浪财经
2026-06-03 03:43:11
现实版《寄生虫》?美国男子潜入一别墅地下夹层打造“小家”,吃喝玩乐全盗用屋主家电,一家三口住楼上,整整3个月毫不知情

现实版《寄生虫》?美国男子潜入一别墅地下夹层打造“小家”,吃喝玩乐全盗用屋主家电,一家三口住楼上,整整3个月毫不知情

都市快报橙柿互动
2026-06-03 12:57:57
宋朝的风俗比较开放,不堪入目的奇闻,北宋官场的一树梨花压海棠

宋朝的风俗比较开放,不堪入目的奇闻,北宋官场的一树梨花压海棠

南书房
2026-06-03 06:45:06
江苏养老金调整或将开始,历年调整方案,养老金3600元能涨120吗

江苏养老金调整或将开始,历年调整方案,养老金3600元能涨120吗

小彬说事
2026-06-03 11:38:36
男童误食磁力珠,妈妈拿另一颗磁力珠隔着肚皮成功定位,最终吃火龙果成功排出

男童误食磁力珠,妈妈拿另一颗磁力珠隔着肚皮成功定位,最终吃火龙果成功排出

河南交通广播1041
2026-06-03 09:30:50
前央视主持林海,因摔耳机丢了铁饭碗,54岁现身街头当吃播

前央视主持林海,因摔耳机丢了铁饭碗,54岁现身街头当吃播

林轻吟
2026-06-01 07:14:42
日菲联合欲刮分台东海域,赵少康说了一句实话,事关中国大局!

日菲联合欲刮分台东海域,赵少康说了一句实话,事关中国大局!

故事终将光明磊落
2026-06-03 09:04:17
明明只是戏子,却把自己当大腕,论“耍大牌”,这5位明星够丢人

明明只是戏子,却把自己当大腕,论“耍大牌”,这5位明星够丢人

做一个合格的吃瓜群众
2026-04-21 16:14:06
成都一汉庭酒店未按规定对顾客用品用具进行清洗、消毒、保洁,官方:停业整顿

成都一汉庭酒店未按规定对顾客用品用具进行清洗、消毒、保洁,官方:停业整顿

界面新闻
2026-06-03 11:18:07
最喜欢的NBA总决赛记忆?文班:16年骑士1-3绝境翻盘宇宙勇

最喜欢的NBA总决赛记忆?文班:16年骑士1-3绝境翻盘宇宙勇

懂球帝
2026-06-03 15:36:24
蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

蝉联欧冠后开启重建,大巴黎队长马尔基尼奥斯等五人或离队

星耀国际足坛
2026-06-02 22:59:16
她是文强的妻子,被判刑8年,将弟弟也害了,出狱后她现状如何?

她是文强的妻子,被判刑8年,将弟弟也害了,出狱后她现状如何?

细品名人
2026-06-02 07:08:23
甘肃最牛诈骗犯,刚出狱就冒充市委副书记,因政绩优秀而被抓

甘肃最牛诈骗犯,刚出狱就冒充市委副书记,因政绩优秀而被抓

神奇的锤子
2025-02-23 22:11:02
2850万美金+1772万美金+716万美金,雷霆队要不起了

2850万美金+1772万美金+716万美金,雷霆队要不起了

世界体育圈
2026-06-03 11:16:54
美专家曾一语惊人:一旦美军把核弹扔向京沪,中国其实并不会还手

美专家曾一语惊人:一旦美军把核弹扔向京沪,中国其实并不会还手

依偎在角落
2026-06-01 16:10:12
导弹采购合同被单方面取消,马来西亚防长催挪威:赶快退钱

导弹采购合同被单方面取消,马来西亚防长催挪威:赶快退钱

环球网资讯
2026-06-02 19:50:12
两年后,摩洛哥双星各有各的挣扎

两年后,摩洛哥双星各有各的挣扎

林间小温柔
2026-06-02 01:39:33
最多3年2.07亿!这是步行者给西亚卡姆的全部,能否续约已有答案

最多3年2.07亿!这是步行者给西亚卡姆的全部,能否续约已有答案

奕辰说球
2026-06-03 09:44:45
A股收评:三大指数齐涨!创业板指涨1.65%刷新高,光纤、CPO概念走强

A股收评:三大指数齐涨!创业板指涨1.65%刷新高,光纤、CPO概念走强

格隆汇
2026-06-03 15:14:06
济南公安通报“山姆偷吃”

济南公安通报“山姆偷吃”

扬子晚报
2026-06-03 12:06:03
2026-06-03 15:51:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
3131文章数 10504关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

被出轨丈夫家暴10年 女子起诉离婚发现1400万已被转走

头条要闻

被出轨丈夫家暴10年 女子起诉离婚发现1400万已被转走

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

健康
教育
时尚
数码
游戏

违规干细胞抗衰美容,为何肆无忌惮

教育要闻

2026年全国高考报名人数为1290万人

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

数码要闻

单塔身材实现双塔性能!酷冷至尊V8 ACE 3DHP散热器图赏

爆款真人泳装美女游戏手机版来了!多款新作即将发售

无障碍浏览 进入关怀版