网易首页 > 网易号 > 正文 申请入驻

M2.5登顶OpenRouter:如何做出大家最需要的那个模型

0
分享至


作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

先看一组数据:

评估模型编程能力的主流榜单SWE-bench Verified上,Claude Opus 4.6 得分80.8%,Gemini 3.1 Pro 80.6%,MiniMax 2.5 80.2%,GLM-5 77.8%,Kimi K2.5 76.8%。

最大分差也不超过4分,差距就这么点大。开发者今天其实已经很难只靠这些“考试分数”来选择要用的模型。

但最近还有另一组很有意思的数据,来自最重要的模型调用平台之一OpenRouter:


官方统计显示,最近其平台上的token调用激增,且其中很多需求来自100K-1M长文本任务,也就是agent工作流最典型消耗区间。刺激这些需求爆发的一个重要因素是一个新模型的发布——MiniMax M2.5。单是在OpenRouter上,它发布后七天的调用量就到了破纪录的 3.07T tokens。

这说明什么?

今天公开的benchmark也就是打榜式的评测已经没那么重要了,因为差别不再明显。但与此同时,真实使用者的感受越来越关键,做好了,你就可以成为最受欢迎的那一个,因为用户们对模型的需求远远未被满足。

所以,关键的问题变成,如何做出大家最需要的那个模型。

可以先来看看这个备受欢迎的MiniMax M2.5是一个什么样的模型。

1.模型部署上:10B激活参数,实战中总结的甜点位

MiniMax M2.5,一个总参数 230B,激活参数只有10b的模型。它不会叫自己端侧模型,但已经是私有化部署最友好的模型。这是一个实战中总结出来的性价比甜点位,也是头部模型里这种友好度里的唯一选择。

2.价格:没有波动,这是开发者最在意的负担

人们想尽可能多消耗token,但对价格变化又有负担,M2.5通过各种工程和算法更新,在性能提升同时,把价格维持住了,这其实说明MiniMax自己也清楚知道真实的开发者的最大负担是什么。

3.模型的核心能力:死磕Coding和Agent,让开发者真的认真考虑用它替代Claude

此次M2.5在编程上性能提升的来源,不再是“不论过程只管对标结果”的方式,而是把开发过程里的代码工程甚至开发思维训练到模型里。M2.5的spec能力就是一个典型的代表。

官方报告这样形容:M2.5 具备了像架构师一样思考和构建的能力,比如模型演化出了原生 Spec 行为:在动手写代码前,以架构师视角主动拆解功能、结构和 UI 设计,实现完整的前期规划。

M系列阶段性目标明确,此时此刻,它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已经做到80.2%的水平,同时约1 元/小时的成本给你100 tokens/秒的吞吐,还要什么自行车。

这当然是个带有赌注成分的决定,并且需要做出trade off,但目前看起来效果不错收益明显。大量Claude Code用户在选择模型时真的逃不开要考虑M系列模型,这就很能说明问题。

4.推理:推理效率的极致优化,每一环都是在解决业务压力

M2.5在工程化上持续补全:平衡吞吐和稳定的Windowed FIFO,把大量重复前缀合并处理、解放出40倍效率的树状结构……推理的每个环节都在继续优化。

5.以及可能是最重要的,又一个技术创新:RL框架Forge

MiniMax在技术上一直挺有追求,不少新的思路是它第一批尝试然后反馈给行业里,比如此前的交错思维链式推理等。而这一次它重点介绍了用在M2.5训练里的一个新的 RL 框架 Forge 。

这是一个工业级的Agent RL 训练方案,也就是它的目标非常务实,就是面向真实复杂的场景大规模训练AI Agent。

上个阶段把Agent训入模型的方式其实依然粗糙,它们有点“混为一谈”的感觉,而Forge这次核心探索了对Agent部分和模型本身基础能力做解耦的方法。

先把Agent和它需要的环境抽象出来,与模型本身区分开,然后在两者间增加一个中间层,既扮演物理隔离的作用,也提供智能调度和实施策略调整的角色。这很巧妙。


更有意思的是,这样解耦后,还解锁了一个新的scale的方向,就是把各种Agent框架放进去做训练,最终获得泛化能力。这是个非常有用,甚至直接能影响开发者体验的泛化,它让M2.5可以适配各种见过没见过的“脚手架”。

这同样是真实agent场景里非常需要的能力。

看过M 2.5的这些训练重点,你会发现,它的这些优化都不是为了刷榜,而是为了解决非常具体的问题——在Agent的需求快速取代了所谓对话场景的需求后,模型该提供什么样的智能。

它需要在效果和价格上找到微妙平衡,持续提升性能的同时降低成本。

这说来简单,但对这个度的把握很难。模型厂要对这些开发者的需求有最直接的感知。而MiniMax的“手感”其实正来自这家公司自己内部。

M2.5背后,MiniMax 的M系列模型最重要的研发思路就是要解决它内部各个团队在开发agent的过程里遇到的问题。

闫俊杰曾在M1发布后分享过:“公司内部的小伙伴一直在搭建各种各样的Agent,来帮助解决公司飞速发展中遇到的各项挑战……但是我们发现没有一款模型在这些Agent上能完全满足我们的需求。这里面的挑战在于好的模型需要在效果、价格和推理速度上取得好的平衡,这几乎是一个‘不可能三角’……我们一直在探索,能不能有一款模型能在效果、价格和速度上能取得比较好的平衡,从而让更多的人能受益于Agent时代的智能提升。”

所以,MiniMax M2发布时,它做到当时Claude主力模型价格的8%,而最新的MiniMax M2.5价格是Claude主力模型的1/12。甚至,M2.5直接被形容为“1万美元可以让4个Agent连续工作一年”的模型,这几乎意味着你可以不需要考虑使用成本地近乎无限使用它。

同时,从死磕编程能力、开发Forge框架再到各种推理优化,它继续榨出更好的模型效果和更快推理速度。



而其中像Forge框架这种创新,就是整个M2.5背后思路的典型代表:只有那些自己在日常工作环境里对各种agent脚手架之间的适配感到过绝望,对真实环境里模型与agent能力之间的关系真正“抓狂”过的模型团队才会去解决这些问题。

M2.5显然是MiniMax自己在面对“不可能三角”时最需要的那类模型。现在,它也成了开发者们最需要的那类模型。

所以作为模型公司本身,当你一直在牌桌上,你自己其实就是最能检验模型实际能力和体验的第一道关。

当一家模型公司自己对生产力AI的需求达到最先进程度,它自己面对的体验困局也就会是人们最重要和普遍的需求,它的创新方向就会是大家期待的模型的进步方向。

它自己喜欢的那个模型,就会是大家最喜欢的模型。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
刘涛回应妈祖照爆火被设壁纸:大家对世界的美好祝愿和期盼,去年被授予“妈祖文化全球推广大使”

刘涛回应妈祖照爆火被设壁纸:大家对世界的美好祝愿和期盼,去年被授予“妈祖文化全球推广大使”

大象新闻
2026-02-21 22:48:08
赵心童15天获310万!世界排名创新高 霸气发声:我是世界最好球员

赵心童15天获310万!世界排名创新高 霸气发声:我是世界最好球员

念洲
2026-02-23 08:16:16
亨得利称赵心童比赛水平高于任何人!麦克马努斯:看好旋风成传奇

亨得利称赵心童比赛水平高于任何人!麦克马努斯:看好旋风成传奇

世界体坛观察家
2026-02-23 17:27:03
几乎都是假货!利润高达650%,为何消费者还前赴后继争相购买?

几乎都是假货!利润高达650%,为何消费者还前赴后继争相购买?

没有偏旁的常庆
2026-02-23 07:30:10
比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

比恒大还惨!中国第二大民企倒了,负债7500亿,创始人被带走

芳芳历史烩
2025-12-25 20:32:52
被年轻人“抛弃”的8个家居产物,时代要淘汰你,连招呼都不会打

被年轻人“抛弃”的8个家居产物,时代要淘汰你,连招呼都不会打

室内设计师有料儿
2026-02-18 21:17:06
36 岁离婚女子独自过年崩溃痛哭:没老公没孩子,谁还会娶我

36 岁离婚女子独自过年崩溃痛哭:没老公没孩子,谁还会娶我

一盅情怀
2026-02-23 14:10:06
人到中年,最佳抗衰老的8种运动,每周2次,越练越年轻!

人到中年,最佳抗衰老的8种运动,每周2次,越练越年轻!

马拉松跑步健身
2026-02-22 06:30:04
央媒曝光:14种品牌奶粉都是假的!原料为奶精+淀粉,已销往全国

央媒曝光:14种品牌奶粉都是假的!原料为奶精+淀粉,已销往全国

云舟史策
2026-02-23 16:26:54
心脏决定寿命,建议中老年人别太节俭,常吃3样,身强体壮更长寿

心脏决定寿命,建议中老年人别太节俭,常吃3样,身强体壮更长寿

江江食研社
2026-02-10 20:30:07
“上了高速,发现全是聪明人”!还有人带了一锅饭……

“上了高速,发现全是聪明人”!还有人带了一锅饭……

极目新闻
2026-02-23 08:54:39
残阵勇士3人20+爆冷击溃掘金 约基奇35+20+12第185次三双

残阵勇士3人20+爆冷击溃掘金 约基奇35+20+12第185次三双

醉卧浮生
2026-02-23 07:10:24
王毅外长喊话全球, 直接给日本定了性,话音刚落, 高市早苗已辞职

王毅外长喊话全球, 直接给日本定了性,话音刚落, 高市早苗已辞职

军器战位
2026-02-23 01:05:25
“开了12小时,还要12小时!”浙江男子急了直接开冷空调:车上鸡鸭鱼肉要臭了

“开了12小时,还要12小时!”浙江男子急了直接开冷空调:车上鸡鸭鱼肉要臭了

大象新闻
2026-02-22 23:44:11
确认,米兰冬奥会中国国旗颜色错误,应该不是因为疏忽

确认,米兰冬奥会中国国旗颜色错误,应该不是因为疏忽

真理是我亲戚
2026-02-23 13:28:56
快船险胜魔术!伦纳德+马瑟林59分,尼德豪泽完美护框,琼斯太铁

快船险胜魔术!伦纳德+马瑟林59分,尼德豪泽完美护框,琼斯太铁

篮球资讯达人
2026-02-23 12:38:20
无名指超食指长之人,这4样东西别去碰,恐会泄漏你的福气!

无名指超食指长之人,这4样东西别去碰,恐会泄漏你的福气!

一根香烟的少女
2025-09-22 16:52:27
俄罗斯发动大规模袭击!普京最新发声:发展“三位一体”核力量依然是俄方绝对的优先事项

俄罗斯发动大规模袭击!普京最新发声:发展“三位一体”核力量依然是俄方绝对的优先事项

每日经济新闻
2026-02-23 12:35:50
章子怡携全家游三亚,10岁醒醒皮肤黝黑,6岁儿子紧牵妈妈显温馨

章子怡携全家游三亚,10岁醒醒皮肤黝黑,6岁儿子紧牵妈妈显温馨

离离言几许
2026-02-23 11:07:55
网友乘船竟发现对面悬崖峭壁上,全部都是装备齐全的钓鱼佬

网友乘船竟发现对面悬崖峭壁上,全部都是装备齐全的钓鱼佬

映射生活的身影
2026-02-23 13:02:52
2026-02-23 18:44:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2881文章数 10439关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

郑丽文:一旦台海爆发冲突 台湾将成最大输家

头条要闻

郑丽文:一旦台海爆发冲突 台湾将成最大输家

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

谷爱凌奶奶去世,谷爱凌泪奔

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

旅游
家居
本地
时尚
教育

旅游要闻

上海市春节假期接待游客2167.21万人次 同比增长8.36%

家居要闻

本真栖居 爱暖伴流年

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

今年春天一定要拥有的针织,这样穿减龄又好看!

教育要闻

我把一个差生送进美国名校,如何帮他逆袭的?我兑现了当初的承诺

无障碍浏览 进入关怀版