网易首页 > 网易号 > 正文 申请入驻

M2.5登顶OpenRouter:如何做出大家最需要的那个模型

0
分享至


作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

先看一组数据:

评估模型编程能力的主流榜单SWE-bench Verified上,Claude Opus 4.6 得分80.8%,Gemini 3.1 Pro 80.6%,MiniMax 2.5 80.2%,GLM-5 77.8%,Kimi K2.5 76.8%。

最大分差也不超过4分,差距就这么点大。开发者今天其实已经很难只靠这些“考试分数”来选择要用的模型。

但最近还有另一组很有意思的数据,来自最重要的模型调用平台之一OpenRouter:


官方统计显示,最近其平台上的token调用激增,且其中很多需求来自100K-1M长文本任务,也就是agent工作流最典型消耗区间。刺激这些需求爆发的一个重要因素是一个新模型的发布——MiniMax M2.5。单是在OpenRouter上,它发布后七天的调用量就到了破纪录的 3.07T tokens。

这说明什么?

今天公开的benchmark也就是打榜式的评测已经没那么重要了,因为差别不再明显。但与此同时,真实使用者的感受越来越关键,做好了,你就可以成为最受欢迎的那一个,因为用户们对模型的需求远远未被满足。

所以,关键的问题变成,如何做出大家最需要的那个模型。

可以先来看看这个备受欢迎的MiniMax M2.5是一个什么样的模型。

1.模型部署上:10B激活参数,实战中总结的甜点位

MiniMax M2.5,一个总参数 230B,激活参数只有10b的模型。它不会叫自己端侧模型,但已经是私有化部署最友好的模型。这是一个实战中总结出来的性价比甜点位,也是头部模型里这种友好度里的唯一选择。

2.价格:没有波动,这是开发者最在意的负担

人们想尽可能多消耗token,但对价格变化又有负担,M2.5通过各种工程和算法更新,在性能提升同时,把价格维持住了,这其实说明MiniMax自己也清楚知道真实的开发者的最大负担是什么。

3.模型的核心能力:死磕Coding和Agent,让开发者真的认真考虑用它替代Claude

此次M2.5在编程上性能提升的来源,不再是“不论过程只管对标结果”的方式,而是把开发过程里的代码工程甚至开发思维训练到模型里。M2.5的spec能力就是一个典型的代表。

官方报告这样形容:M2.5 具备了像架构师一样思考和构建的能力,比如模型演化出了原生 Spec 行为:在动手写代码前,以架构师视角主动拆解功能、结构和 UI 设计,实现完整的前期规划。

M系列阶段性目标明确,此时此刻,它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已经做到80.2%的水平,同时约1 元/小时的成本给你100 tokens/秒的吞吐,还要什么自行车。

这当然是个带有赌注成分的决定,并且需要做出trade off,但目前看起来效果不错收益明显。大量Claude Code用户在选择模型时真的逃不开要考虑M系列模型,这就很能说明问题。

4.推理:推理效率的极致优化,每一环都是在解决业务压力

M2.5在工程化上持续补全:平衡吞吐和稳定的Windowed FIFO,把大量重复前缀合并处理、解放出40倍效率的树状结构……推理的每个环节都在继续优化。

5.以及可能是最重要的,又一个技术创新:RL框架Forge

MiniMax在技术上一直挺有追求,不少新的思路是它第一批尝试然后反馈给行业里,比如此前的交错思维链式推理等。而这一次它重点介绍了用在M2.5训练里的一个新的 RL 框架 Forge 。

这是一个工业级的Agent RL 训练方案,也就是它的目标非常务实,就是面向真实复杂的场景大规模训练AI Agent。

上个阶段把Agent训入模型的方式其实依然粗糙,它们有点“混为一谈”的感觉,而Forge这次核心探索了对Agent部分和模型本身基础能力做解耦的方法。

先把Agent和它需要的环境抽象出来,与模型本身区分开,然后在两者间增加一个中间层,既扮演物理隔离的作用,也提供智能调度和实施策略调整的角色。这很巧妙。


更有意思的是,这样解耦后,还解锁了一个新的scale的方向,就是把各种Agent框架放进去做训练,最终获得泛化能力。这是个非常有用,甚至直接能影响开发者体验的泛化,它让M2.5可以适配各种见过没见过的“脚手架”。

这同样是真实agent场景里非常需要的能力。

看过M 2.5的这些训练重点,你会发现,它的这些优化都不是为了刷榜,而是为了解决非常具体的问题——在Agent的需求快速取代了所谓对话场景的需求后,模型该提供什么样的智能。

它需要在效果和价格上找到微妙平衡,持续提升性能的同时降低成本。

这说来简单,但对这个度的把握很难。模型厂要对这些开发者的需求有最直接的感知。而MiniMax的“手感”其实正来自这家公司自己内部。

M2.5背后,MiniMax 的M系列模型最重要的研发思路就是要解决它内部各个团队在开发agent的过程里遇到的问题。

闫俊杰曾在M1发布后分享过:“公司内部的小伙伴一直在搭建各种各样的Agent,来帮助解决公司飞速发展中遇到的各项挑战……但是我们发现没有一款模型在这些Agent上能完全满足我们的需求。这里面的挑战在于好的模型需要在效果、价格和推理速度上取得好的平衡,这几乎是一个‘不可能三角’……我们一直在探索,能不能有一款模型能在效果、价格和速度上能取得比较好的平衡,从而让更多的人能受益于Agent时代的智能提升。”

所以,MiniMax M2发布时,它做到当时Claude主力模型价格的8%,而最新的MiniMax M2.5价格是Claude主力模型的1/12。甚至,M2.5直接被形容为“1万美元可以让4个Agent连续工作一年”的模型,这几乎意味着你可以不需要考虑使用成本地近乎无限使用它。

同时,从死磕编程能力、开发Forge框架再到各种推理优化,它继续榨出更好的模型效果和更快推理速度。



而其中像Forge框架这种创新,就是整个M2.5背后思路的典型代表:只有那些自己在日常工作环境里对各种agent脚手架之间的适配感到过绝望,对真实环境里模型与agent能力之间的关系真正“抓狂”过的模型团队才会去解决这些问题。

M2.5显然是MiniMax自己在面对“不可能三角”时最需要的那类模型。现在,它也成了开发者们最需要的那类模型。

所以作为模型公司本身,当你一直在牌桌上,你自己其实就是最能检验模型实际能力和体验的第一道关。

当一家模型公司自己对生产力AI的需求达到最先进程度,它自己面对的体验困局也就会是人们最重要和普遍的需求,它的创新方向就会是大家期待的模型的进步方向。

它自己喜欢的那个模型,就会是大家最喜欢的模型。


点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越南急着修高铁中国就是不出手,无奈只能去找新的冤大头

越南急着修高铁中国就是不出手,无奈只能去找新的冤大头

照亮你的前行之路
2026-03-26 14:20:40
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
北京中学老师江学勤突然爆红西方,照出了中文世界的一块短板

北京中学老师江学勤突然爆红西方,照出了中文世界的一块短板

码头青年
2026-03-23 11:19:24
向鹏林诗栋退出世界杯

向鹏林诗栋退出世界杯

乒乓11分
2026-03-26 09:48:25
国际原油持续上涨,WTI原油期货涨4.03%,报93.963美元/桶;布伦特原油期货涨3.50%,报100.663美元/桶

国际原油持续上涨,WTI原油期货涨4.03%,报93.963美元/桶;布伦特原油期货涨3.50%,报100.663美元/桶

每日经济新闻
2026-03-26 16:45:22
追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

追悼会前,张雪峰婚姻状况被扒,现任身份不一般,恐影响遗产分配

晓劗就是我
2026-03-26 15:59:16
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

巴拿马接到通知,赔款156亿还不够,中方扩大反制,港口管控升级

小虎新车推荐员
2026-03-26 14:02:10
封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

封神战在即!德约出战蒙特卡洛,冲击史无前例三圈“金大师”!

田先生篮球
2026-03-26 13:33:00
巴西联邦最高法院批准前总统博索纳罗居家监禁

巴西联邦最高法院批准前总统博索纳罗居家监禁

澎湃新闻
2026-03-25 12:37:06
游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

有范又有料
2026-03-26 16:42:57
轰25+3+6!把球给杜兰特,申京赛后如梦初醒,乌度卡也找到答案了

轰25+3+6!把球给杜兰特,申京赛后如梦初醒,乌度卡也找到答案了

巴叔GO聊体育
2026-03-26 16:24:50
简直是大快人心!奥委会当年刁难北京,现在只能自食恶果

简直是大快人心!奥委会当年刁难北京,现在只能自食恶果

史行途
2026-03-26 07:36:04
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
3月26日人民币对美元中间价调贬145个基点

3月26日人民币对美元中间价调贬145个基点

证券时报
2026-03-26 09:34:06
信张维迎还是信张维为?这是一个时代之问

信张维迎还是信张维为?这是一个时代之问

壹家言
2026-03-24 22:54:33
中方驳斥“闯馆事件”日方荒谬说法:你见过未经允许持刀进入使馆同大使交谈的先例吗?

中方驳斥“闯馆事件”日方荒谬说法:你见过未经允许持刀进入使馆同大使交谈的先例吗?

环球网资讯
2026-03-26 07:09:09
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
“顶流”爆款!一年卖了2.5亿元!穿越千年的“宝藏”生意

“顶流”爆款!一年卖了2.5亿元!穿越千年的“宝藏”生意

环球网资讯
2026-03-26 08:45:21
水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

水果骗局大揭秘!这些水果其实全是假的,买了你就上当了!

时评人李文君
2026-03-25 19:32:21
2026-03-26 17:16:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10472关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
教育
健康
游戏
公开课

皮衣+裙,高级到炸

教育要闻

2026湖北高职单招工作启动

转头就晕的耳石症,能开车上班吗?

商业互吹or真心话?制作人玩《红色沙漠》忘记工作

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版