热度第一、Tokens周调用破3T，MiniMax这个春节杀疯了|编程|算法|上下文|工作流|大模型|minimax

热度第一、Tokens周调用破3T，MiniMax这个春节杀疯了

2026-02-23 12:20:08　来源: 小蜜情感说

吉林举报

分享至

编辑｜杨文

这个春节，MiniMax 杀疯了。

2 月 20 日，港股马年首个交易日，MiniMax 收盘股价报涨 14.52%，市值一度冲破 3042 亿港元。

这轮上涨并非只是资本市场的情绪宣泄。

过去两年，AI 行业的叙事几乎集中在供给侧，比如更强的模型、更快的芯片、更大的数据中心。然而，制约 AI 产业规模化落地的，除了供给侧的能力上限外，还有大量长期憋着、始终未能真正释放的需求。

春节假期前后，MiniMax 发布新一代模型 M2.5，这些被压制的需求终于找到了一个出口。

M2.5 发布后 12 小时内登顶 OpenRouter 热度榜，一周内登顶调用量榜首，周调用量暴涨至 3.07T tokens，超过 Kimi K2.5、GLM-5 与 DeepSeek V3.2 三家的总和。

这还不是故事的全部。OpenRouter 整体调用量也在同步攀升。官方随后确认，M2.5 带动了 100K 至 1M 长文本区间的增量调用需求，而这个区间正是 Agent 工作流的典型消耗场景。

此前因为找不到能力和成本同时过关的模型，大量开发者手里攥着现成的工作流却迟迟无法启动。Agent 任务的 token 消耗远比普通对话密集，需求一旦被激活，带动的调用增量自然相当可观。

硅谷在用什么，已经悄悄变了

早在 MiniMax 推出 M2.1 模型时，被公认为 Cursor 最强挑战者的硅谷新贵 Kilo Code 就已表态。这家可调用全球超过 500 种模型的 AI 编程工具，在核心产品的默认模型位置上，曾高调宣布首选 MiniMax M2.1。

Kilo 联合创始人兼 CEO Breitenother 给出的理由简单粗暴：在开发者直接评判的真实编码工作流程中，M2.1 能够与前沿模型相媲美。

此次 M2.5 发布后随即全面开源，模型权重在 HuggingFace 上发布，支持本地部署，Kilo 再次宣布接入。与此同时，OpenCode、OpenClaw、Fireworks、Factory、TRAE、Cline、OpenHands、Roo Code，以及 Ollama、vLLM、SGLang、Dify、魔搭社区等国内外知名开源 Agent 应用、开源工具平台，也在第一时间接入。

Kilo 代表新一代 AI 编程工具的方向，OpenClaw 代表最新的 AgentOS，它们在底层模型的选择上极为挑剔，M2.5 能够成为这类产品的优先推荐，意味着在真实生产环境中对于模型的认可。

在编程领域最具代表性的 SWE-Bench Verified 评测中，M2.5 以 80.2% 的通过率达到了与 Claude Opus 系列相当的水平，在多语言任务 Multi-SWE-Bench 上排名第一。

知名技术博主 Simon Willison 使用 mini-swe-agent 对当前主流模型进行了独立测评，结果显示 M2.5 排名第三，仅次于 Claude Opus 4.5 和 Gemini 3 Flash，且是开源模型中的第一名。

执行效率也有实质性提升。研究机构 SemiAnalysis 实测显示，在 8 张 H200 显卡上，M2.5 在合理首 token 延迟范围内能够持续达到每 GPU 每秒约 2500 个 token 的吞吐量，即便在严格要求每用户每秒 20 个 token 交互性的条件下，处理超过 1 万个 token 的上下文时仍能维持稳定的解码速度。

开源 Agent 社区的密集接入同样说明问题。对于需要长时间运行、高频调用工具的 Agent 框架来说，模型的定价直接决定了产品能否跑通商业逻辑。

M2.5 的价格区间恰好落在这批产品真正能接受的范围里。它提供两个版本：100 TPS 快速版，输入每百万 tokens 仅需 0.3 美元，输出每百万 tokens 仅需 2.4 美元；50 TPS 版本输出价格还要再降一半。

能力、速度、成本，这三个维度在 M2.5 上同时达标，带来的结果在 OpenRouter 上看得尤为清楚，M2.5 第一次走出了一条接近指数型的曲线。

满足真实需求，从底层重新设计

这些提升的背后，得益于 MiniMax 从工程底层重新设计的一套原生 Agent 强化学习系统，代号 Forge。

Forge 将 Agent 的执行逻辑与底层训练推理引擎彻底解耦。在此之前，大多数 RL 框架要求把 Agent 当作白盒来处理，Agent 与框架之间需要深度共享内部状态，一旦涉及动态上下文管理或多 Agent 协作，工程复杂度就会急剧膨胀；传统的 Token-In-Token-Out 模式还迫使 Agent 与底层 Tokenizer 深度绑定，维护训练和推理之间的一致性成本极高。

Forge 通过引入中间件抽象层绕开了这两个问题。Gateway Server 作为标准化通信网关，将 Agent 的高层行为与底层模型复杂性隔离；Data Pool 异步收集训练轨迹，使生成与训练彻底解耦。这套架构让 MiniMax 可以在不修改任何 Agent 内部代码的前提下，接入数百种框架和数千种工具调用格式进行训练。

在训练效率上，Forge 引入了 Prefix Tree Merging 方案，将训练样本从线性序列重构为树形结构，消除了多轮 Agent 请求之间大量重复的上下文前缀，实现了约 40 倍的训练加速，同时显著降低了显存开销。

异步调度上，Forge 提出 Windowed FIFO 策略，在最大化系统吞吐量的同时，通过滑动窗口约束控制样本的离策略程度，避免训练分布向「快而简单」的样本严重偏移，兼顾了效率与稳定性。

算法层面，MiniMax 沿用自研的 CISPO 算法保障 MoE 模型在大规模训练中的稳定性，并针对 Agent 场景的长轨迹信用分配难题，设计了由过程奖励、任务完成时间奖励与 Reward-to-Go 三部分组成的复合奖励：过程奖励对 Agent 中间行为进行密集监督，不只依赖最终结果；任务完成时间奖励将相对完成时间作为奖励信号，激励模型主动利用并行策略选择最短执行路径；Reward-to-Go 则通过标准化回报大幅降低梯度方差，稳定优化过程。

此外，MiniMax 还将上下文管理机制直接整合进了 RL 交互循环，将其视为驱动状态转换的功能性动作，让模型在训练阶段就学会预见并适应上下文变迁，这从根本上解决了长程任务中随交互轮次增加而出现的注意力稀释问题。

正是这套系统，让 M2.5 在 Kilo、OpenClaw 这类对模型要求颇为苛刻的 Agent 框架上跑出了稳定的表现。

超越 Agentic Engineering，面向下一代应用生态

在过去 108 天里，MiniMax 陆续推出了 M2、M2.1 和 M2.5，在 SWE-Bench Verified 榜单上，M2 系列的进步速度超过了 Claude、GPT 和 Gemini 系列，是行业迭代最快的。

这个节奏，恰好踩在一个需求爆发的窗口上。OpenClaw 从籍籍无名到席卷全球，前后不过一两个月时间。如今 OpenRouter 上已有上千种类似工具和应用在此生长，这片 ChatGPT、Claude、Gemini「御三家」之外的生态里，开发者只认一个标准：模型跑不跑得通、用不用得起。

能力达到第一梯队、价格只有主流旗舰模型十分之一、还支持本地部署，MiniMax M2.5 和一系列国产模型的出现，恰好在性能与成本之间击穿了那个临界点，让开源社区里那些原本只存在于 Demo 中的复杂多 Agent 系统，第一次具备了大规模商业落地的经济可行性。

3T tokens 的周调用量背后，是开发者们用脚投出的票。这个数字不只是 M2.5 模型的增量，更是硅谷下一代的开源生态应用的增量。

那些被压制了许久的 Agent 需求，真的要开始跑起来了。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.