Token太贵，中国开源模型一夜之间霸榜了|调用|编程|工作流|大模型|token|agent

分享至

《智能体·新世界》系列第五期，AI从聊天框变成了永不停歇的自动化引擎，模型能力最强不再是唯一的胜负手，智能的“性价比”权重变得更高。中国开源模型抓住了这个范式切换的时间窗口。

文｜晓静

编辑｜徐青阳

全球头部AI模型API聚合平台OpenRouter的数据显示，2026年2月，中国AI模型的调用量三周大涨127%，首次超越美国模型，全球前五中占据四席。

最新的2月16日至22日的周榜单中，平台调用量排名前五的模型中，有四款来自中国厂商，包括MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5、DeepSeek的V3.2。这四款模型合计贡献了Top 5总调用量的85.7%。

一年前，中国模型在这个平台上的份额不到2%。

图：从2024年11月到2025年11月的周度Token总量堆叠柱状图。深红色=闭源模型，橙色=中国开源模型，蓝绿色=其他地区开源模型。能清晰看到中国开源模型（橙色）从几乎不可见到逐渐占到近30%的过程。

OpenRouter聚合了OpenAI、Anthropic、Google、MiniMax、月之暗面等超过300个模型的API调用，覆盖60多家供应商，超过一半的使用量来自美国以外。开发者拿一套API Key就能在不同模型之间即时切换，如果哪个不好用，可以秒切。Token数据在OpenRouter的涨跌，几乎就是实时的市场投票。

这个时间，刚刚经过了开源个人智能体框架OpenClaw的火爆，也经历了中国春节AI大战，几乎所有模型的关键词已经切换成了“Agentic”。

过去两年，大模型竞争的核心叙事是模型能力：谁更聪明，谁在 ARC、SWE-Bench 这类 benchmark 上更高分，谁就更接近 AGI。参数规模、推理深度、复杂任务完成率，构成了行业的主要坐标系。

但是2026年的春节过后，Agentic AI的核心叙事是持续完成任务，包括写代码、调试、调用工具、读取文件、再迭代。Token 消耗从“人机对话”升级为“机器自循环”。一次任务可能消耗数十万、数百万 Token。

模型之间的差异，开始转变为在长流程、高频调用、长上下文环境下，谁的单位成本更低、稳定性更强、推理曲线更平滑。

图：OpenClaw是OpenRouter最大的单一应用，其Token消耗量约占平台显著比例

01 Token消耗的底层逻辑变了

OpenRouter与a16z联合发布的《2025 AI使用报告》，覆盖超100万亿Token的匿名元数据。里面有一组数据极其关键——编程任务的Token占比从2025年初的11%飙到了50%以上，成为平台最大的单一使用品类。同时，Agent驱动的工作流（模型自主执行多步骤任务）产生的输出Token已超过平台总输出的一半。

图：编程类请求在所有LLM查询中的占比，从2025年初约11%持续攀升至50%以上。

过去的问答式AI，一轮对话消耗几百到几千Token，用户不再提问，Token就不会再消耗。Agent模式下，机器可以持续在后台跑流程。

拿OpenClaw举例，它的Token消耗粗略看有三种模式：

一是多轮自我修正。一次编程任务可能经历“写代码→运行→报错→改→再跑”几十个回合，每个回合都是一次完整的模型调用。

二是上下文无限膨胀。为了让Agent“记住”之前的操作，每次调用都要携带完整对话历史。有用户实测，一个活跃会话的上下文很快膨胀到23万Token以上。

三是工具链级联。Agent处理一个“帮我整理邮件并创建待办”的任务，可能触发5-10次API调用，每次都背着完整上下文。

有OpenClaw用户吐槽，一个配置不当的自动化任务一天烧掉了200美元API费。更直观的数字是：7×24小时跑OpenClaw，全量使用Claude API，月成本在800到1500美元之间。

再看OpenRouter自身的数据：2月9日当周，平台处理了13万亿Token，1月第一周是6.4万亿，一个月翻了一倍。平台最新周Token总量12.1万亿，是一年前的12.7倍。

AI的使用模式从“对话型”切换到了“流程型”，Token消耗从“按次”变成了“按流量”。成本敏感度被急剧放大。

02 Agent模型组合背后的机会

极端假设Agent全天候运行，每天吞掉数十亿Token。在这种负载下，价格差距就是生死线。

当前主流模型的API定价对比（每百万Token，美元）

Claude 4.6 Sonnet 的输出价格为 15 美元 / 百万 Token，而 MiniMax M2.5 的典型输出价格约为 1.1 美元 / 百万 Token，前者是后者的约 13.6 倍。GPT-5.2 的输出价格为 14 美元 / 百万 Token，也接近 MiniMax 的 12.7 倍。即便是已经涨价的智谱 GLM-5，输出价格约为 2.55 美元 / 百万 Token，仍然只有 Claude 的大约六分之一左右。

在 Agent 场景里，这种差距会被指数级放大。假设一个生产级 Agent 每天处理 10 亿输出 Token（即 1000 个百万 Token 单位），挂 Claude 意味着每天约 1.5 万美元的支出；同样规模如果使用 MiniMax，大约 1100 美元。30 天下来，前者接近 45 万美元，后者约 3.3 万美元，中间差出 40 多万美元。

这个价差已经在真实项目里决定了开发者的选择。

一家使用OpenClaw的欧洲开发工作室公开了他们的方案：80%的日常推理引擎用Kimi K2.5，碰到高难度推理、复杂系统架构之类的20%硬骨头，通过bash命令把任务甩给Claude。一天的Kimi开销大约5到10美元，月度Token预算控制在150到300美元。如果同样的事全量用Claude API模式，月成本将高达800-1500美元以上。

“80%能力，20%价格”的组合，对标“100%能力，100%价格”的方案，在实际部署中是碾压级的吸引力。

a16z合伙人Martin Casado去年底接受《经济学人》采访时也披露了一个数字：在使用开源模型的AI初创企业中，约80%跑的是中国模型。他后来在X上澄清，这个比例指的是“用开源模型的那部分创业公司”，占全部创业公司的20%-30%，折算下来，大约16%-24%的美国AI初创企业技术栈里嵌着中国开源模型。

OpenRouter COO Chris Clark说得更直接：中国开放权重模型在美国企业运行的Agent工作流中“占比异常高”。

03 架构暗战，“Agent原生”

这一轮范式转换中，中国开源模型阵营几乎所有头部玩家都把“Agentic”作为主攻方向，从架构到训练全链路为Agent场景做原生适配。

底层仍然延续了上一阶段跑通的MoE + MLA路线，总参数做大，每次推理只激活一小部分，保住能力的同时控制Token成本。

但光便宜不够，在这一轮真正拉开差距的，要在Agent场景下“跑得好”。

MiniMax内部开发了一套叫Forge的原生Agent强化学习框架，核心设计是把Agent的执行逻辑跟底层训练引擎彻底解耦：Agent只管跑任务、产出轨迹数据，训练引擎只管从轨迹里学习。这套架构能接入任意Agent脚手架。MiniMax披露的数据是，他们在数十万个真实Agent脚手架和环境上做了大规模强化学习，上下文长度拉到200K。

Forge里有两个工程细节值得注意。一是“前缀树合并”，Agent多轮请求之间有大量重复的上下文前缀，传统方法把每个请求当独立样本重复计算，Forge把训练样本从线性序列重构成树形结构，共享前缀只算一次，MiniMax给出的数字是训练加速约40倍。

二是奖励设计：除了任务完成度，M2.5的强化学习还把“任务完成时间”作为奖励信号，直接激励模型选最短路径、主动利用并行。效果上，根据Minimax的数据，M2.5跑SWE-Bench Verified的端到端时间22.8分钟，比上代M2.1的31.3分钟快了37%，跟Claude Opus 4.6的22.9分钟基本持平。连续运行1小时（100 TPS）成本1美元，MiniMax的说法是“1万美金可以让4个Agent连续工作一年。”

Kimi K2.5可支持Agent集群，能根据任务需求现场调度多达100个“分身”，组成不同角色的团队并行工作，最多同时处理1500个步骤。在大规模搜索场景下，Agent集群比单Agent减少了3到4.5倍的关键步骤，实际运行时间最高缩短4.5倍。

K2.5的定位就是原生多模态、Agent模型，同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务，架构层面做了全面适配。

这些创新表明，中国头部模型已经不只是在“便宜”上做文章。

闭源模型Anthropic和OpenAI的模型架构是黑箱，开发者没法评估长期运行的成本曲线，也没法做本地部署优化。但Claude的长板在产品化能力，computer use、Artifacts、MCP生态，以及复杂推理的精确度。

图：编程类Token按闭源/中国开源/其他开源的占比拆分。能看到Anthropic Claude在编程领域长期占据60%+的份额，但中国开源模型和其他开源模型在2025年下半年持续蚕食。

竞争力已经形成差异化：中国开源模型工程细节透明，可以被复刻和优化，在成本敏感的大规模部署里占优；美国闭源模型的长板在产品化能力和复杂推理的精确度上。

Agent时代到来，中国开源模型已经吃到了结构性红利。

04 智谱涨价30%：价格战结束了，需求战开始了

2月12日，智谱AI发布GLM-5的同一天，宣布GLM Coding Plan套餐整体涨价30%起，取消首购优惠。海外版涨价幅度更大，订阅价格涨30%-60%，API调用涨67%-100%。

这是国产大模型2026年首次大幅提价。

背景也很有意思。过去一年多，中国大模型市场打了一场惨烈的价格战。字节豆包报价低到0.0008元/千Token，阿里通义千问GPT-4级主力模型降价97%，智谱自己也把上一代GLM-4-Plus砍了90%。

现在掉头涨价，同时GLM Coding Plan上线即售罄，国产AI编程产品的付费套餐被秒空。

这里也衍生出另外一个问题，“智谱敢涨价，是不是说明中国模型的增长跟价格战无关”？

答案不是“是或否”这样简单。

Agent化让Token需求暴涨，中国模型凭借相对成本优势吃到了增量，涨价本质上是供需再平衡。智谱回应涨价：“用户规模与调用量快速提升，公司同步加大算力投入”。

据媒体报道，Kimi K2.5在1月27日发布后不到一个月，近20天的累计收入已经超过了2025年全年总收入。这个增长的核心驱动力来自海外开发者和API调用，K2.5在OpenRouter平台的调用量持续位居前列，直接带动了B端收入的暴涨，海外收入首次超过国内。

MiniMax的情况类似，M2.5发布7天内Token使用量就突破3万亿，内部数据显示M2.5生成的代码已占公司新提交代码的80%。

放到行业里看，智谱、月之暗面、MiniMax、阶跃星辰4家都已上调部分API价格。长江证券研报的判断是：国产模型“正式进入需求驱动时代”。

价格战的时代结束了，接下来是需求战。

05 数据里有多少水分？

关于这次暴涨，也有争议说，这次的Token数据有水分。

比如，MiniMax M2.5单周197%的暴涨，很大程度上受益于Kilo Code和Cline两大AI编程工具的免费推广。2月12日起，Kilo Code为超过150万开发者用户提供一周免费M2.5访问，Cline也搞了类似活动。

免费送量带来的短期拉动，客观上是不能忽略的。但免费推广只能解释“量”的爆发，解释不了趋势和留存。

MiniMax M2.5在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的SOTA，比如SWE-Bench Verified (80.2%)，Multi-SWE-Bench (51.3%)，BrowseComp (76.3%)；从Benchmark来看，分数够到了旗舰级的门槛，不能再用“廉价平替”来概括。

OpenRouter年度数据显示，中国开源模型份额从2024年末不到2%，2025年下半年加速爬升，某些周接近30%。

一条持续上行的曲线，跟某次促销带来的孤立脉冲完全是两回事。

榜单中还有另外一个细节，前五名里，MiniMax、月之暗面、智谱、DeepSeek是四个不同团队的产品。这次不仅仅是一个爆款在带节奏，是中国开源模型生态的工程成熟度在国际化的市场中受到了认可。

图：2024年末DeepSeek V3和R1占了一半以上（深蓝色），2025年中之后色块急剧多样化，Qwen、MiniMax、Kimi、GPT-OSS等轮番上位，没有单一模型超过25%。

06 写在最后

Agent时代正在重写模型竞争的规则。

Agent使用组合模型的方案，让模型性价比的权重在提升。

API聚合平台的成长一定程度上瓦解了原厂的入口壁垒。

开源模型的工程成熟度已经够得上产品级。全球开发者把中国开源模型嵌入生产环境的Agent工作流，跑在真实业务里，跟实验室的刷分完全是两码事。

2026年开年，模型范式又一次更迭，从对话式AI到Agentic AI，中国开源模型在2026年开年抓住了这个结构性窗口。

但变局远没有到终点。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.