网易首页 > 网易号 > 正文 申请入驻

Token太贵,中国开源模型一夜之间霸榜了

0
分享至


《智能体·新世界》系列第五期,AI从聊天框变成了永不停歇的自动化引擎,模型能力最强不再是唯一的胜负手,智能的“性价比”权重变得更高。中国开源模型抓住了这个范式切换的时间窗口。

文|晓静

编辑|徐青阳

全球头部AI模型API聚合平台OpenRouter的数据显示,2026年2月,中国AI模型的调用量三周大涨127%,首次超越美国模型,全球前五中占据四席。

最新的2月16日至22日的周榜单中,平台调用量排名前五的模型中,有四款来自中国厂商,包括MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5、DeepSeek的V3.2。这四款模型合计贡献了Top 5总调用量的85.7%。

一年前,中国模型在这个平台上的份额不到2%。


图:从2024年11月到2025年11月的周度Token总量堆叠柱状图。深红色=闭源模型,橙色=中国开源模型,蓝绿色=其他地区开源模型。能清晰看到中国开源模型(橙色)从几乎不可见到逐渐占到近30%的过程。

OpenRouter聚合了OpenAI、Anthropic、Google、MiniMax、月之暗面等超过300个模型的API调用,覆盖60多家供应商,超过一半的使用量来自美国以外。开发者拿一套API Key就能在不同模型之间即时切换,如果哪个不好用,可以秒切。Token数据在OpenRouter的涨跌,几乎就是实时的市场投票。

这个时间,刚刚经过了开源个人智能体框架OpenClaw的火爆,也经历了中国春节AI大战,几乎所有模型的关键词已经切换成了“Agentic”。

过去两年,大模型竞争的核心叙事是模型能力:谁更聪明,谁在 ARC、SWE-Bench 这类 benchmark 上更高分,谁就更接近 AGI。参数规模、推理深度、复杂任务完成率,构成了行业的主要坐标系。

但是2026年的春节过后,Agentic AI的核心叙事是持续完成任务,包括写代码、调试、调用工具、读取文件、再迭代。Token 消耗从“人机对话”升级为“机器自循环”。一次任务可能消耗数十万、数百万 Token。

模型之间的差异,开始转变为在长流程、高频调用、长上下文环境下,谁的单位成本更低、稳定性更强、推理曲线更平滑


图:OpenClaw是OpenRouter最大的单一应用,其Token消耗量约占平台显著比例

01 Token消耗的底层逻辑变了

OpenRouter与a16z联合发布的《2025 AI使用报告》,覆盖超100万亿Token的匿名元数据。里面有一组数据极其关键——编程任务的Token占比从2025年初的11%飙到了50%以上,成为平台最大的单一使用品类。同时,Agent驱动的工作流(模型自主执行多步骤任务)产生的输出Token已超过平台总输出的一半。


图:编程类请求在所有LLM查询中的占比,从2025年初约11%持续攀升至50%以上。

过去的问答式AI,一轮对话消耗几百到几千Token,用户不再提问,Token就不会再消耗。Agent模式下,机器可以持续在后台跑流程。

拿OpenClaw举例,它的Token消耗粗略看有三种模式:

一是多轮自我修正。一次编程任务可能经历“写代码→运行→报错→改→再跑”几十个回合,每个回合都是一次完整的模型调用。

二是上下文无限膨胀为了让Agent“记住”之前的操作,每次调用都要携带完整对话历史。有用户实测,一个活跃会话的上下文很快膨胀到23万Token以上。

三是工具链级联。Agent处理一个“帮我整理邮件并创建待办”的任务,可能触发5-10次API调用,每次都背着完整上下文。

有OpenClaw用户吐槽,一个配置不当的自动化任务一天烧掉了200美元API费。更直观的数字是:7×24小时跑OpenClaw,全量使用Claude API,月成本在800到1500美元之间。

再看OpenRouter自身的数据:2月9日当周,平台处理了13万亿Token,1月第一周是6.4万亿,一个月翻了一倍。平台最新周Token总量12.1万亿,是一年前的12.7倍。

AI的使用模式从“对话型”切换到了“流程型”,Token消耗从“按次”变成了“按流量”。成本敏感度被急剧放大。

02 Agent模型组合背后的机会

极端假设Agent全天候运行,每天吞掉数十亿Token。在这种负载下,价格差距就是生死线。

当前主流模型的API定价对比(每百万Token,美元)


Claude 4.6 Sonnet 的输出价格为 15 美元 / 百万 Token,而 MiniMax M2.5 的典型输出价格约为 1.1 美元 / 百万 Token,前者是后者的约 13.6 倍。GPT-5.2 的输出价格为 14 美元 / 百万 Token,也接近 MiniMax 的 12.7 倍。即便是已经涨价的智谱 GLM-5,输出价格约为 2.55 美元 / 百万 Token,仍然只有 Claude 的大约六分之一左右。

在 Agent 场景里,这种差距会被指数级放大。假设一个生产级 Agent 每天处理 10 亿输出 Token(即 1000 个百万 Token 单位),挂 Claude 意味着每天约 1.5 万美元的支出;同样规模如果使用 MiniMax,大约 1100 美元。30 天下来,前者接近 45 万美元,后者约 3.3 万美元,中间差出 40 多万美元。

这个价差已经在真实项目里决定了开发者的选择。

一家使用OpenClaw的欧洲开发工作室公开了他们的方案:80%的日常推理引擎用Kimi K2.5,碰到高难度推理、复杂系统架构之类的20%硬骨头,通过bash命令把任务甩给Claude。一天的Kimi开销大约5到10美元,月度Token预算控制在150到300美元。如果同样的事全量用Claude API模式,月成本将高达800-1500美元以上。


“80%能力,20%价格”的组合,对标“100%能力,100%价格”的方案,在实际部署中是碾压级的吸引力。

a16z合伙人Martin Casado去年底接受《经济学人》采访时也披露了一个数字:在使用开源模型的AI初创企业中,约80%跑的是中国模型。他后来在X上澄清,这个比例指的是“用开源模型的那部分创业公司”,占全部创业公司的20%-30%,折算下来,大约16%-24%的美国AI初创企业技术栈里嵌着中国开源模型。

OpenRouter COO Chris Clark说得更直接:中国开放权重模型在美国企业运行的Agent工作流中“占比异常高”。

03 架构暗战,“Agent原生”

这一轮范式转换中,中国开源模型阵营几乎所有头部玩家都把“Agentic”作为主攻方向,从架构到训练全链路为Agent场景做原生适配。

底层仍然延续了上一阶段跑通的MoE + MLA路线,总参数做大,每次推理只激活一小部分,保住能力的同时控制Token成本。

但光便宜不够,在这一轮真正拉开差距的,要在Agent场景下“跑得好”。

MiniMax内部开发了一套叫Forge的原生Agent强化学习框架,核心设计是把Agent的执行逻辑跟底层训练引擎彻底解耦:Agent只管跑任务、产出轨迹数据,训练引擎只管从轨迹里学习。这套架构能接入任意Agent脚手架。MiniMax披露的数据是,他们在数十万个真实Agent脚手架和环境上做了大规模强化学习,上下文长度拉到200K。

Forge里有两个工程细节值得注意。一是“前缀树合并”,Agent多轮请求之间有大量重复的上下文前缀,传统方法把每个请求当独立样本重复计算,Forge把训练样本从线性序列重构成树形结构,共享前缀只算一次,MiniMax给出的数字是训练加速约40倍。

二是奖励设计:除了任务完成度,M2.5的强化学习还把“任务完成时间”作为奖励信号,直接激励模型选最短路径、主动利用并行。效果上,根据Minimax的数据,M2.5跑SWE-Bench Verified的端到端时间22.8分钟,比上代M2.1的31.3分钟快了37%,跟Claude Opus 4.6的22.9分钟基本持平。连续运行1小时(100 TPS)成本1美元,MiniMax的说法是“1万美金可以让4个Agent连续工作一年。”

Kimi K2.5可支持Agent集群,能根据任务需求现场调度多达100个“分身”,组成不同角色的团队并行工作,最多同时处理1500个步骤。在大规模搜索场景下,Agent集群比单Agent减少了3到4.5倍的关键步骤,实际运行时间最高缩短4.5倍

K2.5的定位就是原生多模态、Agent模型,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务,架构层面做了全面适配。

这些创新表明,中国头部模型已经不只是在“便宜”上做文章。

闭源模型Anthropic和OpenAI的模型架构是黑箱,开发者没法评估长期运行的成本曲线,也没法做本地部署优化。但Claude的长板在产品化能力,computer use、Artifacts、MCP生态,以及复杂推理的精确度。


图:编程类Token按闭源/中国开源/其他开源的占比拆分。能看到Anthropic Claude在编程领域长期占据60%+的份额,但中国开源模型和其他开源模型在2025年下半年持续蚕食。

竞争力已经形成差异化:中国开源模型工程细节透明,可以被复刻和优化,在成本敏感的大规模部署里占优;美国闭源模型的长板在产品化能力和复杂推理的精确度上。

Agent时代到来,中国开源模型已经吃到了结构性红利。

04 智谱涨价30%:价格战结束了,需求战开始了

2月12日,智谱AI发布GLM-5的同一天,宣布GLM Coding Plan套餐整体涨价30%起,取消首购优惠。海外版涨价幅度更大,订阅价格涨30%-60%,API调用涨67%-100%。

这是国产大模型2026年首次大幅提价。

背景也很有意思。过去一年多,中国大模型市场打了一场惨烈的价格战。字节豆包报价低到0.0008元/千Token,阿里通义千问GPT-4级主力模型降价97%,智谱自己也把上一代GLM-4-Plus砍了90%。

现在掉头涨价,同时GLM Coding Plan上线即售罄,国产AI编程产品的付费套餐被秒空。

这里也衍生出另外一个问题,“智谱敢涨价,是不是说明中国模型的增长跟价格战无关”?

答案不是“是或否”这样简单。

Agent化让Token需求暴涨,中国模型凭借相对成本优势吃到了增量,涨价本质上是供需再平衡。智谱回应涨价:“用户规模与调用量快速提升,公司同步加大算力投入”。

据媒体报道,Kimi K2.5在1月27日发布后不到一个月,近20天的累计收入已经超过了2025年全年总收入。这个增长的核心驱动力来自海外开发者和API调用,K2.5在OpenRouter平台的调用量持续位居前列,直接带动了B端收入的暴涨,海外收入首次超过国内。

MiniMax的情况类似,M2.5发布7天内Token使用量就突破3万亿,内部数据显示M2.5生成的代码已占公司新提交代码的80%。

放到行业里看,智谱、月之暗面、MiniMax、阶跃星辰4家都已上调部分API价格。长江证券研报的判断是:国产模型“正式进入需求驱动时代”。

价格战的时代结束了,接下来是需求战。

05 数据里有多少水分?

关于这次暴涨,也有争议说,这次的Token数据有水分。

比如,MiniMax M2.5单周197%的暴涨,很大程度上受益于Kilo Code和Cline两大AI编程工具的免费推广。2月12日起,Kilo Code为超过150万开发者用户提供一周免费M2.5访问,Cline也搞了类似活动。

免费送量带来的短期拉动,客观上是不能忽略的。但免费推广只能解释“量”的爆发,解释不了趋势和留存。

MiniMax M2.5在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的SOTA,比如SWE-Bench Verified (80.2%),Multi-SWE-Bench (51.3%),BrowseComp (76.3%);从Benchmark来看,分数够到了旗舰级的门槛,不能再用“廉价平替”来概括。

OpenRouter年度数据显示,中国开源模型份额从2024年末不到2%,2025年下半年加速爬升,某些周接近30%。

一条持续上行的曲线,跟某次促销带来的孤立脉冲完全是两回事。

榜单中还有另外一个细节,前五名里,MiniMax、月之暗面、智谱、DeepSeek是四个不同团队的产品。这次不仅仅是一个爆款在带节奏,是中国开源模型生态的工程成熟度在国际化的市场中受到了认可。


图:2024年末DeepSeek V3和R1占了一半以上(深蓝色),2025年中之后色块急剧多样化,Qwen、MiniMax、Kimi、GPT-OSS等轮番上位,没有单一模型超过25%。

06 写在最后

Agent时代正在重写模型竞争的规则。

Agent使用组合模型的方案,让模型性价比的权重在提升。

API聚合平台的成长一定程度上瓦解了原厂的入口壁垒。

开源模型的工程成熟度已经够得上产品级。全球开发者把中国开源模型嵌入生产环境的Agent工作流,跑在真实业务里,跟实验室的刷分完全是两码事。

2026年开年,模型范式又一次更迭,从对话式AI到Agentic AI,中国开源模型在2026年开年抓住了这个结构性窗口。

但变局远没有到终点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
知名女演员为新剧减重至37公斤!几乎不进食,每天饮用三升水

知名女演员为新剧减重至37公斤!几乎不进食,每天饮用三升水

不甜的李子
2026-02-25 23:00:40
美俄闭门谈核武,不到一天,华盛顿剑指解放军,算盘崩中国脸上

美俄闭门谈核武,不到一天,华盛顿剑指解放军,算盘崩中国脸上

陈辉论剑
2026-02-27 17:07:42
向华强宣布遗产全给郭碧婷!向佐2兄弟不得继承,彻底闹翻小儿子

向华强宣布遗产全给郭碧婷!向佐2兄弟不得继承,彻底闹翻小儿子

银河史记
2026-02-26 19:12:27
又一“星二代”想出道,网友:没他爸当年帅,妈妈回应:还没长开

又一“星二代”想出道,网友:没他爸当年帅,妈妈回应:还没长开

娱人细品
2026-02-26 20:38:29
拿下全国第一,业绩飙增3000%,固态电池巨头,登场!

拿下全国第一,业绩飙增3000%,固态电池巨头,登场!

飞鲸投研
2026-02-27 19:18:06
王媛可一家四口泰国度假,王雨都42了还那么帅,与儿子同框像兄弟

王媛可一家四口泰国度假,王雨都42了还那么帅,与儿子同框像兄弟

八怪娱
2026-02-27 17:09:25
打爆日本黑哨后!中国男篮上诉,郭士强或被追罚,赵睿伤情曝光!

打爆日本黑哨后!中国男篮上诉,郭士强或被追罚,赵睿伤情曝光!

绯雨儿
2026-02-27 15:35:49
梅婷大年初九在北京别墅宴客,和德华刘琳同框,吃海鲜大口喝酒

梅婷大年初九在北京别墅宴客,和德华刘琳同框,吃海鲜大口喝酒

离离言几许
2026-02-26 16:19:11
苹果发布会官宣,曝新 mini 即将发布

苹果发布会官宣,曝新 mini 即将发布

全是技能
2026-02-27 12:21:11
潜伏11年,那些被矿渣喂大的香蕉,终于开始向人类“复仇”了

潜伏11年,那些被矿渣喂大的香蕉,终于开始向人类“复仇”了

墨印斋
2026-02-26 08:32:20
周涛宣布拍短剧

周涛宣布拍短剧

澎湃新闻
2026-02-27 13:53:08
中方第五波反制,巴拿马以为接管港口就高枕无忧,结果自断后路!

中方第五波反制,巴拿马以为接管港口就高枕无忧,结果自断后路!

真的好爱你
2026-02-26 10:33:10
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
特朗普演讲破纪录,支持率暴跌,两党吵翻天,更大的麻烦还在后面

特朗普演讲破纪录,支持率暴跌,两党吵翻天,更大的麻烦还在后面

阿离家居
2026-02-27 16:34:39
造不出就买!260 亿吞下美国打印机巨头,珠海破解暴利垄断

造不出就买!260 亿吞下美国打印机巨头,珠海破解暴利垄断

知识TNT
2026-02-24 12:30:09
朱芳雨不随波逐流,广东队启用2米03防守怪兽引发速度革命

朱芳雨不随波逐流,广东队启用2米03防守怪兽引发速度革命

刘哥谈体育
2026-02-27 20:20:42
葡萄牙主帅:赢球时每个人都说是C罗的经验,输球就说怎么还上C罗

葡萄牙主帅:赢球时每个人都说是C罗的经验,输球就说怎么还上C罗

兰亭墨未干
2026-02-27 16:40:04
谷爱凌回应冬奥神图出圈:当时在自己的眼神里看到了王者

谷爱凌回应冬奥神图出圈:当时在自己的眼神里看到了王者

懂球帝
2026-02-25 13:42:11
韩媒:日本主场优势这么大竟然输球;日媒:廖三宁不受裁判影响引导逆转

韩媒:日本主场优势这么大竟然输球;日媒:廖三宁不受裁判影响引导逆转

星Xin辰大海
2026-02-27 09:10:07
人到中年,最佳抗衰老的8种运动,每周2次,越练越年轻!

人到中年,最佳抗衰老的8种运动,每周2次,越练越年轻!

马拉松跑步健身
2026-02-22 06:30:04
2026-02-27 22:51:00
冒泡泡的鱼儿
冒泡泡的鱼儿
每天带来社会资讯
526文章数 15336关注度
往期回顾 全部

科技要闻

单张不到五毛!谷歌深夜发布Nano Banana 2

头条要闻

23岁博士研究生确诊胃癌晚期 坦言经常错过食堂饭点

头条要闻

23岁博士研究生确诊胃癌晚期 坦言经常错过食堂饭点

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

手机
时尚
艺术
教育
公开课

手机要闻

挥别23年硬件史!魅族官宣暂停国内手机自研,转型AI软件生态

舒淇最爱穿的裙子搭配,真的很适合春天!

艺术要闻

紫气东来,好运一整年!

教育要闻

2月25日直播剪影,龙凯锋军事评论

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版