网易首页 > 网易号 > 正文 申请入驻

Token太贵,中国开源模型一夜之间霸榜了

0
分享至


文章转载于腾讯科技
作者: 晓静

全球头部AI模型API聚合平台OpenRouter的数据显示,2026年2月,中国AI模型的调用量三周大涨127%,首次超越美国模型,全球前五中占据四席。

最新的2月16日至22日的周榜单中,平台调用量排名前五的模型中,有四款来自中国厂商,包括MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5、DeepSeek的V3.2。这四款模型合计贡献了Top 5总调用量的85.7%。

一年前,中国模型在这个平台上的份额不到2%。


图:从2024年11月到2025年11月的周度Token总量堆叠柱状图。深红色=闭源模型,橙色=中国开源模型,蓝绿色=其他地区开源模型。能清晰看到中国开源模型(橙色)从几乎不可见到逐渐占到近30%的过程。

OpenRouter聚合了超过300个模型的API调用,覆盖60多家供应商,超过一半的使用量来自美国以外。开发者拿一套API Key就能在不同模型之间即时切换,如果哪个不好用,可以秒切。Token数据在OpenRouter的涨跌,几乎就是实时的市场投票。

这个时间,刚刚经过了开源个人智能体框架OpenClaw的火爆,也经历了中国春节AI大战,几乎所有模型的关键词已经切换成了“Agentic”。

过去两年,大模型竞争的核心叙事是模型能力:谁更聪明,谁在 ARC、SWE-Bench 这类 benchmark 上更高分,谁就更接近 AGI。参数规模、推理深度、复杂任务完成率,构成了行业的主要坐标系。

但是2026年的春节过后,Agentic AI的核心叙事是持续完成任务,包括写代码、调试、调用工具、读取文件、再迭代。Token 消耗从“人机对话”升级为“机器自循环”。一次任务可能消耗数十万、数百万 Token。

模型之间的差异,开始转变为在长流程、高频调用、长上下文环境下,谁的单位成本更低、稳定性更强、推理曲线更平滑。


图:OpenClaw是OpenRouter最大的单一应用,其Token消耗量约占平台显著比例


图片由AI生成

1

Token消耗的底层逻辑变了

OpenRouter与a16z联合发布的《2025 AI使用报告》,覆盖超100万亿Token的匿名元数据。里面有一组数据极其关键——编程任务的Token占比从2025年初的11%飙到了50%以上,成为平台最大的单一使用品类。同时,Agent驱动的工作流(模型自主执行多步骤任务)产生的输出Token已超过平台总输出的一半。


图:编程类请求在所有LLM查询中的占比,从2025年初约11%持续攀升至50%以上

过去的问答式AI,一轮对话消耗几百到几千Token,用户不再提问,Token就不会再消耗。Agent模式下,机器可以持续在后台跑流程。

拿OpenClaw举例,它的Token消耗粗略看有三种模式:

一是多轮自我修正。一次编程任务可能经历“写代码→运行→报错→改→再跑”几十个回合,每个回合都是一次完整的模型调用。

二是上下文无限膨胀。为了让Agent“记住”之前的操作,每次调用都要携带完整对话历史。有用户实测,一个活跃会话的上下文很快膨胀到23万Token以上。

三是工具链级联。Agent处理一个“帮我整理邮件并创建待办”的任务,可能触发5-10次API调用,每次都背着完整上下文。

有OpenClaw用户吐槽,一个配置不当的自动化任务一天烧掉了200美元API费。更直观的数字是:7×24小时跑OpenClaw,全量使用Claude API,月成本在800到1500美元之间。

再看OpenRouter自身的数据:2月9日当周,平台处理了13万亿Token,1月第一周是6.4万亿,一个月翻了一倍。平台最新周Token总量12.1万亿,是一年前的12.7倍。

AI的使用模式从“对话型”切换到了“流程型”,Token消耗从“按次”变成了“按流量”。成本敏感度被急剧放大。

1

Agent模型组合背后的机会

极端假设Agent全天候运行,每天吞掉数十亿Token。在这种负载下,价格差距就是生死线。

当前主流模型的API定价对比(每百万Token,美元)


Claude 4.6 Sonnet 的输出价格为 15 美元 / 百万 Token,而 MiniMax M2.5 的典型输出价格约为 1.2 美元 / 百万 Token,前者是后者的约 12.5 倍。GPT-5.2 的输出价格为 14 美元 / 百万 Token,也接近 MiniMax 的 11.7 倍。即便是已经涨价的智谱 GLM-5,输出价格约为 3.2 美元 / 百万 Token,仍然只有 Claude 的大约五分之一左右。

在 Agent 场景里,这种差距会被指数级放大。假设一个生产级 Agent 每天处理 10 亿输出 Token(即 1000 个百万 Token 单位),挂 Claude 意味着每天约 1.5 万美元的支出;同样规模如果使用 MiniMax,大约 1200 美元。30 天下来,前者接近 45 万美元,后者约 3.6 万美元,中间差出 40 多万美元。

这个价差已经在真实项目里决定了开发者的选择。

一家使用OpenClaw的欧洲开发工作室公开了他们的方案:80%的日常推理引擎用Kimi K2.5,碰到高难度推理、复杂系统架构之类的20%硬骨头,通过bash命令把任务甩给Claude。一天的Kimi开销大约5到10美元,月度Token预算控制在150到300美元。如果同样的事全量用ClaudeAPI模式,月成本将高达800-1500美元以上。


“80%能力,20%价格”的组合,对标“100%能力,100%价格”的方案,在实际部署中是碾压级的吸引力。

a16z合伙人Martin Casado去年底接受《经济学人》采访时也披露了一个数字:在使用开源模型的AI初创企业中,约80%跑的是中国模型。他后来在X上澄清,这个比例指的是“用开源模型的那部分创业公司”,占全部创业公司的20%-30%,折算下来,大约16%-24%的美国AI初创企业技术栈里嵌着中国开源模型。

OpenRouter COO Chris Clark说得更直接:中国开放权重模型在美国企业运行的Agent工作流中“占比异常高”。

1

架构暗战Agent原生

这一轮范式转换中,中国开源模型阵营几乎所有头部玩家都把“Agentic”作为主攻方向,从架构到训练全链路为Agent场景做原生适配。

底层仍然延续了上一阶段跑通的MoE + MLA路线,总参数做大,每次推理只激活一小部分,保住能力的同时控制Token成本。

但光便宜不够,在这一轮真正拉开差距的,要在Agent场景下“跑得好”。

MiniMax内部开发了一套叫Forge的原生Agent强化学习框架,核心设计是把Agent的执行逻辑跟底层训推引擎彻底解耦:Agent只管跑任务、产出轨迹数据,训练引擎只管从轨迹里学习。这套架构能接入任意Agent脚手架。MiniMax披露的数据是,他们在数十万个真实Agent脚手架和环境上做了大规模强化学习,上下文长度拉到200K。

Forge里有两个工程细节值得注意。一是“前缀树合并”,Agent多轮请求之间有大量重复的上下文前缀,传统方法把每个请求当独立样本重复计算,Forge把训练样本从线性序列重构成树形结构,共享前缀只算一次,MiniMax给出的数字是训练加速约40倍。

二是奖励设计:除了任务完成度,M2.5的强化学习还把“任务完成时间”作为奖励信号,直接激励模型选最短路径、主动利用并行。效果上,根据Minimax的数据,M2.5跑SWE-Bench Verified的端到端时间22.8分钟,比上代M2.1的31.3分钟快了37%,跟Claude Opus 4.6的22.9分钟基本持平。连续运行1小时(100 TPS)成本1美元,MiniMax的说法是“1万美金可以让4个Agent连续工作一年。

Kimi K2.5可支持Agent集群,能根据任务需求现场调度多达100个“分身”,组成不同角色的团队并行工作,最多同时处理1500个步骤。在大规模搜索场景下,Agent集群比单Agent减少了3到4.5倍的关键步骤,实际运行时间最高缩短4.5倍。

K2.5的定位就是原生多模态、Agent模型,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务,架构层面做了全面适配。

这些创新表面,中国头部模型已经不只是在“便宜”上做文章。

闭源模型Anthropic和OpenAI的模型架构是黑箱,开发者没法评估长期运行的成本曲线,也没法做本地部署优化。但Claude的长板在产品化能力,computer use、Artifacts、MCP生态,以及复杂推理的精确度。


图:编程类Token按闭源/中国开源/其他开源的占比拆分。能看到Anthropic Claude在编程领域长期占据60%+的份额,但中国开源模型和其他开源模型在2025年下半年持续蚕食它的份额。

竞争力已经形成差异化:中国开源模型工程细节透明,可以被复刻和优化,在成本敏感的大规模部署里占优;美国闭源模型的长板在产品化能力和复杂推理的精确度上。

Agent时代到来,中国开源模型已经吃到了结构性红利。

1

价格战结束了,需求战开始了

2月12日,智谱AI发布GLM-5的同一天,宣布GLM Coding Plan套餐整体涨价30%起,取消首购优惠。海外版涨价幅度更大,订阅价格涨30%-60%,API调用涨67%-100%。

这是国产大模型2026年首次大幅提价。

背景也很有意思。过去一年多,中国大模型市场打了一场惨烈的价格战。字节豆包报价低到0.0008元/千Token,阿里通义千问GPT-4级主力模型降价97%,智谱自己也把上一代GLM-4-Plus砍了90%。

现在掉头涨价,同时GLM Coding Plan上线即售罄,国产AI编程产品的付费套餐被秒空。

这里也衍生出另外一个问题,“智谱敢涨价,是不是说明中国模型的增长跟价格战无关”?

答案不是“是或否”这样简单。

Agent化让Token需求暴涨,中国模型凭着相对成本优势吃到了增量,涨价本质上是供需再平衡。智谱回应涨价:“用户规模与调用量快速提升,公司同步加大算力投入”。

据媒体报道,Kimi K2.5在1月27日发布后不到一个月,近20天的累计收入已经超过了2025年全年总收入。这个增长的核心驱动力来自海外开发者和API调用,K2.5在OpenRouter平台的调用量持续位居前列,直接带动了B端收入的暴涨,海外收入首次超过国内。

MiniMax的情况类似,M2.5发布7天内Token使用量就突破3万亿,内部数据显示M2.5生成的代码已占公司新提交代码的80%。

放到行业里看,智谱、月之暗面、MiniMax、阶跃星辰4家都已上调部分API价格。长江证券研报的判断是:国产模型“正式进入需求驱动时代”。

价格战的时代结束了,接下来是需求战。

1

数据里有多少水分?

关于这次暴涨,也有争议说,这次的Token数据有水分。

比如,MiniMax M2.5单周197%的暴涨,很大程度上受益于Kilo Code和Cline两大AI编程工具的免费推广。2月12日起,Kilo Code为超过150万开发者用户提供一周免费M2.5访问,Cline也搞了类似活动。

免费送量带来的短期拉动,客观上是不能忽略的。但免费推广只能解释“量”的爆发,解释不了趋势和留存。

MiniMax M2.5在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的SOTA,比如SWE-Bench Verified (80.2%),Multi-SWE-Bench (51.3%),BrowseComp (76.3%);从Benchmark来看,分数够到了旗舰级的门槛,不能再用“廉价平替”来概括。

OpenRouter年度数据显示,中国开源模型份额从2024年末不到2%,2025年下半年加速爬升,某些周接近30%。

一条持续上行的曲线,跟某次促销带来的孤立脉冲完全是两回事。

榜单中还有另外一个细节,前五名里,MiniMax、月之暗面、智谱、DeepSeek是四个不同团队的产品。这次不仅仅是一个爆款在带节奏,是中国开源模型生态的工程成熟度在国际化的市场中受到了认可。


图:2024年末DeepSeek V3和R1占了一半以上(深蓝色),2025年中之后色块急剧多样化,Qwen、MiniMax、Kimi、GPT-OSS等轮番上位,没有单一模型超过25%。

1

Agent时代正在重写模型竞争的规则。

Agent使用组合模型的方案,让模型性价比的权重在提升。

API聚合平台的成长一定程度上瓦解了原厂的入口壁垒。

开源模型的工程成熟度已经够得上产品级。全球开发者把中国开源模型嵌入生产环境的Agent工作流,跑在真实业务里,跟实验室的刷分完全是两码事。

2026年开年,模型范式又一次更迭,从对话式AI到AgenticAI,中国开源模型在2026年开年抓住了这个结构性窗口。

但变局远没有到终点。

点个爱心,再走 吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贵州妹子在富士康干活,没事用没做完的苹果手机拍照,拍完忘删了

贵州妹子在富士康干活,没事用没做完的苹果手机拍照,拍完忘删了

百态人间
2026-02-12 15:29:08
地主王学文救起晕倒的女红军,她拉开衣襟的那刻,王学文吓一跳

地主王学文救起晕倒的女红军,她拉开衣襟的那刻,王学文吓一跳

磊子讲史
2026-01-06 10:38:15
苹果确认,大量新品即将上架!

苹果确认,大量新品即将上架!

XCiOS俱乐部
2026-03-01 20:10:03
战争打响 三大利好 四大利空

战争打响 三大利好 四大利空

趋势巡航
2026-03-01 08:30:51
A股:大家坐稳扶好了,美以伊大冲突,下周牛市开盘怎么走?

A股:大家坐稳扶好了,美以伊大冲突,下周牛市开盘怎么走?

云鹏叙事
2026-03-01 20:37:39
四川原同事带娃3年逃回:莫把晚年搭进去!四川人最该懂这个理

四川原同事带娃3年逃回:莫把晚年搭进去!四川人最该懂这个理

原广工业
2026-03-02 00:41:25
伊朗前总统内贾德遇袭身亡 伊朗总统说临时领导委员会开始工作 伊朗军方称美“林肯”号航母遭到伊朗4枚弹

伊朗前总统内贾德遇袭身亡 伊朗总统说临时领导委员会开始工作 伊朗军方称美“林肯”号航母遭到伊朗4枚弹

每日经济新闻
2026-03-01 23:03:04
高考语文题,“固若金汤”中“汤”指什么?当年难倒不少学霸

高考语文题,“固若金汤”中“汤”指什么?当年难倒不少学霸

长风文史
2026-03-01 20:40:30
“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

“大学女儿非要买LV”视频火了,网友:穷人穿上龙袍也不像太子

妍妍教育日记
2026-02-25 21:18:14
16GB+1TB!新机官宣:3月17日,正式发布上市!

16GB+1TB!新机官宣:3月17日,正式发布上市!

科技堡垒
2026-03-01 11:46:19
小米事故炸翻37万车主,雷军左右为难!

小米事故炸翻37万车主,雷军左右为难!

鸣金网
2026-02-28 10:45:03
特朗普:对伊朗的不间断打击将持续一周甚至更长时间

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

环球网资讯
2026-03-01 06:22:06
你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

你干过哪些阴暗龌龊的事?网友:最后一个真的好炸裂好真实

带你感受人间冷暖
2026-02-17 01:00:24
德国赛:国羽4金收官!王祉怡三连亚,陈柏阳/刘毅破11年冠军荒

德国赛:国羽4金收官!王祉怡三连亚,陈柏阳/刘毅破11年冠军荒

钉钉陌上花开
2026-03-01 23:30:36
年近九旬学阀不退不休,是热爱科研,还是放不下权力?

年近九旬学阀不退不休,是热爱科研,还是放不下权力?

文忆天下
2026-02-28 15:07:08
美国人都惊讶,当今中国的实力强大到史无前例,美军根本不是对手

美国人都惊讶,当今中国的实力强大到史无前例,美军根本不是对手

天启谈古说今
2026-01-07 11:36:37
自称无法获得世界宽恕后,中央媒体对谷爱凌的称呼发生变化

自称无法获得世界宽恕后,中央媒体对谷爱凌的称呼发生变化

陈意小可爱
2026-03-01 13:17:13
郭晶晶不漂亮,但是很奇怪的是,她不论和哪个明星同框都不落下风

郭晶晶不漂亮,但是很奇怪的是,她不论和哪个明星同框都不落下风

乡野小珥
2026-03-01 12:47:37
放假半天!不补休

放假半天!不补休

小易商丘
2026-03-01 10:00:47
特朗普称哈梅内伊死亡

特朗普称哈梅内伊死亡

财联社
2026-03-01 05:50:07
2026-03-02 03:43:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2896文章数 10458关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

教育
手机
亲子
公开课
军事航空

教育要闻

初中阶段的分化,从习惯悄悄开始

手机要闻

现场直击!荣耀Robot Phone机器人手机长啥样

亲子要闻

带娃看医生,听懂这几句话少走90%弯路!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗前总统内贾德遇袭身亡

无障碍浏览 进入关怀版