Token首次全面超越：中国AI的“雕花”对美反击战|算法|上下文|大模型|kimi|token|agent

分享至

【文/观察者网心智观察所】

日前，一组来自全球最大AI模型API聚合平台OpenRouter的数据，在硅谷和中关村同时引发强烈震动：中国大模型的周Token调用量攀升至5.16万亿，而同期美国模型跌至2.7万亿。这是历史上中国AI首次在这一关键指标上实现全面超越，领先幅度接近一倍。

这个数字的意义远比表面看起来更为深远。Token调用量并非简单的点击率或用户数，它直接反映的是开发者和企业用户对一款AI模型的真实使用深度——每一次代码生成、每一轮文档改写、每一个复杂任务的拆解执行，都需要消耗真金白银的Token。这是一张用脚投票的成绩单，是全球开发者用实际行动给出的市场判决书。

更值得玩味的是，OpenRouter平台的用户中美国开发者占比高达47.17%，而中国开发者仅占6.01%。这意味着，推动中国模型登顶的主力军，恰恰是那些来自硅谷、来自欧洲的海外开发者。随着硅谷的创业者们开始用中国的开源模型搭建产品原型，欧洲的企业开始将核心业务流程接入中国厂商的API，一场静默却深刻的产业迁移正在发生。

被低估的“雕花”哲学

长期以来，西方观察者对中国AI的叙事始终围绕一个核心假设：算力决定一切。在这套逻辑下，美国凭借对先进制程芯片的出口管制，已然构筑起一道难以逾越的技术护城河。然而，2026年初的市场数据正在无情地解构这套叙事。

事实上，中国AI产业早已发展出一套独特的生存哲学——“雕花”。这个源自工匠传统的比喻，精准描述了中国工程师群体在资源受限条件下的技术路径：既然无法获得最顶级的训练算力，那就把现有算力的每一分潜能都压榨到极致；既然单卡性能存在代差，那就在分布式架构、混合精度训练、模型剪枝量化上做到全球领先。

这种哲学在DeepSeek身上体现得淋漓尽致。2025年初发布的V3模型以不到600万美元的训练成本，达到了与OpenAI GPT-4o相当的性能。这个数字让整个硅谷侧目——彼时，训练一个同等规模的前沿模型，美国公司的典型预算在数亿美元量级。

更关键的是，训练成本的压缩只是“雕花”哲学的上半场，真正决定商业胜负的战场在推理端。一个大模型的生命周期中，训练是一次性的巨额投入，而推理则是持续不断的运营成本。对于日活跃用户数以百万计的AI产品，推理成本往往占据总运营成本的70%以上。谁能把单个Token的生成成本压到最低，谁就能在价格战中获得绝对优势。

中国厂商在推理端的成本控制能力，已经到了令竞争对手瞠目结舌的程度。以OpenRouter平台公示的价格为例，MiniMax的M2.5模型输入价格为0.3美元/百万Token，输出价格为1.1美元/百万Token；而对标的Claude Opus 4.6输入价格为5美元，输出价格高达25美元。简单换算，中国模型的使用成本仅为美国竞品的十分之一甚至更低。

这种成本差距是如何实现的？答案藏在被称为“混合专家”（MoE）的架构创新中。

传统的稠密模型处理每一个请求都需要调动全部参数，而MoE架构引入了“门控网络”，将模型拆分为多个专精不同领域的“专家子网络”，每次推理只激活其中最相关的少数几个。这种“按需调度”的机制，让模型在保持庞大知识储备的同时，将实际计算量压缩到原来的几分之一。数据显示，采用MoE架构可将推理显存占用降低60%，吞吐量提升高达19倍。同样一块GPU，部署中国MoE模型时能服务的并发用户数是传统稠密模型的近二十倍。

除了算法架构的革新，中国AI厂商还在积极探索“垂直整合”的路径。这条路径的核心思想，是将上层的模型算法、中层的云计算基础设施和底层的AI芯片进行深度的一体化协同设计与优化。以阿里巴巴的“通义-云-芯”体系为例，这种从上到下的垂直整合能够通过极致的算力调度算法，实现对底层硬件资源的最高效利用，从而大幅降低AI服务背后的基础设施成本。

如果说成本优势是中国模型攻城略地的硬通货，那么对真实业务场景的深度理解与适配，则是决定用户粘性的软实力。

过去一年，全球AI应用正经历一场静默的范式转换：用户对大模型的期待正从“能聊天、会回答”的问答工具，转向“能干活、出成果”的生产力引擎。开发者不再满足于让AI解释一段代码的含义，而是要求它直接重构整个代码库；企业用户不再满足于让AI总结报告要点，而是要求它从零开始撰写可以直接提交的商业计划书。

这种需求升级对模型提出了全新要求：更长的上下文窗口、更强的指令遵循能力、更稳定的多轮对话连贯性，以及至关重要的更低使用成本。因为干活场景天然具有“长上下文、多轮迭代、大量输出”的特征，一个复杂任务的完成可能需要消耗数十万乃至上百万Token，如果单价过高，规模化应用根本无从谈起。

中国模型在这一转型中展现出了惊人的场景穿透力。以月之暗面的Kimi K2.5为例，这款于2026年1月底发布的模型，最引人注目的特性是其原生的Agent并行处理能力——能同时调度多达100个“Agent分身”并行工作，将复杂任务拆解为多个子任务同步执行，处理效率较传统串行模式提升3到10倍。据媒体报道，Kimi在发布K2.5后不到一个月的累计收入，已经超过其2025年全年总收入。这一爆发式增长并非来自C端用户的尝鲜热情，而是来自全球付费企业用户和API调用量的同步跃升。

智谱的GLM-5则在另一维度构建了差异化优势，提供200K的超长上下文窗口，能一次性处理相当于一本中等篇幅小说的文本量。对于需要处理长篇法律合同、技术文档的企业用户，这种“一次喂入、全局理解”的能力意味着工作流程的根本性简化。

这种对垂直场景的深度优化，正在重塑全球开发者对中国模型的认知。曾几何时，中国AI在海外市场的标签是性价比高但能力有限的廉价替代品；而如今，越来越多的开发者开始意识到，中国模型不仅便宜，而且在特定场景下的表现甚至优于价格高出十倍的美国竞品。知名风投机构a16z的合伙人Martin Casado观察到一个令人震惊的现象：如今在硅谷寻求融资的AI初创公司中，其路演核心模型高达80%使用的是中国的开源模型。

B端与C端的双轮驱动：中国AI的商业化纵深

与美国AI产业高度依赖C端订阅收入不同，中国AI厂商从一开始就选择了B端与C端并重的双轮驱动模式。这种战略选择既源于中国市场独特的产业结构，也为中国模型的全球化扩张提供了更为坚实的商业基础。

在C端市场，中国厂商展现出了极强的产品化能力。以Kimi为代表的新一代AI助手，通过深度绑定微信生态、优化移动端体验、推出灵活的会员方案，在中国年轻用户群体中建立了强大的品牌认知。与ChatGPT在美国市场的工具化定位不同，Kimi更多被用户视为智能伙伴——不仅完成工作任务，还能陪伴用户进行创意写作、学习辅导。这种情感连接带来的用户粘性，是单纯的功能比拼难以复制的。

然而，真正支撑中国AI商业化纵深的是B端市场的快速渗透。弗若斯特沙利文报告显示，在中国大模型B端市场，2025年下半年阿里巴巴的通义千问系列模型日均Token调用量占比达到32.1%，位列第一，较上半年的17.7%几乎翻倍。字节豆包以21.3%的份额紧随其后，DeepSeek以18.4%占据第三。这三家头部厂商合计占据了超过70%的B端市场份额。

B端市场的价值不仅在于收入规模，更在于对模型迭代的正向反馈效应。企业用户的使用场景往往比C端更复杂、更垂直、对准确性要求更严苛。当一款模型被大量企业用户在真实业务场景中使用时，它会持续收到关于“哪里还不够好”的反馈信号，而这些信号正是驱动模型持续优化的最宝贵燃料。

以阿里巴巴为例，通义千问通过阿里云的企业客户网络，接入了电商、物流、金融、制造等数十个垂直行业的真实业务系统；来自这些行业的海量使用数据和反馈，被用于模型的持续微调和版本迭代；而优化后的模型能力提升，则进一步吸引更多企业客户接入，形成滚雪球效应。a16z与OpenRouter联合发布的报告显示，阿里全系列模型的总Token调用量以5.59万亿位居全球第二，仅次于DeepSeek的14.37万亿。

这种B端优先的商业化路径，也使得中国AI厂商在面对价格战时拥有更强的战略定力。当C端订阅收入因免费替代品冲击而承压时，B端的长期合同和企业级服务费用能够提供稳定的现金流支撑。这种收入结构的多元化，是中国厂商敢于在API定价上采取激进策略的底气所在。

“Token通胀”与价值重构：AI商业模式的下一章

将视野从当下的市场份额竞争拉升到更长的时间尺度，一个更根本性的变化正在浮现：Token本身的商业意涵正在经历重新定义。

国联民生证券在近期研报中提出了一个颇具洞察力的概念——Token通胀。这并非指Token价格在上涨，恰恰相反，随着技术进步和规模效应，单个Token的价格正在持续下降。“Token通胀”描述的是另一种现象：单位时间内、单位用户的Token消耗量正在结构性上升。

这种“通胀”的驱动力来自三个层面。

第一层是用户行为转变：当AI从“问答工具”升级为“生产力引擎”，用户的单次交互深度显著增加，一个开发者使用AI重构中等规模的代码库可能需要消耗上百万Token。

第二层是Agent技术的普及：当AI从被动响应进化为主动规划、自主执行的智能代理，它会在完成复杂任务过程中多次调用自身或其他模型，每一步都在消耗Token。

第三层是推理强度升级：随着“思维链”等技术成熟，模型在输出最终答案前会进行大量“内部思考”，更强的推理能力意味着更长的思考链路，也意味着更高的Token消耗。

2025年下半年以来，中国AI模型的token调用情况（@心智观察所制图）

这三重驱动力叠加的结果是：即便单个Token价格下降，用户为完成同等价值任务所支付的总费用却可能保持不变甚至上升。对AI厂商而言，这意味着一个微妙但重要的商业模式转型——从“卖Token”到“卖成果”。

弗若斯特沙利文中国总监李庆预测，AI服务的商业模式正从单纯的“按量计费”向“燃料+成果”的混合模式演进。一方面，作为“燃料”的Token单价会持续下降；另一方面，随着AI向生产力工具转变，企业将更愿意为直接的“成果”付费——不是为消耗了多少Token付费，而是为生成了多少可用代码、完成了多少份报告付费。这将催生出更多基于订阅制的商业模式。

摩根大通在研报中做出极为乐观的预测：从2025年到2030年，中国Token消耗量的年复合增长率将达到惊人的330%，在短短五年间实现370倍的增长。这个数字的背后，是中国庞大的产业基础、丰富的应用场景，以及AI与实体经济深度融合的巨大潜力。

集群优势与生态韧性：中国AI的长期竞争力

理解中国AI在全球市场的崛起时，一个容易被忽视的关键因素是其产业生态的结构性特征。与美国市场高度集中于OpenAI、Anthropic、Google少数几家巨头不同，中国AI产业呈现出明显的"集群化"特征。OpenRouter最新榜单上，排名前五的中国模型分别来自MiniMax、月之暗面、智谱、DeepSeek四家不同公司。

上海财经大学特聘教授胡延平将这种格局形容为“AI中国团”。他指出，产业市场集中度并非越高越好。多家头部企业形成宽广的技术产业群落，而不是少数两三家寡头垄断，对于竞争创新和人才生态建设是好事，也有利于在中美AI竞争中形成集群优势。

这种集群优势体现在多个层面。首先是技术路径的多元化：MiniMax专注多模态融合，月之暗面深耕Agent能力，智谱强调超长上下文，DeepSeek以性价比著称——这种多元化使中国AI产业整体具备了更强的适应性和抗风险能力。当某一条技术路线遭遇瓶颈时，其他路线的探索者可以迅速补位。其次是人才流动的活力：多家头部企业的存在为AI人才提供了更多职业选择和发展空间，促进了知识扩散和最佳实践传播，提升了整个产业的平均水平。

最后是供应链的韧性：多家企业共同支撑的产业，系统稳定性和容错能力都显著增强。对于下游的应用开发者而言，多家可选供应商的存在意味着更强的议价能力和更低的锁定风险。

回望过去三年的AI产业演进，中国的角色经历了一次根本性转换。2023年初，当ChatGPT横空出世时，中国AI界的主流叙事是“追赶”——追赶OpenAI的技术里程碑，追赶美国的算力储备，追赶硅谷的创新节奏。2024年，追赶的叙事开始松动。DeepSeek以极低的训练成本复现了GPT-4级别的能力，证明了算力封锁并非不可逾越的天堑。2025年至2026年初，量变积累为质变。当MiniMax的M2.5在发布不足一周便登顶全球调用量榜首，当中国模型在OpenRouter平台的周调用量以近乎翻倍的优势领先美国，“追赶”的叙事已经无法描述现实。中国AI正在从“跟跑者”转变为“领跑者”，至少在商业化落地和市场渗透这一维度上。

这场转变的意义远不止于一组数据的高低。它标志着一种发展模式的验证——在资源受限的条件下，通过工程极致主义、成本创新、场景深耕和生态协同，同样可以构建全球领先的技术竞争力。它也预示着一种产业格局的重塑——AI的全球产业链将不再是美国设计、全球代工的单向流动，而将演变为中美双中心、多节点协作的复杂网络。

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.