近日,AI推理平台OpenRouter联合硅谷知名投资机构a16z发布了一份重磅研究报告——《AI现状:基于100万亿Token的实证研究》。
![]()
基于OpenRouter平台上超过100万亿Token的真实交互数据,系统分析了2024年底至2025年底全球大语言模型的实际使用情况,报告揭示了多个出乎意料的发现:
开源模型的使用占比已接近30%。
角色扮演类应用的使用量超过编程。
推理模型在一年内从零增长到占据半壁江山。
中国开源模型的全球份额从1.2%飙升至近30%。
大模型是有护城河的。
这些数据为我们理解AI技术的真实应用场景和发展趋势,提供了难得的第一手观察视角。
一、开源模型正在改写市场格局
从边缘走向主流
过去一年,开源大模型经历了爆发式增长。报告数据显示,截至2025年底,开源模型的使用量已占到总量的30%。这意味着在全球范围内,每3次AI对话中就有1次使用的是开源模型。
![]()
这一比例在2024年初还不足5%,短短一年时间增长了6倍,而且增长趋势仍在持续。
这打破了"开源模型只是实验性工具"的固有印象,表明开源生态已经具备了支撑大规模生产应用的能力。
中国开源模型的崛起
更值得关注的是中国开源模型的表现。报告显示,中国开发的开源模型(包括DeepSeek、Qwen、Kimi、Minimax等)的全球使用量占比,从2024年初的1.2%跃升至2025年底的近30%,增长超过25倍。
![]()
在具体模型排名中,DeepSeek以14.37万亿Token的总使用量位居开源模型榜首,是第二名Qwen(5.59万亿)的近三倍,Meta的LLaMA系列(3.96万亿)位列第三。
![]()
中等规模模型成为新趋势
报告还发现了一个有趣的现象:参数规模在150亿到700亿之间的"中等规模模型"正在快速崛起。
![]()
这一细分市场在2024年底几乎不存在。但随着Qwen2.5 Coder 32B、Mistral Small 3和GPT-OSS 20B等模型的发布,中等规模模型在开源生态中的份额稳步上升。
这类模型在性能和部署成本之间找到了更好的平衡点,既能满足大多数应用场景的需求,又显著降低了算力门槛,因此受到开发者的青睐。
二、角色扮演是最高频的使用场景
超过50%的使用量来自Roleplay。
报告中最令人意外的发现之一,是Roleplay(角色扮演/创意对话)占据了所有开源模型使用量的52%以上,远超编程(15-20%)、翻译、知识问答等其他应用场景。
![]()
在开源模型的使用分类中,角色扮演类应用包括互动式故事创作、虚拟角色对话、游戏场景模拟、粉丝创作等。
用户对AI的需求并不仅限于提高生产力,情感陪伴和娱乐互动同样是重要的应用方向。
编程场景的快速增长
虽然角色扮演占据首位,但编程相关的使用量增长速度更快。
数据显示,编程类应用占比从2025年初的11%增长到年底的超过50%(包含所有模型)。
![]()
这反映出AI辅助编程工具正在被越来越多的开发者纳入日常工作流程。
在编程场景中,Claude系列模型占据主导地位,长期保持60%以上的市场份额。
OpenAI和Google的模型也在该领域占有一席之地,中国的Qwen Coder系列在开源编程辅助工具中表现突出。
使用场景的多元化
除了角色扮演和编程,报告还统计了翻译(外语资源占51.1%)、科学研究(机器学习与AI占80.4%)、健康咨询、法律文档、金融分析等多个垂直领域的使用情况。
有趣的是,科学类查询中,绝大多数是关于AI和机器学习本身的提问,而不是物理、化学等传统学科。这说明AI技术从业者是当前大模型的重要用户群体。
三、推理模型成为新的主流
o1的发布是重要转折点。
2024年12月5日,OpenAI正式发布o1推理模型,标志着大语言模型从"单步生成"向"多步推理"的范式转变。与传统模型直接输出答案不同,推理模型会在内部进行多轮思考、验证和自我纠错,然后给出最终结果。
报告数据显示,到2025年底,推理模型的使用量已占到总量的50%以上。
![]()
仅用一年时间,推理模型就从零增长到与传统模型平分秋色。
推理模型的竞争格局
在推理模型领域,竞争格局变化迅速。截至报告发布时,xAI的Grok Code Fast 1占据推理模型使用量第一的位置,Google的Gemini 2.5 Pro和Gemini 2.5 Flash紧随其后。几周前,这一排名还是Gemini 2.5 Pro领先。
![]()
Anthropic的Claude系列、OpenAI的gpt-oss-120b等模型也在推理领域占有重要份额。
这种快速的排名变化反映出该领域的竞争异常激烈,各家都在快速迭代更新。
Agent化趋势明显
推理能力的提升带来了另一个重要变化:AI正从"回答问题"转向"执行任务"。报告显示,带有工具调用(Tool Call)功能的请求量稳步上升,平均对话序列长度已是一年前的3倍。
![]()
这表明用户越来越多地将AI作为能够主动调用外部工具、执行多步骤任务的智能代理(Agent),而不仅仅是对话式的问答助手。
编程类任务的平均输入长度更是达到其他类型任务的3-4倍,显示出复杂任务场景的需求正在快速增长。
![]()
四、成本与性能的新平衡
开源模型的成本优势
报告指出,开源模型快速崛起的核心原因是显著的成本优势。许多开发者和中小企业发现,使用开源模型可以将成本降低90%以上,而在特定场景下的效果与闭源模型相差无几。
特别是在角色扮演、中文对话、代码生成等领域,开源模型已经展现出与闭源模型相当甚至更优的表现。
例如,在角色扮演场景中,开源模型(主要是中国和西方的开源模型)和闭源模型的使用量几乎平分秋色,各占约43%和42%。
模型选择的多元化
报告发现,用户越来越倾向于针对不同场景选择不同的模型,而不是使用单一模型完成所有任务。编程场景优先选择Claude或Qwen Coder,创意写作选择DeepSeek或Kimi,复杂推理选择o1或Gemini 2.5 Pro。
用户留存与"灰姑娘玻璃鞋"现象
报告对多个主流模型的用户留存率进行了深入分析,发现了一个被称为"灰姑娘玻璃鞋效应"的关键现象。
数据显示,尽管大多数模型面临高流失率和快速用户衰减,但在这种波动之下隐藏着更深远的信号:一小部分早期用户群体表现出持久的保留率。
这些被称为"基础队列"的用户群体,才是模型真正的护城河。
这个效应描述了一个独特现象:在快速发展的AI生态系统中,存在着大量高价值工作负载,它们在等待"完美匹配"的模型出现。
每一个新的前沿模型实际上都是在这些未解决问题上"试穿"。当新发布的模型恰好符合此前未被满足的技术和经济限制时,它就找到了精确的契合度。这就是那只"玻璃鞋"。
对于那些工作负载最终合适的开发者或组织来说,这种对齐会产生强烈的锁定效应。
他们的系统、数据管道和用户体验都锚定在最先解决问题的模型上。随着成本下降和可靠性提升,重新迁移的动力急剧减弱。
从实证数据看,不同模型的留存表现差异巨大。Gemini 2.5 Pro和Claude 4 Sonnet的早期队列在第5个月约有40%的用户保留率,远高于后续队列。
![]()
OpenAI GPT-4o Mini则展现了这一现象的极端案例。一个基础队列(2024年7月)在启动时建立了主导且粘性的工作负载匹配,所有后续群体的留存率都远低于这个早期队列。
DeepSeek模型引入了更复杂的模式,展现出极其罕见的"回旋镖效应":多个DeepSeek队列在初期流失后显示出明显的保留率上升。
![]()
一些流失用户在尝试其他替代方案后,重新确认DeepSeek因其专业技术性能、成本效益或其他独特特性的优越组合,更适合其特定工作负载。
AI工作负载的四象限格局
报告通过对数-对数尺度的成本与使用量分析,揭示了AI工作负载的独特细分格局。以每100万Token成本0.73美元为分界线,市场被自然划分为四个象限。
![]()
每个象限展现出截然不同的特征:
高级工作负载(高成本+高使用)
这个象限包含technology和science等有价值且使用频繁的专业工作负载。用户愿意为性能或专业能力支付溢价。特别值得注意的是,technology类查询的价格远高于其他类别,可能涉及复杂系统设计或架构问题,需要更强大且更昂贵的推理模型,但其使用量依然很高,显示出其本质性质。
大众市场成交量驱动因素(低成本+高使用)
这一领域主要由两个大型应用场景主导:programming和roleplay。Programming以"杀手级专业"类别脱颖而出,展示了最高的使用量,同时拥有高度优化的中位数成本。Roleplay的使用量极为庞大,几乎可与programming相当。
这是一个令人震惊的洞察:面向消费者的角色扮演应用能带来与顶级专业应用相当的互动量。
这两个类别的规模之大证明了,职业生产力和对话娱乐都是人工智能的主要且巨大的驱动力。开源模型在这一象限的成本敏感性中找到了显著优势。
专业专家(高成本+低使用)
该象限包含finance、academia、health和marketing等高风险、细分的专业领域。较低的总量是合乎逻辑的,因为人们咨询AI关于"健康"或"财务"的频率远低于"编程"。用户愿意为这些任务支付高额费用,可能是因为对准确性、可靠性和领域特定知识的需求极高。
小众实用工具(低成本+低使用)
该象限包含translation、legal和trivia等功能性强、成本优化的公用事业。这些任务可能被高度优化、"解决"或商品化,在有足够好的廉价替代方案时,用户对价格更加敏感。
开源vs闭源:截然不同的市场定位
报告的成本-使用分析显示出强烈的市场细分。整体趋势线几乎持平,表明需求相对非价格弹性——价格下降10%对应的使用量增加约0.5%至0.7%。但这个宏观数据掩盖了不同的微观行为:
闭源模型占据了高成本、高使用量的区域。Claude 3.7 Sonnet和Claude 4 Sonnet约每100万Token 2美元,但使用率依然很高,表明用户愿意为更优越的推理和大规模可靠度付费。
GPT-4和GPT-5 Pro每100万Token约35美元,虽然使用量相对较低,但服务于细分、高风险工作,输出质量远比边际Token成本更重要。
开源模型则占据了低成本、高流量的区域。DeepSeek V3-0324每100万Token约0.39美元,使用量达到10^6.55级别。Gemini 2.0 Flash每100万Token仅0.14美元,使用量为10^6.68,低价和强劲的分布使其成为默认的高产量主力。
数据中还出现了类似杰文悖论的迹象:让某些模型变得非常便宜(且快速)后,人们用它们做更多任务,最终消耗了更多的Token。这解释了为什么Gemini Flash和DeepSeek V3这类低价模型反而有极高的使用量。
但大量使用昂贵模型(Claude、GPT-4)表明,如果模型明显更好或拥有信任优势,用户将承担更高的成本。这些模型通常集成在成本相对于其产出价值微乎其微的工作流程中,例如,节省一小时开发时间的代码远比几美元的API调用更值钱。
五、地域分布与全球化特征
超过50%的使用来自美国以外的地区。
OpenRouter平台的数据显示,超过50%的使用量来自美国以外的地区。这表明AI技术的应用已经呈现出明显的全球化特征,不再局限于硅谷或北美市场。
![]()
中国、欧洲、东南亚等地区的用户占比持续上升,不同地区的用户在模型选择和使用场景上也表现出一定的差异性。
![]()
六、深度讨论:数据背后的关键洞察
这项基于100万亿Token的实证研究,不仅呈现了大模型使用的表面数据,更揭示了几个细致入微的主题,深刻改变了我们对AI部署的传统认知。
多模型生态系统:没有"一统天下"
数据显示,没有单一模型能够主导所有使用场景,我们正在目睹一个丰富的多模型生态系统的形成,闭源和开源模型各自占据重要份额。
例如OpenAI和Anthropic的模型在编程和知识任务中领先,但像DeepSeek和Qwen这样的开源模型共同服务了超过30%的Token使用量。这表明LLM的未来使用将是模型无关且异质化的。
对开发者而言,这意味着保持灵活性、整合多个模型、为每个项目选择最佳方案,而非把所有赌注押在单一模型上。对模型提供者来说,这强调了竞争可能来自意想不到的地方,社区模型可能侵蚀市场份额,除非持续改进和差异化。
使用多样性超越生产力:陪伴与创意的崛起
一个令人惊讶的发现是角色扮演和娱乐导向应用的大量使用。超过50%的开源模型使用是用于角色扮演和讲故事,而非编程或办公。即使在专有平台上,早期ChatGPT的使用也有相当一部分是随意且富有创意的探索。
这反驳了"LLM主要用于编写代码、电子邮件或摘要"的假设。
实际上,许多用户通过这些模型寻求陪伴、情感互动或创意探索。
这具有重要意义:
凸显了面向消费者应用在融合叙事设计、情感互动方面的巨大机遇
为个性化开辟新前沿——能够演化个性、记住偏好、维持长期互动的AI代理
重新定义模型评估指标:成功可能更多依赖连贯性和持续对话能力,而非单纯的事实准确性
为AI与娱乐IP的跨界开辟道路,在互动叙事、游戏和创作者驱动的虚拟角色领域具有潜力
Agent时代来临:从对话到执行
LLM的使用正从单回合交互转向智能推理模式。模型不再只是产出一次性响应,而是协调工具调用、访问外部数据、迭代优化输出以实现目标。
早期证据显示多步查询和链式工具使用正在快速增长。随着这一范式扩展,评估将从语言质量转向任务完成度和执行效率。
下一个竞争前沿是模型如何有效执行持续推理。这一转变最终可能重新定义"大规模AI代理推理"在实践中的含义。
地理格局:全球化与去中心化
LLM的使用正变得越来越全球化和去中心化,增长迅速超出北美地区。亚洲在Token需求中的份额已从约13%上升至31%,反映出企业采用和创新的增强。
中国不仅通过国内消费,还通过生产具有全球竞争力的模型,成为重要力量。
更广泛的结论是:LLM必须在全球范围内都非常有用,在不同语言、语境和市场中表现优异。
下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型规模。
成本与使用动态:远非简单的价格竞争
LLM市场还不像商品市场——单靠价格对使用量解释不多。用户在权衡质量、可靠性和能力广度的同时考虑成本。
闭源模型继续捕获高价值、与收入相关的工作负载,而开源模型主导低成本且高流量的任务。这创造了一个动态平衡,这种平衡更多是由来自下方的恒定压力而非稳定性所定义。
开源模型不断推动效率前沿,尤其在推理和编码领域(例如Kimi K2)快速迭代和创新可以缩小性能差距。开放模型的每一次改进都压缩了专有系统的定价能力,迫使它们通过卓越的集成、一致性和企业支持来合理化溢价。
由此产生的竞争节奏快速、不对称且不断变化。随着时间推移,随着质量趋同加速,价格弹性可能增加,使曾经分化的市场变得更加流动。
"灰姑娘玻璃鞋现象":留存率才是真正的护城河
随着基础模型能力的跃进而非渐进,留存率已成为衡量可防御性的真正标准。每一次突破都会创造一个短暂的发布窗口,让模型能够完美"适配"高价值工作负载——这就是"灰姑娘玻璃鞋时刻"。用户一旦找到合适的模型,就会围绕它构建工作流程和习惯。
在这种范式中,产品市场契合等同于工作负载模型契合:率先解决真实痛点,推动用户围绕该能力构建工作流程,从而推动深层且粘性的采用。因此,切换成本在技术和行为上都变得昂贵。
对于建设者和投资者来说,需要关注的信号不是增长,而是留存曲线——建立能够持续经受模型更新考验的基础用户群体。在日益快速变化的市场中,及早捕捉这些关键未满足需求,决定了下一次能力飞跃后谁能坚持下去。
七、研究价值与未来展望
LLM正成为跨领域推理任务的重要计算基础,从编程到创意写作。随着模型的不断进步和部署的扩大,准确了解现实世界的使用动态对于做出明智决策至关重要。
人们使用LLM的方式并不总是符合预期,且因国家、地区和用例而有很大差异。通过大规模观察使用情况,我们可以将对LLM影响的理解扎根于现实,确保后续的发展——无论是技术改进、产品特性还是法规——都与实际使用模式和需求保持一致。
从竞争到协作的范式转变
过去一年催化了该领域对推理理解方式的根本性转变。o1类模型的出现使得长时间思考和工具使用变得规范化,评估从单次基准转向基于过程的指标、延迟-成本权衡以及编排下的任务成功率。
数据显示,LLM生态系统在结构上是多元的。没有单一模式或供应商占据主导地位;相反,用户根据具体场景,在能力、延迟、价格和信任等多个维度上选择系统。这种异质性不是暂时阶段,而是市场的基本特征。它促进快速迭代,减少对任何单一模型或技术栈的系统性依赖。
Agent推理:下一个竞争前沿
推理本身也在变化。多步骤和工具关联交互的兴起,标志着从静态补全向动态编排的转变。用户正在串联模型、API和工具以实现复合目标,催生了可称为"Agent推理"的现象。有充分理由相信,Agent推理的使用量将超过、甚至已经超过人类单次推理。
实际上,o1并未终结竞争,而是扩展了设计空间。该领域正朝向系统性思维而非单一押注,向基于数据的分析取代直觉,向实证使用分析取代排行榜竞争的方向发展。
如果过去一年证明了Agent推理在大规模上是可行的,那么明年将聚焦于运营卓越:测量真实任务完成度、减少分布转移下的方差,以及使模型行为与生产规模工作负载的实际需求保持一致。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.