网易首页 > 网易号 > 正文 申请入驻

100万亿token的大模型真相:灰姑娘玻璃鞋现象与DeepSeek回旋镖效应

0
分享至

近日,AI推理平台OpenRouter联合硅谷知名投资机构a16z发布了一份重磅研究报告——《AI现状:基于100万亿Token的实证研究》。


基于OpenRouter平台上超过100万亿Token的真实交互数据,系统分析了2024年底至2025年底全球大语言模型的实际使用情况,报告揭示了多个出乎意料的发现:

  • 开源模型的使用占比已接近30%。

  • 角色扮演类应用的使用量超过编程。

  • 推理模型在一年内从零增长到占据半壁江山。

  • 中国开源模型的全球份额从1.2%飙升至近30%。

  • 大模型是有护城河的。

这些数据为我们理解AI技术的真实应用场景和发展趋势,提供了难得的第一手观察视角。

一、开源模型正在改写市场格局

从边缘走向主流

过去一年,开源大模型经历了爆发式增长。报告数据显示,截至2025年底,开源模型的使用量已占到总量的30%。这意味着在全球范围内,每3次AI对话中就有1次使用的是开源模型。


这一比例在2024年初还不足5%,短短一年时间增长了6倍,而且增长趋势仍在持续。

这打破了"开源模型只是实验性工具"的固有印象,表明开源生态已经具备了支撑大规模生产应用的能力。

中国开源模型的崛起

更值得关注的是中国开源模型的表现。报告显示,中国开发的开源模型(包括DeepSeek、Qwen、Kimi、Minimax等)的全球使用量占比,从2024年初的1.2%跃升至2025年底的近30%,增长超过25倍。


在具体模型排名中,DeepSeek以14.37万亿Token的总使用量位居开源模型榜首,是第二名Qwen(5.59万亿)的近三倍,Meta的LLaMA系列(3.96万亿)位列第三。


中等规模模型成为新趋势

报告还发现了一个有趣的现象:参数规模在150亿到700亿之间的"中等规模模型"正在快速崛起。


这一细分市场在2024年底几乎不存在。但随着Qwen2.5 Coder 32B、Mistral Small 3和GPT-OSS 20B等模型的发布,中等规模模型在开源生态中的份额稳步上升。

这类模型在性能和部署成本之间找到了更好的平衡点,既能满足大多数应用场景的需求,又显著降低了算力门槛,因此受到开发者的青睐。

、角色扮演是最高频的使用场景

超过50%的使用量来自Roleplay。

报告中最令人意外的发现之一,是Roleplay(角色扮演/创意对话)占据了所有开源模型使用量的52%以上,远超编程(15-20%)、翻译、知识问答等其他应用场景。


在开源模型的使用分类中,角色扮演类应用包括互动式故事创作、虚拟角色对话、游戏场景模拟、粉丝创作等。

用户对AI的需求并不仅限于提高生产力,情感陪伴和娱乐互动同样是重要的应用方向。

编程场景的快速增长

虽然角色扮演占据首位,但编程相关的使用量增长速度更快。

数据显示,编程类应用占比从2025年初的11%增长到年底的超过50%(包含所有模型)。


这反映出AI辅助编程工具正在被越来越多的开发者纳入日常工作流程。

在编程场景中,Claude系列模型占据主导地位,长期保持60%以上的市场份额

OpenAI和Google的模型也在该领域占有一席之地,中国的Qwen Coder系列在开源编程辅助工具中表现突出。

使用场景的多元化

除了角色扮演和编程,报告还统计了翻译(外语资源占51.1%)、科学研究(机器学习与AI占80.4%)、健康咨询、法律文档、金融分析等多个垂直领域的使用情况。

有趣的是,科学类查询中,绝大多数是关于AI和机器学习本身的提问,而不是物理、化学等传统学科。这说明AI技术从业者是当前大模型的重要用户群体

三、推理模型成为新的主流

o1的发布是重要转折点。

2024年12月5日,OpenAI正式发布o1推理模型,标志着大语言模型从"单步生成"向"多步推理"的范式转变。与传统模型直接输出答案不同,推理模型会在内部进行多轮思考、验证和自我纠错,然后给出最终结果。

报告数据显示,到2025年底,推理模型的使用量已占到总量的50%以上


仅用一年时间,推理模型就从零增长到与传统模型平分秋色。

推理模型的竞争格局

在推理模型领域,竞争格局变化迅速。截至报告发布时,xAI的Grok Code Fast 1占据推理模型使用量第一的位置,Google的Gemini 2.5 Pro和Gemini 2.5 Flash紧随其后。几周前,这一排名还是Gemini 2.5 Pro领先。


Anthropic的Claude系列、OpenAI的gpt-oss-120b等模型也在推理领域占有重要份额。

这种快速的排名变化反映出该领域的竞争异常激烈,各家都在快速迭代更新。

Agent化趋势明显

推理能力的提升带来了另一个重要变化:AI正从"回答问题"转向"执行任务"。报告显示,带有工具调用(Tool Call)功能的请求量稳步上升,平均对话序列长度已是一年前的3倍。


这表明用户越来越多地将AI作为能够主动调用外部工具、执行多步骤任务的智能代理(Agent),而不仅仅是对话式的问答助手。

编程类任务的平均输入长度更是达到其他类型任务的3-4倍,显示出复杂任务场景的需求正在快速增长。


四、成本与性能的新平衡

开源模型的成本优势

报告指出,开源模型快速崛起的核心原因是显著的成本优势。许多开发者和中小企业发现,使用开源模型可以将成本降低90%以上,而在特定场景下的效果与闭源模型相差无几。

特别是在角色扮演、中文对话、代码生成等领域,开源模型已经展现出与闭源模型相当甚至更优的表现。

例如,在角色扮演场景中,开源模型(主要是中国和西方的开源模型)和闭源模型的使用量几乎平分秋色,各占约43%和42%。

模型选择的多元化

报告发现,用户越来越倾向于针对不同场景选择不同的模型,而不是使用单一模型完成所有任务。编程场景优先选择Claude或Qwen Coder,创意写作选择DeepSeek或Kimi,复杂推理选择o1或Gemini 2.5 Pro。

用户留存与"灰姑娘玻璃鞋"现象

报告对多个主流模型的用户留存率进行了深入分析,发现了一个被称为"灰姑娘玻璃鞋效应"的关键现象。

数据显示,尽管大多数模型面临高流失率和快速用户衰减,但在这种波动之下隐藏着更深远的信号:一小部分早期用户群体表现出持久的保留率。

这些被称为"基础队列"的用户群体,才是模型真正的护城河。

这个效应描述了一个独特现象:在快速发展的AI生态系统中,存在着大量高价值工作负载,它们在等待"完美匹配"的模型出现。

每一个新的前沿模型实际上都是在这些未解决问题上"试穿"。当新发布的模型恰好符合此前未被满足的技术和经济限制时,它就找到了精确的契合度。这就是那只"玻璃鞋"

对于那些工作负载最终合适的开发者或组织来说,这种对齐会产生强烈的锁定效应。

他们的系统、数据管道和用户体验都锚定在最先解决问题的模型上。随着成本下降和可靠性提升,重新迁移的动力急剧减弱。

从实证数据看,不同模型的留存表现差异巨大。Gemini 2.5 Pro和Claude 4 Sonnet的早期队列在第5个月约有40%的用户保留率,远高于后续队列。


OpenAI GPT-4o Mini则展现了这一现象的极端案例。一个基础队列(2024年7月)在启动时建立了主导且粘性的工作负载匹配,所有后续群体的留存率都远低于这个早期队列。

DeepSeek模型引入了更复杂的模式,展现出极其罕见的"回旋镖效应":多个DeepSeek队列在初期流失后显示出明显的保留率上升。


一些流失用户在尝试其他替代方案后,重新确认DeepSeek因其专业技术性能、成本效益或其他独特特性的优越组合,更适合其特定工作负载。

AI工作负载的四象限格局

报告通过对数-对数尺度的成本与使用量分析,揭示了AI工作负载的独特细分格局。以每100万Token成本0.73美元为分界线,市场被自然划分为四个象限。


每个象限展现出截然不同的特征:

高级工作负载(高成本+高使用)

这个象限包含technology和science等有价值且使用频繁的专业工作负载。用户愿意为性能或专业能力支付溢价。特别值得注意的是,technology类查询的价格远高于其他类别,可能涉及复杂系统设计或架构问题,需要更强大且更昂贵的推理模型,但其使用量依然很高,显示出其本质性质。

大众市场成交量驱动因素(低成本+高使用)

这一领域主要由两个大型应用场景主导:programming和roleplay。Programming以"杀手级专业"类别脱颖而出,展示了最高的使用量,同时拥有高度优化的中位数成本。Roleplay的使用量极为庞大,几乎可与programming相当。

这是一个令人震惊的洞察:面向消费者的角色扮演应用能带来与顶级专业应用相当的互动量

这两个类别的规模之大证明了,职业生产力和对话娱乐都是人工智能的主要且巨大的驱动力。开源模型在这一象限的成本敏感性中找到了显著优势。

专业专家(高成本+低使用)

该象限包含finance、academia、health和marketing等高风险、细分的专业领域。较低的总量是合乎逻辑的,因为人们咨询AI关于"健康"或"财务"的频率远低于"编程"。用户愿意为这些任务支付高额费用,可能是因为对准确性、可靠性和领域特定知识的需求极高。

小众实用工具(低成本+低使用)

该象限包含translation、legal和trivia等功能性强、成本优化的公用事业。这些任务可能被高度优化、"解决"或商品化,在有足够好的廉价替代方案时,用户对价格更加敏感。

开源vs闭源:截然不同的市场定位

报告的成本-使用分析显示出强烈的市场细分。整体趋势线几乎持平,表明需求相对非价格弹性——价格下降10%对应的使用量增加约0.5%至0.7%。但这个宏观数据掩盖了不同的微观行为:

闭源模型占据了高成本、高使用量的区域。Claude 3.7 Sonnet和Claude 4 Sonnet约每100万Token 2美元,但使用率依然很高,表明用户愿意为更优越的推理和大规模可靠度付费。

GPT-4和GPT-5 Pro每100万Token约35美元,虽然使用量相对较低,但服务于细分、高风险工作,输出质量远比边际Token成本更重要。

开源模型则占据了低成本、高流量的区域。DeepSeek V3-0324每100万Token约0.39美元,使用量达到10^6.55级别。Gemini 2.0 Flash每100万Token仅0.14美元,使用量为10^6.68,低价和强劲的分布使其成为默认的高产量主力。

数据中还出现了类似杰文悖论的迹象:让某些模型变得非常便宜(且快速)后,人们用它们做更多任务,最终消耗了更多的Token这解释了为什么Gemini Flash和DeepSeek V3这类低价模型反而有极高的使用量。

大量使用昂贵模型(Claude、GPT-4)表明,如果模型明显更好或拥有信任优势,用户将承担更高的成本。这些模型通常集成在成本相对于其产出价值微乎其微的工作流程中,例如,节省一小时开发时间的代码远比几美元的API调用更值钱。

、地域分布与全球化特征

超过50%的使用来自美国以外的地区。

OpenRouter平台的数据显示,超过50%的使用量来自美国以外的地区。这表明AI技术的应用已经呈现出明显的全球化特征,不再局限于硅谷或北美市场。


中国、欧洲、东南亚等地区的用户占比持续上升,不同地区的用户在模型选择和使用场景上也表现出一定的差异性。


六、深度讨论:数据背后的关键洞察

这项基于100万亿Token的实证研究,不仅呈现了大模型使用的表面数据,更揭示了几个细致入微的主题,深刻改变了我们对AI部署的传统认知。

多模型生态系统:没有"一统天下"

数据显示,没有单一模型能够主导所有使用场景,我们正在目睹一个丰富的多模型生态系统的形成,闭源和开源模型各自占据重要份额。

例如OpenAI和Anthropic的模型在编程和知识任务中领先,但像DeepSeek和Qwen这样的开源模型共同服务了超过30%的Token使用量。这表明LLM的未来使用将是模型无关且异质化的。

对开发者而言,这意味着保持灵活性、整合多个模型、为每个项目选择最佳方案,而非把所有赌注押在单一模型上。对模型提供者来说,这强调了竞争可能来自意想不到的地方,社区模型可能侵蚀市场份额,除非持续改进和差异化。

使用多样性超越生产力:陪伴与创意的崛起

一个令人惊讶的发现是角色扮演和娱乐导向应用的大量使用。超过50%的开源模型使用是用于角色扮演和讲故事,而非编程或办公。即使在专有平台上,早期ChatGPT的使用也有相当一部分是随意且富有创意的探索。

这反驳了"LLM主要用于编写代码、电子邮件或摘要"的假设。

实际上,许多用户通过这些模型寻求陪伴、情感互动或创意探索。

这具有重要意义:

  • 凸显了面向消费者应用在融合叙事设计、情感互动方面的巨大机遇

  • 为个性化开辟新前沿——能够演化个性、记住偏好、维持长期互动的AI代理

  • 重新定义模型评估指标:成功可能更多依赖连贯性和持续对话能力,而非单纯的事实准确性

  • 为AI与娱乐IP的跨界开辟道路,在互动叙事、游戏和创作者驱动的虚拟角色领域具有潜力


Agent时代来临:从对话到执行

LLM的使用正从单回合交互转向智能推理模式。模型不再只是产出一次性响应,而是协调工具调用、访问外部数据、迭代优化输出以实现目标。

早期证据显示多步查询和链式工具使用正在快速增长。随着这一范式扩展,评估将从语言质量转向任务完成度和执行效率。

下一个竞争前沿是模型如何有效执行持续推理。这一转变最终可能重新定义"大规模AI代理推理"在实践中的含义。

地理格局:全球化与去中心化

LLM的使用正变得越来越全球化和去中心化,增长迅速超出北美地区。亚洲在Token需求中的份额已从约13%上升至31%,反映出企业采用和创新的增强。

中国不仅通过国内消费,还通过生产具有全球竞争力的模型,成为重要力量。

更广泛的结论是:LLM必须在全球范围内都非常有用,在不同语言、语境和市场中表现优异。

下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型规模。

成本与使用动态:远非简单的价格竞争

LLM市场还不像商品市场——单靠价格对使用量解释不多。用户在权衡质量、可靠性和能力广度的同时考虑成本。

闭源模型继续捕获高价值、与收入相关的工作负载,而开源模型主导低成本且高流量的任务。这创造了一个动态平衡,这种平衡更多是由来自下方的恒定压力而非稳定性所定义。

开源模型不断推动效率前沿,尤其在推理和编码领域(例如Kimi K2)快速迭代和创新可以缩小性能差距。开放模型的每一次改进都压缩了专有系统的定价能力,迫使它们通过卓越的集成、一致性和企业支持来合理化溢价。

由此产生的竞争节奏快速、不对称且不断变化。随着时间推移,随着质量趋同加速,价格弹性可能增加,使曾经分化的市场变得更加流动。

"灰姑娘玻璃鞋现象":留存率才是真正的护城河

随着基础模型能力的跃进而非渐进,留存率已成为衡量可防御性的真正标准。每一次突破都会创造一个短暂的发布窗口,让模型能够完美"适配"高价值工作负载——这就是"灰姑娘玻璃鞋时刻"。用户一旦找到合适的模型,就会围绕它构建工作流程和习惯。

在这种范式中,产品市场契合等同于工作负载模型契合:率先解决真实痛点,推动用户围绕该能力构建工作流程,从而推动深层且粘性的采用。因此,切换成本在技术和行为上都变得昂贵。

对于建设者和投资者来说,需要关注的信号不是增长,而是留存曲线——建立能够持续经受模型更新考验的基础用户群体。在日益快速变化的市场中,及早捕捉这些关键未满足需求,决定了下一次能力飞跃后谁能坚持下去。

七、研究价值与未来展望

LLM正成为跨领域推理任务的重要计算基础,从编程到创意写作。随着模型的不断进步和部署的扩大,准确了解现实世界的使用动态对于做出明智决策至关重要。

人们使用LLM的方式并不总是符合预期,且因国家、地区和用例而有很大差异。通过大规模观察使用情况,我们可以将对LLM影响的理解扎根于现实,确保后续的发展——无论是技术改进、产品特性还是法规——都与实际使用模式和需求保持一致。

从竞争到协作的范式转变

过去一年催化了该领域对推理理解方式的根本性转变。o1类模型的出现使得长时间思考和工具使用变得规范化,评估从单次基准转向基于过程的指标、延迟-成本权衡以及编排下的任务成功率。

数据显示,LLM生态系统在结构上是多元的。没有单一模式或供应商占据主导地位;相反,用户根据具体场景,在能力、延迟、价格和信任等多个维度上选择系统。这种异质性不是暂时阶段,而是市场的基本特征。它促进快速迭代,减少对任何单一模型或技术栈的系统性依赖。

Agent推理:下一个竞争前沿

推理本身也在变化。多步骤和工具关联交互的兴起,标志着从静态补全向动态编排的转变。用户正在串联模型、API和工具以实现复合目标,催生了可称为"Agent推理"的现象。有充分理由相信,Agent推理的使用量将超过、甚至已经超过人类单次推理。

实际上,o1并未终结竞争,而是扩展了设计空间。该领域正朝向系统性思维而非单一押注,向基于数据的分析取代直觉,向实证使用分析取代排行榜竞争的方向发展。

如果过去一年证明了Agent推理在大规模上是可行的,那么明年将聚焦于运营卓越:测量真实任务完成度、减少分布转移下的方差,以及使模型行为与生产规模工作负载的实际需求保持一致。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

夜深爱杂谈
2025-12-21 17:37:52
何庆魁喊话赵本山:你说有事吱声,孙子留学得50万,但我不能张嘴

何庆魁喊话赵本山:你说有事吱声,孙子留学得50万,但我不能张嘴

非常先生看娱乐
2026-01-22 17:58:24
浙江知名主持嫁富商赴美定居,5年生3娃住豪宅

浙江知名主持嫁富商赴美定居,5年生3娃住豪宅

让心灵得以栖息
2026-01-25 19:51:57
年终奖八千同事七万,老板找我续约,我淡定递上离职信他慌了

年终奖八千同事七万,老板找我续约,我淡定递上离职信他慌了

晓艾故事汇
2026-01-06 09:08:51
世界上最旺自己的一个规律:1个字

世界上最旺自己的一个规律:1个字

知和大叔
2026-01-15 23:51:48
泰游客赴哈尔滨旅行后回国报警,涉事泰国旅行社:系己方与顾客的问题,与中国旅行社无关

泰游客赴哈尔滨旅行后回国报警,涉事泰国旅行社:系己方与顾客的问题,与中国旅行社无关

红星新闻
2026-01-23 12:26:32
董洁在雪地直播卖羊绒大衣 全程没吼没催 只轻声讲设计 两小时卖8亿

董洁在雪地直播卖羊绒大衣 全程没吼没催 只轻声讲设计 两小时卖8亿

草莓解说体育
2026-01-24 00:00:28
中央定调,延迟退休继续实施!公务员和事业单位员工不能向后延?

中央定调,延迟退休继续实施!公务员和事业单位员工不能向后延?

王五说说看
2026-01-18 08:23:52
预言成真?再对日本大动脉下死手,高市最不希望的事已发生

预言成真?再对日本大动脉下死手,高市最不希望的事已发生

谷盟a
2026-01-24 15:24:56
八卦|米娜计划购车!保时捷被嫌狗都不要!辟谣资产过亿:播2小时325还要交税!

八卦|米娜计划购车!保时捷被嫌狗都不要!辟谣资产过亿:播2小时325还要交税!

动物奇奇怪怪
2026-01-25 11:58:24
重磅!利物浦谈欧洲顶级左后卫 英超旧将愿回默西塞德

重磅!利物浦谈欧洲顶级左后卫 英超旧将愿回默西塞德

澜归序
2026-01-26 02:21:41
92岁前法官独居上海养老院,独子留英40年开公司,他竟说不后悔

92岁前法官独居上海养老院,独子留英40年开公司,他竟说不后悔

大鱼简科
2026-01-23 16:41:32
国外留学生的生活有多炸裂?网友:给我这个农村人看笑了

国外留学生的生活有多炸裂?网友:给我这个农村人看笑了

带你感受人间冷暖
2026-01-25 00:20:06
大布婚礼DJ亲证:没见过这样的妈!抢新娘风头,还拉儿子跳那种舞

大布婚礼DJ亲证:没见过这样的妈!抢新娘风头,还拉儿子跳那种舞

新欧洲
2026-01-24 21:21:07
霍诺德玩命攀登101大楼酬劳曝光,回应:尴尬的小数目

霍诺德玩命攀登101大楼酬劳曝光,回应:尴尬的小数目

体育妞世界
2026-01-25 16:35:37
拉“反斩首”防线?国防部首次确认,对赖清德逮捕可直接瓮中捉鳖

拉“反斩首”防线?国防部首次确认,对赖清德逮捕可直接瓮中捉鳖

通文知史
2026-01-24 18:15:03
到嘴的鸭子飞了!曝海港遭截胡,中超抢断王或加盟联赛新土豪

到嘴的鸭子飞了!曝海港遭截胡,中超抢断王或加盟联赛新土豪

体坛鉴春秋
2026-01-25 15:55:02
两位女主播互相爆料,各自都有黑人男友,亲密合照还被曝光

两位女主播互相爆料,各自都有黑人男友,亲密合照还被曝光

新游戏大妹子
2026-01-23 12:30:08
负债117亿!知名汽车巨头宣布破产!这款国产车,将彻底退出中国

负债117亿!知名汽车巨头宣布破产!这款国产车,将彻底退出中国

泠泠说史
2026-01-23 18:15:22
未婚先孕?曝范冰冰现身妇产医院,小心翼翼穿着宽松,腹部疑似隆起

未婚先孕?曝范冰冰现身妇产医院,小心翼翼穿着宽松,腹部疑似隆起

八卦王者
2026-01-23 15:47:04
2026-01-26 03:00:49
AI先锋官 incentive-icons
AI先锋官
AIGC大模型及应用精选与评测
420文章数 38关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

头条要闻

男孩打碎电视屏为"还债"在小区创业 不到2个月赚了6千

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

健康
房产
教育
数码
军事航空

耳石脱落为何让人天旋地转+恶心?

房产要闻

正式官宣!三亚又一所名校要来了!

教育要闻

西藏考生必看!合肥工业大学招生计划揭秘

数码要闻

AMD最强APU更新!锐龙AI Max+ 400详细规格曝光:5.2GHz CPU、3.0GHz GPU

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版