日前,在国务院新闻办公室的新闻发布会上,国家数据局局长刘烈宏正式宣布,AI领域核心术语“Token”的官方中文定名为“词元”,并公布我国日均词元调用量已突破140万亿,较2024年初增长超1400倍,较2025年底增长40%以上。这一里程碑式的定名与数据发布,标志着我国人工智能产业正从技术探索迈入规模化商业落地的新纪元,词元作为智能时代的“价值锚点”与“结算单位”,正重塑着全球AI产业生态。
01
从千亿到百万亿:
中国AI驶入规模化增长快车道
如今,中国AI发展的“数字脉搏”正以词元调用量的形式清晰跳动。今年3月以来,我国日均词元(Token)调用量已超过140万亿,相比2024年初的1000亿增长了1000多倍,相比2025年底的100万亿,3个月时间又增长了40%多。“日均词元调用量的大量增加,充分表明中国的人工智能发展进入了快速增长阶段。”刘烈宏表示,人工智能应用场景在不断深化,从能对话到能决策执行的智能体,中国人工智能产业的竞争力显著增强,现在备受关注的Token出海,就是产业竞争力增强的一个标志。
据刘烈宏介绍,在各方共同努力下,我国高质量数据集的建设工作取得了阶段性成效。截至2025年底,全国已建成的高质量数据集超过10万个,总体量相当于中国国家图书馆数字资源总量的310倍。国家数据局将持续推进数据赋能人工智能创新发展,协同各方深入实施新一轮的高质量数据集建设行动计划,以场景需求为牵引,加快推进先行先试的工作,打造技术可行、实用便捷、质量保障的AI-Ready(AI就绪度)高质量数据集,实现高质量数据集供给的量质提升。
02
解码词元:
AI大模型的“基本运算单元”与价值计量核心
究竟何为词元?作为AI大模型处理信息的基本单位,我们以字为单位来读书写字,对于大模型,这个输入输出的单位就是Token。在AI的眼里,一个Token可能对应几个汉字、单词,也可能是一个标点、数字或者符号。它就像AI时代手机的流量一样,每一个AI模型厂商都会提供自己的Token,并且以它的消耗量为单位向用户收费。
无论是用户的提问,还是AI生成的一段代码,最终都要被拆解成Token来完成运算。例如火爆的“养龙虾”(部署和使用本地AI智能体OpenClaw),想让它变得更聪明,就得为大模型的服务付费,本质上就是在购买Token的使用量。
从技术本质来看,词元是自然语言的数学化表达。一段文字、一个问题进入AI模型前,会先被“分词器”拆解为若干词元,拆分规则因模型分词器设计而异:“朋友买了西瓜手机!”可能被拆分为“朋友”“买”“了”“西瓜”“手机”,而“Transformer”这类英文词汇,可能被拆成“Trans”“former”。
这些拆分后的词元,对人类而言是有意义的文字,对AI却缺乏直观认知。为了让AI“理解”,大模型会先给每个Token分配一个数字编号,然后将这个编号转化为一组数字坐标(向量)。这个坐标决定了AI如何“理解”这个词。
更关键的是,AI对词汇的理解并非固定不变,而是通过计算词元坐标间的复杂关系实现动态解读——比如“西瓜”,AI会根据上下文,将其坐标向“品牌”或“食物”相关方向调整,从而精准理解“西瓜手机”这类组合的含义。
总而言之,Token计量的,并不只是你看到的AI模型给出的答案,而是生成这个答案所需的全部计算资源。而进入以Openclaw(龙虾)为代表的agent场景,这种Token的消耗会被指数级扩大。比如让Openclaw替你干活,把“帮我整理一下文件夹”这句话甩给它之后,它可能需要先读懂这个要求,然后拆解成十几个子任务,每个子任务分别调用一次AI,每次调用都带着完整的系统指令和上下文,必要的时候还要反复检查有没有做对、是否需要修正。这背后可能是几十轮对话、几万个Token的连锁消耗,这也是它看起来只干了点普通的活,但格外消耗Token的原因。
03
中国领跑全球:
词元竞争背后的算力与产业优势
全球AI产业的竞争,正以词元调用量为标尺展开。全球最大AI模型API聚合平台OpenRouter最新数据显示,截至3月15日,中国AI大模型的周调用量达到4.69万亿个Token,连续第二周超越美国。全球词元调用量排名前三的位置,更是被中国模型占据。国产大模型MiniMax M2.5连续五周位居全球大模型调用量榜首,在公司总部的办公区,产品研发人员展示了直观的价格差距图。“达到同样能力水平的海外模型跟我们的相比,价格可能有十几倍的差距。”
我们要知道,Token并不是凭空产生的,它是由高性能的GPU在消耗大量的电能,完成数千亿次的推理运算后产生的数字资产。每生成一个Token都对应着真实的推理过程,也对应着真实的电力消耗和算力消耗。
而中国大模型公司之所以能够把Token价格做得更低,主要原因有:第一是我们的电力优势。中国拥有更完善的电力基础设施和技术体系,尤其是西部地区丰富的新能源绿电,正在与数据中心算力、枢纽加快耦合,把电直接转化成AI时代的新型服务能力。第二是技术能力。近年来中国科技企业在推理芯片、模型架构和系统优化上持续突破,这意味着面对同样一个问题,中国的大模型往往可以用更少的算力、更短的时延、更高的能效,就把答案给算出来。有人说Token将是AI时代新的能源单位,中国电力、中国算力正在以一种全新的方式参与着全球的竞争。
04
词元成产业“晴雨表”:
重构AI商业逻辑与产业生态
在人工智能时代,用户输入的每一个字,大模型生成的每一段话、识别的每一幅图像,都在消耗词元。国家数据局专家咨询委员会委员张向宏介绍,日均超140万亿的词元调用量,相当于1000万亿个中文词汇,也相当于250个中国国家图书馆的资源量。
国家发展改革委国家信息中心人工智能处工程师蔡驰宇介绍,词元日均调用量大幅增长,充分表明人工智能正加速从实验室走向千行百业和千家万户,变成了实实在在的生产力工具,像水、电、网络一样,成为智能社会运转的基础资源。词元的消耗量是人工智能产业发展的重要指标和“晴雨表”。
词元的普及,更在重构人工智能产业的商业逻辑。围绕词元的调用、分发与结算,一套新的价值体系正在加速演进形成,并成为人工智能产业可能变现的重要路径。蔡驰宇介绍,过去一家企业使用信息服务,需要购买信息软件;现在一家企业使用信息服务,可直接调用大模型接口,用多少词元,就付多少费用,以词元消耗量的多少作为计费依据。这种按需付费的模式,大幅降低了企业的AI应用门槛,也让AI产业的商业变现更具灵活性。
与此同时,专家表示,词元消耗量增长也对电力资源提出了更高要求。今年的政府工作报告提出,实施算电协同等新基建工程。专家表示,算电协同的本质含义,就是要依托我国具有超前优势的绿电来发展算力产业和人工智能产业。
素材来源:央视新闻、央视财经、科普中国
编辑:董敏炜
审核:冯海波 刘肖勇
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.