网易首页 > 网易号 > 正文 申请入驻

token正式命名为“词元”,token到底是个啥?

0
分享至

最近几天,不少人第一次在许许多多的媒体里看见了这个词。不是流量,不是算力,也不是参数,而是一个原本更常出现在程序员聊天记录和大模型后台里的词——token,也就是“词元”。

01


一夜之间,

token怎么就成了“词元”?



“词元”被正式定义。图源于网络

值得注意的是,在人民日报等公开报道里,它被明确写成了“词元”;在国新办发布会上,国家数据局局长也直接说出了“Token,也就是词元”这句话。一个技术圈常用的英文词,正在以中文名字进入更广泛的公共表达。

为什么这件事值得关注?因为一个概念一旦被大众媒体稳定使用,就意味着它不再只是圈内黑话,而是开始成为普通人也会频繁遇到的公共词汇。以前大家刷到 AI 新闻时,看到 token 往往会直接跳过;现在,“词元”这个译法把它拉近了。它不像一个遥远的英文术语,更像一个可以被理解、可以被讨论、也可以被拿来解释现实世界的新名词。


看似聊天,背后却是词元计算。图源于网络

问题随之而来:这个听起来像是AI时代的“货币”单位的词元,到底是什么?它为什么突然这么重要?它跟我们平时说的字、词、句子,到底是什么关系?很多人以为自己只是在和 AI 聊天,实际上在模型眼里,这整个过程都在围绕词元展开。

02


一句话解释,

词元到底是个啥?

最直接的答案是,token,也就是词元,是大模型处理语言时使用的基本单位。它不是整句话,也不总是一个完整的词,更不等于字数。人类看见的是一段完整表达,模型接收到的却是一连串被切开的信息小块。模型不会像人那样“直接读懂一句话”,它需要先把语言拆分,再把这些拆分后的部分转成数字,最后才能继续计算。

如果把人类语言比作一条长长的项链,那词元就像项链上的珠子。你看到的是整体的光泽和形状,模型处理的却是每一颗珠子的顺序、位置和关系。它并不先理解“意义”,而是先处理“单位”。这就是为什么词元是大模型世界里最基础、也最关键的那把尺子。


你看到的是一句话,模型看到的是一串词元。图为AI创作

换个更生活化的比喻也许更好理解。我们点外卖时,平台不会按“我现在有点饿”来计算订单,它会按份数、菜品、重量、地址这些可处理的单位来组织系统。模型面对语言也是一样。你输入的是问题、情绪和需求,模型真正处理的却是一个个可以统计、可以编码、可以运算的词元。

它不是“字”,也不是“词”,更不是“句子”。

很多人一看到“词元”这个中文译名,就会自然地把它理解成“词”。但这恰恰是最容易产生误会的地方。词元并不严格等于语文课本里的“词”,也不稳定对应某个汉字,更不是一整个句子。它是机器为了处理语言而切分出来的一种计算单位。


词元不是整句,也不稳定等于一个词。图源于网络

有时候,一个词元可能只是一个字符;有时候,它可能是一整个常见词;还有时候,它只是一个词的一部分。空格、标点、前后搭配,都会影响切分结果。也就是说,词元不是语言天然长出来的边界,而是模型为了更高效地处理语言,主动“切”出来的颗粒。

这件事非常重要,因为它会直接影响我们对“token 数量”的理解。你不能把 token 简单换算成“多少个字”或者“多少个词”。同一句话,换一个模型,词元数量可能就变了。因为不同模型背后的 tokenizer,也就是词元切分器,并不完全相同。人类共享的是语言,模型共享的却未必是同一套切法。


词元像积木,一样大的物体,可以根据不同的定义,拆解成不同的元件。图源于网络

03


模型为什么一定要

先把话“切一刀”?

原因说穿了并不神秘:模型并不真正认识文字,它认识的是数字。对我们来说,文字本身携带意义;对机器来说,文字只是符号。要让模型处理语言,必须先把这些符号转成编号,再让模型在编号之间建立关系。词元就是这个翻译过程中最关键的一层。

所以,大模型理解一句话的大致流程并不是“看见文字=立刻懂了”,而更像“切分语言—映射编号—进行计算—生成新编号—再还原成文字”。从这个角度看,模型不是在直接阅读人类语言,而是在处理一条条编号序列。文字是我们看到的外衣,词元和编号才是模型真正工作的内部形态。



和其它计量单位作用相似,词元是AI 时代的重要“计量单位”。图源于网络

如果你愿意把它想象得更具象一点,tokenizer 就像海关安检机。人类说出一句完整的话,进门时先被拆包、扫描、分类、编号,然后才进入系统内部流转。你在外面看到的是“我说了一句话”,模型内部发生的却是一场高密度的信息物流。

今天人人都开始谈论词元,因为词元已经不只是技术细节,而是越来越像 AI 时代的基础计量单位。你和模型聊一次天,会消耗输入词元;模型给你回一段话,会产生输出词元;上下文越长、材料越多、任务越复杂,词元消耗往往也越高。于是,速度、成本、上下文容量、服务能力,最后都会和词元挂钩。


AI运用词元的基本原理。图为AI生成

这也是为什么,国家数据局会把词元描述为既可计量,也可定价、可交易的单位。一个概念一旦同时进入技术语言、产业语言和媒体语言,就说明它已经不仅仅是工程师内部的术语,而是正在成为商业和公共讨论中的共同语言。简单说,词元之于大模型,有点像度数之于电表、流量之于手机套餐、公里数之于网约车。你平时可能不盯着它看,但一旦涉及性能、费用和规模,它立刻变成关键数字。

04


为什么中文语境下,

“词元”尤其值得理解?

在英文里,很多人会自然把 token 联想到 word,也就是“词”。但中文并不是按空格天然分词的语言,汉字、词语、短语和语境之间的边界都更灵活。因此,如果简单把 token 理解成“单词”,在中文场景下反而更容易误解。

这也是“词元”这个译法的一个妙处。它没有把 token 硬塞进已有的语法概念里,而是保留了一点技术感,同时又给普通人留出了理解空间。它在字和词之间,在语言学概念和计算概念之间,搭起了一座桥。你一看就知道,它大概和“词”有关,但又不是传统意义上的词。

更进一步说,很多主流的词元化方法,本来就不是按传统词典那样死板切分,而是采用子词策略。常见表达尽量整体保留,罕见表达再拆得更细。这样既能控制词表规模,又能兼顾表达能力。对于中文这种没有天然空格的语言,这种策略尤其关键。


AI对语言的转化。图源于网络

理解词元,其实是在理解 AI 到底怎么‘读’你的话。很多人觉得 AI 神秘,一个重要原因是我们总是从结果去看它。它会聊天、会写作、会总结、会翻译,于是大家容易把它想象成一个藏在屏幕后面的“聪明大脑”。但如果你从词元这个入口重新看,大模型立刻就会变得更具体。它不是先有灵感,再给出答案;它是在大量词元之间不断计算下一步最可能出现什么。

这并不会削弱 AI 的神奇感,反而会让我们更真实地理解它。你会明白,模型看起来像在和你自然交流,本质上却在完成一场高度精密的语言运算。你看到的是话语的流动,模型经历的是词元的排布、映射与生成。你感受到的是“它好像懂我”,模型内部处理的却是“这些词元在上下文里如何彼此关联”。

对普通人来说,理解这一点很有价值。因为未来越来越多的 AI 产品说明书、服务计费、性能指标、上下文限制、平台公告,都会不断提到“词元”这个单位。它很可能会像曾经的“流量”“像素”“带宽”一样,慢慢成为数字生活里必须认识的新词。

说到底,词元让我们看见了 AI 的底层节奏。

如果用一句话收束全文,答案可以是这样的:词元是人工智能把人类语言翻译成机器可处理形式时所使用的基本单位。它一头连着文字,一头连着数字;一头连着理解,一头连着计算;一头连着技术原理,一头连着商业现实。


理解词元,就是理解 AI 如何真正“读”你的话。图源于网络

所以,下次再听到“这个模型很费 token”时,你完全可以把它理解得更准确一些:不是它“很费词”,而是它在大量消耗机器处理语言所需的最小计算单位。你看到的是一句完整的话,模型面对的却是一串可以分割、编号和运算的词元。

而“词元”这个中文名字之所以重要,也正因为它让更多人第一次有机会用中文、用日常经验,去理解大模型世界里最基础却最关键的一块砖。你并不一定要学会训练模型,但只要理解了词元,就已经摸到了 AI 时代语言计算的门把手。

参考资料:

[1] 人民日报. 我国日均词元调用量突破140万亿[EB/OL]. (2026-03-24)[2026-03-24].https://paper.people.com.cn/rmrb/pc/content/202603/24/content_30147015.html.

[2] 国家数据局. 国家数据局局长刘烈宏出席国新办新闻发布会 介绍第九届数字中国建设峰会有关情况并回答记者提问[EB/OL]. (2026-03-24)[2026-03-24].https://www.nda.gov.cn/sjj/zhuanti/sjzgzxd/szzgzb/0324/20260324132817761432606_pc.html.

[3] OpenAI. What are tokens and how to count them?[EB/OL]. [2026-03-24]. https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them.

[4] OpenAI. Tokenizer[EB/OL]. [2026-03-24].

https://platform.openai.com/tokenizer.

[5] Hugging Face. Tokenizer[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/main_classes/tokenizer.

[6] Hugging Face. Summary of the tokenizers[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/v4.47.1/tokenizer_summary.

[7] Hugging Face. Tokenization algorithms[EB/OL]. [2026-03-24]. https://huggingface.co/docs/transformers/tokenizer_summary.

编辑:亦山

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
扛不住了:飞机停飞化肥告急,转头求中国帮忙,马科斯想两头通吃

扛不住了:飞机停飞化肥告急,转头求中国帮忙,马科斯想两头通吃

潋滟晴方DAY
2026-03-26 03:44:38
1-3又爆冷!温瑞博无缘世乒赛,3次决赛全输球,王皓的算盘落空了

1-3又爆冷!温瑞博无缘世乒赛,3次决赛全输球,王皓的算盘落空了

体育就你秀
2026-03-26 05:00:03
张雪峰遗产全给女儿!去年3月就立好遗嘱,这才是顶级父爱啊

张雪峰遗产全给女儿!去年3月就立好遗嘱,这才是顶级父爱啊

陈意小可爱
2026-03-25 22:34:47
英伟达黄仁勋:AI不仅会冲击白领岗位,蓝领同样无法置身事外

英伟达黄仁勋:AI不仅会冲击白领岗位,蓝领同样无法置身事外

IT之家
2026-03-25 18:34:08
67岁首富被立案调查!公司连续20年全球第一,已累计套现超过10亿

67岁首富被立案调查!公司连续20年全球第一,已累计套现超过10亿

国际阿尝
2026-03-24 18:14:08
德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

老马拉车莫少装
2026-03-24 22:55:20
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
45岁柳岩近况曝光!身材模样变化大,被传与大学初恋复合归隐田园

45岁柳岩近况曝光!身材模样变化大,被传与大学初恋复合归隐田园

章眽八卦
2026-03-25 11:30:37
继母烫幼子下体逼吃大便 姐弟惨遭虐待生母怒讨说法

继母烫幼子下体逼吃大便 姐弟惨遭虐待生母怒讨说法

大象新闻
2026-03-25 12:09:04
吉林一大学原党委书记逝世,享年69岁

吉林一大学原党委书记逝世,享年69岁

双一流高校
2026-03-26 00:10:30
“武当太极”猛料:伤害了多少人...

“武当太极”猛料:伤害了多少人...

梳子姐
2026-03-24 11:11:53
特朗普转发巴基斯坦总理倡议 支持巴方主办美伊会谈

特朗普转发巴基斯坦总理倡议 支持巴方主办美伊会谈

中国网
2026-03-25 09:18:19
伊朗导弹10分钟一波!哪来这么多库存?以军防空系统被打成筛子

伊朗导弹10分钟一波!哪来这么多库存?以军防空系统被打成筛子

末蓝星星
2026-03-26 04:13:18
遛狗遇伏,台“百亿赌王”在柬埔寨身中29枪

遛狗遇伏,台“百亿赌王”在柬埔寨身中29枪

枢密院十号
2026-03-24 22:00:29
张雪峰去世,AC米兰官方发文致哀!他曾说:卡卡转会就像复旦生去了清华

张雪峰去世,AC米兰官方发文致哀!他曾说:卡卡转会就像复旦生去了清华

可乐谈情感
2026-03-25 10:28:28
弃用姆贝莫!卡里克找到曼联 “福登二世”,青训妖星有望上位

弃用姆贝莫!卡里克找到曼联 “福登二世”,青训妖星有望上位

澜归序
2026-03-26 04:39:05
伊朗外长:伊朗经调解方与美“交流信息”,没有谈判

伊朗外长:伊朗经调解方与美“交流信息”,没有谈判

澎湃新闻
2026-03-26 04:51:39
被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

潮鹿逐梦
2026-03-24 17:58:35
美媒承认驻中东爱国者和萨德几乎全军覆没,中式杀伤链喜事将近?

美媒承认驻中东爱国者和萨德几乎全军覆没,中式杀伤链喜事将近?

共工之锚
2026-03-26 01:07:03
张雪峰医疗文件疑遭泄露?苏州卫生健康委:已关注到此事并在处理

张雪峰医疗文件疑遭泄露?苏州卫生健康委:已关注到此事并在处理

极目新闻
2026-03-25 11:50:47
2026-03-26 05:32:49
中科院物理所 incentive-icons
中科院物理所
爱上物理,改变世界。
9997文章数 136506关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗:正在搜捕逃亡美军

头条要闻

伊朗:正在搜捕逃亡美军

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰遗产分割复杂!是否立遗嘱成关键

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

游戏
艺术
旅游
本地
公开课

PS6升级动力遭质疑!玩家或当“PS5钉子户”

艺术要闻

张雪峰走了,他公司所在的这栋楼高177.8米,耗资超10亿!

旅游要闻

“女王驾到” 上海温室花园高山杜鹃展开幕,中外游客打卡点赞,Beautiful!Amazing!Fantastic!

本地新闻

来永泰同安 赴一场春天的约会

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版