网易首页 > 网易号 > 正文 申请入驻

大模型的token究竟是什么?一文读懂!

0
分享至

在大模型的语境中,token是一个基本的数据处理单元,它可以是一个单词、一个字符,或者是一个子词等,以下从其定义、作用及常见的token划分方式等方面进行具体介绍:

定义:简单来说,token是对文本进行分割后的最小单元。大模型在处理文本时,无法直接处理人类自然语言中的文字,需要将文本拆分成一个个的token,以便模型能够理解和处理。例如,对于句子 “欢迎关注订阅招文袋公众号”,可以将其拆分成多个token:“欢迎”“关注”“订阅”“招文袋”“公众号”。

作用将文本数字化:把自然语言文本转化为模型可以处理的数字向量形式。每个token会被映射为一个唯一的数字编号,模型通过处理这些数字来学习语言的模式和规律。如在一个简单的词汇表中,“欢迎”可能被编码为1,“关注”编码为2,“订阅”编码为3,“招文袋”编码为4,“公众号”编码为5。这样句子 “欢迎关注订阅招文袋公众号”就可以表示为 [1, 2, 3,4,5],便于模型进行计算和分析。

控制模型输入输出长度:模型处理的token数量是有限制的,通过对文本进行token化,可以将输入文本截断或补齐到合适的长度,使模型能够有效地处理。例如,某模型的输入长度限制为512个token,对于较长的文本,就需要截断多余部分;对于较短的文本,可能需要添加特殊的填充token,使其达到规定长度。

提高语言理解精度:将文本细分为token后,模型可以更精确地捕捉语言中的语义和语法信息。比如,对于一些具有多种含义的词,通过上下文的其他 token,模型能更准确地判断其在具体语境中的意思。

常见的token划分方式单词级别:将文本按照空格等分隔符拆分成多个单独的词汇作为token。如 “加入招文袋知识星球一起学习AI” 会被拆分为 “加入”“招文袋”“知识星球”“一起” “学习”“AI”六个token。这种方式简单直接,但对于一些复杂的语言现象,如复合词、词的变形等处理可能不够精细。

字符级别:把文本中的每个字符都作为一个token。例如,“关注招文袋” 会被拆分为“关”“注”“招”“文”“袋”五个token。字符级别的token化可以处理任何未知的词汇,但会导致输入序列过长,增加模型的计算量和训练难度。

子词级别:结合了单词级别和字符级别的优点,将单词拆分成更小的子词单元。例如,“招文袋知识星球” 可能被拆分成 “招文”“袋”“知识”“星球”四个token。这种方式既能处理一些罕见词和复合词,又能保持相对合理的token数量和序列长度。

如何计算token的数量?

计算token数量的方法会因tokenization的方式不同而有所差异,常见的有基于空格或标点符号的简单统计、基于预训练模型的工具包统计、基于字符的统计等方法,以下是具体介绍:

基于空格和标点符号的简单统计

对于以单词为token的情况,可以通过统计文本中的空格和标点符号来大致计算token数量。例如,对于文本 “知识星球名:招文袋 星球号:75873546。”,可以通过计算空格和标点符号的数量来确定 token 的数量。一般来说,空格将单个词汇分隔开,标点符号也可以作为分隔的标志。在这个例子中,有四个token,分别是“知识星球名”“招文袋”“星球号”“75873546”。不过这种方法对于一些复杂的语言现象可能会不准确。

基于预训练模型的工具包统计

使用Hugging Face(一个专注于自然语言处理的开源社区)的tokenizers库:许多预训练语言模型都有相应的tokenizer工具,以Hugging Face的transformers库为例,它提供了各种预训练模型的tokenizer,可以方便地对文本进行token化并计算token数量。如对于BERT模型(一种语言表示模型),可以使用BertTokenizer(对文本进行分词和编码的工具)来处理文本。

使用AllenNLP(一个自然语言处理的模型框架)的tokenizers:AllenNLP也提供了丰富的自然语言处理工具,包括tokenizer。可以使用SpacyTokenizer或WordTokenizer等对文本进行处理和 token 数量计算。

基于字符的统计

如果是基于字符的tokenization,那么直接统计文本中的字符数量即可。例如,对于文本 “知识星球名:招文袋”,字符数量为8,即token数量为8。但需要注意一些特殊情况,如是否将空格、标点符号等也算作token。如果要将空格也算作token,那么 “知识星球名:招文袋” 的token数量就是9。

基于特定规则的统计

对于一些特定的领域或任务,可能会有自定义的token定义和计算规则。例如,在处理代码时,可以将每个关键字、变量名、运算符等作为一个 token(小白不用处理代码,了解即可)。

最后,简单直白总结如下:

- token定义:大语言模型接收到文字后,分词器将其切成的小块就是token,它可以是单个汉字、词语、短语、标点符号、单词或词缀等。大模型输出文字时也是逐个token生成,所以看起来像打字。

- token存在的原因:类比人脑处理信息方式,为提高效率、节省脑力,人脑常把有意义的词语或短语作为整体对待,人工智能也借鉴了这一思路,通过分词器把大段文字拆解成大小合适的token。

- 分词器分词方法:分词器通过统计大量文字,把经常一起出现的组合(如“招文袋” )、单个常用字(如“请”)、常见字母组合(如“ing” )、标点符号等,分别打包成token,配上编号,形成庞大的token表。大模型输入和输出时,处理的是token编号,再由分词器转换为人类可看懂的内容。

- token的作用及计费方式:token是大模型理解和生成文字的基础,大模型通过计算token之间的关系推算下一个可能的token。几乎所有大模型公司按token数量计费,因为其对应背后的计算量。

这里有些AI大模型说是免费,其实是免费一部分token,超过后就要收费。比如,有平台就出了政策,说新注册或者拉新会员注册就免费送你50万token。看着数字好像很多都用不完的样子,但其实如果天天用的话,几天也就用没了。

- 不同模型分词差异:不同模型分词结果不同,如“请关注订阅招文袋公众号”在DeepSeek和其他模型里分词结果不同,所以分词的数量也就不同了。此外,token在人工智能领域外也有出现,但含义不同。

就说到这里,如果耐心看完,也就对token的概念基本清晰无误了。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中戏2012级表演系名单曝光,三位新疆预科生和林傲霏均在列

中戏2012级表演系名单曝光,三位新疆预科生和林傲霏均在列

我就是个码字的
2026-01-14 18:28:55
养父讨饭将我养大,20年后我荣升上校,结婚时岳母见养父却变脸

养父讨饭将我养大,20年后我荣升上校,结婚时岳母见养父却变脸

兰姐说故事
2025-03-11 15:00:07
南京一饭店被曝用脚踩食材、发霉鸭头翻新 市监局回应:正在调查

南京一饭店被曝用脚踩食材、发霉鸭头翻新 市监局回应:正在调查

极目新闻
2026-01-14 15:48:10
戴旭发言不寒而栗!

戴旭发言不寒而栗!

安安说
2026-01-10 10:51:32
古代犯人发配需要衙役押送,往返几千里路,衙役是不是也很遭罪?

古代犯人发配需要衙役押送,往返几千里路,衙役是不是也很遭罪?

掠影后有感
2026-01-10 13:57:42
美国衰落,就是一个巨大的谎言

美国衰落,就是一个巨大的谎言

枫冷慕诗
2026-01-06 12:28:30
俄驻华大使馆高调庆祝《北京条约》夺取外东北(海参崴)160周年

俄驻华大使馆高调庆祝《北京条约》夺取外东北(海参崴)160周年

律法刑道
2025-12-30 08:34:47
为什么日本在短期旅行中几乎无可挑剔,却在长期生活中让大量外国人逐渐感到压抑与疏离

为什么日本在短期旅行中几乎无可挑剔,却在长期生活中让大量外国人逐渐感到压抑与疏离

日本物语
2026-01-13 20:41:39
重磅进展,东莞这条高铁用地征拆100%!

重磅进展,东莞这条高铁用地征拆100%!

东莞房视
2026-01-14 14:23:46
别大意!长期戴口罩,这7种不适正在悄悄伤害你

别大意!长期戴口罩,这7种不适正在悄悄伤害你

孟大夫之家1
2025-12-25 11:57:04
CBA排名一夜变:黑马挤北京,辽宁低迷,沪粤告负

CBA排名一夜变:黑马挤北京,辽宁低迷,沪粤告负

光辉与阴暗
2026-01-14 23:31:21
南宁已明确:身份证45开头的人恭喜了!1月起正式开始实施!

南宁已明确:身份证45开头的人恭喜了!1月起正式开始实施!

广西气象
2026-01-13 19:28:16
湖南女子模仿呆呆喊网友杀猪:帮杀10头猪,网友反响非常热烈,建了16个群都满了,可能会弄一个流水席

湖南女子模仿呆呆喊网友杀猪:帮杀10头猪,网友反响非常热烈,建了16个群都满了,可能会弄一个流水席

大风新闻
2026-01-13 11:10:02
人民币升级,我们做好最坏的打算

人民币升级,我们做好最坏的打算

李云飞Afey
2026-01-15 00:44:17
给男人一个忠告:不要轻易和这2种女人发生亲密关系,切记

给男人一个忠告:不要轻易和这2种女人发生亲密关系,切记

有故事的人
2025-11-29 07:09:03
天津的“大地之子”雕塑拆了

天津的“大地之子”雕塑拆了

天津族
2026-01-13 17:47:41
G7 达成一致减少中国稀土进口,北约秘书长:中国也算是北极国家

G7 达成一致减少中国稀土进口,北约秘书长:中国也算是北极国家

军机Talk
2026-01-14 13:55:56
全世界最狠的骗局,莫过于贷款买房。

全世界最狠的骗局,莫过于贷款买房。

流苏晚晴
2026-01-08 18:18:57
又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

又一个巨头崛起!年入8715亿,超越华为,成第三民营企业!

牛牛叨史
2025-12-23 23:07:38
国米vs莱切:图拉姆领衔,博尼、迪乌夫、泽林斯基出战

国米vs莱切:图拉姆领衔,博尼、迪乌夫、泽林斯基出战

懂球帝
2026-01-15 02:54:14
2026-01-15 04:16:49
招文袋
招文袋
偶尔思考,经常无脑,请勿介意。
248文章数 1453关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

头条要闻

外媒揭美对伊朗动手方案:派特种部队对高层实施"斩首"

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

健康
本地
手机
数码
房产

血常规3项异常,是身体警报!

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

手机要闻

REDMI Turbo 5 MAX现身跑分,天玑9500s芯片加持

数码要闻

存储涨价冲击DIY市场,DDR3主板销量意外逆势倍增

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

无障碍浏览 进入关怀版