一文读懂大模型中的Token|拆分|官方网页|token

一文读懂大模型中的Token

2025-06-10 23:21:31　来源: 红熊AI博士

浙江举报

分享至

在大模型的世界里，Token堪称一个极为关键的概念，若想深入理解大模型如何处理文本，就必须先弄清楚Token到底是什么。

简单来说，大模型中的Token可以被通俗理解为计算机处理文本的“基本货币单位”。

这就好比人类日常交流时，会用单词、标点等元素组合成完整的句子，计算机在处理文本时，也会将其拆解成一个个更小的单元，这个单元便是Token，通过它来实现对文本的理解与生成。

Token究竟是什么？
基础定义
Token作为文本的最小处理单元，形式丰富多样。它可以是一个完整的单词，像“apple”（苹果），就是人们日常认知中具有独立意义的词汇单元；也可以是子词，比如“un - happy”（不开心），“un - ”作为一个具有否定意义的词缀，和“happy”组合成新的词汇，在计算机处理时，它们会被当作不同的子词Token；字符同样能作为Token，例如单个字母“A”；标点符号也不例外，像“！”这样用于表达强烈情感或语气的标点，在计算机处理文本时也被视为一个Token。

以中文句子“我喜欢吃苹果。”为例，计算机在处理时，可能就会将其拆解为：["我", "喜欢", "吃", "苹果", "。"] ，这些独立的字词和标点，就是组成这个句子的Token。
类比货币
我们知道，不同国家使用不同的货币，在跨国交易等场景中，需要进行货币兑换才能实现流通。

文本对于计算机而言，就如同不同国家的货币，需要转换成特定的形式——Token，才能被计算机处理。

以单词“Pineapple”（菠萝）来说，计算机在处理时，可能会将其拆成子词Token ["Pine", "apple"] ，每个Token都会对应一个唯一的数字编码。

这些数字编码就像是计算机世界里的“通用货币”，计算机通过识别和处理这些编码，来理解和处理文本信息。
Token是如何拆分的？
常见拆分方式
• 单词级：这种拆分方式较为简单直观，主要是按空格进行分割。比如英文句子“Hello world”，就会被拆分为 ["Hello", "world"] ，这种方式对于英语这种单词之间以空格分隔的语言来说非常适用，能快速有效地将句子拆分成一个个独立的单词Token。
• 子词级：当遇到一些罕见词时，单纯的单词级拆分就无法满足需求了。这时，会采用一些算法，如字节对编码（BPE）来进行拆分。

例如单词“jumped”（跳，过去式），通过BPE算法，可能会被拆分为 ["jump", "ed"] ，“jump”是单词的核心部分，“ed”表示过去式的词缀，这样的拆分方式能够很好地解决生僻词在计算机处理中的问题，让模型更好地理解词汇的含义和语法功能。
• 字符级：对于像中文这样没有空格来分隔单词的语言，字符级拆分就发挥了重要作用。在这种方式下，每个字母或汉字都作为一个Token。

以英文单词“cat”（猫）为例，会被拆分为 ["c", "a", "t"] ；中文句子“人工智能改变世界”，若采用字符级拆分，可能会拆成单个的汉字Token。不过，实际应用中，对于中文更多采用基于词语的拆分方式，以提高处理效率和准确性。
特殊符号处理
在Token拆分过程中，空格也有着特殊的处理方式。有时候，空格可能会被编码为特殊符号，比如“Ġ” 。例如英文句子“Hello world”，在经过特殊处理后，可能会变成 ["Hello", "Ġworld"] ，这个特殊符号“Ġ”就像是一个隐形的标记，帮助模型准确识别单词的边界，避免出现理解偏差。
为什么大模型需要Token？
计算机友好
计算机的本质是处理数字信息的机器，而文本对于计算机来说是无法直接理解的。Token的出现，成功地将文本转化为数字序列。

例如，“苹果”这个词，在经过编码后，可能会对应一个数字12345 ，这样一来，计算机就能通过处理这些数字序列，对文本进行分析、理解和生成等操作，大大提高了计算机处理文本信息的效率和准确性。
控制输入长度
大模型在处理文本时，存在一个最大Token处理限制。例如GPT - 4，其最大处理长度可能为4096 Token 。当输入的文本Token数量超过这个限制时，模型就会采取截断处理，只保留部分Token进行计算，或者直接拒绝处理。

这就像是一个容器，它的容量是有限的，当倒入的水（文本信息）超过其容量时，就会溢出（无法处理），所以控制输入长度对于大模型的有效运行至关重要。
影响成本和效率
• 计费：目前，许多大模型的API服务都是按照Token数量来进行收费的。

比如，可能的收费标准是1元/千Token 。这意味着用户输入的文本生成的Token数量越多，需要支付的费用就越高。所以，在实际应用中，用户需要根据自身需求，合理控制文本长度，以降低使用成本。
• 计算资源：Token数量的多少直接影响模型的计算量。Token越多，模型在处理时需要进行的计算操作就越多，这不仅会导致处理耗时增加，还会占用更多的内存资源。就像一辆汽车，运载的货物（Token）越多，行驶的速度就会越慢，消耗的燃料（计算资源）也会越多。
我们说一个实际例子
英文句子
以英文句子“IloveusingAI!”为例，在进行Token拆分时，会被拆分为 ["I", "love", "using", "AI", "!"] ，一共是5个Token。通过这样的拆分，计算机能够准确识别句子中的每个元素，进而理解句子的含义。
中文句子
中文句子“人工智能改变世界”，在经过合适的拆分算法处理后，可能会被拆为 ["人工", "智能", "改变", "世界"] ，共计4个Token。不同的拆分方式和算法会对最终的Token数量和拆分结果产生影响，这也直接关系到模型对句子的理解和处理效果。
最后总结
Token在大模型中扮演着连接人类语言与计算机的重要桥梁角色。其拆分方式更是直接影响着模型的理解能力和使用成本。

可以将Token看作是拼图的碎片，每个碎片都蕴含着一定的语义信息，模型就像是一个拼图高手，通过分析这些Token的语义以及它们之间的上下文关系，就像将拼图碎片逐一拼接起来一样，最终生成连贯、准确的文本内容。

无论是日常的文本生成、语言翻译，还是智能问答等应用场景，Token都在背后发挥着不可或缺的作用，深入理解Token对于我们更好地利用大模型技术具有重要意义。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.