![]()
(1)概念
词元是人工智能大模型为了高效处理数据,把数据进行拆分后的“最小信息载体”,可以理解为“字/词片段/符号”等。Token是AI理解文本的最小单位,就像人类阅读时自动拆分的“信息颗粒”,AI不是按字而是按oken处理文本。比如“我爱中国!”,可拆分成“我”“爱”“中国”“!”4个词元。
人工智能时代,信息传输的核心度量就是token(词元),无论是文本、图像、视频还是激光雷达的点云数据,都能通过 Token 化处理转化为离散化的符号或向量表示。
![]()
![]()
(2)Token 计算的核心原理
①分词模型与编码映射
不同的LLM(如GPT系列、Claude、Llama)会采用各自独特的分词模型,这就会导致针对同一文本,不同的模型可能会产生不同数量的Token。词汇表将Token 映射到唯一的数值表示。由于LLM使用数字输入,所以词汇表中的每个Token都被赋予一个唯一标识符或索引。这种映射允许LLM将文本数据作为数字序列进行处理和操作,从而实现高效的计算和建模。
②主流分词模型与编码规则
在Token计算中,分词模型的选择至关重要。不同的模型采用不同的分词算法,无论是基于字节对的分词算法(Byte Pair Encoding,BPE)还是基于单词的分词算法,都会影响如何对文本进行拆分。
③计算流程拆解(以GPT-4为例)
当使用GPT-4进行Token计算时,整个流程可以拆解为几个关键步骤:首先,预处理输入文本;然后,运用分词模型进行拆分;最后,通过编码映射将分词后的语义单元转换为模型可识别的整数ID。
![]()
(3)Token的作用
![]()
①解决词汇表爆炸问题
如果每个词都单独处理,模型需要记住数百万个词。通过将词拆分成更小的Token,只需要几千个Token就能组合出几乎所有的词。
②处理未知词汇
当模型遇到没见过的词时,如果是基于Token的,它可以用已知的Token来“拼凑"理解。比如遇到"深度学习",即使没学过这个词也知道“深度”和“学习”这两个Token。
③统一多语言处理
不同语言的词汇结构差异很大,但通过Token化,可以建立统一的方式来处理各种语言。
![]()
(4)Token设计的局限性
①大小写区分
不同大小写的单词被视为不同的标记。“hello”是Token (31373),“Helo°是(15496),而“HELLO”有三个Token(13909,3069,46)。这意味着模型在处理文本时,对于大小写不同的相同单词,会当作不同的单元来处理,可能会增加模型的学习负担和计算量。
②数字分块不一致
数值“380°在GPT中标记为单个“380” Token。但是“381”表示为两个Token("38”,“1")。“382”同样是两个Token,但"383"是单个Token ("383")。这种数字分块的不一致性或许就是为什么基于GPT的模型并不总是擅长数学计算的原因之一,因为模型难以对数字形成统一、准确的理解和处理方式。
③尾随的空格
有些Token有空格,这将导致提示词和单词补全的有趣行为。例如,带有尾部空格的“once upona”被编码为"once"、"upon"、"a"、"")。然而,"once ona time"被编码为("once", "upon","a","time")。这说明文本中的空格在Token化过程中也会产生影响,模型对于带有空格和不带有空格的相同文本片段,会生成不同的Token序列,进而可能影响模型的输出结果。
![]()
![]()
(5)Token化:Token的应用
将文本划分为不同token的正式过程称为tokenization(Token化)。tokenization捕获文本的含义和语法结构,从而需要将文本分割成重要的组成部分。
tokenization是将输入和输出文本分割成更小的单元,由LLMAl模型处理的过程。tokenization可以帮助模型处理不同的语言、词汇表和格式,并降低计算和内存成本,还可以通过影响token的意义和语境来影响所生成文本的质量和多样性。根据文本的复杂性和可变性,可以使用不同的方法进行tokenization,比如基于规则的方法、统计方法或神经方法。
![]()
新闻传播学专业公众号
微信号 : media-power
▇ 新传考研智库 洞察社会脉动
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.