网易首页 > 网易号 > 正文 申请入驻

大模型中的Token,一文读懂

0
分享至

Token是大模型最基础、最常见的概念,如何翻译没有定论,“标记”“词”“令牌”都有,复旦大学计算机学院邱锡鹏教授将其翻译为“词元”,个人认为比较恰当。

众所周知,大语言模型训练语料数量、上下文的限制、生成速度都用Token表示。

比如:

  • 通义千问-7B使用超过2.4万亿tokens的数据进行预训练,

  • 模型后面带着8k、32k,就是指在生成响应或进行预测时最大文本长度

  • 评估大模型生成速度的TPS,指的是每秒输出token数

Token是指语言模型中用来表示中文汉字、英文单词、或中英文短语的符号。

Token可以是单个字符,也可以是多个字符组成的序列。

网上各种资料,关于一个 token是多少汉字说法不一。

最为知名的大模型ChatGPT,模型使用Byte Pair Encoding(BPE,一种子词分词方法,可以将词语进一步划分为更小的可重复部分)进行文本编码,这种编码方式在处理不同语言时的效率可能会有所不同。

GPT-3:每词输出最高上限为2049个Token,大约可以写出1000字的中文文章、1720字的英文文章 GPT-4:每词输出最高上限为32768个Token,约是16056个中文字、25000个英文字

对于汉语等字形语言,一个token可能只包含一个字符,但对于英语等词素语言,一个token可能包含一个或多个单词

OpenAI官方文档中介绍:“1000个token通常代表750个英文单词或500个汉字。1 个token大约为 4 个字符或 0.75 个单词。”

1个字母=1个字符,举例,hello=5字符 1个汉字=1个字符,举例,你好=2字符

这里有OpenAI官方的token计算工具 :https://platform.openai.com/tokenizer

就如刚才所说,不同模型可能有自己的切分方法,对应地,一个Token对应地汉字数也不一样。一个Token对应汉字,0.75到1.8个汉字不等。

百度文心一言也提供了token计算器来在线计算文心大模型的字符转token数。

网址:https://console.bce.baidu.com/support/#/tokenizer

阿里通义千问也有:https://dashscope.console.aliyun.com/tokenizer

所以一个Token有多少个汉字,具体取决于分词器的设计。

目前的各种tokenization技术,涉及到将文本分割成有意义的单元,以捕捉其语义和句法结构,如字级、子字级(例如,使用字节对编码或 WordPiece)或字符级。

根据特定语言和特定任务的需求,每种技术都有自己的优势和权衡。比如Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖OpenAI开源的tiktoken软件包执行分词。

  • 字节对编码(BPE):为AI模型构建子词词汇,用于合并出现频繁的字符/子字对。

  • 子词级tokenization:为复杂语言和词汇划分单词。将单词拆分成更小的单元,这对于复杂的语言很重要。

  • 单词级tokenization:用于语言处理的基本文本tokenization。每个单词都被用作一个不同的token,它很简单,但受到限制。

  • 句子片段:用习得的子词片段分割文本,基于所学子单词片段的分段。

  • 分词tokenization:采用不同合并方法的子词单元。

  • 字节级tokenization:使用字节级token处理文本多样性,将每个字节视为令牌,这对于多语言任务非常重要。

  • 混合tokenization:平衡精细细节和可解释性,结合词级和子词级tokenization。

关于tokenization,如果大家感兴趣,下一篇我详细讲讲。

最后再推荐一个网站,可以一目了然地查看大模型性能:https://llmbenchmark.liduos.com/?r=cdr

这个网站会实时展示不同大模型的:TTFT、TPS 和 Total,表头支持排序和筛选。

llmbenchmark.liduos.com是@juberti的团队发布thefastest.ai的国内版

大家如果对国外大模型API性能感兴趣可以访问:https://thefastest.ai

这个项目还是开源的:https://github.com/fixie-ai/thefastest.ai

最后推一下我的星球:只聊技术变现,不复制粘贴资讯,不会搬运他人观点。我会在这里分享对新技术的思考,风口赚钱项目,介绍变现套路,为大家答疑解惑。你可以把我当作你的另一双眼睛,帮你筛选,解读最有价值的信息。现在加入附赠1)AI资料大礼包;2)GPT、Claude 、Gemini、Llama、Qwen、DeepSeek、Minimax、Moonshot、Yi、GLM国内网络免费使用;3)部分公众号付费专栏或付费阅读的文章免费畅读;4)AI绘画、高效AI工具、高质量资料分享;5)微信群&有问必答

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1999年,迟浩田设局抓捕一位少将,对方被捕后挑衅:我爸知道吗?

1999年,迟浩田设局抓捕一位少将,对方被捕后挑衅:我爸知道吗?

叹为观止易
2026-02-20 13:32:06
娜然已经融入霍家?相比章子怡当年的“被嫌弃”,她做对了什么

娜然已经融入霍家?相比章子怡当年的“被嫌弃”,她做对了什么

扒点半吃瓜
2026-02-21 07:00:09
林孝埈打破沉默!回应冬奥0奖牌:已尽全力+无遗憾 4年后还想参赛

林孝埈打破沉默!回应冬奥0奖牌:已尽全力+无遗憾 4年后还想参赛

风过乡
2026-02-21 08:25:26
美国拟开发一个网站帮其他国家用户“翻墙”

美国拟开发一个网站帮其他国家用户“翻墙”

辇毂
2026-02-20 10:12:47
劲爆!一夜7笔签约达成,开拓者签20+4防守尖兵,掘金签28+5射手

劲爆!一夜7笔签约达成,开拓者签20+4防守尖兵,掘金签28+5射手

球盲姐
2026-02-21 09:35:05
郎平也没想到,当年留给前夫在美国长大的女儿,如今成了她的骄傲

郎平也没想到,当年留给前夫在美国长大的女儿,如今成了她的骄傲

冷紫葉
2026-01-29 19:10:32
金牌垄断、收视率低,北欧两项或将被逐出冬奥会

金牌垄断、收视率低,北欧两项或将被逐出冬奥会

懂球帝
2026-02-20 16:10:08
春晚这一夜,“跌落神坛”的王菲,让所有人见识了她的江湖地位!

春晚这一夜,“跌落神坛”的王菲,让所有人见识了她的江湖地位!

深度解析热点
2026-02-18 15:13:48
幸福!马龙携美丽妻子阿那亚度假,夏露打扮雍容华贵龙队一脸少年气

幸福!马龙携美丽妻子阿那亚度假,夏露打扮雍容华贵龙队一脸少年气

818体育
2026-02-20 10:34:46
武统、和统都没希望了?台湾军事专家:中国已经走上了第三条路

武统、和统都没希望了?台湾军事专家:中国已经走上了第三条路

余們搞笑段子
2026-02-19 05:03:10
电影《飞驰人生3》 票房破19亿 导演韩寒:甘孜太美,被深深震撼

电影《飞驰人生3》 票房破19亿 导演韩寒:甘孜太美,被深深震撼

封面新闻
2026-02-20 22:25:23
尼泊尔“一妻多夫”该如何生活?妻子苦不堪言:一点都不幸福。

尼泊尔“一妻多夫”该如何生活?妻子苦不堪言:一点都不幸福。

百态人间
2025-11-06 05:45:02
“中美战机一度在黄海上空对峙”

“中美战机一度在黄海上空对峙”

扬子晚报
2026-02-20 16:32:26
古巴高调反美!美国为啥不打古巴?因为古巴是最“先进”的国家

古巴高调反美!美国为啥不打古巴?因为古巴是最“先进”的国家

南宫一二
2026-01-10 17:41:19
克尼佩尔超越布兰登·米勒,打破黄蜂队史新秀三分命中纪录

克尼佩尔超越布兰登·米勒,打破黄蜂队史新秀三分命中纪录

林子说事
2026-02-20 12:17:13
俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

来科点谱
2026-02-21 07:19:41
太可恶!我们给予加拿大公民免签待遇,加拿大却建议谨慎前往中国

太可恶!我们给予加拿大公民免签待遇,加拿大却建议谨慎前往中国

我心纵横天地间
2026-02-20 23:06:09
说实话我真的不敢相信她已经61岁了,看起来竟然像四十岁左右

说实话我真的不敢相信她已经61岁了,看起来竟然像四十岁左右

西莫的艺术宫殿
2026-02-21 00:21:47
被困印度54年的中国老兵,因在森林中迷路误入印度境内,最终只能在当地娶妻生子

被困印度54年的中国老兵,因在森林中迷路误入印度境内,最终只能在当地娶妻生子

史海孤雁
2026-02-14 18:06:18
一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

台州交通广播
2026-02-20 12:14:08
2026-02-21 10:52:49
机器学习与Python社区 incentive-icons
机器学习与Python社区
机器学习算法与Python
3248文章数 11088关注度
往期回顾 全部

教育要闻

“这种女儿,谁敢娶?”家长生了3位千金却没人做饭,看清了现实

头条要闻

火锅店称把春节4天的盈利33.9万分给员工 已持续4年

头条要闻

火锅店称把春节4天的盈利33.9万分给员工 已持续4年

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

手机
本地
时尚
教育
公开课

手机要闻

三星Galaxy S26系列手机6种颜色曝光,起售价恐上调

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

2026纽约秋冬时装周,在春天开启美的新故事!

教育要闻

为什么说要学好英语

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版