网易首页 > 网易号 > 正文 申请入驻

大模型中的Token,一文读懂

0
分享至

Token是大模型最基础、最常见的概念,如何翻译没有定论,“标记”“词”“令牌”都有,复旦大学计算机学院邱锡鹏教授将其翻译为“词元”,个人认为比较恰当。

众所周知,大语言模型训练语料数量、上下文的限制、生成速度都用Token表示。

比如:

  • 通义千问-7B使用超过2.4万亿tokens的数据进行预训练,

  • 模型后面带着8k、32k,就是指在生成响应或进行预测时最大文本长度

  • 评估大模型生成速度的TPS,指的是每秒输出token数

Token是指语言模型中用来表示中文汉字、英文单词、或中英文短语的符号。

Token可以是单个字符,也可以是多个字符组成的序列。

网上各种资料,关于一个 token是多少汉字说法不一。

最为知名的大模型ChatGPT,模型使用Byte Pair Encoding(BPE,一种子词分词方法,可以将词语进一步划分为更小的可重复部分)进行文本编码,这种编码方式在处理不同语言时的效率可能会有所不同。

GPT-3:每词输出最高上限为2049个Token,大约可以写出1000字的中文文章、1720字的英文文章 GPT-4:每词输出最高上限为32768个Token,约是16056个中文字、25000个英文字

对于汉语等字形语言,一个token可能只包含一个字符,但对于英语等词素语言,一个token可能包含一个或多个单词

OpenAI官方文档中介绍:“1000个token通常代表750个英文单词或500个汉字。1 个token大约为 4 个字符或 0.75 个单词。”

1个字母=1个字符,举例,hello=5字符 1个汉字=1个字符,举例,你好=2字符

这里有OpenAI官方的token计算工具 :https://platform.openai.com/tokenizer

就如刚才所说,不同模型可能有自己的切分方法,对应地,一个Token对应地汉字数也不一样。一个Token对应汉字,0.75到1.8个汉字不等。

百度文心一言也提供了token计算器来在线计算文心大模型的字符转token数。

网址:https://console.bce.baidu.com/support/#/tokenizer

阿里通义千问也有:https://dashscope.console.aliyun.com/tokenizer

所以一个Token有多少个汉字,具体取决于分词器的设计。

目前的各种tokenization技术,涉及到将文本分割成有意义的单元,以捕捉其语义和句法结构,如字级、子字级(例如,使用字节对编码或 WordPiece)或字符级。

根据特定语言和特定任务的需求,每种技术都有自己的优势和权衡。比如Qwen-7B采用UTF-8字节级别的BPE tokenization方式,并依赖OpenAI开源的tiktoken软件包执行分词。

  • 字节对编码(BPE):为AI模型构建子词词汇,用于合并出现频繁的字符/子字对。

  • 子词级tokenization:为复杂语言和词汇划分单词。将单词拆分成更小的单元,这对于复杂的语言很重要。

  • 单词级tokenization:用于语言处理的基本文本tokenization。每个单词都被用作一个不同的token,它很简单,但受到限制。

  • 句子片段:用习得的子词片段分割文本,基于所学子单词片段的分段。

  • 分词tokenization:采用不同合并方法的子词单元。

  • 字节级tokenization:使用字节级token处理文本多样性,将每个字节视为令牌,这对于多语言任务非常重要。

  • 混合tokenization:平衡精细细节和可解释性,结合词级和子词级tokenization。

关于tokenization,如果大家感兴趣,下一篇我详细讲讲。

最后再推荐一个网站,可以一目了然地查看大模型性能:https://llmbenchmark.liduos.com/?r=cdr

这个网站会实时展示不同大模型的:TTFT、TPS 和 Total,表头支持排序和筛选。

llmbenchmark.liduos.com是@juberti的团队发布thefastest.ai的国内版

大家如果对国外大模型API性能感兴趣可以访问:https://thefastest.ai

这个项目还是开源的:https://github.com/fixie-ai/thefastest.ai

最后推一下我的星球:只聊技术变现,不复制粘贴资讯,不会搬运他人观点。我会在这里分享对新技术的思考,风口赚钱项目,介绍变现套路,为大家答疑解惑。你可以把我当作你的另一双眼睛,帮你筛选,解读最有价值的信息。现在加入附赠1)AI资料大礼包;2)GPT、Claude 、Gemini、Llama、Qwen、DeepSeek、Minimax、Moonshot、Yi、GLM国内网络免费使用;3)部分公众号付费专栏或付费阅读的文章免费畅读;4)AI绘画、高效AI工具、高质量资料分享;5)微信群&有问必答

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
对手早就放弃了,吴宜泽5-1艾伦闯进4强,赛后一起带货挺有创意

对手早就放弃了,吴宜泽5-1艾伦闯进4强,赛后一起带货挺有创意

真理是我亲戚
2026-03-20 16:36:57
利沃夫惊魂夜!俄军飞越五州斩首行动:一锅端中情局秘密联络据点

利沃夫惊魂夜!俄军飞越五州斩首行动:一锅端中情局秘密联络据点

李健政观察
2026-03-20 17:14:29
《封神3》乌尔善将与周星驰x贾玲x陈思诚正面对轰?

《封神3》乌尔善将与周星驰x贾玲x陈思诚正面对轰?

情感大头说说
2026-03-21 03:25:20
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

许三岁
2026-03-16 10:18:04
为了给前NBA状元霍华德生孩子,篮球宝贝壮壮究竟付出了多大代价

为了给前NBA状元霍华德生孩子,篮球宝贝壮壮究竟付出了多大代价

罗氏八卦
2026-03-10 18:00:03
伊朗外长:伊朗有意允许与日本相关的船只通行霍尔木兹海峡

伊朗外长:伊朗有意允许与日本相关的船只通行霍尔木兹海峡

财联社
2026-03-21 10:45:04
做完手术人就废了,这5种手术不需要做,别让无知害了自己

做完手术人就废了,这5种手术不需要做,别让无知害了自己

医学科普汇
2026-01-29 06:25:03
向特朗普提问的日本记者,遭疯狂网暴!

向特朗普提问的日本记者,遭疯狂网暴!

环球时报国际
2026-03-20 22:26:15
为嫁给美国人,56岁南京大妈奔赴美国,2年后嫁给70岁美国老头

为嫁给美国人,56岁南京大妈奔赴美国,2年后嫁给70岁美国老头

情感艺术家
2026-03-08 22:07:38
这 10 个 OpenClaw 命令,还有人不会吗?

这 10 个 OpenClaw 命令,还有人不会吗?

唐韧
2026-03-20 13:07:54
高中的潜规则:60%多的人上不了本科,能上985的,不会在普高出现

高中的潜规则:60%多的人上不了本科,能上985的,不会在普高出现

好爸育儿
2026-02-12 16:04:52
美伊战争的大决战,即将打响!

美伊战争的大决战,即将打响!

君临财富
2026-03-17 22:51:09
俄罗斯赢麻了!每天狂赚百亿,西方没话说,特朗普这回天塌了

俄罗斯赢麻了!每天狂赚百亿,西方没话说,特朗普这回天塌了

坠入二次元的海洋
2026-03-21 12:19:29
椰树集团发布公告,要买50台机器人剥椰子:要求机器人一小时能剥360个椰子,易损件寿命不低于5000小时

椰树集团发布公告,要买50台机器人剥椰子:要求机器人一小时能剥360个椰子,易损件寿命不低于5000小时

大象新闻
2026-03-19 12:52:03
中美达成共识,48小时刚过,美方就宣布中国已增持109亿美债

中美达成共识,48小时刚过,美方就宣布中国已增持109亿美债

冒泡泡的鱼儿
2026-03-21 11:42:14
53:47!美投票结果出来了,美航母或已“跑路”?特朗普开始下令

53:47!美投票结果出来了,美航母或已“跑路”?特朗普开始下令

探源历史
2026-03-21 13:00:09
“一辈子都写不出来的人生金句,句句入心,值得收藏”

“一辈子都写不出来的人生金句,句句入心,值得收藏”

心灵悦读
2026-03-19 06:55:32
紧急通知!分期乐、小赢卡贷等20余家平台被查,多收的钱必须退!

紧急通知!分期乐、小赢卡贷等20余家平台被查,多收的钱必须退!

冒泡泡的鱼儿
2026-03-21 07:33:40
手握400W从一线返乡,本可躺平却越折腾越穷?网友分享一针见血

手握400W从一线返乡,本可躺平却越折腾越穷?网友分享一针见血

另子维爱读史
2026-03-20 21:56:47
他在刺刀下救了毛主席一命,建国后却被举报贪污,毛主席听完沉默半晌:我得问问恩来

他在刺刀下救了毛主席一命,建国后却被举报贪污,毛主席听完沉默半晌:我得问问恩来

文史明鉴
2026-03-20 18:17:07
2026-03-21 14:03:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3279文章数 11113关注度
往期回顾 全部

教育要闻

废掉一个孩子最快的方式:偷走他的灵气!3个行为家长每天都在做

头条要闻

81岁老人呼吸衰竭 女儿曾拒绝插管:以为要失去爸爸了

头条要闻

81岁老人呼吸衰竭 女儿曾拒绝插管:以为要失去爸爸了

体育要闻

谁在决定字母哥未来?

娱乐要闻

CMG盛典获奖名单:章子怡高叶同获影后

财经要闻

通胀警报拉响,加息潮要来了?

科技要闻

宇树招股书拆解,人形机器人出货量第一!

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

亲子
房产
健康
数码
军事航空

亲子要闻

十万火急,产妇在家突发急产,29 周早产男宝全身发紫!儿科医院早产儿救援与时间赛跑

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

转头就晕的耳石症,能开车上班吗?

数码要闻

TrendForce 3月面板价格观察:电视和显示器面板价格上涨 笔电面板价格止跌

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版