网易首页 > 网易号 > 正文 申请入驻

Token从哪儿来?

0
分享至

来源:市场资讯

(来源:京能集团)









随着这些AI工具

在我们日常生活中的日益普及

“Token”这一专业术语

逐渐成为大众口中的常用词汇

在中国发展高层论坛2026年年会上,国家数据局将“Token”的中文译法明确为“词元”。至此,这个原本略显陌生的技术概念,拥有了更统一的中文表达,也进一步走进了公众视野。


什么是Token?

Token是大语言模型处理自然语言的最小基本单元,是人类语言与AI能读懂的数字信号之间的核心翻译中介。

我们都知道,AI是由无数算力芯片支撑的数学模型,它不认识人类的文字、词汇和句子,只能处理数值化的向量数据。而Token就是把人类的自然语言,转换成AI可识别内容的第一道、也是最关键的一道桥梁。

很多人以为Token=汉字/单词,这其实是一个典型的认知误区。

Token是介于字符和单词之间的单位,它的拆分逻辑遵循语义完整和处理高效的核心原则。在英文语境中,常见单词通常占1个Token;在中文语境中,1个Token可以是一个单字,也可以是一个常用词语。除此之外,标点符号、空格等也算1个Token。


Token是怎么生成的?

Token的产生,离不开大模型的“专属工具”——分词器。它就像一个“精准切片机”,负责把人类语言转换成AI能识别的Token。

为了更直观地理解这一转化过程,小编以“京能集团”及其英文“Beijing Energy Group”为案例,深入拆解分词器是如何通过以下步骤,将抽象的文字转化为底层算力可识别的数字序列:


01

扫描与边界识别


分词器扫描文本,寻找切分边界。中文无空格,依靠混合或子词算法扫描可能的组合;英文有空格,直接基于空格进行初步拆分。

02

语义与效率切分


分词器兼顾语义与效率:中文按高频组合将“京能”和“集团”切为2个Token;英文按完整单词将“Beijing”“Energy”“Group”切为3个Token。

03

编码与数字映射


分词器将Token转为数字ID供AI模型处理:

中文[京能]→8573

[集团]→210

英文[Beijing]→12450

[Energy]→6732

[Group]→1890

通过这一流程,分词器将复杂的自然语言精准转化为Token ID。

Token是如何被模型“理解”的?

然而,到这里还没有结束。

Token ID本质上只是离散的数字编号。大模型要真正“读懂”它们并生成回复,依靠的是GPU(图形处理器)中海量的矩阵运算,整个过程分为四个关键阶段:


给数字“贴标签”

——词嵌入+位置编码

拿到Token ID后,第一步操作就是“查字典”。GPU会拿着数字编码去AI的“概念词典”里,兑换成一组含义丰富的“特征密码”(技术上叫作“高维向量”)。这一步,相当于让孤立的数字,有了“字的基本含义”。

紧接着,GPU还会给每个向量“叠加位置编码”,让AI知道哪个词在前、哪个词在后,读懂句子的顺序逻辑。

打通上下文

——自注意力机制

这是AI能“理解语境”的核心一步,也是最神奇的地方。

当我们读句子时,会自动联系上下文——比如看到“他”,会知道指的是前一句提到的人;看到“这个”,会知道指的是上一句说的东西。AI也是一样,靠“自注意力机制”来实现。

GPU会用一个“权重矩阵”(相当于AI的“联想大脑”),计算每个Token和其他所有Token的“关联度”。计算完成后,每个Token的向量都会“吸收”整个句子的上下文信息——到这一步,AI就真正“读懂”了这句话的语境。

提炼关键信息

——前馈神经网络

经过上下文融合后,每个Token的向量已经有了“语境意义”,但还不够精准——比如句子里的语法、逻辑、隐含含义,还需要进一步提炼。

这时候,向量会进入“前馈神经网络”(相当于AI的“提炼器”),GPU会通过一系列数学运算,在更高的维度上,把向量里的复杂特征抽出来——这一步,就是让AI读懂句子的语法和深层逻辑。

反向输出

——把向量变回文字

经过上述三个步骤的加工,AI手里的向量,已经包含了“文字含义、语序、上下文、语法逻辑”等所有信息。最后一步,就是把这串抽象的数学向量,再“翻译”回我们能看懂的文字。

GPU会把优化后的向量,映射回AI的“词表”(相当于AI的“汉字库”),通过概率计算,筛选出最贴合语境的词汇单元,再把这些词汇单元,反向转换成Token,最终变成我们看到的回复。

在日常使用场景中,AI输出内容越长、交互响应越流畅、用户体验越好,需要生成的Token数量就越多,算力消耗也越大。

每一枚Token的产出,都需要数十亿次底层运算,而庞大的算力负载,必须依靠稳定、强劲的电力底座才能持续承载。

在北京

由海淀区政府和京能集团联合打造、京能数产承建运营的北京人工智能公共算力中心,正在通过生态网络整合绿色算力,构建起国内超大规模跨域协同的智能算力网络。

依托该中心开展的《北京市海淀区算力中心高比例新能源供电与电算协同项目》,更是跻身国家级试点行列,成为国家能源局新型电力系统建设能力提升第一批试点项目,既是该批试点中全国“算电协同”方向仅有的两个入选项目之一,也是北京市该批次唯一入选项目。



该项目将算力中心建在电厂内,聚焦电算协同创新,联动多方力量,打造“电—冷—热”多能源协同体系。项目充分利用电厂余热制冷,有效提升能源综合利用水平,降低了算力中心的PUE(电源使用效率)。目前,该项目通过高比例绿电支撑,能够对外提供稳定的Token服务,让每一个Token的生成都高效、低碳,让每一次的AI体验都更加流畅。


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
鲁尼谈阿森纳争议判罚:只要看回放,就知道那肯定是个犯规

鲁尼谈阿森纳争议判罚:只要看回放,就知道那肯定是个犯规

懂球帝
2026-05-11 15:10:21
2.1亿USDT洗钱曝光

2.1亿USDT洗钱曝光

新浪财经
2026-05-11 17:07:43
致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

致武汉大学李小曼副教授:大学的败坏就是从您这种知识分子做帮凶开始的

熊太行
2026-05-11 00:06:25
28.8万彩礼被38.8万“截胡”的现实

28.8万彩礼被38.8万“截胡”的现实

巧哥有话说
2026-05-11 14:31:49
阿斯跟队:皇马即将迎来重要变革,计划签下3-4名关键球员

阿斯跟队:皇马即将迎来重要变革,计划签下3-4名关键球员

懂球帝
2026-05-11 15:10:23
高市早苗心思真毒,赶在特朗普来华前先给一刀,连中国都没有想到

高市早苗心思真毒,赶在特朗普来华前先给一刀,连中国都没有想到

临云史策
2026-05-11 11:33:39
法比奥:我们有3个进球被吹掉了,这就是足球

法比奥:我们有3个进球被吹掉了,这就是足球

懂球帝
2026-05-10 23:50:09
你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

你坐火车有过哪些奇葩经历?网友:怪自己那时候太单纯!

夜深爱杂谈
2025-12-21 17:37:52
被捕9个月后,释永信再迎噩耗,4大罪名坐实,最后的体面都没了

被捕9个月后,释永信再迎噩耗,4大罪名坐实,最后的体面都没了

好贤观史记
2026-03-21 17:07:15
我刚搬进新家,就听楼上情侣折腾了一夜,没忍住加了楼上帅哥

我刚搬进新家,就听楼上情侣折腾了一夜,没忍住加了楼上帅哥

古怪奇谈录
2026-05-11 15:42:49
马龙更新动态,晒夏露视角下的照片,两人还拍了特别的情侣照

马龙更新动态,晒夏露视角下的照片,两人还拍了特别的情侣照

TVB的四小花
2026-05-11 18:08:53
大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

大数据分析,在中国,找个身高1米7年入20万的老公,到底有多难?

深度报
2026-04-18 23:37:27
一个网友说,大集体时期按月发粮,评论区炸锅了

一个网友说,大集体时期按月发粮,评论区炸锅了

读鬼笔记
2026-05-09 20:34:04
踏空的人可真不少...

踏空的人可真不少...

懒猫的丰收日
2026-05-11 17:29:40
伟大的10-4!火箭变身克鲁斯堡8冠王,历史第1人,超越台球皇帝!

伟大的10-4!火箭变身克鲁斯堡8冠王,历史第1人,超越台球皇帝!

刘姚尧的文字城堡
2026-05-11 07:37:31
乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

乌克兰击沉里海舰队导弹舰!摧毁全俄最大的两座炼油厂

项鹏飞
2026-05-08 19:30:06
与郭凯敏离婚后携子嫁大15岁画家,67岁上海低调生活

与郭凯敏离婚后携子嫁大15岁画家,67岁上海低调生活

奇怪的鲨鱼们
2026-04-25 07:06:08
公然反水!中国两邻国联手,抢在美国前,掐断中国“经济命脉”?

公然反水!中国两邻国联手,抢在美国前,掐断中国“经济命脉”?

冷峻视角下的世界
2026-05-09 21:49:20
菲律宾全国闹油荒,11国紧急在菲开会,迟迟等不到中方松口

菲律宾全国闹油荒,11国紧急在菲开会,迟迟等不到中方松口

潮鹿逐梦
2026-05-11 16:40:27
北京10号线每天挤进去140万人!2026年开始,这条环线王者要变天

北京10号线每天挤进去140万人!2026年开始,这条环线王者要变天

据说说娱乐
2026-05-11 14:13:40
2026-05-11 20:04:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3170766文章数 7315关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

多重催化剂共振,人民币汇率升破6.8

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

健康
教育
时尚
艺术
军事航空

干细胞能让人“返老还童”吗

教育要闻

邹教授已就位!5月16日成都见面会倒计时5天

伊姐周日热推:电视剧《主角》;电视剧《良陈美锦》......

艺术要闻

陆抑非写竹,笔力遒劲

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版