2026 年,随着英伟达 GTC 大会将 “Token” 确立为 AI 推理时代的产业宏图锚点,这一词汇的出现频率已超越了单纯的技术范畴,成为衡量算力经济的核心标尺。
然而,在中国 AI 产业高歌猛进之时,作为 AI 处理信息最小单元的 “Token”,至今缺乏一个既能精准承载其概念内涵,又符合汉语美学的中文译名。虽然全国科学技术名词审定委员会(全国名词委)2026年3月25日,正式发布《关于发布试用人工智能领域名词 token 中文名 “词元” 的公告》,优先推荐 “词元” 为 AI 领域 token 的标准中文名并面向全社会试用。但争议并未平息,清华大学杨斌教授等业内人士坚持 “模元”的译名, 这是学界 / 产业界极具影响力的学术提议,此外还有“智元”等提议。
在笔者看来,这场讨论远未结束,现有译名均存在难以忽视的一个本质性问题,即缺乏语言学理论的支撑,没有认识到token这样一个AI时代的高频词是我们构建汉语AI话语体系大厦的基石,我们亟需一个兼具国际化和汉语特点、有语言学理论支撑、适配 AI 全产业发展的全新译名 —— “图根”。
一、现有译名之弊:词元与模元的先天局限与适配困境当前围绕 Token 形成的 “词元”、“模元”等译名方案,均从单一维度切入定义这一 AI 核心概念,既无法匹配其技术本质与产业属性,也难以适配多模态大模型的发展趋势,成为中文 AI 话语体系构建的明显桎梏。
1、官方定名“词元”具有领域窄化与本质偏移的双重硬伤全国名词委基于计算语言学传统将 Token 定名为 “词元”,虽具备术语规范的初始价值,但从 AI 产业发展与技术本质来看,存在两大无法调和的核心问题:
—— 领域窄化,适配性缺失:“词元”的 “词”字将概念严格限定在自然语言处理(NLP)领域,指向文本、语言这一单一信息形态。但在多模态大模型时代,Token 的处理对象已拓展至图像、音频、视频的 “视觉块” “音频帧”,甚至在具身智能中成为物理空间的坐标映射,这些显然并非传统意义上的“词”,用 “词元”描述非文本类信息处理,在逻辑上存在根本性硬伤。
—— 本质偏移,内涵残缺:Token 在 AI 时代的属性早已超越单纯的 “信息单元”,更是 AI 推理的 “算力消耗单元” 和算力经济的 “经济计价单位”,是支撑智能处理的核心载体。而 “词元”的 “元”字仅能体现其“单元”属性,无法充分承载其作为算力燃料的经济属性和智能处理的本体属性,内涵表达严重残缺。
2、业内提议的“模元”:表意模糊与产业适配不足的先天缺陷清华大学杨斌教授等业内人士提出的 “模元”译名,试图突破“词元”的文本局限,适配大模型的技术背景,但该译名同样存在显著问题,难以成为最优解:
—— 表意模糊,核心内涵缺失:“模元”的“模”字仅简单指向“模型”,未能精准锚定 Token 作为 AI 处理最小基本单元的核心特征,也无法体现其对世界认知的表征属性,与 Token 的技术本质存在明显脱节,难以让行业与大众形成清晰、统一的概念认知。
—— 产业包容性弱,缺乏前瞻性:“模”字的指向性仍较为单一,仅聚焦于大模型这一技术载体,未能覆盖 AI 全产业的发展场景,也无法适配算力经济、具身智能等 AI 未来演进方向,缺乏对 AI 产业生态的整体包容性。
3、现有译名的共同症结:脱离AI通用智能的发展本质无论是“词元”还是 “模元”,其核心症结均在于未能立足 AI 作为通用技术的发展本质:前者受限于计算语言学的传统视角,后者局限于大模型的单一技术维度,均未从 Token 的跨领域技术本质、全产业属性、未来演进趋势进行综合定义。
这种单一维度的命名逻辑,不仅无法准确描述 Token 的核心内涵,更可能束缚中国 AI 产业的想象力,阻碍中文 AI 话语体系的构建。从语言学的角度看,“词元”和“模元”的翻译都扔掉了“音译”这个思路,也就是丢弃了语音作为词语的物质外壳,完全生造的两个汉语词和“token”在语音上没有任何联系,这受到业内人士的严厉诟病,也是他们坚持用token原词的重要原因。音译是外来词汉化的重要途径,如“可口可乐”这样音义俱佳的范例不胜枚举。放弃token译名语音的联系,其一大弊端是严重的损害了这个译名本应具有的国际化色彩,在汉语日益国际化的今天,可以预见到“词元”后续将严重制约其作为AI高频词的国际交际功能和国际影响力。
二、核心定名提议:图根 —— 适配 AI 时代的 Token 最优译名在剖析现有译名先天局限的基础上,结合 Token 的技术本质、产业属性、多模态发展趋势,以及中文的语言学特征与文化传承,笔者提议将 Token汉译名正式定名为图根(Tu-ken)。这一译名实现了音义兼顾、神形兼备,既精准承载了 Token 的核心内涵,又适配 AI 全产业的发展需求,更接续了中国计算文明的文化基因,且深度契合语言的约定俗成性,是重构 AI 时代中文技术话语权的最优选择。
1 、音之天成:贴合原词发音,符合汉语语音美学翻译的至高境界在于音义兼顾,“图根”在语音层面与Token实现了高度契合,兼具自然度与辨识度:Token 源自古英语 tāc (e) n,其首音节“To”与 “图”的汉语发音完全同音,掷地有声,易读易记;尾音节 "Ken" 与 "根" 的声母 /k/ 在发音部位(软腭)与发音方法(塞音)上完全一致,仅送气与否存在微小差别,听感浑然一体,符合汉语的语音习惯。这种音韵上的高度契合,是“词元”、“模元”等译名无法企及的,为其在行业与大众间的传播奠定了语音基础。
2、义之深邃:精准定义技术本质,覆盖全产业核心属性
“图根” 二字各有深意和渊源,合璧之后则精准锚定了 Token 的技术本质、产业属性与发展趋势,实现了内涵表达的完整性与精准性:
“图”:升维覆盖,适配多模态与全产业:“图”并非单纯指图画,而是拓展为图谱、宏图、表征,既指向 AI 对世界认知的表征(Representation) 核心功能,又能覆盖图像、音频、视频等多模态信息处理场景,突破了“词”的文本局限;同时,“图”指向“图灵”开启的计算文明,呼应了 AI 的技术本源,具备极强的产业包容性与前瞻性。
“根”:锚定核心,体现本体与单元属性:“根”既指根源、本体,精准体现 Token 作为 AI 智能处理本体属性的核心地位,又在语言学中代表构词的最小单位(词根、根词,亦称语素),完美契合 Token 作为 AI 处理最小基本单元的技术特征;同时,“根”也暗含其作为 AI 产业基石的属性,是算力经济、智能涌现的底层支撑。
二者结合,将“图根”精准定义为承载智能表征的最小基本单元,既体现了其技术本质,又覆盖了其作为算力消耗单元、经济计价单位的产业属性,实现了内涵的全方位匹配。
3 、俗之契合:根植语言约定俗成,拥有深厚群众基础“图”和 “根”作为构成“图根”这一双音节词的两个核心语素,不仅与 Token 在语音相近、语义存在深度内在联系,更在中文语境中拥有相当深厚的群众基础,选择 “图根”更是基于语言约定俗成性的必然结果。
“图”的约定俗成:天然表意属性与民间使用共识:汉字作为表意文字,发轫于象形文字的孳生与演化,与“图”有着与生俱来的天然联系,其表意属性与 Token 的表征功能高度契合;而网络流行语(热梗)“图样图森破”更是将英语 “too/tu:/ ”直译为“图”的经典实例,成为民间层面英语译中“图”字使用的约定俗成,让大众对“To”与“图”的语音对应形成了自然认知。
“根”的约定俗成:科技领域的高频通用语素:“根”是语言学、数学领域的重要专业词汇,更是计算机科学、互联网和人工智能领域中最重要的常用语素之一,如“词根、根词、根服务器、根节点、根目录”等词汇已成为科技行业与大众的通用认知,其作为技术领域基础、核心、底层单元的内涵早已深入人心,与 Token 的技术定位高度匹配。
4、 域之兼容:规避跨领域译名冲突,构建专属术语空间在计算机编译原理和网络安全领域,“Token” 长期被译为 "记号" 或 "令牌",且已被行业广泛接受,形成了固定的术语认知。“词元”试图在 AI 领域另立译名,却与传统领域形成割裂,增加了跨领域交流的认知成本;而“图根”则完美规避了这一问题,既与“记号”“令牌”等传统译名形成明确区分,不产生跨领域概念混淆,又为 AI 时代的 Token 创造了全新的、专属的术语空间,实现了跨领域术语的和谐兼容。
三、图根的产业与文化价值:重构AI时代中文技术话语权的核心基石“图根”并非单纯的译名创新,更是立足 AI 产业发展、中国文化传承与语言使用习惯的术语构建,其背后承载着适配产业发展、接续文化基因、凝聚行业共识的多重价值,是重构 AI 时代中文技术话语权的核心基石。
1、 产业包容性:适配多模态趋势,成为算力经济的全新专用计量单位在多模态已成为大模型标配、算力经济成为 AI 产业核心逻辑的今天,“图根” 的“图”字实现了对全信息形态、全 AI 产业场景的升维覆盖,无论是视觉块、音频帧,还是物理空间坐标映射,均可通过“图根”进行精准描述,彻底摆脱了现有译名的场景局限。
从产业经济学视角来看,“图根”不仅是 AI 的处理单元,更能成为智能经济的全新计量单位—— 正如工业时代以“用电量”衡量产业发展,AI 时代可以“图根消耗量”衡量算力需求、推理效率与产业价值,这种命名逻辑为 AI 算力经济提供了清晰、统一的中文表达,适配产业发展的核心需求。
2、 文化传承性:接续图灵计算文明,构建中文 AI 话语体系语言是文明的载体,术语的构建离不开文化基因的传承。计算机界的最高荣誉是 “图灵奖”, “图灵”二字早已深植于中国科技界的文化基因之中,成为中国计算文明的重要符号。将 Token 译为“图根”,便与“图灵”形成了完美的逻辑闭环:图灵定义了计算的灵魂,图根定义了智能的本体。这一译名让 AI 核心术语与中国计算文明的文化符号实现了深度绑定,摆脱了对英文术语的单纯依附,为构建具有中国文化特色的 AI 话语体系奠定了重要基础。
3 、共识凝聚性:破解译名割裂困境,实现全圈层认知统一当前 Token 译名存在“学术圈用、产业圈弃、大众圈混”的三层分化:学术圈强制落地“词元”,产业圈因适配性问题坚守英文原词,大众圈因译名混乱加深对英文的依赖。这种割裂不仅阻碍了术语的传播,更影响了中文 AI 话语体系的构建。
“图根”凭借其音义双美的特征、精准的技术表达、全产业的适配性,以及根植于语言约定俗成的群众基础,能够打破学术、产业、大众之间的认知壁垒:既符合学术界对术语规范性、内涵精准性的要求,又满足产业界对多模态适配、跨领域兼容的需求,还能让大众轻松理解、快速接受,从而破解译名割裂的现实困境,实现全圈层的认知统一,凝聚起行业与社会的共识。
四、现有译名的产业实践困境:官方定名与民间应用的深度割裂现有“词元、模元”等译名的先天局限,直接导致了 Token 译名在产业实践中出现官方定名与民间应用深度割裂的现实图景,这一现状也从侧面印证了全新译名“图根”的必要性与紧迫性。
1 、三层分化的现实图景学术圈:强制落地,形式化普及:在教材、论文及官方出版物中,“词元”因全国名词委的行政约束力实现了形式化普及,学术期刊、国家数据局统计口径及权威媒体均严格使用该译名,但这种普及仅停留在表面,并未真正被学界从内心认可。
产业圈:顽固抵抗,坚守英文原词:在技术文档、API 计费及产品界面中,英文 “Token”仍是绝对主流。“词元”的 “词”字带来的文本枷锁,让企业无法接受用其描述图像、音频等非文本信息的处理单元,而“模元”也因表意模糊无法满足产业需求,导致产业界宁愿保留英文原词,也不愿接受现有不准确的中文名。
大众圈:认知混乱,依赖英文术语:科普内容中出现了 “词元、模元 、智元”等各说各话的局面,缺乏像“字节”那样的唯一共识。普通用户面对杂乱的译名时极易产生困惑,不仅无法形成清晰的概念认知,反而进一步加深了对英文 “Token”的依赖,不利于 AI 知识的大众传播。
2 、割裂的本质:语言学本位与 AI 通用智能本位的核心冲突现有译名的产业实践困境,其本质是语言学本位与 AI 通用智能本位的核心冲突:全国名词委基于计算语言学的传统视角进行定名,属于“语言学本位”的逻辑;而产业界与反对者则着眼于 AI 作为通用技术的未来演进,从技术本质、产业属性、多模态趋势出发提出诉求,属于“AI 通用智能本位”的逻辑。
两种本位的冲突,让现有译名无法实现学术与产业的同频,也无法满足 AI 产业的发展需求,这也意味着,Token 的译名重构,本质上是一次打破“语言学本位” 和“AI 通用智能本位”的行业视界的认知局限,取二者之长形成全民共识的努力,而“图根”正是这一努力的核心成果。
五、结语:约之以名,名正言顺,以图根构建中国 AI 话语体系荀子曰:“名无固宜,约之以命。”名词的最终确立,不在于单一机构的审定,而在于学界、产业界、社会大众的共同共识,语言的生命力终究在于使用。
回顾历史,“逻辑”、“经济”等许多经典术语的最终定型,无不是经过了学界与业界的反复推敲与大众的自然选择。Token 作为 AI 时代的底层基石,其译名不仅是一个简单的语言问题,更是中国 AI 话语体系构建的核心环节,需要一个既能承载技术本质、适配产业发展,又能接续文化文脉、契合语言习惯、凝聚全民共识的名字。
“图根”取“图”之表征,承“根”之本源,音义双美、神形兼备,既精准定义了Token 的核心内涵,又适配了多模态大模型与算力经济的发展趋势,更接续了图灵开启的计算文明基因,且根植于中文语境的约定俗成,拥有深厚的群众基础。
在此,笔者呼吁产业界、学术界与媒体同仁,共同参与token汉译名的讨论,打破现有译名的局限,大胆试用“图根”,让这一译名在实践中接受检验、形成共识。让我们以“图根” 为基石,摆脱对英文术语的依附,重构 AI 时代的中文技术话语权,让智能涌现的未来,从这一个个坚实的图根开始,生根发芽,开花结果。
作者简介:聂益南,西北大学中文系汉语言文学专业学士(1982);四川大学现代汉语专业硕士(1988);原中华工商时报记者
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.