词元重构AI产业新生态|算法|模态|新论文|人工智能

词元重构AI产业新生态

分享至

在使用AI进行文字对话时，会出现这样一幕场景：AI回答问题不是直接给出完整语段，而是闪烁着接连不断的字符，整个过程看似一场文字接龙。实际上，在AI输出这些字符时，后台正在进行一场密集的计算。机器并不直接处理人类感知的“字”或“词”，而是通过计算得出一个个词元（Token），并将其解码为自然语言。

今年初，全国科学技术名词审定委员会正式确定“词元”作为Token的规范中文名。近日，多位接受本报记者采访的学者表示，当下，“词元”这个原本存在于AI后台的技术名词，正进入AI智能体消费市场、AI自主性竞争等公共性话题的讨论中。

从“数字原子”到“智能货币”

“从技术本质上来说，‘词元’是大模型处理信息的最小离散单位。”复旦大学计算与智能创新学院教授黄萱菁介绍，大模型在处理文本时将输入切分成的一系列基本单元，即为词元，例如一个完整的词或一个词根、词缀，甚至是单个汉字或字符。“词元”的译名也由此而来，“词”点明了与语言文字的密切关联，“元”则表示“基本单元、原子”之意。

随着AI在图像、音频、视频等领域的纵深推进，模态融合下的“词元“概念早已远超文字范畴。黄萱菁表示，在多模态大模型中，文字、图像、声音最终都被统一表示为词元序列，共同进入模型的计算流程。可以说，词元已经从最初的“文字基本单元”拓展为AI理解和生成信息的通用基本单位——它是人类世界与机器智能之间的桥梁。在暨南大学智能科学与工程学院副教授赵阔看来，词元使AI得以通过概率组合数字原子，实现对复杂世界的统一感知与重构。

当词元成为机器解构世界并展开创作的底层逻辑时，这些跳动的“数字原子”也跃出屏幕，在市场中成为“智能货币”。国家数据局局长刘烈宏在中国发展高层论坛2026年年会上提出，“词元”不仅是智能时代的价值锚点，更是连接技术供给与商业需求的结算单位。根据艾媒咨询发布的《2024—2025年中国AI大模型市场现状及发展趋势研究报告》，2024年，中国大模型市场规模已达294.16亿元，预计到2026年将突破700亿元。面对如此庞大的市场体量，当前，各大模型厂商的API定价都以“每百万词元”为基础单位。

福耀科技大学常务副校长徐飞在最新发表的文章中提到，词元的标准化与通用化将重构AI产业生态，催生词元经济这一全新经济形态，也将催生全新的职业与产业赛道。

词元体系竞争力凸显

2023年，“新质算力基础设施”概念首次被提出，其核心要义在于整合算力、数据、存储及安全技术，为新质生产力发展提供支撑。时隔三年，“打造智能经济新形态”“实施超大规模智算集群、算电协同等新基建工程”被正式写入2026年政府工作报告。这一变化背后是人工智能与经济社会各领域的深度融合，而算力作为培育新质生产力的新动能，其基础设施布局在人工智能生态体系建设中发挥着关键作用。受访学者认为，词元体系建设作为大语言模型的核心环节，更是构建新质算力基础设施的重要支撑。

“若将语言智能处理的整体能力与水平视为一种‘新质算力’，那么大语言模型相关软硬件的研发与建设，便是打造‘新质算力基础设施’的核心内容之一。”上海外国语大学语言科学研究院教授施建军表示，词元体系关系到模型的自主性、推理速度、输出质量及价值观导向，其重要性不言而喻。

赵阔认为，当前全球大模型词元体系已呈现出四大鲜明特征。其一，技术路径呈现多元化发展态势，文本领域以子词算法为主导，多模态领域则逐步转向向量量化的离散映射模式。其二，标准化进程加速推进，国内已明确“词元”的术语定义及结算地位，国际层面则通过扩容词表破解碎片化难题，标准化建设进入关键阶段。其三，生态兼容性持续提升，以HuggingFace为代表的开源工具链日趋成熟，主流模型与框架已实现词表互通。其四，商业价值日益凸显，词元已成为大模型服务的核心计费单位，与此同时，也引发了版权保护、隐私安全及跨语种规则等一系列新的行业挑战。

黄萱菁表示，我国已形成较强的词元体系自主创新能力，但底层算力芯片与基础软件生态仍有优化空间。她从四个维度给出衡量标准及前沿数据。一是日均词元调用量。截至2026年3月，日均词元调用量已突破140万亿，凸显出词元经济是AI商业化的核心逻辑，大模型正落地产业应用。二是分词效率，国产大模型成效突出。DeepSeek等国产模型采用中文优化分词器，编码效率大大提升。三是上下文窗口规模。目前，国内外主流模型已扩展至数十万乃至百万级词元，国产模型与国际前沿基本同步。四是词元处理吞吐量与成本成为我国词元体系建设的重点突破方向。国产大模型的算法优化成果提升了词元处理效率。

赵阔补充道，国产大模型在中文词元化效率上已实现超越——通过优化词表结构，国产模型处理中文时词元消耗更少，推理成本更低、响应速度更快。此外，在政务、金融等垂直领域，我国词元体系更贴合本土语境，落地应用的针对性与紧密性更强。但我国词元体系建设仍存在差距：开源分词工具与国际顶尖水平仍有差距，多模态标注体系及跨模态基准尚不完善，地方方言与小语种语料资源相对匮乏，相关数据集与工具生态的建设仍需持续推进。

助力人工智能产业发展

“词元”为人类理解世界提供了新视角，也为推动人工智能在产业变革中高质量发展奠定了基础。学者认为，我国词元体系建设不仅要持续突破技术瓶颈，更要着力培育新质生产力，为高质量发展谋篇布局。

在词元发展的数据底座建设上，赵阔提出，政策落地需从三方面发力。一是建立统一数据标准体系，健全采集管理标准与跨领域标注、质量评估规范，保障数据集多场景、多语种覆盖。二是强化隐私合法保障，深化隐私计算应用，实现数据安全流通。三是依托国家数据交易平台搭建共享机制，破除跨部门跨领域数据壁垒。

赵阔表示，高质量数据是词元技术升级的关键支撑，丰富的语料可优化子词词表、提升低频词类推能力，跨模态标注助力词元精准对齐，低资源语种语料能拓展覆盖范围。为此，需聚焦工业制造、金融、医疗等重点领域建设多模态语料库，加大开源工具与对齐基准的政策资金支持，建立常态化质量评估体系，推动数据与词元技术深度融合，构建自主可控的产业生态。

黄萱菁建议，以科学技术推动基础研究实现突破，以工程智能推动产业升级，以具身智能打通数字与物理世界，构建自主可控算力底座，建设开放协同创新生态，夯实高质量数据供给与人工智能治理。

提升人工智能自主性竞争力的同时，还要让其为人所用。当人工智能工具能够作为数字载体生动还原历史场景时，如何区分哪些内容是人类创作的，哪些是人工智能生成的，至关重要。“在此背景下，人类文化原创内容的数字继承弥足珍贵。”施建军说。

词元连通数字与物理世界的信息往来，是人工智能理解语言、重构现实的核心载体，正从技术后台走向市场前沿、从产业优化迈向国际竞争。受访学者一致认为，“词元”的推广试用，将推动我国人工智能发展更加规范有序，围绕词元的技术创新与实践探索，将持续助力人工智能更好地服务人类社会发展。

中国社会科学报记者李永杰实习生付锦林

来源：中国社会科学报

责任编辑：许可

新媒体编辑：宗敏

如需交流可联系我们

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

词元重构AI产业新生态