网易首页 > 网易号 > 正文 申请入驻

词元重构AI产业新生态

0
分享至


在使用AI进行文字对话时,会出现这样一幕场景:AI回答问题不是直接给出完整语段,而是闪烁着接连不断的字符,整个过程看似一场文字接龙。实际上,在AI输出这些字符时,后台正在进行一场密集的计算。机器并不直接处理人类感知的“字”或“词”,而是通过计算得出一个个词元(Token),并将其解码为自然语言。

今年初,全国科学技术名词审定委员会正式确定“词元”作为Token的规范中文名。近日,多位接受本报记者采访的学者表示,当下,“词元”这个原本存在于AI后台的技术名词,正进入AI智能体消费市场、AI自主性竞争等公共性话题的讨论中。

01

从“数字原子”到“智能货币”

“从技术本质上来说,‘词元’是大模型处理信息的最小离散单位。”复旦大学计算与智能创新学院教授黄萱菁介绍,大模型在处理文本时将输入切分成的一系列基本单元,即为词元,例如一个完整的词或一个词根、词缀,甚至是单个汉字或字符。“词元”的译名也由此而来,“词”点明了与语言文字的密切关联,“元”则表示“基本单元、原子”之意。

随着AI在图像、音频、视频等领域的纵深推进,模态融合下的“词元“概念早已远超文字范畴。黄萱菁表示,在多模态大模型中,文字、图像、声音最终都被统一表示为词元序列,共同进入模型的计算流程。可以说,词元已经从最初的“文字基本单元”拓展为AI理解和生成信息的通用基本单位——它是人类世界与机器智能之间的桥梁。在暨南大学智能科学与工程学院副教授赵阔看来,词元使AI得以通过概率组合数字原子,实现对复杂世界的统一感知与重构。

当词元成为机器解构世界并展开创作的底层逻辑时,这些跳动的“数字原子”也跃出屏幕,在市场中成为“智能货币”。国家数据局局长刘烈宏在中国发展高层论坛2026年年会上提出,“词元”不仅是智能时代的价值锚点,更是连接技术供给与商业需求的结算单位。根据艾媒咨询发布的《2024—2025年中国AI大模型市场现状及发展趋势研究报告》,2024年,中国大模型市场规模已达294.16亿元,预计到2026年将突破700亿元。面对如此庞大的市场体量,当前,各大模型厂商的API定价都以“每百万词元”为基础单位。

福耀科技大学常务副校长徐飞在最新发表的文章中提到,词元的标准化与通用化将重构AI产业生态,催生词元经济这一全新经济形态,也将催生全新的职业与产业赛道。

02

词元体系竞争力凸显

2023年,“新质算力基础设施”概念首次被提出,其核心要义在于整合算力、数据、存储及安全技术,为新质生产力发展提供支撑。时隔三年,“打造智能经济新形态”“实施超大规模智算集群、算电协同等新基建工程”被正式写入2026年政府工作报告。这一变化背后是人工智能与经济社会各领域的深度融合,而算力作为培育新质生产力的新动能,其基础设施布局在人工智能生态体系建设中发挥着关键作用。受访学者认为,词元体系建设作为大语言模型的核心环节,更是构建新质算力基础设施的重要支撑。

“若将语言智能处理的整体能力与水平视为一种‘新质算力’,那么大语言模型相关软硬件的研发与建设,便是打造‘新质算力基础设施’的核心内容之一。”上海外国语大学语言科学研究院教授施建军表示,词元体系关系到模型的自主性、推理速度、输出质量及价值观导向,其重要性不言而喻。

赵阔认为,当前全球大模型词元体系已呈现出四大鲜明特征。其一,技术路径呈现多元化发展态势,文本领域以子词算法为主导,多模态领域则逐步转向向量量化的离散映射模式。其二,标准化进程加速推进,国内已明确“词元”的术语定义及结算地位,国际层面则通过扩容词表破解碎片化难题,标准化建设进入关键阶段。其三,生态兼容性持续提升,以HuggingFace为代表的开源工具链日趋成熟,主流模型与框架已实现词表互通。其四,商业价值日益凸显,词元已成为大模型服务的核心计费单位,与此同时,也引发了版权保护、隐私安全及跨语种规则等一系列新的行业挑战。

黄萱菁表示,我国已形成较强的词元体系自主创新能力,但底层算力芯片与基础软件生态仍有优化空间。她从四个维度给出衡量标准及前沿数据。一是日均词元调用量。截至2026年3月,日均词元调用量已突破140万亿,凸显出词元经济是AI商业化的核心逻辑,大模型正落地产业应用。二是分词效率,国产大模型成效突出。DeepSeek等国产模型采用中文优化分词器,编码效率大大提升。三是上下文窗口规模。目前,国内外主流模型已扩展至数十万乃至百万级词元,国产模型与国际前沿基本同步。四是词元处理吞吐量与成本成为我国词元体系建设的重点突破方向。国产大模型的算法优化成果提升了词元处理效率。

赵阔补充道,国产大模型在中文词元化效率上已实现超越——通过优化词表结构,国产模型处理中文时词元消耗更少,推理成本更低、响应速度更快。此外,在政务、金融等垂直领域,我国词元体系更贴合本土语境,落地应用的针对性与紧密性更强。但我国词元体系建设仍存在差距:开源分词工具与国际顶尖水平仍有差距,多模态标注体系及跨模态基准尚不完善,地方方言与小语种语料资源相对匮乏,相关数据集与工具生态的建设仍需持续推进。

03

助力人工智能产业发展

“词元”为人类理解世界提供了新视角,也为推动人工智能在产业变革中高质量发展奠定了基础。学者认为,我国词元体系建设不仅要持续突破技术瓶颈,更要着力培育新质生产力,为高质量发展谋篇布局。

在词元发展的数据底座建设上,赵阔提出,政策落地需从三方面发力。一是建立统一数据标准体系,健全采集管理标准与跨领域标注、质量评估规范,保障数据集多场景、多语种覆盖。二是强化隐私合法保障,深化隐私计算应用,实现数据安全流通。三是依托国家数据交易平台搭建共享机制,破除跨部门跨领域数据壁垒。

赵阔表示,高质量数据是词元技术升级的关键支撑,丰富的语料可优化子词词表、提升低频词类推能力,跨模态标注助力词元精准对齐,低资源语种语料能拓展覆盖范围。为此,需聚焦工业制造、金融、医疗等重点领域建设多模态语料库,加大开源工具与对齐基准的政策资金支持,建立常态化质量评估体系,推动数据与词元技术深度融合,构建自主可控的产业生态。

黄萱菁建议,以科学技术推动基础研究实现突破,以工程智能推动产业升级,以具身智能打通数字与物理世界,构建自主可控算力底座,建设开放协同创新生态,夯实高质量数据供给与人工智能治理。

提升人工智能自主性竞争力的同时,还要让其为人所用。当人工智能工具能够作为数字载体生动还原历史场景时,如何区分哪些内容是人类创作的,哪些是人工智能生成的,至关重要。“在此背景下,人类文化原创内容的数字继承弥足珍贵。”施建军说。

词元连通数字与物理世界的信息往来,是人工智能理解语言、重构现实的核心载体,正从技术后台走向市场前沿、从产业优化迈向国际竞争。受访学者一致认为,“词元”的推广试用,将推动我国人工智能发展更加规范有序,围绕词元的技术创新与实践探索,将持续助力人工智能更好地服务人类社会发展。

中国社会科学报记者 李永杰 实习生 付锦林

来源:中国社会科学报

责任编辑:许可

新媒体编辑:宗敏

如需交流可联系我们


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

中国社会科学网 incentive-icons
中国社会科学网
中国社会科学院官方网站
19344文章数 25620关注度
往期回顾 全部

专题推荐

洞天福地 花海毕节 山水馈赠里的“诗与远方

无障碍浏览 进入关怀版