本报讯最近,AI大模型用户发现了一个有趣的现象:用中文与AI对话,成本似乎比英文更高。这种现象被戏称为"中文税"。究竟是怎么回事?
![]()
一"税"惊人:中文真的更贵
据最新数据显示,在Claude和GPT等主流大模型中,中文的token消耗量普遍高于英文。某些场景下,中文版本的token数量比英文版多出64%,这意味着用户需要支付更多的费用才能完成同样的任务。
![]()
但有意思的是,国产大模型的情况恰好相反。在Qwen和DeepSeek等模型中,中文反而比英文更省钱,token消耗量仅为英文的65%左右。
价格差异从何而来
这背后的原因在于大模型的"Tokenizer"(分词器)技术。简单来说,AI模型无法直接理解文字,需要通过分词器将文字切割成标准化的小块(token)来处理。每个token都是一笔费用。
![]()
英文分词相对直观,一个单词通常算一个token。但中文面临不同的处理逻辑:一些国际主流模型采用BPE算法,根据训练语料频率合并字符,而早期训练数据以英文为主,导致中文字符被过度拆解;相比之下,国产模型从一开始就将常用汉字和词组纳入整词编码,效率更高。
古文更省?别高兴太早
还有一个有趣的现象:文言文比现代汉语更省token。但记者发现,这其实是把"编码成本"的节约转嫁给了"推理成本"——字少了,但AI需要消耗更多算力来理解。
![]()
历史巧合:部首的秘密
更深层的研究发现,早期模型将汉字拆成多个token时,模型反而能通过UTF-8编码的字节序列学到汉字部首信息,提升语义理解能力。而当新一代模型将汉字编码为整字token后,虽然成本降低了,却也失去了这条意外的语义通道。
![]()
历史回响:林语堂与中文打字机
这个现象在历史上早有先例。1947年,著名作家林语堂发明"明快打字机",试图将汉字高效嵌入西方打字机体系。他将汉字按部首拆解,用组合键定位字根,每分钟可打40至50字。这种设计虽然商业上失败了,却为现代中文输入法奠定了基础。
![]()
正如历史学家所言:"中文始终面对一个问题——如何接入一套为西方语言设计的基础设施。"从打字机到大模型,中文与技术的融合之路,始终充满了意想不到的巧合与代价。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.