2025年初,DeepMind发了一项研究,结论让很多人傻眼——处理中文的AI模型,参数效率比英文模型高出23%。换句话说,同样的任务,中文模型可以用更少的"脑细胞"完成。这不是什么民族主义叙事,是硬邦邦的算法数据。
一个用了三千年的文字系统,居然在最前沿的人工智能领域把英文比了下去。这事儿怎么解释?
每个汉字,都是一个压缩包
1984年,有个叫冯志伟的学者做了一项测算,结论是:一个汉字平均能装下9.65比特的信息,而一个英文字母,只有4.03比特。
这两个数字放在一起,差距大到有点不讲道理——一个汉字顶上英文字母的两倍多。
联合国开大会,五种官方语言的文件要同步分发,中文版每次都是那摞纸里最薄的。同样一份内容,中文版平均比英文版少三分之一的纸。这不是排版问题,是文字本身的信息密度不一样。
但为什么汉字能装这么多?
![]()
这事得从普通话的"先天缺陷"说起。普通话的音节,全部加起来就400来个,哪怕声调全算进去,也就1300个左右。这数字少得可怜——相比之下,汉语的祖先中古汉语有将近4000个音节,同音字现象少得多。
音节数越压缩,同音字就越多。随便举个例子,"xi"这个读音,背后对应了十几个中古汉语里完全不同的字,全挤在同一个发音里出不来了。于是普通话的字典里,同音字的密度是惊人的。
![]()
语音系统"偷懒"了,视觉系统就得补位。
汉字的解决方案是:在一个方块里同时塞进三件事——形状、读音、意思。义符告诉你这个字大概是什么类别的东西,声符提供读音线索,整个字给出精确含义。英文是条形码,从左读到右,一个字母接一个字母排队;汉字更像二维码,上下左右同时传递信息,整个是并行处理的。
被语音系统"逼"出来的高密度,反而成了书面系统最大的优势。
密度变现:读得快,记得少,用得久
信息密度高,最直接的好处是读书快。
1995年,有研究者用眼动仪盯着中文读者和英文读者的眼球转,数据出来挺有意思:中文读者每分钟能处理580个字符,英文读者是380个单词。考虑到一个英文单词大约等于1.5个汉字,换算下来,中文阅读的等效速度比英文快了将近四成。
用核磁共振扫中文读者和英文读者的大脑,结果也不一样。英文阅读主要激活左脑,走语音通路——眼睛看到字母,先在脑子里拼出读音,再从读音里捞意思,是串行处理。中文阅读激活双侧脑区,视觉通路直接把字形映射到语义,不用经过读音这一层中转。
![]()
用大白话说:看到"马",中文大脑直接蹦出马的画面;英文大脑看到"horse",要先念一遍,再想到马。
偏旁部首是这个系统的核心机关。现代常用汉字里,超过80%都是形声字,义符负责告诉你这个字属于什么范畴。看到"鲈、鲤、鲫",就算不认识这几个字,"鱼"字旁已经预告了它们都是鱼类。英文的bass、carp、salmon三个词,在字面上没有任何共同特征,不认识就是不认识,猜都没法猜。
义符的存在,让汉字读者在完全解码之前就能预测后续内容,这是阅读速度快的认知原理。
词汇这件事上,差距就更明显了。掌握3500个常用汉字,理论上可以读懂98%的书面材料。英文词典呢,光是牛津英语词典就收录了超过30万个单词,整个英语语言里的词汇量估计超过百万。英语每年还在新增几万个词,永远学不完。
![]()
这事的历史根源是1066年。诺曼人打下英国之后,法语成了贵族语言,300年里法语词汇大量涌入英语,和原来的本地词并存。于是英语里,动物名用英语(cow、sheep),但肉类名用法语(beef、mutton)。两套词汇系统叠在一起,谁也没法替代谁,只能硬背两遍。
中文造新词是"积木逻辑":激光=激+光,计算机=计算+机器,认识基础字就能推理新词含义。英文造新词是"外来引入"或"全新创造",laser是五个英文单词首字母的缩写,computer和"计算"完全没有字面关联,必须独立记忆。3500块积木能拼出几乎所有东西,但别人的百万个零件,每一个都要单独学。
三千年的信息压缩,正在通过算法验证
汉字记录的是意思,不是发音。这一点,决定了它能撑多久。
李白写的"床前明月光",唐朝人这么读,我们今天还是这么读,意思完全没变。汉字系统的稳定性建立在"意义锚定"上,发音可以变,字形和字义保持不动。
英文就不一样了。英文记录的是发音,但发音一直在跑。15世纪到17世纪,英语经历了一次叫"元音大推移"的语音革命,所有长元音像多米诺骨牌一样挨个移位。乔叟时代的"fine"读法,和今天完全不同;古英语《贝奥武甫》,现代英国人拿起来就跟看外语一样。莎士比亚距今不过400年,今天读他的原版剧本都得配注释书。
![]()
汉字从甲骨文到今天的楷书,字形变了,但字和字之间的组合关系从来没断过。"明"字,无论哪个朝代写,都是"日"加"月",三千年没变过。这是人类历史上唯一一套连续使用超过三千年、今人还能直接读懂的文字系统。
但汉字不是没有过危机。进入工业时代,铅字印刷出问题了。英文只需要26个字母的字模,中文需要几千个,排版效率差得不是一点半点。那段时间,"汉字无法适应机械化时代"是正经的知识分子忧虑。
转折点在1975年。北京大学的王选团队开始研究汉字激光照排,解决方案是用数学轮廓来描述字形,压缩比达到500:1——把几千兆的字形信息压进几兆内存,比西方同类技术早了将近十年。1979年,第一张用这套系统排印的中文报纸样张出来了,铅字时代结束,汉字完成了工业化改造。
![]()
再然后就是今天这个局面了。DeepMind那项研究说中文AI模型效率高23%,字节跳动的测试显示中文字幕的生成速度是英文的1.8倍,华为云的数据是中文NLP模型参数可以比英文缩减28%。原因说穿了很简单:中文每个字承载的信息量大,同样的意思需要的token更少,模型不用花那么多参数去消化冗余信息。
三千年前,普通话音节太少,字形系统被迫在方块里塞进更多信息,无意中造出了一套信息压缩系统。三千年后,这套系统碰上了神经网络,发现彼此的逻辑高度吻合——偏旁部首本来就是内置的语义标签,AI的分层特征提取不费力就能直接用上。
这不是文化自豪感,是可以写进论文里的算法事实。我们每天随手打出来的这几千个方块字,扛过了铅字时代的技术考验,现在又在算法时代把账算回来了。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.