![]()
也许中文获得了千分之一的“上牌桌”机会,这段时间我系统地探讨了语言学,也逐渐认识到:在人工智能中时代,真正的语言学能把个人的机会面拉到几乎无限的维度,所以我会继续深挖。但先声明,我对“宏大叙述”不感兴趣——再宏大的叙述也只是叙述。我认可的是可重构、可迁移、可调度、可组合的知识;让叙述完成就完了,别代入。这也是我把题目定为“千分之一”的原因:把情绪切除,只做染色体增量。我们技术人,切断了情绪,才能做事语言知识:语言自安置。
概念:语言自安置。
早在十五年前,我和一位北外的青年语言学者陈同学就讨论过“语言描述剥离说话的人,可以成为独立体”这件事。这时我们预知到了大语言模型,但我们的设定已经把“语言的自安置体”放在“人类社会与国际体系”的一个框架中,而不是多层。 在这个视角里,语言创造了一种自我驱动、以人类为条件的安置体;英语的崛起并非人类认知投票的结果,而是在全球安置场中自然胜出的过程。所谓“安置场”,是指:人类社会人口提供迁移、贸易、战争、科技传播等“语言基因交换的通道”;国际社会提供多语种接触与竞争的生态位,例如殖民网络、国际组织与学术共同体;而语言本体作为信息—结构系统,会主动寻找最大传播率与最大生存机会的路径,像病毒寻找新的同样群落那样。
要特别强调:即使不引入计算机,仍必须区分“人类社会”与“个体人”。在我们的设定中,驱动语言设置的是社会结构与国际体系,而不是某个说话者的意志。这一点的区别,非常关键。
根据这个理论,我们可以分析出英语是如何“上牌桌”的
它的崛起不是偶然的,而是自身的“变成基因”与适应策略在全球出现场中的持续胜出。首先是结构压缩与可迁移性:英语的形态变化少(屈折份额),显着降低了学习与传播的认知成本;它还能快速嵌入不同母语的语音系统与听力体系,例如印度式英语、新加坡英语、非洲英语等。 咖啡馆到日语的海啸,直接纳入,确保在异文化领域都留有“接口”。第三是多功能性:既可以作为科学技术的精确表达工具,也可以成为创作的审美志向,更能在商业谈判中充当通用代码。最后是寄生与共生策略:英语在丝绸、贸易、科技、娱乐等高人口密度、高信息流量的领域扎根,使自己成为这些领域的默认交换意识形态。
它的路径可以分为四个阶段。第一阶段是贸易对外迁,反过来又落迁。大英帝国的对外开放,将英语接入不同大陆的行政、教育与法律系统;第二阶段是工业革命,技术增强了它的传播机制。英语借助科技说明书、贸易合同、机械手册,在工业领域自我复制,把自己写成机器与制度的标准化语言中。战后,美国成为英语的大规模信息输出源——学术、电影、音乐、电视、互联网都是它的全球扩音器。第四阶段是互联网时代,进入自我加速期。网络协议、编程语言、早期网页内容主要以英语为主,可以借助数字技术实现“去地理化的复制”,不再依赖国家单一。 到了今天,英语已经呈现出语言割裂人类的结构。记得立党说过,小语种不用学了。如果一个来自小语种地区的人无法用英语和你交流,那你也没有和他交流的必要了。很残酷我同意他。英语的立场无法动摇。切记语言也是一种残酷的世界博弈丛林。
从世界科技发展的角度看,语言的本质同样是一种残酷的博弈丛林,数以千计的语言在竞争中消失殆尽。即便是曾经辉煌至极的伊斯兰文明,发明了阿拉伯数字的阿拉伯语,在关键科技范式转折节点上也没有获得“上牌桌”的资格。放眼之下,真正能在全球语言竞争中有席位的,也只有2个力量级别的参与者——东方的东方或许还有一搏的机会,西方的大国牢牢争夺优势。 思考这个问题时,必须首先克服“中文是母语”的惯性,这虽然困难,但很重要。
我这些年一直观察语言竞争的底层规则,总结下来有三条生存法则。第一,绑定最新的科技范式。阿拉伯语之所以失势,是因为没能在工业革命、蒸汽机、现代科学方法论等时代,形成全球化的科技协议;而英语则完成了“蒸汽机—工业革命—殖民—互联网—人工智能”五连跳,每一次科技平台更迭都完成了语言的迁移绑定。第二,牵涉全球标准的接口位。当一门语言科学论文、工程规范、数据协议、贸易合同、软件应用程序编程接口 等核心通道成为默认模式,才能拥有全球对抗。第三,持续生成高质量、可迁移的知识。如果一门语言的拓扑只停留在文学、文化、宗教价值上,而在最新科技和工程标准贡献上不足,就会被干扰全球技术体系。中国在文化输出上的努力,比如孔子学院,并没有在技术方面产生决定性影响;一带一路时期虽然让我有机会在乔治·梅森大学免费观看高水准成绩,但这种表演的文化成就,并不能转化为科技语言的对抗。记述其实没啥用,纯属式自我感动。
由此提炼出的结构性结论是:过去的辉煌无法保证未来的地位,唐诗宋词的成就无法直接为未来科技竞争加分;科技范绑定是唯一的保险,必须在人工智能基础协议、模型训练标准、跨领域协作等新接口位上讨论一个席之地;而接口位缺席就相当于出局,一旦人工智能的知识生成、任务调度、跨领域协作全部在英语协议内运转,中文就会溃为一种生态语言,在本土科技丛林中失去生存权。 维护丛林博弈的残酷性主张:世界竞争不是文化竞争,而是技术、经济与绑定制度的资源争夺战。一门语言的母语人口再多、历史文化再投资,都不构成决定性优势——即使一半的人工智能研究人员都是华人,这也不会自动赋予中文全球科技语言的地位。只有在新科技平台的诞生期语言完成绑定,才能真正进入全球科技的长期博弈牌桌。
在500年前,中文肯定已经错过了。这一把目前遇到的唯一机会,如果错过,不会再失去去500年?
乾隆和华盛顿是同龄人。如果把语言放在科技范式中竞争生存的自启动系统,那么中国可能会形成一个500年一遇的窗口。回望近代、科学范式的起点、工业革命的关键接口、近代全球化的起跑线,中国都缺席了。
这个世纪里,中文没有绑定任何一代全球性科技平台,也就失去了数百年的增益。
我认为今天或许还有一丝机会,是因为AI是一个以语言为驱动的科技平台,这是历史上极为罕见的——语言本身成为平台内核的科技范式。而且,全球标准尚未完全固化。中文确实有一些初步优势:汉压缩高度带来的信息密度,高组合性带来的表达灵活,语义模糊性有利于多义推理,加上上全球的华人网络。如果这一次再失踪,就不是损失10年,而可能再损失500年。人工智能的协议锁定效应非常强,一旦人工智能交互、任务调度、知识组织的底层协议以英语为母语定型,未来几十年甚至几十年的人工智能技术与产业生态都将围绕英语运行,就像工业革命时代认同的工程规范和法律契约格式致敬至今,语言的地位一旦固化,就很难被替代。全球知识生产的语言垄断就会形成——如果中文不能进入人工智能知识生成的主流循环,未来全球核心的科研、工程、商业知识将首先用英语生成,再翻译成中文,这种“二手语言地位”会在几代人中被固化。更严重、长期的认知生态将被动化。而且语言是思维与技术的接口,如果未来500年的主要科技符号系统全部用英语构建,那么中文用户的认知工具、教育体系、产业创新将会在一个次级循环里运行,从而进一步巩固位置。
科学革命(失踪)工业革命(失踪)信息革命(半参与)AI革命(唯一全面参与窗口)
语言的全球地位不是靠“文化符号输出”加工的,而是靠“内在结构绑定”加工的。孔子学院、“文化走出去”、一带一路文艺演出,这些更多的是表层的文化展示,这里面的很多弊端甚至官二代拿孔子学院来这种办工签;而抖音平台底层属于交互与生态的嵌入,两者的效果完全不是一个量级。抖音牛逼。
这个窗口极小,素质极高,但8090后还真有几率把中文抬上牌桌。
咱这代人的素质确实高。80/90 后既见证了中文互联网的崛起——从贴吧、QQ、早期微博到微信——又在学习或工作中深度接触了英语科技体系,包括编程、学术论文和开源社区。能够在两种语言协议之间自由切换,理解技术和文化的双重逻辑,在这历史上极为罕见。更重要的是,这一代人拥有丰富的工程-产品-三大内容的经络此类人才恰好是语言嵌入科技平台的关键,他们能从底层协议一直打通到用户体验。同时,他们兼具全球视野与本土执行力——既大规模出国留学的背景,又参与国内互联网的高速发展,既懂全球标准,也熟悉中文生态的快速试错内容。然而,机会虽在,可能性却极小。这个时间可能只有5-8年。如果80/90后这一代无法在期限内完成一次技术标准与语言协议绑定的突破,那么中文在AI 时代的全球结构语言竞争中几乎必然再次缺席。那“一触”机会,正来自于语言即接口这一历史罕见的科技范式,以及这一代人所突出的“双栖”能力。
这是我个人的判断力。但具体实施的嗅觉,不是我个人的能力能够推演的。我只能持续观察,并且把文章写在上面。
中文的缺点那真是一箩筐。我因为出国时间太久,这方面肯定不如国内的推友了解,像防火墙这样的堤防完全搞不懂。但单从数据看,中文在全球互联网内容里的比例小得惊人。 W3Techs 2024年底的统计,以网页语言计,中文(简体+繁体)大约只占全球网站内容的1.4%–1.5%;而在大型语言模型的训练集(如Common Crawl、维基百科、书籍、新闻)中,中文参与度通常也远低于中文互联网用户在全球的比例——以Common Crawl数据为例,中文内容只占1.2%–1.5%。 更关键的是,在学术论文、专利、工程标准、技术文档等质量、表述的语料中,中文的全球性争论。SCI收录的中文论文不到基线的1.5%;国际专利文献中,以中文提交的专利约占5%–6%,而且大部分都有英文版本。从这个角度看,用“弱爆”代表中文的全球存在感,恐怕都奥利维亚的。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.