奥斯陆大学团队发布全球最大多语言历史语料库|俄语|英语|语言学|词汇表|西班牙语

分享至

这项由挪威奥斯陆大学联合美国康奈尔大学的研究发表于2026年2月的arXiv预印本平台（论文编号：arXiv:2602.11968v1），感兴趣的读者可以通过该编号查找完整论文。这次研究发布了一个叫作DHPLT的全新语料库，就像为全球41种语言建立了一个超级历史档案馆，专门记录词汇在不同时代的含义变化轨迹。

想象你翻阅祖父的老日记，会发现他年轻时写的"网络"指的是渔网，而现在说"网络"通常指互联网。词汇的含义会随着时间推移而发生微妙或剧烈的变化，这就像语言的进化过程。过去，研究这种语言进化现象就像考古学家挖掘文物一样困难，因为缺乏足够规模和质量的历史文本资料。特别是除了英语、德语等少数语言之外，绝大多数世界语言都缺乏系统的历史语料库。

研究团队巧妙地利用了互联网这个巨大的文本宝库。他们从HPLT项目收集的网络爬虫数据中提取了三个时间段的文档：2011-2015年（早期互联网时代）、2020-2021年（新冠疫情时代）、2024年至今（最新时代）。每个语言在每个时间段都包含100万份文档，总计约590亿个词汇。这就像为每种语言建立了三个时代的语言快照，让研究者能够观察词汇含义的历史演变轨迹。

更有趣的是，研究团队还为每种语言挑选了大约18600个"目标词汇"，就像选择了一批语言变化的"观察对象"。他们不仅提供了原始文本，还预先计算了这些词汇的各种语义表示，包括词向量嵌入、上下文嵌入和词汇替换等。这就像不仅提供了历史照片，还配备了放大镜、显微镜等各种观察工具，让研究者能够立即开始分析工作，而无需花费大量计算资源重新处理数据。

一、网络爬虫时间戳的巧妙运用

传统的历史语料库建设就像修建一座大教堂，需要语言学家花费数十年时间精心收集和整理各个历史时期的文献资料。然而，对于世界上绝大多数语言来说，这样的历史语料库几乎不存在。研究团队采用了一种创新的"时间考古"方法，将网络爬虫的时间戳作为文档年代的判断依据。

这种方法的原理就像考古学中的地层学。当考古学家在某个地层发现文物时，可以确定这件文物的年代不会晚于该地层形成的时间。同样，如果网络爬虫在2015年抓取到某个网页，那么这个网页的内容创建时间肯定不会晚于2015年。虽然这种方法不如传统历史语料库那样精确（网页可能包含更早期创建的内容），但它为大规模多语言历史研究提供了一个可行的解决方案。

研究团队分析了HPLT v3.0数据集中不同年份的文档分布情况，发现2011年是最早的爬取年份，文档数量在2017年之前相对较少，而2020年之后文档数量大幅增加，在2020年和2024年达到峰值。基于这些观察，他们选择了三个相互间隔至少两年的时间段，这样的时间间隔就像给语言变化留出了足够的"反应时间"，让词汇含义的变化更容易被检测到。

选择这三个特定时间段还有着特殊的社会历史背景意义。2011-2015年代表了早期互联网时代，社交媒体刚刚兴起；2020-2021年是全球新冠疫情期间，远程工作、在线教育等概念迅速普及；而2024年至今则见证了大型语言模型和生成式AI的爆发式发展。这三个时间段就像三个重要的历史节点，恰好捕捉到了近十年来最重要的社会和技术变革。

二、精心挑选的41种多元化语言

从HPLT v3.0数据集包含的198种语言中筛选出41种语言，这个过程就像从浩瀚的语言海洋中精选出最有代表性的样本。研究团队设立了两个主要筛选标准：每种语言在每个时间段至少要有50万份文档，确保有足够的数据量进行可靠分析；同时要求存在对应的HPLT v3.0 T5单语编码器-解码器语言模型，这些模型将用于生成词汇的上下文嵌入表示。

最终入选的41种语言展现了令人印象深刻的多样性，覆盖了12个不同的语系。除了英语、德语、法语等传统研究热门语言外，还包括了阿拉伯语、中文、日语、泰米尔语、泰语等非印欧语系的语言。这种语言多样性就像组建了一个"联合国语言观察团"，能够从不同文化和语言背景下观察词汇含义变化的共性和差异。

每种语言的数据量也相当可观。研究团队为每个语言的每个时间段随机采样了100万份文档，如果某个时间段的文档数量不足100万，则采样50万份。这样的数据规模相当于为每种语言建立了一个包含数千万到上亿词汇的历史文本库。整个DHPLT语料库压缩后约170GB，虽然相比原始HPLT v3.0数据集的50TB来说是大幅精简，但仍然为研究者提供了丰富的研究材料。

三、目标词汇的智能筛选策略

为了让研究更加聚焦和高效，研究团队为每种语言都精心挑选了一批"目标词汇"，这个过程就像从词典中挑选最有可能发生含义变化的候选词。他们从每种语言对应的T5模型词汇表开始，这些词汇表包含32768个词条，但并非所有词条都适合作为语义变化研究的对象。

筛选过程采用了多重过滤标准，就像用不同网眼的筛子逐层过滤。首先排除词汇片段和非完整词汇，只保留在文本中作为独立单词出现的词条。接着统计这些词汇在三个时间段中的出现频率，只保留每个时间段至少出现10次的词汇，这样确保有足够的样本进行可靠的语义分析。

更进一步，研究团队只保留名词、动词和形容词这三类最容易发生语义变化的词性，因为这些词汇往往承载着更丰富的语义内容。他们还确保所选词汇都使用该语言的主要文字系统书写，比如英语必须使用拉丁字母，日语必须包含平假名、片假名或汉字等。

这套精心设计的筛选流程最终为每种语言产生了平均约18600个目标词汇。这些词汇就像语言变化的"哨兵"，能够敏感地反映社会、文化和技术变革对语言的影响。研究团队还对这些目标词汇进行了词形还原处理，将不同词形（如"thread"、"Thread"、"threads"）归并到同一个词根（"thread"）下，这样能够更准确地追踪词汇语义的变化轨迹。

四、多维度语义表示的预计算

仅仅提供原始文本数据还不够，就像给研究者一堆矿石却不提供冶炼工具。研究团队贴心地预先计算了多种类型的语义表示，让研究者能够立即开始分析工作，而无需耗费大量计算资源进行数据预处理。

上下文化词嵌入是现代语义变化研究的主力工具，就像给每个词汇配备了一个能够感知上下文环境的"语义传感器"。研究团队利用HPLT v3.0 T5模型为每个目标词汇的1000个随机样本生成了编码器嵌入表示。这些嵌入向量不仅能够捕捉词汇的基本语义，还能反映其在不同上下文中的细微含义差别。

除了T5模型，他们还使用XLM-R多语言模型和HPLT v3.0 GPT-BERT模型生成了额外的上下文嵌入。这种多模型方法就像从不同角度拍摄同一个物体，能够提供更全面和可靠的语义表示。每种表示方法都有其独特优势：T5模型在序列到序列任务上表现出色，XLM-R擅长跨语言理解，而GPT-BERT则在文本生成和理解方面具有优势。

词汇替换是另一种重要的语义表示方法，就像为每个词汇找到一群"同义词朋友"。研究团队使用HPLT v3.0 GPT-BERT模型为每个目标词汇的100个随机样本生成了前15个最佳替换词。这种方法的妙处在于，通过观察不同时期同一个词汇的替换词变化，可以直观地理解其语义演变过程。比如，"AI"这个词在早期可能被"游戏角色"等词汇替换，而现在更多被"ChatGPT"、"机器学习"等词汇替换。

五、静态词向量模型的训练

尽管上下文化嵌入是当前语义变化研究的主流，但传统的静态词向量仍然具有独特价值，就像虽然有了彩色照片，黑白照片仍然有其艺术价值。静态词向量为每个词汇提供单一的向量表示，虽然不如上下文嵌入那样细致入微，但在计算简单性和结果解释性方面具有优势。

研究团队为每个语言和时间段组合训练了基于SGNS（Skip-gram with Negative Sampling）架构的word2vec模型。这些模型就像为每个时代的词汇建立了一张"语义地图"，相似含义的词汇在这张地图上会聚集在一起。训练参数经过精心调整：窗口大小设为10，训练5个轮次，采用5个负样本，嵌入维度为300，词汇表限制为5万个最频繁词汇。

为了让不同时期的词向量模型能够进行直接比较，研究团队采用了标准的Procrustes对齐技术。这种对齐方法就像将不同时期的"语义地图"叠加在一起，让研究者能够直观地观察词汇在语义空间中的移动轨迹。具体来说，他们将2011-2015年和2020-2021年的模型对齐到2024年的模型，这样就能够计算同一个词汇在不同时期之间的语义相似度变化。

六、频率统计的补充作用

除了复杂的语义表示，研究团队还提供了每个目标词汇在三个时间段的频率统计信息。这些频率数据就像词汇使用的"体温计"，能够反映社会关注度的变化。某个词汇使用频率的突然增加往往预示着相关概念的流行或重要事件的发生。

频率变化与语义变化往往相互关联。当一个词汇获得新含义时，其使用频率通常会发生显著变化。比如"病毒"这个词在2020年疫情期间的使用频率大幅增加，同时其语义重心也从计算机病毒向生物病毒转移。研究团队提供的频率数据能够帮助研究者控制频率效应的影响，更准确地识别纯粹的语义变化。

这些频率统计还有助于研究规划和计算资源分配。根据Zipf定律，语言中的词汇频率分布极不均匀，少数高频词占据了大部分使用，而大量低频词只偶尔出现。在进行词汇替换生成等计算密集型任务时，为最不常见的100个目标词汇寻找样本往往需要花费一半的时间，频率信息能够帮助研究者更好地规划计算资源。

七、英语"AI"词汇的语义演变实证

为了验证DHPLT语料库的有效性，研究团队展示了一个极具说服力的案例分析：英语词汇"AI"（人工智能）在过去十几年中的语义演变轨迹。这个案例就像一部微缩的科技发展史，生动地展现了技术进步如何在语言中留下印记。

通过静态词向量模型分析，研究团队发现"AI"的语义发生了戏剧性的变化。在2011-2015年的早期时代，"AI"主要与电子游戏相关，其最相似的词汇包括"multiplayer"（多人游戏）、"NPCs"（非玩家角色）、"RPG"（角色扮演游戏）、"animations"（动画）和"FPS"（第一人称射击）。这反映了当时人工智能概念主要局限在游戏领域，普通大众对AI的理解还停留在游戏角色的智能行为上。

到了2020-2021年的疫情时代，"AI"的语义开始向更广泛的技术领域扩展。其相似词汇转变为"chatbots"（聊天机器人）、"IoT"（物联网）、"robotics"（机器人技术）、"RPA"（机器人流程自动化）和"intelligence"（智能）。这个时期正值机器学习和深度学习技术的快速发展，AI开始从游戏娱乐向实际应用场景渗透，但仍然保持着相对技术化的特征。

而到了2024年至今的最新时期，"AI"的语义彻底转向了生成式人工智能。其相似词汇变成了"generative"（生成式）、"AI's"、"GenAI"（生成式AI）、"ChatGPT"和"LLMs"（大型语言模型）。这种变化清晰地反映了ChatGPT和其他大型语言模型对公众AI认知的革命性影响。

八、多语言验证的一致性发现

令人惊讶的是，这种语义演变模式并非英语独有，而是在多种语言中都观察到了相似的趋势。研究团队分析了西班牙语中的对应词汇"IA"（inteligencia artificial），发现了几乎完全平行的演变轨迹。

在2011-2015年期间，西班牙语的"IA"同样与游戏相关，其相似词汇包括"BETA"、"PS"（PlayStation）、"AI"、"jugabilidad"（游戏性）和"artificial"（人工的）。这表明早期的AI概念在不同语言文化中都主要与游戏娱乐联系在一起。

到了2020-2021年，西班牙语"IA"开始与更广泛的技术概念关联，包括"AI"、"artificial"、"algoritmos"（算法）、"learning"（学习）和"inteligencia"（智能）。有趣的是，这个时期的相似词汇中出现了英语词汇，反映了AI技术发展的国际化特征和英语在科技领域的主导地位。

到了2024年，西班牙语"IA"也转向了生成式AI概念，其相似词汇包括"generativa"（生成式）、"artificial"、"AI"、"inteligencia"和"ChatGPT"。这种跨语言的一致性变化模式强有力地证明了AI技术发展对全球语言的同步影响。

俄语中的对应分析进一步验证了这一发现。俄语"ИИ"（искусственный интеллект，人工智能）在2020-2021年的相似词汇包括"интеллект"（智能）、"AI"、"роботов"（机器人）、"блокчейн"（区块链）和"алгоритмы"（算法）。到了2024年，则转向"интеллект"、"нейросети"（神经网络）、"ChatGPT"、"AI"和"искусственный"（人工的）。

九、上下文嵌入分析的深入洞察

除了静态词向量分析，研究团队还利用T5编码器嵌入进行了更精细的语义变化检测。他们计算了不同时间段表示之间的平均成对距离（APD），这种方法就像测量词汇在高维语义空间中的"移动距离"。

针对英语词汇的分析显示，"ai"确实表现出最大的语义变化，其在不同时期之间的平均距离分别为：2011-2015年到2020-2021年为0.5533，2011-2015年到2024年为0.5646，2020-2021年到2024年为0.48。这些数值清晰地量化了AI概念的语义演变程度。

作为对比，研究团队还分析了"remote"（远程）、"legislative"（立法的）和"jurisdiction"（管辖权）等词汇。"remote"在疫情期间经历了显著变化，特别是从2011-2015年到2020-2021年的变化最大，反映了远程工作概念的兴起。而"legislative"和"jurisdiction"作为保守的法律领域术语，其语义变化相对较小，这符合法律用语稳定性的预期。

西班牙语的上下文嵌入分析也展现了相似的模式。对应的西班牙语词汇"ia"、"remoto"、"legislativo"和"jurisdicción"的变化程度与英语词汇高度一致，进一步验证了跨语言语义变化的同步性。

十、词汇替换分析的补充视角

通过HPLT v3.0 GPT-BERT模型生成的词汇替换提供了另一个观察语义变化的独特视角。这种方法就像为每个词汇寻找不同时期的"替身演员"，通过观察这些替身的变化来理解词汇语义的演变。

对于英语"ai"的词汇替换分析揭示了更加细致入微的语义变化模式。在2011-2015年期间，"ai"的替换词主要是非技术性的或与游戏、汽车相关的词汇。到了2020-2021年，替换词扩展到更广泛的技术领域，包括"IoT"、"NLP"、"robotics"、"animation"等，同时出现了反映AI社会影响的词汇如"cybersecurity"、"humanity"、"innovation"以及各种州名和公司名。

到了2024年，替换词又发生了有趣的转变，从技术乐观主义转向了更多社会关切，包括"elite"、"censorship"、"communism"、"scammers"、"capitalism"等词汇。同时还出现了传统上由人类主导但现在逐渐自动化的领域，如"art"、"healthcare"等。令人意外的是，替换词中并没有出现太多与大型语言模型直接相关的术语，而是更多反映了从AI乐观主义向悲观主义的转变。

"remote"词汇的替换分析也非常有启发性。在2011-2015年期间，其替换词主要与网络和地理距离相关。2020-2021年期间，"virtual"频繁出现作为替换词。而到了2024年，替换词呈现出技术乐观的模式，类似于2020-2021年期间的"AI"，包括积极的工作相关形容词如"skilled"、"flexible"、"professional"，以及更广泛的技术和社会领域词汇。

十一、数据资源的开放共享

DHPLT项目的一个重要特点是其完全开放的共享理念。所有资源都在Creative Commons CC0许可证下发布，这意味着任何研究者都可以自由使用、修改和分发这些数据，而无需担心版权限制。这种开放态度就像在学术界建立了一个公共图书馆，让全世界的研究者都能受益。

整个数据集按语言分类组织，方便研究者根据需要选择特定语言的数据。每个文档都包含详细的元数据信息，包括唯一标识符、时间戳、实际文档内容和质量评分。这些丰富的元数据就像给每份文档配备了详细的"身份证"，让研究者能够进行精确的筛选和分析。

研究团队还开放了完整的处理代码，任何人都可以使用这些代码从原始HPLT数据重新生成DHPLT，或者根据不同需求调整时间段划分和语言选择。这种透明度确保了研究的可复现性，也为其他研究者提供了定制化的可能性。

除了预处理的语料库，研究团队还提供了各种预计算的语义表示，包括不同模型的词嵌入、上下文嵌入和词汇替换结果。这些预计算资源就像提供了现成的分析工具包，让研究者能够立即开始实验，而不需要投入大量计算资源进行数据预处理。

十二、研究意义与未来展望

DHPLT项目填补了多语言历史语义研究的一个重要空白。在此之前，语义变化检测研究主要局限于少数几种高资源语言，这就像只能观察几个样本就要得出关于整个群体的结论。现在，研究者可以在41种不同语言上进行比较研究，这为理解语言变化的普遍规律和文化特异性提供了前所未有的机会。

这种大规模多语言资源的意义不仅在于数据规模，更在于它开启了全新的研究可能性。研究者现在可以探索不同语言中相同概念的演变是否遵循相似模式，可以研究全球化和技术发展如何同步影响不同文化的语言表达，还可以发现某些语义变化是否具有跨文化的普遍性。

从技术角度来看，DHPLT为各种语义变化检测方法提供了统一的测试平台。研究者可以在相同的数据基础上比较不同算法的效果，推动整个领域的技术进步。同时，多种预计算的语义表示也为新方法的开发提供了便利，研究者可以将更多精力投入到算法创新而非数据预处理。

当然，这项研究也有一些局限性需要注意。最主要的限制来自于时间信号的来源：网络爬虫时间戳只能提供文档创建时间的上界，而非确切的创建时间。这就像考古学中的相对年代测定，只能确定"不晚于某个时间"而非"确切创建于某个时间"。不过，研究团队的验证实验显示，即使在这种限制下，仍然能够检测到清晰的语义变化模式。

另一个限制是预计算表示只覆盖了选定的目标词汇，而非所有词汇。这是受计算资源和存储空间限制的必然选择。幸运的是，原始文本数据的完全开放为研究者提供了灵活性，他们可以根据自己的研究需求计算其他词汇的表示。

展望未来，DHPLT项目可能会继续扩展，包含更多语言和更长的时间跨度。随着计算能力的提升和新的语言模型的出现，也可能会有更多类型的语义表示被加入到资源库中。更重要的是，这个项目为语义变化研究建立了一个新的标准和范式，可能会激发更多类似的多语言历史语料库建设项目。

说到底，DHPLT项目就像为语言学研究打开了一扇新的大门。它不仅提供了丰富的数据资源，更重要的是展示了如何利用现代技术手段来研究传统的语言学问题。在这个信息爆炸的时代，语言变化的速度前所未有地加快，新词汇不断涌现，旧词汇不断获得新含义。DHPLT为我们理解这种快速变化提供了强有力的工具，让我们能够以前所未有的规模和精度来观察语言这个人类最重要的交流工具是如何与时代同步演进的。

这项研究的价值不仅在于学术层面，还可能对实际应用产生深远影响。从自然语言处理系统的改进到跨文化交流的理解，从历史文献的分析到社会变迁的研究，DHPLT都可能成为一个重要的基础资源。它证明了开放科学的力量，也为未来的多语言人工智能研究奠定了坚实的基础。

Q&A

Q1：DHPLT语料库包含哪些语言和时间段？

A：DHPLT包含41种不同语系的语言，覆盖三个时间段：2011-2015年（早期互联网时代）、2020-2021年（疫情时代）和2024年至今。每个语言在每个时间段包含100万份文档，总计约590亿词汇。这些语言涵盖了从英语、中文到阿拉伯语、泰米尔语等多种主要世界语言。

Q2：这个语料库如何确定文档的创建时间？

A：研究团队使用网络爬虫的时间戳作为文档年代判断依据。虽然这种方法不能确定确切的创建时间，但能确保文档内容不会晚于爬取时间。就像考古学的地层分析一样，如果文档在2015年被爬取，那么内容创建时间肯定不会晚于2015年。这为大规模多语言历史研究提供了可行的时间标记方案。

Q3：普通研究者如何使用DHPLT进行语义变化研究？

A：DHPLT提供了完整的数据和工具包。研究者可以直接下载预处理的文本数据和预计算的词向量、上下文嵌入等语义表示。每种语言还包含约18600个精选目标词汇及其多种语义表示。所有资源在CC0许可下免费开放，研究者可以立即开始分析而无需大量预处理工作。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.