53种语言，1016个概念：气候如何塑造词义？|语法|翻译|维度

53种语言，1016个概念：气候如何塑造词义？

分享至

你有没有好奇过——当英国人说“rose”、中国人说“玫瑰”、阿拉伯人说“وردة”时，他们脑海里浮现的是同一朵花吗？一项新近发表在《自然通讯》上的研究，试图用覆盖53种语言、1016个概念的庞大数据，给出一个既直觉又反直觉的回答：或许不完全一样。更让人意外的是，其中最关键的分歧点，并非历史或文化，而是一个你我都置身其中的物理因素：气候。

这个故事的主角是北京大学毕彦超教授带领的团队。他们想解开一个困扰认知科学许久的谜题：人类语言为何既显得普遍相通，又保留着丰富的多样性？为了找到线索，研究小组没有停留在词典或语法书上，而是直接走进大脑的语义组织方式里。他们调用了一个在计算语言学中常用的工具——预训练词向量数据——这说人话就是，把每个词翻译成一串数学坐标，坐标之间的距离和方向反映着词义在上下文中的亲疏远近。团队从跨越10个语系的53种语言中，抽取了1016个基本概念的词向量，然后把这些抽象的数字映射到13个有生物学根据的神经认知维度上。

这13个维度值得拆开来看，因为它们几乎就是你我感知世界的基本频道。一部分属于感官与身体层面：颜色、形状、味道、气味、声音、触感以及身体运动；另一部分关于高阶认知能力：时间感知、空间关系、数量概念、纯粹的心理认知、情绪反应，还有社会性认知。研究人员推测，这些维度并非随意挑选，而是植根于人类共有的知觉、行动、情感和社会性脑中系统。换句话说，不管你说哪种语言，你都是用同一套大脑架构去体验和描述世界。把这个大脑启发的语义模型跑起来后，它比替代模型乃至随机对照都更准确地捕捉了跨语言的语义相似性——就好比，你给一个从未接触过日语的人看“太阳”这个词的维度坐标，他能在多种语言中辨认出哪个词最可能是“太阳”，准确率高得不像巧合。

随后，团队把这个模型搬到更大的舞台上去检验：一个涵盖2681种语言的共词化网络。所谓的共词化，简单讲就是不同语言里，常常把哪些不同概念用同一个词来包揽——比如有的语言里“木头”和“树”共用一词，有的则分得很开。模型对这些跨语言共变模式做出的预测，显示出它抓住了某种很底层的组织规律。到这里，研究者算是初步确认了：人类语言确实共享一套基于大脑的语义框架。

但这只讲了一半故事。如果框架如此统一，世界各地的语言为何还是走上了不同的演化岔路？毕彦超团队接下来做了件很关键的事：他们去对比气候、地理、语言历史谱系和文化这四股力量，到底哪一个对语义差异的独立解释力最强。结果指向了气候——而且是明显最强。想一想，这似乎多少符合直觉：生活在气温变化剧烈、降水模式迥异的环境里的人群，可能需要用不同的方式去言说颜色、触感甚至是情感体验。只不过，直觉归直觉，直到现在，它才从嘈杂的文化和地理变量中被单独剥离出来，获得了量化证据的支撑。

为了跳出纯文本分析的局限，团队还邀请来自八种语言的253位母语者参与了一项行为评分任务。这八种语言包括阿拉伯语、中文、英语、印地语、日语、韩语、俄语和西班牙语，他们要依照同样的13个维度，逐一对207个核心概念打分。真人给出的维度评分，再次复现了文本词向量分析的大方向：跨语言之间的差异，依旧是气候留下的烙印最深。与此同时，团队还探进了探索性的多语言脑成像数据里，进一步观察同一套语义维度在不同语言大脑中的激活模式，这为整个研究补上了一层神经层面的旁证。

到这里，我们可以试着把整条逻辑链倒过来捋一遍：研究人员先是假设人脑存在一套通用的神经认知维度，顺藤摸瓜从53种语言的海量词向量里找出了这套维度的运作痕迹，然后用真人评分和脑数据去佐证它，再比对气候等外力因素，发现语义地图并非一成不变——气候温和的地区和气候极端的地区，人们组织词汇含义的方式会渐渐分岔。这个发现把“语言多样性”的讨论从文化相对主义带到了一个更具体的生态观察上：长期的气候条件，可能正像慢性的雕刻刀，缓慢调节着我们脑内那套共通的语义模版。

当然，这项研究并没有说气候是唯一推手。原文也明确拨出了空间给地理条件、语言历史演变和本土文化三者，只不过它们作为独立因素时，没能强过气候。气候到底是怎样渗进语义的？团队没有给出单一机制的断语，但这或许可以理解为，长期处于某些气候模式中的群体，需要对某些感官维度比如温度、潮湿感、色调或气味投入更多神经资源，日久天长，这种偏向就会凝结到词汇的用法和联想里，让词的“味道”慢慢改变。

你可能会问，这跟我们日常说话有多大关系？其实蛮大。比如，当两个来自不同气候带的人用同一种“通用语”交流时，哪怕是简单如“潮湿”或是“炎热”，他们脑中的基准值可能早已被各自所在地的气候校准过，而双方浑然不觉。再比如，机器翻译和大型语言模型常年在海量文本上训练，但文本背后的人群生态信号，也许还没有被充分编码进去——如果一个模型不理解赤道地区“下雨”一词所附带的情绪重量和北欧的不同，那翻译的“准确”很可能只是表面的字面对应。

这项研究还留着一扇敞开的窗。它目前主要在语义层面上构建了气候的关联，而语音、语法、语用等其他语言层面是否会回应同样的环境压力，还是未知数。另外，原文中所用到的是大规模的词向量和共词化数据，但它并未去追踪同一个语言社区在气候变迁过程中词汇维度的实时移动——如果某地经历持续数十年的气候变干，那当地人关于“水”的语义维度会不会慢慢偏移？这既是一个科学猜想，也是一个尚未量化的悬念。

值得留意的是，毕彦超团队的这项研究始终带着一定的探索成分，它给出的结论用词也颇为审慎：“研究显示”“发现初步表明”“可能被气候塑造”——这些表达方式比我们常在社交媒体上见到的“实锤”“确证”要软得多，却恰好是科普应当保留的严谨边界。原文没有声称气候“控制”了语言演化，也没有任何治疗建议或生活指南，它只是从计算模型、行为评分和脑成像材料中，一点一点拼出气候这本“隐形的调色盘”可能留下的痕迹。

所以，下次当你说出某个词时，或许可以多想一层：这个词被你说出口的空气温度、你成长中经历过的那个气候带，可能已经悄悄渗进你为这个词选定的向度里了。这并非玄学，而是一个正被科学逐步展开的、关于人脑与生态之间漫长对话的新篇章。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.