点击上方“江西地名研究”
获取更多地名资讯
广西壮语地名分布
与演化的GIS分析
作者简介:
王法辉,美国路易斯安那州立大学地理与人类学系。美国巴图鲁日,70803;
王冠雄,李小娟,首都师范大学资源环境与旅游学院。北京,100048。
摘要:以壮族人口聚居的广西壮族自治区为研究区,通过解读《中华人民共和国地名大辞典》等资料,构建了一个乡镇、县、市的壮语地名地理信息系统(GIS)数据库,并借助空间可视化技术直观显示了壮语地名集中程度从广西西南部左右江流域和西部山区向东部逐渐降低。回归模型揭示了壮语地名的分布相对集中于地势高、坡度陡的边远地区。对命名时代的分析表明,壮语地名的几何中心随时间东移,汉语地名的几何中心西推,两者逐渐靠拢,表明二者在空间分布上的趋同,映证了广西逐渐走向壮汉杂居的历史过程。本文演示GIS和相关科学分析(包括空间分析和数理统计)方法用于历史文化研究的潜力,旨在促进自然科学与人文社会科学的有机结合,推动交叉学科的发展。
关键词:地名;GIS;空间分析;壮语地名
一
引言
台语(Tai)语系是侗台语族(Kam-Tai)的一支,包括中国境内的壮语、布依语、傣语、临高话(海南)和国外的泰语、老挝语以及已经基本消亡的阿含语等,是一个跨国界的多民族语系。台语各民族大多种植水稻,常称“水稻文化”。历史学界主流的观点是,两千多年前的中国南方(具体可能在广西——贵州交接带)是台语各民族水稻灌溉农业的发源地。他们依靠水稻农业的发展,不断强大、扩散到东南亚大陆的许多地区,从而形成现今在中国南方(贵州、云南、广西、广东和海南)和东南亚(越南北部、老挝、泰国)的广泛分布。
台语民族历史上缺乏语言文字记录,更无系统的人口普查资料,全面科学地分析其历史分布与迁徙比较困难。在诸多研究方法中,地名学角度的考察具有特殊价值。地名中蕴涵着丰富的信息,往往反映所在地周边的自然环境、居民族群、生活习惯、生产方式、宗教信仰等,常常被称为“指向过去的路标”。中国研究地名的学者分布于历史、地理、语言、民俗等诸多学科,研究历史悠久。西方学者也不乏其人,主要关注地名形成的历史、人文和自然环境,以地名变更追溯各民族的相互交融和迁徙的历史过程。
壮语是台语族中的一种语言,绝大部分壮族人口聚居在广西壮族自治区,并集中分布在广西西部尤其是西南部(图1)。壮族的先民属于中国南方百越民族,早在东周时期就有历史记载。唐太宗平突厥后,在今广西西部、西南部、西北部广大少数民族聚居地区,特别是壮族聚居地区,先后设置了101个羁糜州县。这些羁糜州县和正州县的命名,如古阳县、古劳县、多奉县、多梅县、洛都县等,多吸收壮语成分,以壮语的谐音或近音得名,是为壮语地名最早记载。
徐松石先生较早且全面地研究了壮侗语族地名的空间分布和这些民族的迁徙关系。改革开放后的许多民族学家利用壮语地名研究了壮族历史文化变迁和分布情况。研究壮侗语族语言文化或壮族文化的论文专著也涉及壮语地名,分析总结了壮语地名的特点、分类、成因、历史作用、演变趋势和地理分布。语言学家对壮语地名的构词方式、命名规律、遣词取向、文化内涵做了深层次的分析,探究壮族与台语语系其它民族的渊源关系、迁徙轨迹和壮语地名汉化等问题。比较系统的成果是《广西壮语地名选集》等。
上述研究涉及细致翔实的考证,参考价值高,但大多是描述性的,有待借用系统、严谨的科学分析方法研究其分布和演变。中国历史上已有的丰富的方志和地名文献,经1949年中华人民共和国成立后的系统整理和管理,为GIS的地名研究提供了良好的基础资料。本文利用GIS和相关的科学分析方法(包括空间分析和数理统计)研究壮语地名的空间分布态势并探究影响其分布的自然人文因素,分析壮语地名汉化的历史轨迹,旨在促进自然科学与人文社会科学的有机结合,推动交叉学科的发展。
二
数据来源与广西壮语地名空间可视化
研究中地名资料主要来源于《中华人民共和国地名大辞典》。整个研究区共包括14个地级市,75个县(县级市),1338个乡镇,共1427个地名点。每一个地名都被区分为壮语地名或非壮语(基本上都是汉语)地名两类。
通过矢量化《广西行政;区划地图》建立了地名的GIS数据库。图2显示了壮语地名分布的地理位置,但有局限:①地名是点状分布,难以看出面上的趋势;②壮语和非壮语地名只是两大类,没有渐变的空间过度。故利用GIS空间可视化技术,如空间平滑和空间插值法,更直观地显示壮语地名的空间分布趋势。首先根据是否壮语地名的分类将其二值化,并采用移动搜寻法来显示壮语地名在不同位置的相对聚集程度。操作上就是以每一个地名点为中心,以一定半径的圆为窗口,计算窗口内壮语地名占地名总数的比例,以此刻画该点壮语地名的集中程度。选取20km搜寻半径,既有较好的平滑效果,又不丢失太多的局部空间变化信息。结果如图3所示,壮语地名原始的0~1离散数据变成了连续的比例值,展示出了壮语地名比例向东递减的趋势。
空间插值技术可使壮语地名的空间分布趋势明朗化,并生成整个区域内连续的趋势面。趋势面模型是假定空间各点的观察值(z)是所在点坐标(x,y)的二元多次方程,用回归拟合的最优方程来估算其它所有点的值。本案例共有1427个地名点,由于观察值是壮语地名或非壮语地名的赋值(1或0),故选用Logistic趋势面模型来预测各个地名点为壮语地名的概率。插值后获得的空间趋势面(图4)显示了两个壮语地名聚集区域:一个在西部毗邻云南省文山壮族苗族自治州(广西境外最大的壮族人口聚居区之一)的山区;另一个在广西的西南部,邻近越南北部(也聚居着众多台语民族)的左右江盆地。
三
壮语地名分布的环境因子
壮语地名的空间分布受很多因素影响,大部分壮语地名来源于自然或者人文景观,比如水源、地形、水田等;有些地名来源于当地的植物、动物和矿物;还有些地名与人名、传说、节日和民歌有关。本文利用统计分析方法探究了几种可能影响因子的作用。
变量选择和数据来源
01
“一方水土养一方人”,地理环境对人类的生产、生活方式的形成起着至关重要的作用。分析台语民族(包括壮族在内)的分布迁徙过程,地理因素尤其重要。壮语地名大量以“岜”、“巴”、“蕾”、“雷”、“坡”等字冠首,都代表山地相关的事物,反应出壮族的山地居住背景。此外,“壮族自古为稻作民族”,聚居区应该地势低平,水源充足,地名中以“峒”命名,壮语中指山峦环抱的平地。研究考虑的第一组分析因素是与地形有关的变量,包括高度、坡度和坡向,三者均可从数字高程模型(DEM)中通过ArcGIS的地形分析工具提取。DEM数据来自于USGS的GTOPO30全球数据库,分辨率为1KM。
此外,适宜水稻种植的土地利用类型,比如水田和灌溉用地的分布,也可能有一定的影响。用以冠首壮语地的“那”、“纳”、“利”、“垌”、“同”等字,代表田地叫。广西土地利用类型的数据从中国国家基础地理信息中心下载,“水田”和“灌溉用地”赋值为1,其他土地利用类型赋值为0。
水稻种植需要邻近水源包括河流。许多以江河,如“达”、“驮”、“坛”、“蓄”、“潭”、“歪”、“怀”等命名的地名,说明了壮族与河流之间的紧密关系。历史学家认为台语民族(包括壮族在内)很可能是沿着水系或河流迁移扩散的,不断地寻求新的生存环境。同时壮族的分布迁徙过程与汉人南侵的关系密不可分,汉人的移民和军事战争也都离不开水陆交通线。广西地区的水系在历史上基本稳定。由于历史上陆路交通线路数据的获取困难,本文以现代的公路、铁路线近似取代,因为:①有文献表明,截至1926年,全国的公路都是在原有驿道或大车道的基础上改建而成8;②对比广西古代交通线路的描述,交通要道的变更并不是很大。铁路、公路和水系的数据也来源于中国国家基础地理信息中心,然后通过ArcGIS的空间分析工具计算每一个地名点与最近的铁路、主干公路、水系间的距离,由此检验水陆交通线路与壮语地名之间可能存在的关系。
壮族和汉族在历史上的融合过程,更多的是在主要的政治和商业中心及其邻近地区。本文选择桂林和南宁作为主要的影响中心,用各地名点与这两者间较近的城市的距离,度量中心城市对壮语地名分布的影响力。
单一变量对壮语地名分布的影响
02
评估各个变量与地名分布是否相关,可以用t检验比较壮语地名点和非壮语地名点某一变量的平均值是否在统计上存在显著差异。这种t检验可以用下面的回归模型来实现:
式中:X表示每个地名点的属性变量(高程、坡度等),T表示地名类型变量(1代表壮语地名,0代表非壮语地名),a和b为待估参数。
各因子与地名的回归分析如表1所示。由于本文主要关注回归模型中对应于b的t值在统计上的显著水平,所以模型的R值意义不大。
根据表1,除了“坡向”和“离水系的距离”外,其他6个变量与地名类型的关系在统计上都是显著的。坡向只是山坡的朝向,因此与地名类型的分布关系不大。为什么离水系的距离不重要呢?一方面,离河流越近往往与水路交通线路近,地名被汉化的可能性大;另一方面接近水源,用水方便,更利于稻作的壮族居民生存发展,更有可能是壮语地名。这两种相互对立的作用可能是这一变量对地名分布影响不明显的原因。根据表1,总结其他6个变量与壮语地名分布的关系,统计上都很显著。壮语地名的平均海拔比非壮语地名高186m,坡度也大一些。占地名总量的16%的壮语地名分布在水田或灌溉用地,比非壮语地名低20%。壮语地名比非壮语地名平均要远离铁路5.72km,平均远离公路2.63km,远离大城市南宁或桂林86.22km。
总体上,壮语地名的分布趋向于在较高的地势、坡度较陡,而在稻田或灌溉用地地区较少,离主要交通线和中心城市较远(图3)。
整合和评估多变量的综合影响
03
上述分析只是每个变量对地名分布的单独影响。由于一些自变量间存在相关关系,回归结果的分析讨论还需要谨慎考虑。更严谨的方法是用多元回归,研究多个因素的综合影响。由于这里因变量(地名类型)取值是0和1,模型可以表示成多元logistic回归模型:
式中:Lr是logit值,X1,X2,…,X8是前面定义的8个自变量,参数β0,β1,β2,β8是待估的回归系数。这个模型通常用最大似然法求解。估算的logit值Lr,可用来预测任一地名点为壮语地名(T=1)的概率:
上述多元logistic回归模型结果如表2所示。
假如某地8个自变量X取值正好是这些变量的平均值:高程305.85,坡度1.80,坡向182.87,用地类型(假设值)0.31,离河距离8.69,离铁路46.10,离公路9.80,离中心城市481.67。将这些值代入式(2),式中回归系数β1如表2所示,可以算得Lr=-1.2429。这样,该地地名为壮语地名的概率就是1/(1+ e1.2429)=0.2239,非常接近研究区内壮语地名的百分比(24.8%)。
基于式(2)的多元回归与基于式(1)的二元回归结果基本一致,但有几点小的出入。除了“坡向”和“与水系距离”对地名的分布显著性仍然不明显,又有两个变量“坡度”和“与主干公路距离”也不再有显著性影响。这一点主要是因为自变量间的互相关性。因此,单变量“坡度”(或“与主干公路距离”)对壮语地名分布的影响可能是虚假的,因为它们和其它变量(如“高程”、“与铁路距离”、“与中心城市距离”)相关性强,当这些变量的影响在多元回归模型中得以控制时,它们的统计显著性就消失了。
上述自变量间的互相关性往往影响多元回归结果的准确解释,可借用因子分析法来克服这一困难。通过因子分析,上述8个变量的信息基本上(83%)可以由4个因子描述。表3展示了原始变量在各因子上的载重值,前三个地形变量(高程、坡度和坡向)主要落在第一因子上,3个距离变量(与铁路、公路和城市距离)主要落在第二因子上,用地类型和离河距离分别落在第三、四因子上。因此,四个因子依次命名为“地形因子”、“边远性因子”、“用地因子”和“河流因子”。
类似于式(2),可用这4个因子得分作为自变量来解释地名类型,相应的多元logistic回归分析结果展示在表2的右边两列。除河流因子外,其他3个因子统计上都很显著。河流因子对应的就是原变量“离水系距离”,前文已分析过该变量不显著的原因。回归结果表明,壮语地名地区更趋向于地形因子得分高(包括地势高、坡度高、坡向值高),而且边远(包括离铁路、公路和中心城市远)、水田或灌溉用地少。
为什么壮语地名分布偏重于地形环境复杂、边远、用地条件差的地方?主要因为:①汉人最初南下时,凭借强大的军事和经济实力抢占了地势低平、交通便利、灌溉条件好的土地资源,把原著壮民驱赶到生存条件更艰苦的边远地区;②当时阻止汉人南迁的天然屏障疟疾(“瘴气”)在边远地区更盛行,一定程度上帮助保护了这些地方的壮族居民和壮语地名;③地势低平、用地条件好的地区本来就集中在广西东部,汉人沿梅岭南下,先落户于广东西部和广西东部,再往西和西南推进,自然地名汉化的程度是东强西弱。对于这些结果的验证和解释还需要历史学家、民族民俗学者和语言学家更加深入的探究。
四
壮语地名分布的历史变迁
《中华人民共和国地名大辞典》中一些地名还记载有最早命名的时代等重要信息。分析不同时代壮语地名的分布和演化有助于认识壮族与汉族间相互抗争或融合的过程。然而资料中大部分地名缺乏这一重要的时代印记。研究区内1427个地名,只有260个(18.2%)有命名时代。在356个壮语地名中,只有35个(10%)有命名的时代记录。主要是县以下的地名缺乏翔实的历史考证资料。所有的地级市和县的地名都记载有命名时代,但乡镇地名中只有171个(12.8%)有此记载,其中18个壮语乡镇地名(占壮语地名5.3%)有此记载(表4)。图5显示了各个时期壮语地名、汉语地名的分布。
在唐及唐朝之前由于汉人太少,而壮族先民也没有自己的书面文字,鲜有壮语地名记载。北宋时期,以依智高为首的壮族人民起义,建立了具有国家性质的地方民族政权,标志着壮族正式成为一个具有自已独特文化和历史的民族。北宋皇佑年间(公元1053年),宋朝统治者镇压依智高的起兵后,在桂西壮族地区设置以当地壮人为官的土司制度,并任命不少汉人为刑名、师爷、总把等官,至此,汉族已经全面进人桂西山区各地与壮人杂处的,壮语地名的书面记载成为可能。如图5a所示,保留至今的宋朝和宋前的壮语地名有五个,全在广西西南的左右江流域。元朝短暂,数据库中新添的只有一个壮语地名。明代广西境内汉族人口占二成,主要分布在江河两岸的城镇和大居民点,集中于桂东、桂中。图5a显示的明朝新添壮语地名主要在桂东南和桂中。再次印证壮汉杂居地区有利于壮语地名的文字记载,得以保存下来。
清初,中原战乱不已,汉族人口自发向壮族地区的迁移出现高潮。迁人壮族地区的汉族人口,最大量的还是商人,其次农民,还有一部分是被壮族土司招聘前来为其服务的汉人。康熙、雍正年间,汉族人口进入最多的桂东北、桂东南,已逐渐演变为汉族为主的地区。图5a显示的清朝新添壮语地名增至24个,分散于广西各地。民国期间和解放后,汉族人口持续人迁,但新添的11个壮语地名多数分布在桂西。
总的来说,现今广西境内的壮语地名基本上是“西老东少”。原因可能是,广西东部汉族南下开辟和屯兵早,老的壮语地名被汉化的程度高,只有边远地区、少数乡镇级、更接近现代的壮语地名得以保存;西部地区汉化程度相对弱一些,老的壮语地名(包括一些市县地名)也得到了保存。为了提取地名分布大的时空趋势,研究计算了各个时期壮语地名点和汉语地名点的几何中心。在数据库中,由于早一个时代已命名的地名在后一个时代仍然存在,每个时代几何中心的计算是基于累积到那个时代的所有地名点。如图5所示,各个时期壮语地名的几何中心都在汉语地名几何中心之西,与壮族居民历代分布偏西一致。但随着时间的推移,壮语地名的几何中心逐步东移(略微偏北),汉语地名的几何中心向西南移动,两者逐渐向广西中部靠拢,表明壮语地名和汉语地名在空间分布上不断趋同,反映壮汉原著民逐渐走向杂居的历史过程。
壮语地名的时空变迁还有待于更深人地研究、验证、补充。本研究的数据库除了大部分地名缺乏时代记载,还有两方面的局限:①数据是基于当今地名建立起来的,随时代变迁,历史上许多地名流失或改变;②地名都是汉语文献记载,许多壮语地名在壮族居民中也许很普遍,但没能被汉语地名志记录下来。尽管如此,上述基于GIS的分析讨论对认识壮语地名的时空变迁以及折射壮汉民族历史上的相互交融颇有意义。
五
结论
少数民族包括壮族的汉化是一个漫长的过程,地名汉化是其重要体现。壮语地名记录壮族人民生产和生活的地理环境和文化传统,但许多壮语地名在汉化中被取代或淹没。研究壮语地名的分布和变迁有助于了解壮族的族源和迁徙轨道,同时认识壮汉民族历史的相互渗透的过程。
本文基于《中华人民共和国地名大辞典》建立了广西地市、县、乡镇三级地名的GIS数据库。壮语地名占全自治区地级市地名的7.1%,占县级地名的21.3%,占乡镇级地名的25.3%。验证了行政级别越高,壮语地名所占比例越低,反映了汉化程度越高。
借助空间可视化技术,显示了壮语地名最集中的是广西西南部的左右江流域以及西部山区,集中程度向东部逐渐降低。三级行政地名图都反映出壮语地名聚集在广西西部和南部,与现代壮族人口的分布状况基本一致。通过对县级壮族人口比例和壮语地名比例作相关分析,相关系数为0.58,表明地名的分布与民族的人口比例结构基本一致。
统计分析揭示了壮语地名的分布趋于地势较高、坡度陡的地区,在水田或灌溉耕地地区反而少,且远离交通干线和主要城市。分析有限的含命名时代的地名数据可知,现今广西境内的壮语地名基本上是“西老东少”。
编辑:伍晨嫣
终校:华 丽
审订:代停停
注释还请参看原文哦
中国地名研究交流群
江西地名研究交流群
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.