行政区划沿革知识图谱构建——以上海市为例|地理

分享至

江西地名研究

关注我们，获取更多地名资讯

摘要：针对行政区划沿革数据分散、结构不一、缺乏语义关联等问题，文章研发了一种面向地方行政区划演变的知识建模与语义组织方法。文章以上海市1949年以来的行政区划变迁为例，采用自上而下与自下而上相结合的混合策略，设计一种通用的行政区划沿革本体。通过复用GeoSPARQL、EVENT等语义本体，构建基于RDF的行政区划知识图谱。通过数据抽取、语义映射、图谱构建、规则推理与图数据库部署，实现对行政区划沿革信息的结构化表达与可视化管理。该方法具备通用性、可拓展性与语义表达能力，并支持行政沿革可视化查询、地理编码与统计数据修正对齐，为历史地理信息建模与智能化服务提供有效技术路径。

关键词：知识图谱；本体知识库；时空数据组织；行政区划沿革；上海市

引言

行政区划（又称行政区域划分），是国家治理体系的重要组成部分，通常依据相关法律和标准，并综合考虑地理环境、人口分布和经济发展等因素，对地方治理、资源配置和统计分析等领域具有基础性支撑作用。行政区划沿革则指行政区划在隶属关系、名称和空间形态等方面的变更过程，反映了国家政治格局的调整、社会结构的演进与区域经济的动态发展，是理解区域变迁的重要视角。

随着“数字中国”和智慧政务建设的推进，行政区划数据的时空建模需求日益凸显。当前关于行政区划数据多以静态方式处理，对历史变更信息的系统记录与语义表达尚显不足，易导致跨时期数据分析失真、空间定位存在偏差等。因而亟须探索行政区划沿革的系统建模与动态表达，开展结构化、语义化和时空化的组织与管理，以支撑跨时空数据的准确对齐与综合利用。知识图谱作为新一代的信息组织技术，在知识表示、推理与互联等方面具有显著优势，并已在地理信息管理中展现潜力。然而，在行政区划沿革领域，知识图谱的应用仍处于起步阶段，尚缺乏系统的本体设计与实践范式。

本研究从行政区划沿革知识提取和表达视角出发，提出一套面向行政区划沿革的知识图谱构建框架。研究结合本体建模技术，综合地名、时间与演变类型等要素，以上海市1949年以来的行政区划变迁为实证，构建上海市行政区划沿革知识图谱实例，并探索其语义组织方式及应用潜力。本研究旨在建立行政区划数据的统一语义表达体系，为跨时空分析提供方法论支持与技术实现。通过实现行政沿革的可视化查询、提升地理编码的准确性以及改进统计数据的对齐机制，本研究不仅丰富了知识图谱在历史地理信息领域的应用场景，也为相关服务的智能化与精细化发展奠定了基础。

相关研究

当前行政区划沿革数据主要存在分散异构、时空信息表达有限等问题。现有研究在组织与表达方式上大致包括：纯文本组织、静态空间数据建模、时空数据模型表达及知识图谱建模。纯文本的行政区划沿革数据组织不涉及地理空间维度，虽便于因果分析和统计研究，但缺乏空间表达能力。中国国家地名信息库等静态空间数据虽具备地理定位功能，但由于缺乏时间维度与历史版本支持，其与其他动态数据（如人口）的关联性较低，无法满足时序查询与分析需求。为弥补这一不足，学者提出了多种时空数据建模方式，大致可以分为系列快照、基态修正、基于事件与基于生存期模型4种，但均存在一定局限性。序列快照模型在空间信息存储中容易造成数据冗余，查询效率较低；基态修正模型数据更新复杂，性能表现依赖于基态选择；基于事件的模型虽能反映时空变化，但构建的数据库结构相对复杂，实体演变链式过程不够直观；以中国历史地理信息系统（China Historical GIS，CHGIS）为代表的“生存期”模型能够较好地描述基于点的行政区划沿革，但因将不同时间序列的行政区划单元存储在同一矢量文件中，较难实现动态可视化表达。此外，该模型在演变逻辑、语义建模与推理能力方面也有待发展。

近年来，知识图谱逐步应用于行政区划沿革建模，通过本体设计与图数据库技术实现结构化、语义化表达，支持跨时间的查询与推理。郑国轴等在中文开放知识图谱（OpenKG）上发布了涵盖多级行政区划的资源描述框架（Resource Description Framework，RDF）数据，虽实现了隶属与空间关系建模，但未涉及空间几何与历史演变信息。李晓敏等构建了地名演化图谱，采用事件逻辑实现区划沿革的时间关联，但未融合空间数据。陈玉冰与陈书慧分别聚焦区域行政变更，融合地图集等资料，构建了包含空间信息的沿革图谱，并探索了知识推理与历史模式挖掘方法。国际上，GeoNames提供了全球范围内的行政区划标准名称、层级结构与经纬度等地理信息，并支持RDF格式的数据下载与API调用，是结构化地理数据的重要来源，但其数据主要反映当前状态，对历史沿革支持有限。

在语义网与知识图谱构建中，本体作为抽象建模工具，用于描述特定领域内的概念集合及其之间的关系，可在语义层对行政区划概念、实体及其关系进行结构化表达。针对行政区划沿革中的时空复杂性，已有研究借鉴地理本体的建模思路，将要素、几何、空间关系和时态纳入建模框架。例如，宋佳等基于GML范式，构建了包含要素、几何、空间关系和时态四部分的本体模型；杜萍将中国行政区划本体划分为地理实体、空间、几何、时间和事件五部分，实现基于本体的行政区划地名识别与抽取；陈健等以测绘学叙词表为基础，构建了包含地名实体、语义类型与空间关系的本体模型；李晓敏则提出包括演变前身、变更过程等类别的演化本体，有效支持了沿革数据的语义关联。上述研究为本体在行政区划数据建模中的应用奠定了基础，但多数模型在空间表达方面仍较为简化，缺乏对完整几何边界与空间变化过程的支持。

国际上，众多学者也在积极探索地理知识图谱与时空建模的新路径。YUAN等提出Spatiotemporal Evolution Hierarchical Representation Graph（STEHRG），通过本体层、演化层和要素层统一表达地理实体生命周期，强调时空演化的层级表示。LI等构建了HGeoKG，以层级结构和语义推理增强地理知识组织能力。WEI等提出FineGeoKG，能够精细建模地理实体之间的邻接关系，并支持复杂空间查询。尽管这些研究在方法论和技术层面丰富了时空知识图谱的发展，但仍未针对行政区划沿革这一特殊领域提出系统化解决方案。

综上，现有研究在空间表达、语义推理和沿革逻辑建模方面仍存在不足，限制了行政区划数据跨时空分析的深度。为此，本研究以上海市为例，梳理区划沿革历程，构建通用行政区划沿革本体，并探索知识图谱在该领域的应用潜力与方法论价值。

研究方法

2.1总体框架

知识图谱的构建策略分为3种，分别是自顶向下、自底向上以及两者的混合应用。自顶向下策略主要基于领域专家知识与已有分类体系，构建整体框架与关系类型；自底向上策略则依托大规模文本数据的实体识别与关系抽取，以补充和修正框架；混合两者的方法，是通过预先定义一个基础的框架，并在该框架的指引下填充实例层知识；同时，在填充过程中，通过不断对实例层知识的分析与总结，对原框架进行更新，实现模式层与实例层的共同优化。本研究兼具任务导向与数据驱动的特点，采用自顶向下与自底向上相结合的混合模式来构建知识图谱（图1）。首先，从历史地理志书、相关政府公告及论文中抽取行政区划沿革领域的关键概念，在宏观层面自顶向下确定知识图谱的核心结构；其次，收集1949年以来上海市的相关历史行政区划图与行政区划沿革文本，并进行必要的预处理；最后，整合成符合拓扑规则的矢量数据集与结构化二维表数据，根据已有的地理概念和应用目的，在微观层面自底向上不断丰富知识实例。自顶向下与自底向上两种策略通过迭代反馈机制使框架与数据保持一致。顶层设计保障了体系结构的完整性与可控性，底层数据则支撑了知识获取的广度与实时性。

图2描述了研究的总体框架，涵盖了多源数据抽取、本体构建、知识映射、图谱构建、知识补全与检查、知识图谱评估6个环节，具体包括：（1）从《上海市行政区划变迁图集》、中国国家地名信息库等不同数据源收集整理1949年以来上海市县级及以上行政区划的历史沿革数据，通过数据清洗和整合，获取对应的历史行政区划图和非结构化沿革文本；（2）提取如“行政区划实体”“沿革事件”等核心概念及其关系，为保证语义一致性与可互操作性，尽可能复用现有本体，并使用Protégé等工具定义本体中的类、属性、约束与推理规则等，构建适用于行政区划沿革领域的本体结构；（3）构建边界正确的矢量数据集，并采用半人工的方式对沿革的文本信息进行梳理，将非结构化沿革文本数据转化为二维表，根据已构建的本体结构中所定义的类与属性规则，对数据文本中识别出的语义信息进行结构化映射，实现时间、地名、变更类型等要素与知识图谱中的类、属性、实体的关联和匹配（如矢量信息与Geometry类进行关联匹配），若数据在关联匹配时遇到困难，意味着原始构建本体中仍存在概念不清的问题，需要进一步从数据层出发进行抽象、分类与本体优化，自底向上完成本体的优化；（4）使用RDFLib，Neo4j等相关工具将行政区划几何数据、行政区划属性数据以及行政区划沿革事件数据进行实例化，实现知识图谱的生成与存储，同时支持后续在其它软件的可视化与查询操作；（5）为保证知识图谱的一致性与完整性，根据本体中预设的约束规则（如对象属性的相关函数）和实体间的逻辑关系等，对缺失信息进行推理补全，并通过语义一致性与结构完整性检查确保图谱质量；（6）从本体建模的合理性、知识推理、应用能力等维度对图谱效能进行综合评估，为其在历史沿革分析、地理信息服务等场景中的可扩展应用提供保障。

2.2行政区划沿革知识图谱构建

2.2.1本体构建参考相关领域的既有研究成果，并结合当前应用较为广泛的本体框架体系，尽可能复用已有本体定义的类与属性，提高本体的通用性与共享性，将行政区划沿革本体概念模型（图3）归纳为：（1）沿革信息（Event），参考事件本体的组织方式，提出沿革事件子本体，在概念层面纳入沿革时间、沿革类型、沿革对象及沿革结果等核心要素，为行政区划演变的系统化建模提供理论框架。用于表达行政区划实体的演变过程，通过设立、并入等事件，实现变更前后的实体关联；（2）要素信息（Feature），借鉴现有地名本体的框架体系，从要素的基础属性（如官方名称、行政代码、起止时间）、层次结构（如行政等级）等多个维度进行设计，以全面刻画行政区划实体的基本特征；（3）几何信息（Geometry），采用多边形作为行政区划的主要表达方式，对实体的边界、空间范围与几何尺度进行精确刻画，并通过引入几何特征、拓扑关系，实现点、线、面等空间对象的序列化表示；（4）相关资料（Document），参考通用本体的资源组织方式，从整体上抽象出多模态资料的组织框架，旨在为地图、文献、新闻报道及网络资源等多源信息提供统一的描述视角，强调对资料类型、资料名称与资料来源等关键要素的抽象表达，从而为后续的属性定义与实例化奠定基础。

通过复用已有成熟本体的框架与语义约定，可在保证语义一致性和标准化的基础上，提高知识资源的利用效率，减少重复建设。成熟本体的框架为众人所熟悉，能够降低其它领域研究者或用户知识获取和应用的成本，提升研究成果在国际语义网络环境中的可共享性和可扩展性。尤其在跨领域的本体构建中，复用本体技术可以整合多领域知识，形成统一的知识库。基于概念模型，对GeoSPARQL和EVENT等本体进行复用，并自定义补充相关对象属性与数据属性，构建适用于行政区划沿革领域数据管理与分析的行政区划沿革本体。

在要素表达方面，GeoNames本体提供了行政区划的基本属性、层级结构与空间关系建模方案。OSM（OpenStreetMap）Semantic Network则通过“节点—路径—关系”模式增强了空间拓扑描述能力，为建模行政单元的层级与相邻关系提供了良好参考。在几何信息建模方面，GeoSPARQL本体作为开放地理空间联盟（OGC）空间数据语义标准，支持对行政区划多边形边界的序列化表示及空间查询与计算，适用于表达区划对象的边界变化与空间覆盖，实现空间推理能力的扩展。在沿革事件建模方面，EVENT支持“前后事件”“子事件”等语义，提供了对事件的时间、地点、参与实体及结果等要素的抽象描述，适用于表达如设立、合并、撤销等区划变更过程的语义逻辑，能够实现变更事件与前后地理实体的关联建模，扩展时间推理能力。在资料组织方面，FOAF与GCIS等本体为历史图片、报纸、地图等多模态数据提供了结构化表达方法，支持描述人、组织、网页、文档之间的关系，实现本研究数据与外部数据的互通，支持更丰富的跨知识库推理。此外，通用知识图谱本体如DBpedia、Wikidata等也提供了丰富的地名、空间属性与历史名称等复用资源，并能够对类与属性进行了约束，为提升本体互联性与语义联通提供了基础。

在语义建模过程中，不同本体可能存在同名类或属性。为明确语义和促进不同本体的交互与共享，需通过国际化资源标识符（IRI）实现唯一标识，减少歧义。IRI一般由命名空间（Namespace）+本地名（Local Name）组成，并以“#”或“/”隔开，可避免语义冲突并提升本体互联能力。例如，EVENT本体中定义的event类对应的IRI为“http://purl.org/NET/c4dm/event.owl#event”，其中“http://purl.org/NET/c4dm/event.owl#”为EVENT本体的命名空间，event为本地名称（即类名）。本研究在继承现有本体命名空间的同时，自定义了命名空间“https://www.ade.org/”，其中“ade”为命名空间的缩写（前缀）。

2.2.2实例化本研究将行政区划变更中涉及的多种变更过程定义为事件，包含设立、隶属关系变更、名称变更三类属性变化事件，以及并入、分割出两类空间变化事件，具体描述如表1所示。

使用的上海市行政区划沿革文本主要来源于2个渠道：其一为全国行政区划信息查询平台的“县级以上行政区划变更情况”；其二为利用OCR技术从《上海市行政区划变迁地图集》扫描件中提取的文本数据。为尽可能保留详尽的历史信息，同时参考了各区地理志，对相关内容进行适当补充与校正。

由于行政区划名称存在重复的情况，管理实践中通常使用全国统一的行政区划代码对行政区划主体进行唯一标识。本研究遵循GB/T 2260—2007《中华人民共和国行政区划代码》国家标准，对行政区划代码的编制方式进行了规范。根据宪法与中华人民共和国发布的国务院令规定，我国的行政区划体系大致由省级、地级、县级、乡级四级构成。相比之下，国外的行政区划多为三级结构，大致对应于我国的省级、县级与乡级。为便于数据的共享与比较，本研究将行政区划划分为3个基本层级，即省级行政区（第1级）、县级行政区（第2级）和乡级行政区（第3级），并将我国地方特有的地级行政区定义为1.5级，如表2所示。

在行政区划地名演变研究中，变更情况具有重要意义。一个行政区划主体的“生命”始于设立事件，终结于因更名、并入等导致其名称消失的事件之时。所谓“生命周期”，是指行政区划实体在名称、空间范围、行政隶属及等级属性保持不变的阶段，其起点为某一沿革事件的结束，终点为下一事件的发生。图4展示了南市区自1960年设立以来，经历并入与分割等事件，直至2000年并入黄浦区而结束的完整生命周期过程。在这一时间序列中，任意2个相邻变更事件之间均构成一个独立的生命周期区间，为行政区划沿革的表达提供了系统的时间维度分析框架。

本研究借鉴CHGIS的数据组织方式，利用ArcGIS 10.4软件对相关空间数据进行采集与整理。以2019年的上海市行政区划矢量边界为基准，逐年逆序回溯，对各个变更年份的历史地图进行精确数字化处理。

为兼顾文件存储与图数据库的优势，本研究采用二者结合的方式存储知识图谱，以提升数据的可扩展性、查询灵活性和维护便捷性。在存储策略上结合了RDF文件存储与图数据库存储的优势，以保证数据的可扩展性、语义一致性和查询效率。在实现层面，选用GraphDB作为支撑平台，其内置的RDF处理与SPARQL查询能力能够高效管理和检索知识图谱数据。本研究将要素、几何和沿革事件三类知识分别构建为RDF数据集，并在图数据库中统一加载，实现了多维度知识的关联与可视化表达。

2.3知识图谱评估

知识推理能力是衡量图谱智能水平的重要指标。本研究采用一阶谓词逻辑规则、OWL推理器与语义分类增强机制，并结合SPARQL查询和Python脚本，实现了自动化推理与结果存储。这一方法不仅能够对历史与现存地名进行时间维度的划分，还可扩展至行政区划隶属关系的演变推理、地名别称的语义归并等多类任务，具备较强的通用性。在地名分类场景中，用户可根据研究需求在既有要素类中定义新的子类或属性。例如，新增“历史地名（historicalFeature）”与“现存地名（currentFeature）”，并设定二者不相交。判定规则基于行政区划实体的有效终止日期（gadm:valid_to），从而保证分类的客观性与可操作性。

应用能力评估可展示知识图谱的实际应用价值，本研究以地理编码和统计数据对齐为案例进行验证。

结果与讨论

3.1行政区划沿革知识图谱

3.1.1行政区划沿革本体行政区划沿革本体逻辑关系如图5所示。使用的命名空间及其前缀如表3所示。

表4为行政区划沿革本体类，皆为顶层类Thing下的子类。其中，行政区划实体要素类（geos:Feature）和几何类（geos:Geometry）共同构成，前者描述属性信息，后者描述空间边界。事件类（event:Event）通过与地理要素的连接，表达变更前后状态的关联；文档类（foaf:Document）用于存储辅助资料，提升解释能力。

表5展示了行政区划沿革本体中所定义的对象属性。其中，行政区划实体之间的隶属关系通过gn:parent Feature表示，要素实体和几何实体通过geos:hasGeometry相连。沿革事件的具体变更信息通过event:place存储。例如，分割事件中的分割线，其所连接的左、右多边形则通过ade:leftPolygon和ade:rightPolygon连接具体的左、右几何对象。event:agent与event:product是实现沿革过程推理的关键，用于构建实体的时间演变链。例如，“南市区并入黄浦区”事件中，前者为agent，后者为product，通过事件节点实现语义实体的连接。此外，本研究使用了逆函数（Inverse Of）与传递函数（Transitive）对部分对象属性进行了约束。具有函数定义的对象属性见表6。

数据属性主要用于存储节点的具体数值或文本信息，涵盖ID、名称、代码、时间、几何信息等字段（表7）。其中，gn:name和gn:officialName区分要素实体的实体名称与官方名称（即地名）。例如，“黄浦区1992”和“黄浦区2001”虽然是2个不同的实体，具有不同的实体名称（gn:name），但它们拥有相同的主体名称（gn:officialName）“黄浦区”。gadm:valid_from/valid_to用于表达行政区划的生命周期，以支持时间维度的查询与推理；geos:hasSerialization以WKT格式存储空间边界；ade:eventType与event:time描述事件的类型与发生时间。

为支持沿革链条的自动构建与数据校验，引入以下推理规则：（1）所有演变事件必然产生一个新地理实体，该实体的起始时间等于事件时间；（2）设立事件中，event:product与event:agent所对应实体之间应建立gn:parentFeature隶属关系；（3）分割事件可通过记录分割线及左右几何对象建立拓扑关联，基于基态修正的几何数据推理，并依托python的Shapely库实现；（4）合并、隶属关系变更、名称变更事件可不存储新图形，系统将默认调用关联event:agent对应几何；（5）非设立类事件中，event:agent对应的行政区划实体的valid_to应与event:product对应的行政区划实体的valid_from在时间上连续，前者早于后者，形成生命周期连续性。

3.1.2知识图谱基于行政区划沿革事件数据、行政区划属性数据以及行政区划空间数据构建上海市行政区划沿革知识图谱，共覆盖行政区划几何实体153个，行政区划要素实体149个、行政区划沿革事件216个。其中，并入事件119例（55.09%）、分割事件15例（6.94%）、隶属关系变更事件13例（6.02%）、名称变更事件7例（3.24%）、设立事件62例（28.70%）。图6为分割事件示例，将分割线建模为独立的geos:Geometry实体，并通过event:place与分割事件绑定。同时，左右多边形分别通过ade:leftPolygon与ade: rightPolygon与该几何实体相连，构成清晰的拓扑结构。事件Event3通过place属性指向分割线GeoEvent3这一几何实体，该几何实体以WKT格式存储线状边界，并通过左多边形（leftPolygon）和右多边形（rightPolygon）对象属性与“Geo洋泾区1952”和“Geo东昌区1952”相连。

利用OWL词汇表中的inverseOf与TransitiveProperty对象属性，对具有逆关系或可传递特性的对象属性进行自动化推理补全（图7）。若存在三元组event：EVENT104—event:agent—geos:“南市区1993”，表示“EVENT104”事件的参与者为“南市区1993”，则可根据inverseOf补全逆向三元组geos:“南市区1993”—event:agent_of—event:EVENT104，意味着“南市区1993”作为“EVENT104”这一事件的参与者，实现了知识的补充。

在文件层面，图谱遵循RDF标准，并坚持“本体与实例分离”原则：规模较小且需共享的本体单独存储；实例数据则按语义划分为“要素子图”“几何子图”和“沿革事件子图”，各自独立成库，便于更新和跨子图检索。

不同类别的实体在图谱中通过语义关系连接（图9），既反映了行政区划的层级与边界属性，也揭示了事件演变的链式逻辑。

3.2知识图谱评估

3.2.1知识推理能力

知识推理结果从4个方面进行评估：其一，一致性检查表明，所有分类均符合互斥约束；其二，可解释性体现在所有结论均可追溯至RDF三元组与规则来源；其三，覆盖率通过统计具备gadm:valid_to属性的实体比例衡量，显示出良好的数据完备性；其四，人工抽样比对《上海地方志》和官方区划资料，结果与权威资料和普遍认知高度一致。案例显示，1993年撤销的上海县被正确推理为历史地名，而浦东新区被判定为现存地名，验证了方法的可靠性。虽然在数据缺失情况下推理结果仍可能存在误差，但整体趋势与领域知识保持一致，说明该框架在知识分类与演变分析中具有实际应用价值与可扩展性。

3.2.2应用能力

（1）地理编码

在地理编码应用中，现有服务往往难以正确处理历史地名，导致定位结果存在偏差。以“南市区福佑路”为例，由于南市区在2000年被撤销并并入黄浦区，传统地理编码方法会出现匹配不准的情况。通过引入上海市行政区划沿革知识图谱，可在查询过程中调用历史区划与现行区划的对应关系，自动将历史地名映射为现存地名，从而实现定位结果的校正。该方法表明，沿革知识图谱在解决跨时期地名解析与空间定位中的误差方面具有显著优势，为长期时空数据的地名准确对齐提供了新的技术路径。

（2）统计数据对齐

行政区划调整对长期统计分析影响显著。以上海市黄埔区为例，1999年人口为24.36万，而2000年则为66.18万。若仅从统计结果表面观察，黄浦区人口在一年内出现大幅增长，但实则这一变化主要源于行政区划范围的调整，而并非真实的人口迁移或增长。具体而言，2000年公布的黄浦区人口统计数据，实际上对应的是1999年原黄浦区与南市区行政范围内人口合并结果。将1999年原黄浦区（24.36万人）与南市区人口数据合并后，总人口约为68.65万人，略高于2000年公布的66.18万人，说明在统一行政区划口径下，人口规模并未出现显著增长，反而呈现小幅下降趋势。

基于上海市行政区划沿革知识图谱，本研究通过逆序遍历行政区划演化关系，推导目标年份对应的历史区划构成，并结合多边形叠置分析方法，对不同年份的统计数据进行空间口径对齐。其中，对齐前数据指直接采用统计年鉴中按当年行政区划口径发布的黄浦区人口数据，未考虑区划调整带来的空间范围变化；对齐后数据则指将历史年份中与当前黄浦区空间范围对应的各行政单元人口进行合并后得到的结果。

如图12所示，对齐前的人口时间序列在2000年和2010年附近出现明显突变，而对齐后的数据曲线则更加平滑，能够更真实地反映当前黄浦区行政范围内人口变化的长期趋势。这表明，引入行政区划沿革知识图谱，有助于有效消除因区划调整导致的统计断裂问题，为跨时期人口变化分析提供更加可靠的数据基础。

3.3讨论

本研究以上海市自1949年以来的行政区划沿革为对象，构建了集地理要素、几何形态和演变事件于一体的时空知识图谱，在行政区划领域实现了语义建模与图数据表达的融合，为历史地理信息建模提供了可复用框架。然而，从系统扩展性、数据完备性及智能化应用等方面仍存在改进空间。

在数据覆盖与多尺度表达方面，尽管本研究实现了县级及以上区划的系统建模，但乡镇街道等更细尺度的历史区划仍缺乏系统表达。考虑到城市空间治理与人口社会经济分析的精细化趋势，未来若能向更细粒度行政层级延伸，并引入自然村落、社区等地方性地理单元，将进一步增强模型的时空表达能力与应用场景适配性。

尽管研究复用了GeoSPARQL与EVENT等标准本体并构建了规则推理机制，但当前知识补全仍依赖显式规则与半人工审查。面对历史文献中的非结构化信息、地名歧义、边界模糊等特征，未来可结合大语言模型驱动的信息抽取、遥感影像辅助边界识别以及多源可信度评价体系，以提升知识自动获取与演化链条构建的智能化水平。

本研究的图谱构建与推理过程主要侧重语义一致性与逻辑连贯性，对计算性能与查询效率关注相对有限。在行政区划知识图谱规模持续扩张的情况下，如何在大规模图数据上实现高效推理与实时查询，将成为影响其服务能力的关键。可考虑采用图数据库并行计算优化、图嵌入与向量索引技术，以保障跨时空复杂查询与批量演算的可用性。

行政区划演变不仅是时空结构变化的技术问题，也包含政策逻辑、区域功能调整及城市社会经济动态演化等多重因素。未来研究可进一步融合政策文本、历史报刊、人口与经济统计、土地利用与城市形态数据等多模态信息，构建“行政区划—社会结构—空间格局”综合知识体系，推动行政区划研究从静态表征迈向动态解释与情景模拟。

结论

快速城市化推动行政区划持续调整，形成了多源异构的时空数据。如何有效组织与表达沿革文本、边界矢量与统计属性，是当前地理信息系统研究的重要议题。本研究以上海市1949年以来的行政区划变迁为例，提出基于知识图谱的建模框架，构建了结构规范、语义明确的行政区划沿革知识图谱。

本研究设计了通用行政区划沿革本体，复用EVENT、SPARQL、FOAF等标准，实现语义共享与扩展性，从地理实体、空间几何、沿革事件与辅助资源4个维度整合数据，系统表达区划属性、层级、边界拓扑及设立、撤销、合并等演化过程，并统一接入地图、统计年鉴与文献资料。图谱通过标准化映射与实例化构建，具备规则推理、一致性检查与空间—属性复合查询能力，在图计算与时空推理方面表现突出。

本研究表明，知识图谱能够弥补传统方法在空间表达与时间推理方面的不足，提升历史区划研究的可计算性与解释性，为区域社会经济分析、政策评估与历史复原提供了新的技术路径。

作者：姚申君，吕沐涵，吴健平，祁宁宁

来源：《华南地理学报》2025年第4期

选稿：宋柄燃

编辑：江桐

校对：宋柄燃

审订：杜佳玲

责编：宋柄燃

（由于版面内容有限，文章注释内容请参照原文）

微信扫码加入

中国地名研究交流群

QQ扫码加入

江西地名研究交流群

欢迎来稿！欢迎交流！

转载请注明来源：“江西地名研究”微信公众号

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.