基于地名地址的多源异构数据融合方法研究|算法|数据源|客户端节点

分享至

江西地名研究

关注我们，获取更多地名资讯

摘要：为解决不同行业政务信息资源的融合，实现智慧城市各行业数据的共享，深入挖掘和发挥数据价值，提出一种基于地名地址匹配的数据融合方法，分别对含空间坐标和仅包含位置描述的两种不同类型政务数据进行匹配，提出利用分区单元计算、构建分级分词地名地址数据库和文本模糊匹配等关键技术，提高了地名地址匹配的效率和准确度。并通过在智慧蓉城建设项目中实践应用，证实该方法能有效提升匹配效率和精度，实现多源、异构、海量政务数据的高效融合。

关键词：地名地址匹配；数据融合；政务信息集成；智慧城市；地理实体

0 引言

随着大数据技术应用及智慧城市建设，我国政务信息建设的重心正逐步由信息化建设转向政务信息资源的共享应用阶段发展。新型智慧城市的基础是各行业数据的汇聚与融合，形成基础动态权威的综合信息，用于城市治理的决策依据。但由于各部门信息化进程和业务需求不同，造成了不同区域、不同部门间的数据难以共享的“信息孤岛”现象。2019年龚健雅院士在新型基础测绘技术体系高级研修班上提出了地理实体作为连接自然地理信息与人文社会经济信息的桥梁和纽带，可通过地理实体编码实现基础地理信息数据库、人口库、法人库、不动产库的关联。据统计约80%的政务信息均与空间位置有直接或间接的关系，地名地址作为关联和载体可实现不同部门间的数据融合和共享。如何建立适用于大数据环境下的地名地址匹配方法，建立地理实体与政务专题数据的关联，实现多源、异构、海量数据的高效、快速融合，已成为政务信息资源共享应用的关键。

本文依托智慧蓉城实景三维成都建设项目，通过对政务信息数据进行深入分析，针对含空间坐标的政务数据提出利用分区单元进行语义和位置的地名地址匹配方法，针对仅含位置描述的数据提出通过利用地名地址词典库对中文地址进行分级分词处理，以提高地名地址匹配效率和准确度，探索适合成都市地名地址特点的多源、异构、海量政务信息融合方法。

1 数据源分析

1.1 政务信息分析

政务信息涉及国民经济、自然资源、不动产、人口、法人等多个领域，具有数据量大、表现形式多样、碎片化等特点，其共同点是一般都包含地名地址信息。政务信息在与地理实体进行关联时，必须首先找到与空间位置相关的信息，才能准确地与对应实体进行关联。一般分以下3种情况：

（1）最理想的情况是不同行业数据均带有地理实体编码信息。不同政府部门通过建立统一的数据标准，对同一实体的不同行业形态数据均采用了统一的实体编码，可直接通过实体编码进行关联和挂接。此种情况数据融合最为简单直接，但对部门协同和共建共享要求较高，就目前国内建设情况来说还较难实现。

（2）其次是某些行业数据带有空间坐标信息。如国土、规划、房管、交通、民政等部门专题数据大多有空间坐标信息，虽然数据标准、几何精度、属性采集和表达方式不同，但总体来说其空间位置较为接近。本文节3提出一种基于空间位置的地名地址匹配方法，同时考虑空间位置和语义特征双重因子，通过与现有的地名地址数据库进行匹配度分析，找到匹配度最高的进行关联。经过数据融合，一来提高了地名地址数据库的完整性和权威性，另外也为政务信息共享、深入挖掘数据价值奠定了基础。

（3）最常见的是大多行业数据仅有位置描述无空间坐标信息。如公安、税务、工商、城管等部门数据中，通常以文本形式描述行政区域、道路、门牌号等地名地址信息。由于中文地名地址的特殊性，中文地名地址的匹配一直以来也是地理信息领域研究的热点和难点问题。本文节4提出一种基于位置描述的匹配方法，通过构建成都市地名地址词典库，对不规范的文本描述的位置信息通过模糊匹配技术先进行规范化、分级分词处理，再与现有地名地址数据库进行分级匹配，将其空间化后再与地理实体进行关联。

1.2 地名地址分析

成都市地名地址数据库较为规范、完整，包含成都市域范围内的地名和门址、楼址以及空间坐标信息，且所有记录均含行政区划名称、道路名、门牌号及楼栋号、院落名等标准分词信息，可以此为基础作为标准地址模型的空间定位依据，如表1所示。

2 基于空间位置的地名地址匹配方法

2.1 设计思路

对于有空间坐标的数据融合相比仅有位置描述的相对简单，一是要同时考虑语义和空间位置双重因素的影响，二是与解决海量数据的匹配效率问题。设计思路：首先创建分区单元，将专题数据和地名地址数据分别与分区单元面进行空间叠加分析，获取分区单元信息；以分区为计算单位依次计算每条专题数据与位于同一分区内所有地名地址的匹配度，比较得到匹配度最高的地名地址，并输出结果。基于空间位置的地名地址匹配方法思路如图1所示。

2.2 实现关键技术

（1）数据预处理

由于不同部门的专题数据中位置描述信息不规范、不统一，需对位置描述信息进行规范化处理。比如对楼栋号的描述就有“1、壹、A、甲······”，分隔符也有“下划线、分隔符、左右斜杠······”等多种表达，应先对数据进行规范化预处理以提高匹配度。

（2）分区单元确定

为提高海量数据的匹配效率和匹配精度，缩小比较范围和计算量，需确定分区单元。分区单元粒度的划分由数据源的几何精度确定，如精度较高一般能落在同一院落内部则优先选用院落面进行分区；否则可采用由道路或水系分割形成的街区面、社区或村行政区划面等。

（3）模糊匹配计算

将数据覆盖范围划分成不同的分区单元后，利用空间叠加分析将地名地址数据和专题数据分别获取分区单元信息，将同一分区单元的数据进行模糊匹配，计算其相似度。利用Python计算每条专题数据与同一分区单元内所有地名地址数据的匹配相似度S1、S2、S3······Sn，得到匹配度最高Smax的地名地址及其两者之间的连线，输出匹配结果。其中：

S max =max{S 1 、S 2 、S 3 ······S n }

根据输出的匹配结果，含匹配最大相似度、匹配名称和距离等信息，结合人工进一步分析对比。

2.3 应用与分析

为验证该方法的有效性，在智慧蓉城地理实体生产与更新建设项目中，利用本方法对收集到的政务云平台约51万条地址数据与成都市现有约22万条地址数据库进行匹配和融合。从数据来源上，政务云平台数据大多来自部门专题数据以及互联网数据，成都市现有地址数据库来源于外业调绘；从覆盖区域上，政务云平台数据覆盖全市域，成都市现有地址数据库主要覆盖城市建成区，但有重复覆盖区域；从几何精度和现势性上，成都市现有地址数据库均优于政务云平台数据。分区范围优先选用院落面，如无院落面则用街区面、社区或村面。

利用本方法计算匹配结果，语义完全一致而位置接近的（约2.3万条，占4.5%）直接采用原地名地址数据库数据，语义不一致但与周围相比符合逻辑的（约26万条，占51%）以及完全新增（约21.5万条，占42.15%）的可用于补充完善地址数据库，有矛盾的如同一位置但门牌号或楼栋号不一致等进行标注（约1.2万条，占23.5%）待外业进一步核实。利用本方法节省了约75%人工对比工作量，极大地提高了数据融合的效率和准确度，提升了成都市地名地址数据库的完整性、时效性和权威性。

3 基于位置描述的地名地址匹配算法

3.1 设计思路

对于仅有位置描述无空间坐标的地名地址匹配，关键是对位置描述信息进行中文地址分级分词规范化处理，并基于规范化分词结果与地名地址数据空间库进行逐级匹配，进而得到匹配度最高的空间化结果。为提高不规范的位置描述信息的中文分词精度和准确度，引入完整性、规范性的地名地址词典库，可有效简化分词算法。再将分级分词结果依次与现有的各级别地名地址数据库依次进行匹配，得到最终匹配结果，如图2所示。

3.2 实现关键技术

（1）地名地址词典库构建

为提高不规范、非结构化中文地址信息分词的正确性和效率，需构建完整、丰富的地名地址词典库。将地名地址库中包含的所有名称信息单独导出为地名地址词典库，如不同级别的行政区划名称(“四川省”“成都市”“＊＊街办/镇”“＊＊社区、村”)、管理单元名称(“＊＊工业园区”“*科技园”等)、道路名、院落名等，并同时添加历史地名、行政区划改革前后的所有地名(如“郫都区”“郫县”等)。地名地址词典库中存放了可能涉及的各类各级地名信息，是分词算法匹配的主要对象，可为不规范的地名地址描述的中文分词提供完整、规范的地名关键词信息，可有效简化分词算法，提高地名地址分词的识别率和准确性。

（2）中文地址分级分词

由于不同部门的专题数据中，位置描述信息不规范、不统一，需对位置描述信息进行规范化中文分词处理。根据我国地名地址描述规范，一般分为行政区划名、街道名或小区名、门楼址或标志物名三个层次，而在实际表述中包括街道名+门址+楼址、街道名+门址、小区名+楼址、街道名+小区名+楼址等多种形式。可利用前期构建的地名地址词典库，依次对位置描述信息进行模糊匹配，如位置描述信息中包含地名地址词典库中的分级名称，如“四川省”“成都市”“锦江区”“柳江街道/街办/街道办事处”“墨香路”或“火炬动力港”等词汇，如匹配成功则自动拆分成不同层级分词模型。基于地名地址词典库的中文地址分级分词方法思路如图3所示。对位置描述进行中文分级分词结果示例如表2所示。

（3）不同分级的地名地址匹配

根据位置描述拆分的分级分词模型，判断该位置描述信息的可自动匹配到哪个层级模型或哪种精度。匹配精度除了与位置描述信息的规范性、完整性有关外，也取决于地名地址数据库的采集粒度、精度、完整性、现势性等因素，如成都市地名地址数据库最小粒度为楼址但有些城市的采集粒度可能细化到单元、房间号等，地名信息采集的完整性和现势性也有所不同。在进行地址匹配时，优先对最小粒度的地址进行匹配，如含楼址信息的应优先匹配到楼址，其次为门址、院落、道路、村组、社区等。

3.3 应用与分析

在成都市违建普查和环卫设施普查项目中，提供的违建项目地址描述大多是“小区+楼址”形式，环卫设施同时存在“街道名+门址”“小区”等多种形式。利用本方法先基于成都市分级分词地名库对地址描述进行自动中文地址分级分词，进而与地名地址数据库进行匹配，得到空间化的初步成果，分词及匹配结果示例如表2所示。实践证明，匹配效率与地名地址词典库的完整性以及原始地址描述准确性有直接关系，如原始地址描述较为准确完整匹配效率可达90%以上。此外，由于原始地址描述的详细程度和具体定位不同，还需根据初步定位结果及余词信息做进一步人工核实。

4 结语

地名地址作为连接空间数据和非空间数据的纽带，是实现城市政务信息共享的前提。本文通过地名地址匹配技术，分别实现了对含空间坐标和只有位置描述的两类政务信息融合的方法。实践证明，本文方法不仅能提高多源、异构、海量政务信息资源的整合效率，且为实现政务数据与地理实体的关联，打通不同行业信息的壁垒，推动智慧城市建设和数据共享奠定了基础。

作者：李新双，陈军胜，刘化冰，赵丽丽

来源：《城市勘测》2024年3期

选稿：耿曈

编辑：杜佳玲

校对：汪依婷

审订：贺雨婷

责编：耿曈

（由于版面内容有限，文章注释内容请参照原文）

微信扫码加入

中国地名研究交流群

QQ扫码加入

江西地名研究交流群

欢迎来稿！欢迎交流！

转载请注明来源：“江西地名研究”微信公众号

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.