江西地名研究
关注我们,获取更多地名资讯
摘要:随着社会经济的迅速发展,社会各界对地理空间数据的现势性要求日益提高,地名地址数据作为主要的地理空间数据之一,开展数据的快速更新是亟需解决的问题。文章对地名地址数据的更新各流程进行了深入研究,探索总结出了一套切实可行的地名地址数据更新方法,并且设计开发了基于互联网数据的地名地址更新系统,通过系统测试验证了更新方法的可行性和系统的效率。
关键词:互联网数据;地名地址;更新系统
地名地址数据不仅是重要的基础地理信息数据,还是城市发展的重要基础信息资源,然而现在地名地址数据更新主要还是采用外业调绘的方式进行,存在人工采集量大、数据更新周期长的问题。随着互联网技术的发展,互联网上存在了大量的位置数据,为地名地址数据的更新提供了海量的数据源。因此,本研究面向互联网地名地址数据整合与更新需求,从互联网地名地址数据高效获取、数据治理、数据质量评价、数据更新等方面对地名地址数据的获取和更新进行关键技术研究,研究形成基于互联网数据的地名地址数据更新系统。
1 更新方法
地名地址数据更新的技术流程主要包括互联网数据获取、地名地址数据清理、地名地址数据质量评价、数据更新等四部分内容,如图1所示。
1.1 互联网数据获取
本研究分析可能包含地名地址的网页,形成目标网站集,归纳总结地名地址搜索的词汇库。在网站集和词汇库基础上构建地名地址搜索规则,结合爬虫调用技术完成地名地址数据的快速获取。
1.2 地名地址数据清理
互联网获取的数据存在格式不同、属性不同、结构不同的问题,因此对于获取的数据需要进行统一的清理。本研究基于Kettle工具,开展了原始数据到关系数据的全过程处理,实现了地名地址数据抽取、质量检测、数据清洗、数据转换、数据过滤等清理过程。
1.3 地名地址数据质量评价
清理后的地名地址数据会仍然存在同一个地名地址具有多来源的问题,因此本研究建立了一套完整的地名地址数据质量评价模型,确保数据更新来源的可靠性与实时性。
首先,本研究建立了地名地址质量评价的指标(见表1),主要包含二类基本评估指标。第一类是数据质量评价,主要用来评估数据是可信的,包括精确性、完整性、一致性、有效性、唯一性等指标。其中精确性描述数据是否与其对应的客观实体的特征相一致。完整性描述数据是否存在缺失记录或缺失字段。一致性描述同一实体的同一属性的值在不同的系统或数据集中是否一致。有效性描述数据是否满足用户定义的条件或在一定的值域范围内。唯一性描述数据是否存在重复记录。稳定性描述数据是否是稳定的,是否在其有效期内。第二类是数据时空评价,主要是由数据的采集时间有效性与空间距离位置决定。
其次本研究基于该地名地址数据质量评价指标,综合应用简单比率法、最小/最大值法、以及加权平均法建立地名地址数据的评价打分模型,通过评分结果获取最可信和时效性最好的数据。
1.4 地名地址数据更新
确定最优地名地址更新源后需要对地名地址的本底数据进行更新,该环节的关键问题是解决本底数据和更新数据重复的问题,因此本研究设计了数据查重的规则,主要是结合名称相似性和位置的相近性来判断数据重复率,进而完成地名地址数据的更新。
2 系统设计
2.1 系统架构
本次科研课题研究在CenterOS为服务器系统的环境下,以Intelli JIDEA为开发工具,通过Maven集成了MyBatis、Swagger、GDAL等多开发包组件,采用B/C结构,建立了基于互联网的多源数据地理信息更新系统,总体架构包括了基础设施层、数据层、系统服务层与应用层,总体架构设计如图2所示。
2.2 系统测试
为验证本研究方法的可行性和更新系统的效率,本研究以长沙市某小区为例,利用本研究开发的更新系统开展了数据的获取、数据清理和数据更新,测试更新范围约240000平方米,更新时间约30分钟。通过更新前后数据对比可以发现,该小区交房时间是2019年,地名地址数据的本底数据采集时间为2020年,更新范围地名地址数据39条,如图3(a)所示,通过该系统更新后,截至2022年11月,更新范围地名地址数据达128条,如图3(b)所示。经过野外数据核查,地名地址本底库的数据约占实际总数量的30%,而更新后该区的地名地址数据占了实际总量的98%,基本满足了地名地址数据更新的要求。
3 结束语
本研究对地名地址数据的更新各流程进行了深入研究,探索总结出了一套切实可行的地名地址数据更新方法,该方法通过以特定网站集作为数据源,利用互联网信息检索技术对数据进行获取,同时建立了数据清理、数据质量评价模型和数据查重规则,可快速的完成地名地址数据的动态更新。同时,本研究完成了基于互联网数据的地名地址更新系统开发,实现了地名地址数据的获取和更新,丰富了地名地址数据的更新手段,提高了数据更新效率,降低了数据更新成本。
作者:孙华,胡娈运,段佳,夏茜旸
来源:《电脑与信息技术》2023年第6期
选稿:耿 曈
编辑:王玉凤
校对:刘 言
审订:杜佳玲
责编:汪鸿琴
(由于版面有限,文章注释内容请参照原文)
微信扫码加入
中国地名研究交流群
QQ扫码加入
江西地名研究交流群
欢迎来稿!欢迎交流!
转载请注明来源:“江西地名研究”微信公众号
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.