System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多源地名数据的处理方法及装置制造方法及图纸_技高网

一种多源地名数据的处理方法及装置制造方法及图纸

技术编号:44597670 阅读:0 留言:0更新日期:2025-03-14 12:53
本申请提供了一种多源地名数据的处理方法及装置,该方法包括:获取任务区范围内的初始地名数据集、增量地名数据集以及行政区划数据集;对初始地名数据集和增量地名数据集进行预处理,得到符合通用格式要求的第一地名数据集和第二地名数据集;以最低行政单元等级为基本匹配融合单元,对第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,得到第三地名数据集;对第三地名数据集中的地名数据进行译写处理,得到目标语言类型的候选地名数据集;对候选地名数据集依次进行空间合规性处理以及接边完整性处理,得到目标地名数据集。这样,通过本申请的技术方案可有效提高多源地名数据的处理效率以及处理结果的准确度等。

【技术实现步骤摘要】

本申请涉及地理信息,尤其是涉及一种多源地名数据的处理方法及装置


技术介绍

1、地名是人们对某一特定空间位置上自然或人文地理实体赋予的专有名称,是重要的基础地理信息和社会公共信息资源,在国防建设、经济发展等方面发挥着重要作用。伴随数据全球化合作的日益紧密和互联网技术的迅速发展,社会各界对地名数据的需求日益提高,地名数据同时也属于重要的测绘地理信息数据,全球地理信息资源建设和发展需要境内外地名数据的持续高效获取和更新,互联网上存在了大量可免费获取的开源地名数据和包含行政地名的其他数据,如geonames、osm(open street map)、gadm(database ofglobal administrative areas)、geocode earth等。

2、但因互联网地名数据来源不一,多源地名之间存在互相重叠、冗余,现有的技术仅是对多源地名进行简单的获取、清洗、分类映射和融合等,依然存在着融合结果差等客观问题。


技术实现思路

1、有鉴于此,本申请的目的在于提供一种多源地名数据的处理方法及装置,通过本申请的技术方案可有效提高多源地名数据的处理效率以及处理结果的准确度等。

2、本申请实施例提供了一种多源地名数据的处理方法,所述处理方法包括:

3、获取任务区范围内的初始地名数据集、增量地名数据集以及行政区划数据集;

4、对所述初始地名数据集和增量地名数据集进行预处理,得到符合通用格式要求的第一地名数据集和第二地名数据集;

<p>5、以最低行政单元等级为基本匹配融合单元,对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,得到融合后的第三地名数据集;其中,所述最低行政单元等级根据所述行政区划数据集确定;

6、基于预设译写规则对所述第三地名数据集中的地名数据进行译写处理,得到目标语言类型的候选地名数据集;

7、对所述候选地名数据集依次进行空间合规性处理以及接边完整性处理,得到目标地名数据集。

8、可选的,所述预处理包括以下至少一种处理方式:数据格式转换、空间参考系统统一、结构规范化处理、数据清洗、地名分类映射、字段映射、罗马化转写以及属性编码。

9、可选的,所述以最低行政单元等级为基本匹配融合单元,对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,包括:

10、针对同一基本匹配融合单元下的所述第一地名数据集中的地名数据和第二地名数据集中的地名数据,确定两地名数据的类别代码是否一致、以及确定两地名数据的外文名称属性值是否一致;

11、若两者均一致时,则将两地名数据进行融合处理,形成第三地名数据集中的地名数据。

12、可选的,若两地名数据的类别代码一致、但两地名数据的外文名称属性值不一致时,所述对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,包括:

13、根据地名通名同义词对照规则库,识别两地名数据是否为同义变体;

14、若为是,将两地名数据进行融合处理;

15、若为否,采用编辑距离算法确定两地名数据间的地名相似度;

16、若两地名数据间的地名相似度大于相似度阈值,则将两地名数据进行融合处理。

17、可选的,所述地名相似度的计算公式为:

18、s=1-e/l

19、其中,s为地名相似度,e表示两个地名数据之间的莱文斯坦编辑距离,l表示两个地名数据外文名称字符串的最大长度。

20、可选的,所述基于预设译写规则对所述第三地名数据集中的地名数据进行译写处理,得到目标语言类型的候选地名数据集,包括:

21、针对所述第三地名数据集中的每个地名数据,识别该地名数据的所属语言类型;

22、根据该地名数据的所属语言类型以及目标语言类型,确定目标译写规则;

23、按所述目标译写规则首先对该地名数据中的专名部分进行地名音节切分以及音译翻译,再对该地名数据中的通名部分进行通名意译翻译;

24、对经过翻译后的专名和通名进行词序调整,得到目标语言类型的候选地名数据,并根据所有候选地名数据组成候选地名数据集。

25、可选的,所述对所述候选地名数据集依次进行空间合规性处理以及接边完整性处理,得到目标地名数据集,包括:

26、针对候选地名数据集中的每个候选地名数据,根据对应的核心矢量要素数据对该候选地名数据进行空间拓扑关系验证,并对验证结果进行异常纠正以及异常记录;

27、获取该候选地名数据集所对应的接边参考数据;

28、根据所述接边参考数据,按预设接边处理策略,对经过空间合规性处理后的候选地名数据集中的接边地名数据进行处理,得到目标地名数据集。

29、本申请实施例还提供了一种多源地名数据的处理装置,所述处理装置包括:

30、获取模块,用于获取任务区范围内的初始地名数据集、增量地名数据集以及行政区划数据集;

31、预处理模块,用于对所述初始地名数据集和增量地名数据集进行预处理,得到符合通用格式要求的第一地名数据集和第二地名数据集;

32、融合模块,用于以最低行政单元等级为基本匹配融合单元,对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,得到融合后的第三地名数据集;其中,所述最低行政单元等级根据所述行政区划数据集确定;

33、译写模块,用于基于预设译写规则对所述第三地名数据集中的地名数据进行译写处理,得到目标语言类型的候选地名数据集;

34、协同处理模块,用于对所述候选地名数据集依次进行空间合规性处理以及接边完整性处理,得到目标地名数据集。

35、可选的,所述预处理包括以下至少一种处理方式:数据格式转换、空间参考系统统一、结构规范化处理、数据清洗、地名分类映射、字段映射、罗马化转写以及属性编码。

36、可选的,所述融合模块在用于以最低行政单元等级为基本匹配融合单元,对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理时,所述融合模块用于:

37、针对同一基本匹配融合单元下的所述第一地名数据集中的地名数据和第二地名数据集中的地名数据,确定两地名数据的类别代码是否一致、以及确定两地名数据的外文名称属性值是否一致;

38、若两者均一致时,则将两地名数据进行融合处理,形成第三地名数据集中的地名数据。

39、可选的,若两地名数据的类别代码一致、但两地名数据的外文名称属性值不一致时,所述融合模块在用于对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理时,所述融合模块用于:

40、根据地名通名同义词对照规则库,识别两地名数据是否为同义变体;

41、若为是,将两地名数据进行融合本文档来自技高网...

【技术保护点】

1.一种多源地名数据的处理方法,其特征在于,所述处理方法包括:

2.根据权利要求1所述的处理方法,其特征在于,所述预处理包括以下至少一种处理方式:数据格式转换、空间参考系统统一、结构规范化处理、数据清洗、地名分类映射、字段映射、罗马化转写以及属性编码。

3.根据权利要求1所述的处理方法,其特征在于,所述以最低行政单元等级为基本匹配融合单元,对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,包括:

4.根据权利要求3所述的处理方法,其特征在于,若两地名数据的类别代码一致、但两地名数据的外文名称属性值不一致时,所述对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,包括:

5.根据权利要求4所述的处理方法,其特征在于,所述地名相似度的计算公式为:

6.根据权利要求1所述的处理方法,其特征在于,所述基于预设译写规则对所述第三地名数据集中的地名数据进行译写处理,得到目标语言类型的候选地名数据集,包括:

7.根据权利要求1所述的处理方法,其特征在于,所述对所述候选地名数据集依次进行空间合规性处理以及接边完整性处理,得到目标地名数据集,包括:

8.一种多源地名数据的处理装置,其特征在于,所述处理装置包括:

9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的处理方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的处理方法的步骤。

...

【技术特征摘要】

1.一种多源地名数据的处理方法,其特征在于,所述处理方法包括:

2.根据权利要求1所述的处理方法,其特征在于,所述预处理包括以下至少一种处理方式:数据格式转换、空间参考系统统一、结构规范化处理、数据清洗、地名分类映射、字段映射、罗马化转写以及属性编码。

3.根据权利要求1所述的处理方法,其特征在于,所述以最低行政单元等级为基本匹配融合单元,对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,包括:

4.根据权利要求3所述的处理方法,其特征在于,若两地名数据的类别代码一致、但两地名数据的外文名称属性值不一致时,所述对所述第一地名数据集和第二地名数据集中属于同一基本匹配融合单元的地名数据进行融合处理,包括:

5.根据权利要求4所述的处理方法,其特征在于,所述地名相似度的计算公式为:

6.根据权利要求1...

【专利技术属性】
技术研发人员:林尚纬杜晓周琦陈家阁关茜徐萌张宏伟彭舒吴晨琛张俊辉万咏涛
申请(专利权)人:国家基础地理信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1