地址数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38710959 阅读:26 留言:0更新日期:2023-09-08 14:53
本申请提供一种地址数据处理方法、装置、电子设备及存储介质,涉及数据处理技术领域,致力于将地址数据转换为更为准确且完整的高价值数据。该方法包括:获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果;基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词;确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。址数据。址数据。

【技术实现步骤摘要】
地址数据处理方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种地址数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着导航技术以及搜索引擎的发展,网络中产生了大量的地址数据,这些地址数据纷繁复杂、表述不一,这对地址数据管理以及应用造成了很大的困难。因此,对地址数据进行清洗有重要的现实意义。
[0003]现有技术在对地址数据清洗时,通过对地址数据执行关键字查询、近义词替换等过程,这样得到的清洗数据并不理想。例如,清洗后的地址数据仍然可能存在信息不完整的问题以及清洗后的数据准确性较低的问题,因此利用价值并不高。

技术实现思路

[0004]本申请提供一种地址数据处理方法、装置、电子设备及存储介质,致力于将地址数据转换为更为准确且完整的高价值数据。
[0005]为达到上述目的,本申请采用如下技术方案:
[0006]第一方面,提供一种地址数据处理方法,方法包括:获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果;语义模型用于识别地址导向词;在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词;确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。
[0007]可选的,预设行政区划词库包括多个预设行政区划词;分词结果包括第一子结果,第一子结果为基于预设行政区划词库对源地址数据进行分词处理得到的;基于预设行政区划词库对源地址数据进行分词处理,得到第一子结果,包括:对各预设行政区划词进行划分,得到各预设行政区划词的第一行政区划子词以及第二行政区划子词;第一行政区划子词的区划等级大于或者等于预设等级,第二行政区划子词的区划等级小于预设等级;以第一行政区划子词作为头节点、第二行政区划子词作为子节点,构建前缀搜索树;基于前缀搜索树,在源地址数据中进行识别,得到第一子结果。
[0008]可选的,在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,包括:在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第一地理信息数据库中进行第一检索,得到第一检索结果;基于分词结果在第一地理信息数据库中进行第二检索,得到第二检索结果;在第一检索结果包括至少一个第一兴趣点以及各第一兴趣点对应的匹配度,和/或第二检索结果包括至少一个第二兴趣点以及各第二兴趣点
对应的匹配度的情况下,根据第一检索结果以及第二检索结果,得到多个兴趣点,并从多个兴趣点中选取匹配度最高的兴趣点作为目标兴趣点。
[0009]可选的,获取目标兴趣点对应的标准行政区划词,包括:获取目标兴趣点的位置信息,并根据逆地理服务检索得到目标兴趣点对应的标准行政区划词。
[0010]可选的,方法还包括:在第一检索结果以及第二检索结果均为空值的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库的数据量;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。
[0011]可选的,方法还包括:在分词结果中不存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。
[0012]第二方面,提供一种地址数据处理装置,装置包括获取单元、处理单元以及确定单元;获取单元,用于获取源地址数据;处理单元,用于基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果;语义模型用于识别地址导向词;确定单元,用于在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词;确定单元,还用于确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。
[0013]可选的,预设行政区划词库包括多个预设行政区划词;分词结果包括第一子结果,第一子结果为基于预设行政区划词库对源地址数据进行分词处理得到的;处理单元,具体用于:对各预设行政区划词进行划分,得到各预设行政区划词的最高行政区划子词以及非最高行政区划子词;以最高行政区划子词作为头节点、非最高行政区划子词作为子节点,构建前缀搜索树;基于前缀搜索树,在源地址数据中进行索引,得到第一子结果。
[0014]可选的,确定单元,具体用于:在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第一地理信息数据库中进行第一检索,得到第一检索结果,以及,基于分词结果在第一地理信息数据库中进行第二检索,得到第二检索结果;在第一检索结果包括至少一个第一兴趣点以及各第一兴趣点对应的匹配度,和/或第二检索结果包括至少一个第二兴趣点以及各第二兴趣点对应的匹配度的情况下,获取第一检索结果以及第二检索结果,得到多个兴趣点,并从多个兴趣点中选取匹配度最高的兴趣点作为目标兴趣点。
[0015]可选的,确定单元,具体用于:获取目标兴趣点的位置信息,并根据逆地理服务检索得到目标兴趣点对应的标准行政区划词。
[0016]可选的,确定单元,还用于:在第一检索结果以及第二检索结果均为空值的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库的数据量;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。
[0017]可选的,确定单元还用于:在分词结果中不存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。
[0018]第三方面,提供一种电子设备,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面的地址数据处理方法。
[0019]第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面的地址数据处理方法。
[0020]本申请提供的技术方案至少带来以下有益效果:地址处理装置获取源地址数据,并基于预设噪声词库、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址数据处理方法,其特征在于,所述方法包括:获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对所述源地址数据进行分词处理,得到分词结果;所述语义模型用于识别地址导向词;在所述分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于所述源地址数据、所述分词结果从第一地理信息数据库中确定目标兴趣点,并获取所述目标兴趣点对应的标准行政区划词;确定所述标准行政区划词与所述分词结果中的行政规划词之间的相似度,在所述相似度大于或者等于预设阈值的情况下,基于所述标准行政区划词、所述分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。2.根据权利要求1所述的地址数据处理方法,其特征在于,所述预设行政区划词库包括多个预设行政区划词;所述分词结果包括第一子结果,所述第一子结果为基于所述预设行政区划词库对所述源地址数据进行分词处理得到的;所述基于所述预设行政区划词库对所述源地址数据进行分词处理,得到所述第一子结果,包括:对各所述预设行政区划词进行划分,得到各所述预设行政区划词的第一行政区划子词以及第二行政区划子词;所述第一行政区划子词的区划等级大于或者等于预设等级,所述第二行政区划子词的区划等级小于所述预设等级;以所述第一行政区划子词作为头节点、所述第二行政区划子词作为子节点,构建前缀搜索树;基于所述前缀搜索树,在所述源地址数据中进行识别,得到所述第一子结果。3.根据权利要求1所述的地址数据处理方法,其特征在于,所述在所述分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于所述源地址数据、所述分词结果从第一地理信息数据库中确定目标兴趣点,包括:在所述分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于所述源地址数据在所述第一地理信息数据库中进行第一检索,得到第一检索结果;基于所述分词结果在所述第一地理信息数据库中进行第二检索,得到第二检索结果;在所述第一检索结果包括至少一个第一兴趣点以及各所述第一兴趣点对应的匹配度,和/或所述第二检索结果包括至少一个第二兴趣点以及各所述第二兴趣点对应的匹配度的情况下,根据所述第一检索结果以及所述第二检索结果,得到多个兴趣点,并从所述多个兴趣点中选取匹配度最高的兴趣点作为所述目标兴趣点。4.根据权利要求3所述的地址数据处理方法,其特征在于,所述获取所述目标兴趣点对应的标准行政区划词,包括:获取所述目标兴趣点的位置信息,并根据逆地理服务检索得到所述目标兴趣点对应的标准行政区划词。5.根据权利要求3所述的地址数据处理方法,其特征在于,所述方法还包括:在所述第一检索结果以及所述第二检索结果均为空值的情况下,基于所述源地址数据在第二地理信息数...

【专利技术属性】
技术研发人员:李金坤刘桐宇
申请(专利权)人:北京世纪高通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1