【技术实现步骤摘要】
地址纠错方法及装置
[0001]本申请涉及互联网
,尤其涉及一种地址纠错方法及装置。
技术介绍
[0002]随着地址文本的使用日趋广泛,地址文本中出现错误的概率也日益提高。由于地址文本中出现错误会影响地址的准确性,因而,如何对地址文本进行纠错是一个值得关注的问题。
[0003]在对地址文本进行纠错的过程中,相关技术会从与待纠错的地址文本匹配的多个地址文本中选择出相似度最高(例如读音相似度最高)的地址文本作为目标地址文本,并用此目标地址文本作为待纠错的地址文本的替换文本。
[0004]然而,相关技术中这种基于相似度进行地址纠错的方式会存在准确率不高的问题。
技术实现思路
[0005]本申请实施例提供一种地址纠错方法及装置,以解决相关技术中的地址纠错方式的准确率不高的问题。
[0006]第一方面,本申请提供了一种地址纠错方法,所述方法包括:
[0007]获取待纠错的地址文本;
[0008]确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;
[0009]基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;
[0010]基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。
[0011]第二方面,本申请提供了一种地址纠错装置,所述装置包括:
[0012]获取模块,用于获取 ...
【技术保护点】
【技术特征摘要】
1.一种地址纠错方法,其特征在于,所述方法包括:获取待纠错的地址文本;确定与所述待纠错的地址文本对应的地址节点列表,所述地址节点列表包括至少一个节点分支,所述节点分支包括基于地址字典树得到的地址节点,一个地址节点对应于一个行政区域;基于所述至少一个节点分支中每一个节点分支的权重分值或所包含的地址节点的数目,确定目标节点分支;基于所述目标节点分支,确定与所述待纠错的地址文本对应的目标地址。2.根据权利要求1所述的方法,其特征在于,所述确定与所述待纠错的地址文本对应的地址节点列表包括:基于所述待纠错的地址文本,获取第一地址文本,所述第一地址文本包括至少一个行政区域文本,所述至少一个行政区域文本中的各个行政区域文本按照行政区域级别大小顺序排列;通过所述地址字典树将所述第一地址文本中的各个行政区域文本转换为地址节点,其中,一个行政区域文本对应于一个地址节点;基于转换得到的所述地址节点,确定所述地址节点列表。3.根据权利要求2所述的方法,其特征在于,所述基于转换得到的所述地址节点,确定所述地址节点列表包括:对于转换得到的所述地址节点中不存在子节点的第一地址节点,将所述第一地址节点作为节点分支加入至地址节点列表中;对于转换得到的所述地址节点中存在子节点的第二地址节点,将所述第二地址节点和所述第二地址节点的子节点共同作为节点分支,加入至所述地址节点列表中。4.根据权利要求2所述的方法,其特征在于,所述基于所述待纠错的地址文本,获取第一地址文本包括:基于已预先训练好的第一模型,确定所述待纠错的地址文本中的各个行政区域文本;通过文本匹配模型,确定所述待纠错的地址文本中各个行政区域文本对应的匹配文本;基于所述各个行政区域文本对应的匹配文本,获取所述第一地址文本。5.根据权利要求4所述的方法,其特征在于,所述第一模型是基于地址标注数据对预训练模型进行调整得到的,所述地址标注数据是对按照正确的行政区域级别大小顺序排列好的地址文本进行文字操作得到的,所述文字操作包括以下至少一种:文字增加操作、文字删除操作、文字替换操作以及文字顺序调整操作。6.根据权利要求1
‑
5任一项所述的方法,其特征在于,所述基于所述至少一个节点分支中每一个节点分支所包含的地址节点的数目,确定目标节点分支包括:确定所述至少一个节点分支中每一个节点分支所包含的地址节点的数目;将包含的地址节点数目最多的节点分支,确定为所述目标节点分支。7.根据权利要求1
‑
5任一项所述的方法,其特征在于,所述基于所述至少一个节点分支中每一个节点分支的权重分值,确定目标节点分支包括:确定所述至少一个节点分支中每一个节点分支的权重分值;
将所述至少一个节点分支中权重分值最高的节点分支,确定为所述目标节点分支。8.根据权利要求7所述的方法,其特征在于,所述确定所述至少一个节点分支中每一个节点分支...
【专利技术属性】
技术研发人员:罗奇帅,王洪斌,吴海英,权佳成,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。