地址处理方法、装置、电子设备及计算机程序产品制造方法及图纸

技术编号:39280104 阅读:7 留言:0更新日期:2023-11-07 10:54
本申请涉及数据处理领域,提供一种地址处理方法、装置、电子设备及计算机程序产品。所述地址处理方法包括:计算已收集地址的标记值,根据所述标记值,筛选各所述已收集地址中的地址样本;计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型;将待处理地址输入到所述地址结构化模型中,得到地址处理结果。本申请通过地址样本及其结构得分训练得到的地址结构化模型对待处理地址进行处理,完成对待处理地址的处理,实现了地址数据的清理和融合,提高了地址数据的完整性和准确性。的完整性和准确性。的完整性和准确性。

【技术实现步骤摘要】
地址处理方法、装置、电子设备及计算机程序产品


[0001]本申请涉及数据处理领域,具体涉及一种地址处理方法、装置、电子设备及计算机程序产品。

技术介绍

[0002]单源地址数据很难全面描述地理真实实体的完整特征,然而,即使存在海量地址数据资源,多源地址数据在地址层级结构、各属性描述和地址层级完整度上,也存在一定差异性和质量问题。多源异构地址数据存在对同一实体表达方式不同的问题,目前在对多源地址数据进行融合时,不同来源的地址数据在数据格式、属性结构等方面存在差异,会产生不一致性、数据缺失及数据重复等导致数据质量不高的问题。因此,如何得到信息量更为丰富和完整的地址数据,更高效地对多源异构地址数据进行清理和融合,以提高地址数据的完整性和准确性,便成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例提供一种地址处理方法、装置、电子设备及计算机程序产品,用以解决如何实现地址数据的清理和融合,提高地址数据的完整性和准确性的技术问题。
[0004]第一方面,本申请实施例提供一种地址处理方法,包括:
[0005]计算已收集地址的标记值,根据所述标记值,筛选各所述已收集地址中的地址样本;
[0006]计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型;
[0007]将待处理地址输入到所述地址结构化模型中,得到地址处理结果。
[0008]在一个实施例中,所述计算已收集地址的标记值的步骤之前包括:
[0009]根据预设标准地址词典对待收集地址进行补全,对补全后的待收集地址进行地址元素验证;
[0010]在所述补全后的待收集地址验证通过的情况下,将所述补全后的待收集地址作为已收集地址存入数据库。
[0011]在一个实施例中,所述计算已收集地址的标记值的步骤包括:
[0012]确定已收集地址中各字符的出现次数,根据所述出现次数计算各所述字符对应的差异性数值、字符重要度以及综合值;
[0013]确定各所述字符对应的预测不确定值;
[0014]根据所述差异性数值、所述字符重要度、所述综合值以及所述预测不确定值,计算所述已收集地址的标记值。
[0015]在一个实施例中,所述计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型的步骤包括:
[0016]根据所述地址样本拓展预设类别标签,得到目标地址层级结构;
[0017]根据所述目标地址层级结构计算所述地址样本的结构得分;
[0018]根据所述结构得分和预设损失函数调整模型参数,得到调整后的模型参数对应的地址结构化模型。
[0019]在一个实施例中,所述将待处理地址输入到所述地址结构化模型中,得到地址处理结果的步骤之后包括:
[0020]确定所述地址处理结果对应的第一地址和第二地址;
[0021]根据所述目标地址层级结构对所述第一地址和所述第二地址进行解析,分别得到第一字段和第二字段;
[0022]确定所述第一字段的第一词频和第一逆文档频率,以及所述第二字段的第二词频和第二逆文档频率;
[0023]根据所述第一词频、所述第一逆文档频率、所述第二词频以及所述第二逆文档频率,确定所述第一地址和所述第二地址的文本相似度。
[0024]在一个实施例中,所述根据所述第一词频、第一逆文档频率、第二词频以及第二逆文档频率,确定所述第一地址和第二地址的文本相似度的步骤包括:
[0025]根据所述第一词频和所述第一逆文档频率确定第一向量,根据所述第二词频和所述第二逆文档频率确定第二向量;
[0026]根据所述第一字段检索所述第二地址,得到第一检索结果,根据所述第二字段检索所述第一地址,得到第二检索结果;
[0027]根据所述第一向量、所述第二向量、所述第一检索结果以及所述第二检索结果,确定所述第一地址和第二地址的文本相似度。
[0028]在一个实施例中,所述根据所述第一词频、所述第一逆文档频率、所述第二词频以及所述第二逆文档频率,确定所述第一地址和所述第二地址的文本相似度的步骤之后,包括:
[0029]根据所述第一地址的经纬度以及所述第二地址的经纬度,确定所述第一地址和所述第二地址的真实距离;
[0030]根据所述真实距离与所述文本相似度,确定所述第一地址和第二地址的地理相似度。
[0031]第二方面,本申请实施例提供一种地址处理装置,包括:
[0032]地址样本筛选模块,用于计算已收集地址的标记值,根据所述标记值,筛选各所述已收集地址中的地址样本;
[0033]地址结构化模型训练模块,用于计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型;
[0034]地址处理模块,用于将待处理地址输入到所述地址结构化模型中,得到地址处理结果。
[0035]第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现第一方面所述的地址处理方法的步骤。
[0036]第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的地址处理方法的步骤。
[0037]本申请实施例提供的地址处理方法、装置、电子设备及计算机程序产品,通过计算
已收集的地址的标记值,然后基于标记值从已收集地址中筛选出地址样本,进一步计算筛选出的地址样本的结构得分,根据地址样本及其结构得分训练得到地址结构化模型,最后将待处理地址输入到训练得到的地址结构化模型中,得到地址结构化模型输出的地址处理结果,完成对待处理地址的处理,实现了地址数据的清理和融合,提高了地址数据的完整性和准确性。
附图说明
[0038]为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1是本申请实施例提供的地址处理方法的流程示意图之一;
[0040]图2是本申请实施例提供的地址处理方法的流程示意图之二;
[0041]图3是本申请实施例提供的地址处理装置的结构示意图;
[0042]图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0043]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044]参照图1,图1是本申请实施例中地址处理方法的流程示意图之一。本申请实施例提供的地址处理方法,可以包括:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地址处理方法,其特征在于,包括:计算已收集地址的标记值,根据所述标记值,筛选各所述已收集地址中的地址样本;计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型;将待处理地址输入到所述地址结构化模型中,得到地址处理结果。2.根据权利要求1所述的地址处理方法,其特征在于,所述计算已收集地址的标记值的步骤之前包括:根据预设标准地址词典对待收集地址进行补全,对补全后的待收集地址进行地址元素验证;在所述补全后的待收集地址验证通过的情况下,将所述补全后的待收集地址作为已收集地址存入数据库。3.根据权利要求1所述的地址处理方法,其特征在于,所述计算已收集地址的标记值的步骤包括:确定已收集地址中各字符的出现次数,根据所述出现次数计算各所述字符对应的差异性数值、字符重要度以及综合值;确定各所述字符对应的预测不确定值;根据所述差异性数值、所述字符重要度、所述综合值以及所述预测不确定值,计算所述已收集地址的标记值。4.根据权利要求1所述的地址处理方法,其特征在于,所述计算所述地址样本的结构得分,根据所述地址样本和所述结构得分训练得到地址结构化模型的步骤包括:根据所述地址样本拓展预设类别标签,得到目标地址层级结构;根据所述目标地址层级结构计算所述地址样本的结构得分;根据所述结构得分和预设损失函数调整模型参数,得到调整后的模型参数对应的地址结构化模型。5.根据权利要求4所述的地址处理方法,其特征在于,所述将待处理地址输入到所述地址结构化模型中,得到地址处理结果的步骤之后包括:确定所述地址处理结果对应的第一地址和第二地址;根据所述目标地址层级结构对所述第一地址和所述第二地址进行解析,分别得到第一字段和第二字段;确定所述第一字段的第一词频和第一逆文档频率,以及所述第二字段的第二词频和第二逆文档频率;根据所述第一词频、所述第一...

【专利技术属性】
技术研发人员:麦健陈雅娟陈辉张晓川邓逸斌
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1