一种分层级地址文本相似度比对方法、装置及介质制造方法及图纸

技术编号:31162614 阅读:22 留言:0更新日期:2021-12-04 10:33
本发明专利技术公开了一种分层级地址文本相似度比对方法、装置及介质,属于信息比对技术领域,方法包括:接收待比对的至少两个地址文本信息,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。本发明专利技术能够解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。的精确度和稳定性。的精确度和稳定性。

【技术实现步骤摘要】
一种分层级地址文本相似度比对方法、装置及介质


[0001]本专利技术涉及信息比对
,特别涉及一种分层级地址文本相似度比对方法、装置及介质。

技术介绍

[0002]人类的各类活动都离不开位置,从数值上可以表示为空间坐标,从文本上则表征为通讯地址,通讯地址广泛存在于电商物流、信息登记、金融交通等领域,对通讯地址的分析、聚合服务是一项重要基础服务,它支撑着诸多互联网场景,比如地址异常筛查、物流分析等;实际应用中,地址文本存在写法自由、缺省别名多以及地域性强等特点,这对地址的解析、归一化和匹配等数据处理操作都造成了困难;目前针对这些问题,业内常见的做法是人工比对两个地址的文本;或者通过输入地址至地图服务中解析地理位置,从而判断是否为重叠位置的地址。
[0003]针对传统人工比对的处理方式有明显的弊端,主要是人工审核工作量极大;因为通常数据库中有大量的地址信息,例如有100条地址进行两两比对,共需要人工交叉比对100*100=10,000次,随着地址增多,比对次数也是呈指数级别增加,此外,如果采用地理位置坐标转换,则会引入、依赖第三方地图服务,这种做法在增加了不确定性的同时,也不适合某些包含隐私信息的敏感地址信息,更不适合离线部署。

技术实现思路

[0004]为了克服上述技术问题,本专利技术的目的在于提供一种分层级地址文本相似度比对方法、装置及介质,以解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。
[0005]本专利技术实施例提供的具体技术方案如下:
[0006]第一方面,提供了一种分层级地址文本相似度比对方法,所述方法包括:
[0007]接收待比对的至少两个地址文本信息;
[0008]对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
[0009]根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
[0010]进一步地,所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,包括:
[0011]将每个待处理的地址文本信息分为N层子信息,其中第1至N

1层为非详细子信息,第N层为详细子信息。
[0012]进一步地,所述根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对,包括:
[0013]将待比对的至少两个地址文本信息的第1至N

1层非详细子信息一一进行比对;
[0014]若存在至少一层比对结果不一致,则输出所述待比对的至少两个地址文本信息不一致;
[0015]若每一层的比对结果均一致,则对第N层子信息进行比对。
[0016]进一步地,所述对第N层子信息进行比对,还包括:
[0017]将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配,得到每种规则下待比对的至少两个地址文本信息的第N层子信息的相似度S1至Sm;
[0018]获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离dmin,其中最小编辑距离为两串文本变成相同的字符串文本所需要经过的最小编辑次数;
[0019]获取第N层子信息相似度比对方法的权重比值r;
[0020]通过计算至少两个地址文本信息的相似度S。
[0021]进一步地,所述对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理之前还包括:
[0022]对接收的待比对的至少两个地址文本信息进行格式化,并提取所述文本信息的地址层信息。
[0023]进一步地,所述对接收的待比对的至少两个地址文本信息进行格式化,包括:
[0024]对地址文本信息中缺失的信息进行补全;
[0025]和/或
[0026]对英文地址文本信息进行规范化表述。
[0027]进一步地,若待比对的至少两个地址文本信息为不同语种时,所述接收的待比对的至少两个地址文本信息进行格式化之后,包括:
[0028]将不同语种的待比对的至少两个地址文本信息翻译成统一的语种地址文本信息。
[0029]第二方面,提供了一种分层级地址文本相似度比对装置,所述装置包括:
[0030]接收模块接收待比对的至少两个地址文本信息;
[0031]处理模块对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;
[0032]比对模块根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。
[0033]第三方面,提供了一种计算机设备,所述设备包括:
[0034]存储器、处理器及存储在存储器上的计算机程序,所述处理器执行时实现第一方面任一所述的分层级地址文本相似度比对方法的步骤。
[0035]第四方面,提供了一种计算机介质,所述介质包括:
[0036]其上存储有计算机程序,所述计算机程序被存储器执行时实现第一方面任一所述的分层级地址文本相似度比对方法的步骤。
[0037]与现有技术相比,本专利技术提供的技术方案接收待比对的至少两个地址文本信息,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。本专利技术能够解决人工比对数据库中的地址文本信息的工作量大,和针对若采用地理位置坐标转换方法比对时,需要引入第三方地图服务而产生的不确定性,以及不方便包含隐私信息,同时不适合离线地址文本信息比对的问题,提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。
附图说明
[0038]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术实施例一提供的分层级地址文本相似度比对方法的框架图;
[0040]图2为本专利技术实施例二提供的分层级地址文本相似度比对方法的具体流程图;
[0041]图3为本专利技术实施例二提供的分层级地址文本相似度比对方法图;
[0042]图4为本专利技术实施例三提供的分层级地址文本相似度比对装置结构示意图;
[0043]图5为本专利技术实施例五提供的可被用于实施本申请中所述的各个实施例的示例性系统;
具体实施方式
[0044]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0045]需要说明的是,除非上下文明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分层级地址文本相似度比对方法,其特征在于,所述方法包括:接收待比对的至少两个地址文本信息;对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理;根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。2.根据权利要求1所述的分层级地址文本相似度比对方法,其特征在于,对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理,包括:将每个待处理的地址文本信息分为N层子信息,其中第1至N

1层为非详细子信息,第N层为详细子信息。3.根据权利要求2所述的分层级地址文本相似度比对方法,其特征在于,所述根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对,包括:将待比对的至少两个地址文本信息的第1至N

1层非详细子信息一一进行比对;若存在至少一层比对结果不一致,则输出所述待比对的至少两个地址文本信息不一致;若每一层的比对结果均一致,则对第N层子信息进行比对。4.根据权利要求3所述的分层级地址文本相似度比对方法,其特征在于,所述对第N层子信息进行比对,包括:将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配,得到每种规则下待比对的至少两个地址文本信息的第N层子信息的相似度S1至Sm;获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离dmin,其中最小编辑距离为两串文本变成相同的字符串文本所需要经过的最小编辑次数;获取第N层子信息相似度比对方法的权...

【专利技术属性】
技术研发人员:孟泽洋
申请(专利权)人:南京星云数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1