一种分层级地址文本相似度比对方法、装置及介质制造方法及图纸

技术编号：31162614 阅读：22 留言：0更新日期：2021-12-04 10:33

本发明专利技术公开了一种分层级地址文本相似度比对方法、装置及介质，属于信息比对技术领域，方法包括：接收待比对的至少两个地址文本信息，对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理，根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。本发明专利技术能够解决人工比对数据库中的地址文本信息的工作量大，和针对若采用地理位置坐标转换方法比对时，需要引入第三方地图服务而产生的不确定性，以及不方便包含隐私信息，同时不适合离线地址文本信息比对的问题，提高了地址文本信息比对效率的同时也增加了比对的精确度和稳定性。的精确度和稳定性。的精确度和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种分层级地址文本相似度比对方法、装置及介质

[0001]本专利技术涉及信息比对
，特别涉及一种分层级地址文本相似度比对方法、装置及介质。

技术介绍

[0002]人类的各类活动都离不开位置，从数值上可以表示为空间坐标，从文本上则表征为通讯地址，通讯地址广泛存在于电商物流、信息登记、金融交通等领域，对通讯地址的分析、聚合服务是一项重要基础服务，它支撑着诸多互联网场景，比如地址异常筛查、物流分析等；实际应用中，地址文本存在写法自由、缺省别名多以及地域性强等特点，这对地址的解析、归一化和匹配等数据处理操作都造成了困难；目前针对这些问题，业内常见的做法是人工比对两个地址的文本；或者通过输入地址至地图服务中解析地理位置，从而判断是否为重叠位置的地址。
[0003]针对传统人工比对的处理方式有明显的弊端，主要是人工审核工作量极大；因为通常数据库中有大量的地址信息，例如有100条地址进行两两比对，共需要人工交叉比对100*100＝10，000次，随着地址增多，比对次数也是呈指数级别增加，此外，如果采用地理位置坐标转换，则会引入、依赖第三方地图服务，这种做法在增加了不确定性的同时，也不适合某些包含隐私信息的敏感地址信息，更不适合离线部署。

技术实现思路

[0004]为了克服上述技术问题，本专利技术的目的在于提供一种分层级地址文本相似度比对方法、装置及介质，以解决人工比对数据库中的地址文本信息的工作量大，和针对若采用地理位置坐标转换方法比对时，需要引入第三方地图服务而产生的不确定性，以及不方便包含隐私信息...

【技术保护点】

【技术特征摘要】
1.一种分层级地址文本相似度比对方法，其特征在于，所述方法包括：接收待比对的至少两个地址文本信息；对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理；根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对。2.根据权利要求1所述的分层级地址文本相似度比对方法，其特征在于，对所述接收的待比对的至少两个地址文本信息进行文本信息分层处理，包括：将每个待处理的地址文本信息分为N层子信息，其中第1至N
‑
1层为非详细子信息，第N层为详细子信息。3.根据权利要求2所述的分层级地址文本相似度比对方法，其特征在于，所述根据文本信息分层处理结果对所述待比对的至少两个地址文本信息做比对，包括：将待比对的至少两个地址文本信息的第1至N
‑
1层非详细子信息一一进行比对；若存在至少一层比对结果不一致，则输出所述待比对的至少两个地址文本信息不一致；若每一层的比对结果均一致，则对第N层子信息进行比对。4.根据权利要求3所述的分层级地址文本相似度比对方法，其特征在于，所述对第N层子信息进行比对，包括：将所述第N层子信息中通过预设不同的m种规则进行相似度模糊匹配，得到每种规则下待比对的至少两个地址文本信息的第N层子信息的相似度S1至Sm；获取待比对的至少两个地址文本信息的第N层子信息的最小编辑距离dmin，其中最小编辑距离为两串文本变成相同的字符串文本所需要经过的最小编辑次数；获取第N层子信息相似度比对方法的权...

【专利技术属性】
技术研发人员：孟泽洋，
申请(专利权)人：南京星云数字技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人