System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 地址信息的处理方法及装置制造方法及图纸_技高网

地址信息的处理方法及装置制造方法及图纸

技术编号:41880300 阅读:12 留言:0更新日期:2024-07-02 00:34
本申请公开一种地址信息的处理方法及装置,涉及数据处理技术领域。本申请的方法包括:对于多个对象中的任一对象,确定对应所述任一对象的至少一目标地址信息的词频向量,对所述至少一目标地址信息的词频向量进行相似度计算,并将计算结果超过预设阈值的词频向量对应的目标地址信息进行聚合,得到对应每个对象的地址集合;其中,所述目标地址信息为多个地址信息中对应同一对象的地址信息;将地址集合中的地址信息通过预设分类模型执行分类操作,以便确定所述地址集合中的地址信息对应的类别;其中,所述预设分类模型是基于深度学习模型,并通过预先确定了类别的地址信息进行训练后得到的。本申请用于实现地址信息的处理功能。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种地址信息的处理方法及装置


技术介绍

1、数据的处理在提高数据质量、保障数据安全和促进业务创新方面发挥着重要作用。尤其在金融服务行业,往往需要将原始数据进行一定的处理,这样处理后的数据对于身份验证、风险评估和反欺诈预警等方面有着重要作用。在这个过程中,地址信息作为原始数据的重要信息,对于上述功能而言尤为重要,因此如何能够对地址信息进行准确处理,成为了领域内重要的技术方向。

2、目前,在地址信息的处理过程中,所使用的方式一般是对地址信息进行聚合和分类,其中聚合是为了将同一对象的多个地址聚合到一个对象账户下,而分类则是将一个对象的多个地址按照类型、区域等规则进行划分。通常情况下,地址信息的处理过程一般是将这些地址信息利用人工预设的规则表达式进行处理,但在实际应用中,由于该规则表达式需要由工作人员有一定的经验才能制定,这就导致一旦工作人员的工作经验不足就会导致地址信息处理结果的准确性较低。


技术实现思路

1、本申请实施例提供一种地址信息的处理方法及装置,主要目的在于解决当前地址信息的处理过程中准确性较低的问题。

2、为解决上述技术问题,本申请实施例提供如下技术方案:

3、第一方面,本申请提供了一种地址信息的处理方法,所述方法,包括:

4、对于多个对象中的任一对象,确定对应所述任一对象的至少一目标地址信息的词频向量,对所述至少一目标地址信息的词频向量进行相似度计算,并将计算结果超过预设阈值的词频向量对应的目标地址信息进行聚合,得到对应每个对象的地址集合;其中,所述目标地址信息为多个地址信息中对应同一对象的地址信息;

5、将地址集合中的地址信息通过预设分类模型执行分类操作,以便确定所述地址集合中的地址信息对应的类别;其中,所述预设分类模型是基于深度学习模型,并通过预先确定了类别的地址信息进行训练后得到的。

6、第二方面,本申请还提供一种地址信息的处理装置,包括:

7、聚合单元,用于对于多个对象中的任一对象,确定对应所述任一对象的至少一目标地址信息的词频向量,对所述至少一目标地址信息的词频向量进行相似度计算,并将计算结果超过预设阈值的词频向量对应的目标地址信息进行聚合,得到对应每个对象的地址集合;其中,所述目标地址信息为多个地址信息中对应同一对象的地址信息;

8、分类单元,用于将地址集合中的地址信息通过预设分类模型执行分类操作,以便确定所述地址集合中的地址信息对应的类别;其中,所述预设分类模型是基于深度学习模型,并通过预先确定了类别的地址信息进行训练后得到的。

9、第三方面,本申请的实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行第一方面中任一项所述的地址信息的处理方法。

10、第四方面,本申请的实施例提供了一种地址信息的处理装置,所述装置包括存储介质;及一个或者多个处理器,所述存储介质与所述处理器耦合,所述处理器被配置为执行所述存储介质中存储的程序指令;所述程序指令运行时执行第一方面中任一项所述的地址信息的处理方法。

11、借由上述技术方案,本申请提供的技术方案至少具有下列优点:

12、本申请提供一种地址信息的处理方法及装置,本申请能够首先对于多个对象中的任一对象,确定对应所述任一对象的至少一目标地址信息的词频向量,对所述至少一目标地址信息的词频向量进行相似度计算,并将计算结果超过预设阈值的词频向量对应的目标地址信息进行聚合,得到对应每个对象的地址集合;其中,所述目标地址信息为多个地址信息中对应同一对象的地址信息;然后,将地址集合中的地址信息通过预设分类模型执行分类操作,以便确定所述地址集合中的地址信息对应的类别;其中,所述预设分类模型是基于深度学习模型,并通过预先确定了类别的地址信息进行训练后得到的,从而实现地址信息的处理功能。与现有技术相比,在本申请实施例中,由于地址信息的处理过程中不再依赖规则表达式进行处理,这就避免了设置规则表达式的过程中可能导致因规则不准确而使得地址信息的处理结果准确性较低的问题。同时,由于在本申请中聚合过程是基于目标地址信息的词频向量的余弦相似度算法进行的,这就使得在确定两个地址信息之间是否是同一个地址的过程中能够摆脱对规则表达式依赖,同时还能基于词频向量的特点进行判断。而词频向量能够表征出地址信息中词语的出现情况,可以表征地址的特点,因此依靠余弦相似度算法来确定目标地址信息之间是否是同一个地址时较为准确、科学,从而在聚合过程中能够实现将表述细节上存在部分区别但实际表征相同地址的地址信息进行聚合的效果。另外,在分类过程中,由于是采用的预设分类模型是基于深度学习和预先确定了类别的地址信息所训练得到的,这样就实现了以模型方式来实现对地址信息的分类打标的功能,且模型训练过程不再需要人工设置规则表达式,只需要将已确定类别的地址信息作为训练样本即可,这就大大降低了地址信息处理过程中分类时的经验门槛,从而使得分类过程更为简单、便捷。

13、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种地址信息的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述地址信息包括多个地址层级,不同地址层级表征的行政区域不同,所述地址层级排列顺序与行政区域的等级呈正相关;所述行政区域至少包括国家级区域、省级区域、市级区域、县级区域、乡镇级区域、街道级区域以及门牌区域中的至少两个;

3.根据权利要求1所述的方法,其特征在于,所述对于多个对象中的任一对象,确定对应所述任一对象的至少一目标地址信息的词频向量,对所述至少一目标地址信息的词频向量进行相似度计算,并将计算结果超过预设阈值的词频向量对应的地址信息进行聚合,包括:

4.根据权利要求1所述的方法,其特征在于,所述预设分类模型是基于深度学习模型,并通过预先确定了类别的地址信息的地址向量进行训练后得到的;其中,所述地址向量为将地址信息输入到预设语义空间后生成的向量;

5.根据权利要求1所述的方法,其特征在于,在所述将地址集合中的地址信息通过预设分类模型执行分类操作之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述预设分类模型的输出结果至少包括第一标签或第二标签;其中,所述第一标签对应所述家庭类;所述第二标签对应所述工作类;

7.根据权利要求1所述的方法,其特征在于,所述同一对象的地址信息用于表征对应相同识别信息的地址信息;

8.根据权利要求7所述的方法,其特征在于,所述将具有相同所述识别信息的地址信息确定为所述目标地址信息,包括:

9.一种地址信息的处理装置,其特征在于,

10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1-8中任一项所述的地址信息的处理方法。

...

【技术特征摘要】

1.一种地址信息的处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述地址信息包括多个地址层级,不同地址层级表征的行政区域不同,所述地址层级排列顺序与行政区域的等级呈正相关;所述行政区域至少包括国家级区域、省级区域、市级区域、县级区域、乡镇级区域、街道级区域以及门牌区域中的至少两个;

3.根据权利要求1所述的方法,其特征在于,所述对于多个对象中的任一对象,确定对应所述任一对象的至少一目标地址信息的词频向量,对所述至少一目标地址信息的词频向量进行相似度计算,并将计算结果超过预设阈值的词频向量对应的地址信息进行聚合,包括:

4.根据权利要求1所述的方法,其特征在于,所述预设分类模型是基于深度学习模型,并通过预先确定了类别的地址信息的地址向量进行训练后得到的;其中,所述地址向量为将地址信息输入到预设语义空间后...

【专利技术属性】
技术研发人员:张李军郭浩亮
申请(专利权)人:百融至信北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1