System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及信息检索和自然语言处理,尤其涉及一种地址信息处理方法、装置、电子设备及存储介质。
技术介绍
1、在日常生活中,人们经常需要查询特定的poi(point of interest,兴趣点),如餐馆、银行、超市等。随着移动互联网和智能设备的普及,越来越多的用户通过语音输入的方式进行搜索。然而,语音输入往往由于识别错误、口音差异等因素,导致搜索结果的准确性受到影响。如用户想搜索“xx银行”,但语音识别的结果是“xx营行”。
2、相关技术中,深度学习模型虽然理论上能够提供更准确的纠错匹配,但其对大量训练数据的需求和计算资源的消耗限制了在移动设备上的应用。同时,深度学习模型较长的推理时间也给模型实施带来困难,降低用户体验。
技术实现思路
1、本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
2、为此,本申请的第一个目的在于提出一种地址信息处理方法,以实现基于地址信息数据库中至少一个第一地址信息切割得到的多个第一子串与用户输入的第二地址信息之间的相近程度,对多个第一子串进行初筛,减少需要深度学习模型处理的数据量,降低计算复杂度,提高处理效率和用户体验。
3、本申请的第二个目的在于提出一种地址信息处理装置。
4、本申请的第三个目的在于提出一种电子设备。
5、本申请的第四个目的在于提出一种计算机可读存储介质。
6、本申请的第五个目的在于提出一种计算机程序产品。
7、为达上述目的,本申请第一方面实施例
8、为达上述目的,本申请第二方面实施例提出了一种地址信息处理装置,包括:读取模块,用于响应于用户输入待查询的第二地址信息,读取地址信息数据库中的第一地址信息,其中,所述第一地址信息是基于预先设定标准地址描述生成;第一确定模块,用于根据所述第一地址信息切割得到的多个第一子串与所述第二地址信息之间的相近程度,从所述多个第一子串中确定与所述第二地址信息相近的多个第二子串;第一生成模块,用于采用训练好的表征向量计算模型,生成所述第二地址信息的表征向量,以及各所述第二子串的表征向量;第二确定模块,用于根据所述第二地址信息的表征向量与各所述第二子串的表征向量在特征空间中的余弦相似度,确定是否采用训练好的生成模型对所述第二地址信息进行修正处理。
9、为达上述目的,本申请第三方面实施例提出了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器,其中,所述处理器被配置为执行所述指令,以实现如本申请上述实施例所述的地址信息处理方法。
10、为达上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本申请上述实施例所述的地址信息处理方法。
11、为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如本申请上述实施例所述的地址信息处理方法。
12、本申请提供的地址信息处理方法、装置、电子设备及存储介质,响应于用户输入待查询的第二地址信息,读取地址信息数据库中的第一地址信息,其中,第一地址信息是基于预先设定标准地址描述生成;根据第一地址信息切割得到的多个第一子串与第二地址信息之间的相近程度,从多个第一子串中确定与第二地址信息相近的多个第二子串;采用训练好的表征向量计算模型,生成第二地址信息的表征向量,以及各第二子串的表征向量;根据第二地址信息的表征向量与各第二子串的表征向量在特征空间中的余弦相似度,确定是否采用训练好的生成模型对第二地址信息进行修正处理。由此,通过基于地址信息数据库中各第一地址信息切割得到的多个第一子串与用户输入的第二地址信息之间的相近程度,对多个第一子串进行初筛,能够在大规模数据中迅速缩小目标范围,减少需要深度学习模型处理的数据量,降低计算复杂度,提高处理效率和用户体验。
13、本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
本文档来自技高网...【技术保护点】
1.一种地址信息处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一地址信息切割得到的多个第一子串与所述第二地址信息之间的相近程度,从所述多个第一子串中确定与所述第二地址信息相近的多个第二子串,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述多个第一子串中包含的第一语言字符,以及每个所述第一语言字符对应的表示所述第一语言字符的读音的第一符号字符构建倒排索引,以得到每个所述第一语言字符对应的倒排索引和每个所述第一符号字符对应的倒排索引,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据每个所述第一语言字符对应的倒排索引、每个所述第一符号字符对应的倒排索引、所述第二地址信息中包含的第二语言字符,以及每个所述第二语言字符对应的表示所述第二语言字符的读音的第二符号字符,确定所述多个第一子串中包含所述第二语言字符和/或所述第二符号字符的至少一个目标子串对应的词频-逆文档频率TF-IDF分值,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述第二语言字符在各所述目标子串中的出现
6.根据权利要求2所述的方法,其特征在于,所述根据各所述目标子串对应的TF-IDF分值,对各所述目标子串进行排序,以根据排序后的各所述目标子串,确定所述第二子串,包括:
7.根据权利要求2所述的方法,其特征在于,所述对所述多个第一子串中包含的第一语言字符,以及每个所述第一语言字符对应的表示所述第一语言字符的读音的第一符号字符构建倒排索引,以得到每个所述第一语言字符对应的倒排索引和每个所述第一符号字符对应的倒排索引之前,还包括:
8.根据权利要求1所述的方法,其特征在于,所述表征向量计算模型和所述生成模型的训练过程,包括:
9.根据权利要求8所述的方法,其特征在于,所述根据所述候选训练子串和所述多个第二训练子串,生成所述第一地址信息对应的一个训练批次,包括:
10.根据权利要求8所述的方法,其特征在于,所述根据各所述第一地址信息对应的至少一个训练批次中的各训练样本和各训练样本对应的对抗样本,同时训练所述表征向量计算模型和所述生成模型,以得到所述训练好的表征向量计算模型和所述训练好的生成模型,包括:
11.根据权利要求8所述的方法,其特征在于,所述根据目标训练子串与所述候选训练子串之间的相近程度,从所述目标训练子串中确定与所述候选训练子串相近的多个第二训练子串,包括:
12.根据权利要求1-11中任一项所述的方法,其特征在于,所述根据所述第二地址信息与各所述第二子串之间的余弦相似度,确定是否采用训练好的生成模型对所述第二地址信息进行修正处理,包括:
13.一种地址信息处理装置,其特征在于,包括:
14.一种电子设备,其特征在于,包括:
15.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-12中任一项所述的方法。
16.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12中任一项所述的方法。
...【技术特征摘要】
1.一种地址信息处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一地址信息切割得到的多个第一子串与所述第二地址信息之间的相近程度,从所述多个第一子串中确定与所述第二地址信息相近的多个第二子串,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述多个第一子串中包含的第一语言字符,以及每个所述第一语言字符对应的表示所述第一语言字符的读音的第一符号字符构建倒排索引,以得到每个所述第一语言字符对应的倒排索引和每个所述第一符号字符对应的倒排索引,包括:
4.根据权利要求2所述的方法,其特征在于,所述根据每个所述第一语言字符对应的倒排索引、每个所述第一符号字符对应的倒排索引、所述第二地址信息中包含的第二语言字符,以及每个所述第二语言字符对应的表示所述第二语言字符的读音的第二符号字符,确定所述多个第一子串中包含所述第二语言字符和/或所述第二符号字符的至少一个目标子串对应的词频-逆文档频率tf-idf分值,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述第二语言字符在各所述目标子串中的出现频率、所述第二语言字符对应的第二符号字符在各所述目标子串中的出现频率、所述第二语言字符在所述第二地址信息中的出现频率,以及所述第二语言字符对应的第二符号字符在所述第二地址信息中的出现频率,确定各所述目标子串对应的tf-idf分值,包括:
6.根据权利要求2所述的方法,其特征在于,所述根据各所述目标子串对应的tf-idf分值,对各所述目标子串进行排序,以根据排序后的各所述目标子串,确定所述第二子串,包括:
7.根据权利要求2所述的方法,其特征在于,所述对所述多个第一子串中包含的第一...
【专利技术属性】
技术研发人员:罗奕康,聂砂,戴菀庭,郑江,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。