地址搜索方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29493988 阅读:43 留言:0更新日期:2021-07-30 19:06
本发明专利技术实施例提供了一种地址搜索方法、装置、电子设备及存储介质。地址搜索方法包括:接收用户输入的语音数据;将所述语音数据转换为拼音序列;将所述拼音序列转换为文本序列;对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;基于所述地址信息,搜索所述地址信息对应的目标地址。本发明专利技术实施例中,通过先将用户输入的语音数据转换为拼音序列,再将拼音序列转换为文本序列的方式,得到的文本序列更加准确;通过对文本序列进行地址识别,提取文本序列中包含的地址信息的方式,能够去除文本序列中非地址信息的干扰,得到更加准确的地址信息。因此,基于提取出的地址信息,能够更加准确地搜索出该地址信息对应的目标地址。

【技术实现步骤摘要】
地址搜索方法、装置、电子设备及存储介质
本专利技术涉及互联网
,特别是涉及一种地址搜索方法、装置、电子设备及存储介质。
技术介绍
地址搜索服务,是通过制定通用地名地址数据规范,构建标准地名地址数据库,在通用标准地名地址模型与地名地址检索算法基础上构建地名地址检索服务平台,提供面向行业的地名地址检索服务和调用接口。用户可手动输入文本形式的query(查询信息),地图搜索服务基于query搜索对应的目标地址,并展示给用户。但是,由于用户输入的文本形式的query可能会出现错别字、不完整、跨城、存在时空关系等情形,因此会导致地图搜索服务无法基于query准确搜索出目标地址。
技术实现思路
鉴于上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的地址搜索方法、装置、电子设备及存储介质。第一方面,本专利技术实施例公开了一种地址搜索方法,其特征在于,包括:接收用户输入的语音数据;将所述语音数据转换为拼音序列;将所述拼音序列转换为文本序列;对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;基于所述地址信息,搜索所述地址信息对应的目标地址。可选地,所述将所述语音数据转换为拼音序列,包括:获取所述语音数据对应的声学特征向量;将所述声学特征向量输入预先训练的声学模型,得到所述声学模型输出的拼音标识序列;基于预设的拼音标识与拼音字母的对应关系,获取所述拼音标识序列对应的所述拼音序列。可选地,所述声学模型通过如下方式训练:获取包含地址信息的样本语音数据对应的样本声学特征向量和实际拼音标识序列,将所述样本声学特征向量和所述实际拼音标识序列作为第一样本数据;利用所述第一样本数据对第一初始模型进行训练;其中,所述第一初始模型的输入为所述样本声学特征向量,输出为预测拼音标识序列;在基于所述预测拼音标识序列和所述实际拼音标识序列确定出所述第一初始模型训练完成后,得到训练完成的所述声学模型。可选地,所述将所述拼音序列转换为文本序列,包括:将所述拼音序列输入预先训练的语言模型,得到所述语言模型输出的所述文本序列。可选地,所述语言模型通过如下方式训练:获取包含地址信息的样本兴趣点POI文本数据对应的样本拼音序列和实际文本序列,将所述样本拼音序列和所述实际文本序列作为第二样本数据;利用所述第二样本数据对第二初始模型进行训练;其中,所述第二初始模型的输入为所述样本拼音序列,输出为预测文本序列;在基于所述预测文本序列和所述实际文本序列确定出所述第二初始模型训练完成后,得到训练完成的所述语言模型。可选地,所述对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息,包括:将所述文本序列输入预先训练的地址识别模型,得到所述地址识别模型输出的所述文本序列对应的BIO标注序列;基于所述BIO标注序列,从所述文本序列中提取标注为B和I的文本,将提取出的文本作为所述地址信息。可选地,所述地址识别模型通过如下方式训练:获取包含地址信息的样本POI文本数据对应的样本文本序列和实际BIO标注序列,将所述样本文本序列和所述实际BIO标注序列作为第三样本数据;利用所述第三样本数据对第三初始模型进行训练;其中,所述第三初始模型的输入为所述样本文本序列,输出为预测BIO标注序列;在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第三初始模型训练完成后,得到训练完成的所述地址识别模型。第二方面,本专利技术实施例公开了一种地址搜索装置,其特征在于,包括:接收模块,用于接收用户输入的语音数据;第一转换模块,用于将所述语音数据转换为拼音序列;第二转换模块,用于将所述拼音序列转换为文本序列;识别模块,用于对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;搜索模块,用于基于所述地址信息,搜索所述地址信息对应的目标地址。可选地,所述第一转换模块包括:向量获取单元,用于获取所述语音数据对应的声学特征向量;模型转换单元,用于将所述声学特征向量输入预先训练的声学模型,得到所述声学模型输出的拼音标识序列;序列获取单元,用于基于预设的拼音标识与拼音字母的对应关系,获取所述拼音标识序列对应的所述拼音序列。可选地,所述声学模型通过如下模块训练:第一获取模块,用于获取包含地址信息的样本语音数据对应的样本声学特征向量和实际拼音标识序列,将所述样本声学特征向量和所述实际拼音标识序列作为第一样本数据;第一训练模块,用于利用所述第一样本数据对第一初始模型进行训练;其中,所述第一初始模型的输入为所述样本声学特征向量,输出为预测拼音标识序列;在基于所述预测拼音标识序列和所述实际拼音标识序列确定出所述第一初始模型训练完成后,得到训练完成的所述声学模型。可选地,所述第二转换模块,具体用于将所述拼音序列输入预先训练的语言模型,得到所述语言模型输出的所述文本序列。可选地,所述语言模型通过如下模块训练:第二获取模块,用于获取包含地址信息的样本兴趣点POI文本数据对应的样本拼音序列和实际文本序列,将所述样本拼音序列和所述实际文本序列作为第二样本数据;第二训练模块,用于利用所述第二样本数据对第二初始模型进行训练;其中,所述第二初始模型的输入为所述样本拼音序列,输出为预测文本序列;在基于所述预测文本序列和所述实际文本序列确定出所述第二初始模型训练完成后,得到训练完成的所述语言模型。可选地,所述识别模块包括:模型识别单元,用于将所述文本序列输入预先训练的地址识别模型,得到所述地址识别模型输出的所述文本序列对应的BIO标注序列;地址获取单元,用于基于所述BIO标注序列,从所述文本序列中提取标注为B和I的文本,将提取出的文本作为所述地址信息。可选地,所述地址识别模型通过如下模块训练:第三获取单元,用于获取包含地址信息的样本POI文本数据对应的样本文本序列和实际BIO标注序列,将所述样本文本序列和所述实际BIO标注序列作为第三样本数据;第三训练单元,用于利用所述第三样本数据对第三初始模型进行训练;其中,所述第三初始模型的输入为所述样本文本序列,输出为预测BIO标注序列;在基于所述预测BIO标注序列和所述实际BIO标注序列确定出所述第三初始模型训练完成后,得到训练完成的所述地址识别模型。第三方面,本专利技术实施例公开了一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质;当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如上任一项所述地址搜索方法。第四方面,本专利技术实施例公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述的地址搜索方法。本专利技术实施例中,一方面,通过先将用户输入的语音数据转换为拼音序列,再将拼音序列转换为文本序列的方式,考虑到了上下文语境信息,相比于直接将语音数据转换为文本序列的方式,本专利技术实施例得到的文本序列更加准确;另一方面,通过对文本序列进行地址识别,提取文本序列中包含的地址信息的方式,能够去除文本序列中非地本文档来自技高网...

【技术保护点】
1.一种地址搜索方法,其特征在于,包括:/n接收用户输入的语音数据;/n将所述语音数据转换为拼音序列;/n将所述拼音序列转换为文本序列;/n对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;/n基于所述地址信息,搜索所述地址信息对应的目标地址。/n

【技术特征摘要】
1.一种地址搜索方法,其特征在于,包括:
接收用户输入的语音数据;
将所述语音数据转换为拼音序列;
将所述拼音序列转换为文本序列;
对所述文本序列进行地址识别,提取所述文本序列中包含的地址信息;
基于所述地址信息,搜索所述地址信息对应的目标地址。


2.根据权利要求1所述的方法,其特征在于,所述将所述语音数据转换为拼音序列,包括:
获取所述语音数据对应的声学特征向量;
将所述声学特征向量输入预先训练的声学模型,得到所述声学模型输出的拼音标识序列;
基于预设的拼音标识与拼音字母的对应关系,获取所述拼音标识序列对应的所述拼音序列。


3.根据权利要求2所述的方法,其特征在于,所述声学模型通过如下方式训练:
获取包含地址信息的样本语音数据对应的样本声学特征向量和实际拼音标识序列,将所述样本声学特征向量和所述实际拼音标识序列作为第一样本数据;
利用所述第一样本数据对第一初始模型进行训练;其中,所述第一初始模型的输入为所述样本声学特征向量,输出为预测拼音标识序列;
在基于所述预测拼音标识序列和所述实际拼音标识序列确定出所述第一初始模型训练完成后,得到训练完成的所述声学模型。


4.根据权利要求1所述的方法,其特征在于,所述将所述拼音序列转换为文本序列,包括:
将所述拼音序列输入预先训练的语言模型,得到所述语言模型输出的所述文本序列。


5.根据权利要求4所述的方法,其特征在于,所述语言模型通过如下方式训练:
获取包含地址信息的样本兴趣点POI文本数据对应的样本拼音序列和实际文本序列,将所述样本拼音序列和所述实际文本序列作为第二样本数据;
利用所述第二样本数据对第二初始模型进行训练;其中,所述第二初始模型的输入为所述样本拼音序列,输出为预测文本序列;
在基于所述预测文本序列和所述实际文本序...

【专利技术属性】
技术研发人员:黄海涛
申请(专利权)人:汉海信息技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1