语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29258368 阅读:12 留言:0更新日期:2021-07-13 17:31
本发明专利技术提供一种语音识别方法、装置、电子设备和存储介质,其中方法包括:确定用户的待识别语音;基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。本发明专利技术提供的语音识别方法、装置、电子设备和存储介质,基于当前用户的地域信息和/或历史输入信息动态扩充解码网络中的预设状态转移路径,从而基于扩充后的预设状态转移路径对该用户的待识别语音进行语音识别解码,利用该用户的个性化信息,提升了个性化语音识别的准确性,且动态扩充预设状态转移路径的方式,增强了实用性。

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质
本专利技术涉及语音处理
,尤其涉及一种语音识别方法、装置、电子设备和存储介质。
技术介绍
随着人工智能技术的迅速发展,语音识别技术在智能家居、智能机器人等交互领域得到了广泛应用。由于语音识别使用用户的不断增多,用户之间发音习惯的差异性亦趋明显,导致通用的语音识别方法无法对所有用户均取得较好的识别效果。现有的语音识别方法,为了实现针对各用户的个性化语音识别,从而提高语音识别准确性,通常会基于某一用户大量的历史语音数据构建针对该用户的个性化语音识别系统。然而,该方式的优化效果有限,且部署维护难度大,实用性较差。
技术实现思路
本专利技术提供一种语音识别方法、装置、电子设备和存储介质,用以解决现有技术中语音识别优化效果欠佳、实用性不足的缺陷。本专利技术提供一种语音识别方法,包括:确定用户的待识别语音;基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。根据本专利技术提供一种的语音识别方法,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:确定所述待识别语音对应的音素序列;基于上一解码位置对应的预设状态转移路径,对当前解码位置处的音素序列进行解码,得到当前解码位置处的解码结果。根据本专利技术提供的一种语音识别方法,所述预设状态转移路径是基于如下步骤扩充的:确定与所述用户的地域信息相关联的地域名词;基于各地域名词扩充解码网络中地名对应的预设状态转移路径。根据本专利技术提供的一种语音识别方法,所述预设状态转移路径是基于如下步骤扩充的:基于所述用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词;基于所述相似热词,扩展上一解码位置对应的预设状态转移路径。根据本专利技术提供的一种语音识别方法,所述基于所述用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词,包括:基于当前解码位置处的音素序列以及预先构建的发音相似矩阵,确定当前解码位置处的音素序列对应的相似音素序列;基于所述用户的各个热词,确定与当前解码位置处的音素序列和/或所述相似音素序列对应的相似热词;所述热词是基于所述历史输入信息确定的。根据本专利技术提供的一种语音识别方法,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:基于语言模型,结合所述预设状态转移路径,对所述待识别语音进行语音识别解码;其中,所述语言模型与所述用户当前使用的设备类型对应;任一设备类型对应的语言模型是基于所述任一设备类型的应用场景文本训练得到的。根据本专利技术提供的一种语音识别方法,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:确定所述用户的声纹特征;基于所述预设状态转移路径,结合所述待识别语音的音频特征和所述用户的声纹特征,对所述待识别语音进行语音识别解码。本专利技术还提供一种语音识别装置,包括:语音数据确定单元,用于确定用户的待识别语音;语音识别解码单元,用于基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法的步骤。本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法的步骤。本专利技术提供的语音识别方法、装置、电子设备和存储介质,基于当前用户的地域信息和/或历史输入信息动态扩充解码网络中的预设状态转移路径,从而基于扩充后的预设状态转移路径对该用户的待识别语音进行语音识别解码,利用该用户的个性化信息,提升了个性化语音识别的准确性,且动态扩充预设状态转移路径的方式,增强了实用性。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的语音识别方法的流程示意图;图2为本专利技术提供的路径扩充方法的流程示意图之一;图3为本专利技术提供的地域信息扩充路径的示意图;图4为本专利技术提供的路径扩充方法的流程示意图之二;图5为本专利技术提供的相似热词扩展路径的示意图;图6为本专利技术提供的相似热词确定方法的流程示意图;图7为本专利技术提供的语言模型选取的示意图;图8为本专利技术提供的语音识别系统的结构示意图;图9为本专利技术提供的语音识别装置的结构示意图;图10为本专利技术提供的电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。随着人工智能产业的迅猛发展,语音识别技术在智能家居、智能机器人等交互领域得到了广泛应用。近年来,很多有关语音识别的开发技术在不断创新,语音作为最方便、快捷的交互方式之一,其识别俨然已成为人机交互的重要环节。随着语音使用用户的不断增多,用户之间发音习惯的差异性变得越来越明显,在此情况下,传统的采用统一通用语音识别系统进行语音识别的方法,由于通用语音识别系统需要覆盖更多的用户和更多的场景,因此无法对所有用户都取得很好的识别准确率。因此,如何利用每个用户的个性化信息,增强语音识别系统的针对性,从而提升每个用户语音识别准确率,成为了目前语音识别领域的重要研究方向。现有的个性化语音识别方法通常是基于大量的用户历史语音数据,构建针对各个用户的个性化语音识别系统。然而,这种方法对于新用户而言,由于缺乏该用户的历史数据,难以构建可靠的语音识别系统,导致该方法的个性化增强效果有限;而对于老用户而言,由于各用户的历史语音数量差异大且需要每个用户单独定制存储一套识别模型(例如传统基于隐马尔可夫模型识别系统中的声学模型,或是Encode-Decode模型),部署维护难度大,因此实用性较差。对此,本专利技术实施例提供了一种语音识别方法,可以有效进行语音识别的个性化增强,提升语音识别的准确性。图1为本专利技术实施例提供的语音识别方法的流程示意图,如图1所示,该方法包括:步骤110,确定用户的待识别语音;步骤120,基于预设状态转移路径,对待识别语音进行语音识别解码,得到语音识别结果;预设状态转移路径是基于用户的地域信息和/或历史输入信本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n确定用户的待识别语音;/n基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
确定用户的待识别语音;
基于预设状态转移路径,对所述待识别语音进行语音识别解码,得到语音识别结果;所述预设状态转移路径是基于所述用户的地域信息和/或历史输入信息扩充得到的。


2.根据权利要求1所述的语音识别方法,所述基于预设状态转移路径,对所述待识别语音进行语音识别解码,包括:
确定所述待识别语音对应的音素序列;
基于上一解码位置对应的预设状态转移路径,对当前解码位置处的音素序列进行解码,得到当前解码位置处的解码结果。


3.根据权利要求1所述的语音识别方法,所述预设状态转移路径是基于如下步骤扩充的:
确定与所述用户的地域信息相关联的地域名词;
基于各地域名词扩充解码网络中地名对应的预设状态转移路径。


4.根据权利要求2所述的语音识别方法,所述预设状态转移路径是基于如下步骤扩充的:
基于所述用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词;
基于所述相似热词,扩展上一解码位置对应的预设状态转移路径。


5.根据权利要求4所述的语音识别方法,所述基于所述用户的历史输入信息,确定当前解码位置处的音素序列对应的相似热词,包括:
基于当前解码位置处的音素序列以及预先构建的发音相似矩阵,确定当前解码位置处的音素序列对应的相似音素序列;
基于所述用户的各个热词,确定与当前解码位置处的音素序列和/或所述相似音素序列对应的相似热词;所述热词是基于所述...

【专利技术属性】
技术研发人员:方昕刘俊华潘志兵周传福
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1