语音识别方法、装置、设备、存储介质和程序产品制造方法及图纸

技术编号:39239586 阅读:10 留言:0更新日期:2023-10-30 11:52
本申请的实施例提供了一种语音识别方法、设备、装置、存储介质和程序产品,涉及人机交互领域。例如,本申请提供了一种语音识别方法。该方法可以包括:第一设备利用经训练的语音识别模型从接收到的来自用户的语音数据中获取特征数据;以及响应于语音识别模型基于特征数据未识别出用户的预期指令,第一设备将特征数据与预先构建的数据库中的多个候选特征数据进行比对,以将多个候选特征数据中的目标特征数据所对应的目标指令确定为用户的所述预期指令,其中数据库包括多个候选特征数据以及对应的多个候选指令,对应的多个候选指令包括目标指令。通过该方案,可以快速、准确地实现语音识别,提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
语音识别方法、装置、设备、存储介质和程序产品


[0001]本申请的实施例主要涉及人机交互领域。更具体地,本申请的实施例涉及语音识别方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]随着深度神经网络(DNN)算法等人工智能技术被应用到诸如语音识别(ASR)的人机交互领域,自然场景下ASR的准确率已经得到大幅提升。因此通用场景的ASR技术也被应用于各种领域。如今许多的电子设备和车机可以通过语音命令进行相应的操作,解放了双手,提升了操作效率。因此,越来越多的用户也习惯于使用语音操纵自己的电子设备。
[0003]现在通用ASR往往在普通话场景下表现良好,但是受到地域影响,面对一些带有具有个性化特点的普通话,ASR的表现往往比较差。在AI赋能ASR应用的背景下,ASR算法在针对口音问题的精度上在持续改善,但是依然无法避免带有个性化特点的语音识别结果发生错误,因此为用户提供体验良好的ASR成为一个至关重要的工作。

技术实现思路

[0004]为了准确、及时地获得语音识别结果,本申请的实施例提供了一种新的语音识别方案。
[0005]在本申请的第一方面,提供了一种语音识别方法。该方法可以包括:第一设备利用经训练的语音识别模型从接收到的来自用户的语音数据中获取特征数据;以及响应于所述语音识别模型基于所述特征数据未识别出所述用户的预期指令,所述第一设备将所述特征数据与预先构建的数据库中的多个候选特征数据进行比对,以将所述多个候选特征数据中的目标特征数据所对应的目标指令确定为所述用户的所述预期指令,其中所述数据库包括所述多个候选特征数据以及对应的多个候选指令,所述对应的多个候选指令包括所述目标指令。
[0006]本申请对传统的语音识别机制进行了改进,通过将从用户的语音数据中提取的特征数据与预先构建的数据库中的多个候选特征数据进行比对,来识别用户的预期指令。也就是说,本申请利用预先构建的数据库来代替经训练的语音识别模型中的解码器,来识别解码器无法识别的特征数据。以此方式,该语音识别方法可以通过不断更新数据库来应对任何由于发音不标准、发音障碍、或者非母语发音等的情况,从而可以快速、准确地实现语音识别,提升用户体验。
[0007]在第一方面的一种实现方式中,该方法还可以包括:所述第一设备获取所述多个候选特征数据和所述对应的多个候选指令,以构建所述数据库,其中获取所述多个候选特征数据和所述对应的多个候选指令包括:所述第一设备将所述用户的在先语音数据分别传输至所述语音识别模型和所述第二设备的附加语音识别模型;以及响应于所述语音识别模型基于从所述在先语音数据中获取的在先特征数据未识别出所述用户的在先预期指令、并且所述附加语音识别模型识别出所述在先预期指令,获取所述在先特征数据与所述在先预
期指令,作为所述多个候选特征数据和所述对应的多个候选指令的一部分。
[0008]在第一方面的一种实现方式中,该方法还可以包括:所述第一设备获取所述多个候选特征数据和所述对应的多个候选指令,以构建所述数据库,其中获取所述多个候选特征数据和所述对应的多个候选指令包括:所述第一设备将所述用户的在先语音数据分别传输至所述语音识别模型和所述第二设备的附加语音识别模型;以及响应于所述语音识别模型基于从所述在先语音数据中获取的在先特征数据未识别出所述用户的在先预期指令、并且所述附加语音识别模型未识别出所述在先预期指令,如果检测到来自所述用户的动作指令,所述第一设备获取所述在先特征数据与所述动作指令,作为所述多个候选特征数据和所述对应的多个候选指令的一部分。通过将用户语音的特征数据与用户的真实意图(即,预期指令)配对地存储在数据库中,本申请可以迅速积累该用户的常用语音指令,与传统的更新语音识别模型相比,本申请更为便捷有效。
[0009]在第一方面的一种实现方式中,该方法还可以包括:基于所述语音识别模型识别出的语音识别结果或者基于所述附加语音识别模型识别出的所述在先预期指令的语音识别结果,确定所述在先语音数据的空白信息;以及基于所述空白信息从所述在先特征数据中去除冗余信息。以此方式,可以保证用户终端侧的语音识别的实时性,并且节约数据存储占用的空间。
[0010]在第一方面的一种实现方式中,将所述特征数据与所述多个候选特征数据进行比对还可以包括:将所述多个候选特征数据中的至少一部分与所述特征数据发送至预先训练的特征数据比对模型,以确定比对结果,其中所述特征数据比对模型是将一个待比对参考特征数据和多个候选参考特征数据作为输入、将所述多个候选参考特征数据与一个待比对参考特征数据是否相同以及所述多个候选参考特征数据所对应的用户与所述用户是否相同作为输出来训练得到的。以此方式,可以保证特征数据的比对操作的实时性,并且由于该特征数据比对模型确定了待识别语音的用户是否是候选数据对应的同一用户,从而可以提升比对的准确性。
[0011]在第一方面的一种实现方式中,该方法还可以包括:响应于所述语音识别模型基于所述特征数据未识别出所述用户的预期指令,如果所述数据库中的所述多个候选特征数据的数据量小于或等于预定阈值,所述第一设备将所述用户的语音数据传输至第二设备的附加语音识别模型,以将所述附加语音识别模型确定的识别结果确定为所述用户的所述预期指令。
[0012]在第一方面的一种实现方式中,所述第一设备可以是所述用户的终端设备。
[0013]在第一方面的一种实现方式中,所述第一设备可以是所述用户的终端设备,并且所述第二设备是服务器。
[0014]在本申请的第二方面,提供了一种语音识别装置。该装置包括用于实现上述第一方面或第一方面的任意一种实现方式的功能模块。
[0015]在本申请的第三方面,提供了一种电子设备。该电子设备包括:至少一个计算单元;至少一个存储器,至少一个存储器被耦合到至少一个计算单元并且存储用于由至少一个计算单元执行的指令,指令当由至少一个计算单元执行时,使得设备执行第一方面或者第一方面中的任意一种实现方式中的方法。
[0016]在本申请的第四方面,提供了一种计算机可读存储介质。计算机可读存储介质存
储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现第一方面或者第一方面中的任意一种实现方式中的方法。
[0017]在本申请的第五方面,提供一种计算机程序产品。计算机程序产品包括计算机可执行指令,计算机可执行指令在被处理器执行时,使计算机执行第一方面或者第一方面中的任意一种实现方式中的方法的部分或全部步骤的指令。
[0018]可以理解地,上述提供的第二方面的语音识别装置、第三方面的电子设备、第四方面的计算机存储介质或者第五方面的计算机程序产品均用于实现第一方面所提供的方法。因此,关于第一方面的解释或者说明同样适用于第二方面、第三方面、第四方面和第五方面。此外,第二方面、第三方面、第四方面和第五方面所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
[0019]本专利技术的这些和其它方面在以下(多个)实施例的描述中会更加简明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:第一设备利用经训练的语音识别模型从接收到的来自用户的语音数据中获取特征数据;以及响应于所述语音识别模型基于所述特征数据未识别出所述用户的预期指令,所述第一设备将所述特征数据与预先构建的数据库中的多个候选特征数据进行比对,以将所述多个候选特征数据中的目标特征数据所对应的目标指令确定为所述用户的所述预期指令,其中所述数据库包括所述多个候选特征数据以及对应的多个候选指令,所述对应的多个候选指令包括所述目标指令。2.根据权利要求1所述的方法,其特征在于,还包括:所述第一设备获取所述多个候选特征数据和所述对应的多个候选指令,以构建所述数据库,其中获取所述多个候选特征数据和所述对应的多个候选指令包括:所述第一设备将所述用户的在先语音数据分别传输至所述语音识别模型和所述第二设备的附加语音识别模型;以及响应于所述语音识别模型基于从所述在先语音数据中获取的在先特征数据未识别出所述用户的在先预期指令、并且所述附加语音识别模型识别出所述在先预期指令,获取所述在先特征数据与所述在先预期指令,作为所述多个候选特征数据和所述对应的多个候选指令的一部分。3.根据权利要求1所述的方法,其特征在于,还包括:所述第一设备获取所述多个候选特征数据和所述对应的多个候选指令,以构建所述数据库,其中获取所述多个候选特征数据和所述对应的多个候选指令包括:所述第一设备将所述用户的在先语音数据分别传输至所述语音识别模型和所述第二设备的附加语音识别模型;以及响应于所述语音识别模型基于从所述在先语音数据中获取的在先特征数据未识别出所述用户的在先预期指令、并且所述附加语音识别模型未识别出所述在先预期指令,如果检测到来自所述用户的动作指令,所述第一设备获取所述在先特征数据与所述动作指令,作为所述多个候选特征数据和所述对应的多个候选指令的一部分。4.根据权利要求2所述的方法,其特征在于,还包括:基于所述语音识别模型识别出的语音识别结果或者基于所述附加语音识别模型识别出的所述在先预期指令的语音识别结果,确定所述在先语音数据的空白信息;以及基于所述空白信息从所述在先特征数据中去除冗余信息。5.根据权利要求1所述的方法,其特征在于,将所述特征数据与所述多个候选特征数据进行比对包括:将所述多个候选特征数据中的至少一部分与所述特征数据发送至预先训练的特征数据比对模型,以确定比对结果,其中所述特征数据比对模型是将一个待比对参考特征数据和多个候选参考特征数据作为输入、将所述多个候选参考特征数据与一个待比对参考特征数据是否相同以及所述多个候选参考特征数据所对应的用户与所述用户是否相同作为输出来训练得到的。6.根据权利要求1所述的方法,其特征在于,还包括:响应于所述语音识别模型基于所述特征数据未识别出所述用户的预期指令,如果所述
数据库中的所述多个候选特征数据的数据量小于或等于预定阈值,所述第一设备将所述用户的语音数据传输至第二设备的附加语音识别模型,以将所述附加语音识别模型确定的识别结果确定为所述用户的所述预期指令。7.根据权利要求1所述的方法,其特征在于,所述第一设备是所述用户的终端设备。8.根据权利要求2所述的方法,其特征在于,所述第一设备是所述用户的终端设备,并且所述第二设备是服务器。9.一种语音识别装置,其特征在于,包括:特征数据获取模块,被配置为利用经训练的语音识别模型从接收到的来自用户的语音数据中获取特征数据;以及比对模块,被配置为响应于所述语音识别模型基于所述特征数据未识别出所述用户的预期指令,将所述特征数据与预先构建的数据库中的多个候选特征数据进行比对,以将所述多个候选特征数据中的目标特征数据所对应的目标指令确定为所述用户的所述预期指令,其...

【专利技术属性】
技术研发人员:张少永
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1