命令词识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31168590 阅读:20 留言:0更新日期:2021-12-04 13:27
本申请提供了一种命令词识别方法、装置、电子设备及存储介质,属于语音识别技术领域。该方法包括:对目标语音的多帧语音特征进行识别,得到目标文本、第一匹配度和第二匹配度,第一匹配度为多个候选音素与语音特征之间的匹配度中的最大值,第二匹配度为语音特征的目标音素与语音特征之间的匹配度;基于第一匹配度确定第一声学参数;基于第二匹配度确定第二声学参数;基于第一声学参数和第二声学参数确定声学置信度,声学置信度与第一声学参数负相关且与第二声学参数正相关;在目标文本包括命令词且声学置信度大于置信度阈值的情况下,执行命令词对应的指令。本申请在准确确定语音包括命令词的情况下,执行对应的指令,提高了语音控制的准确性。控制的准确性。控制的准确性。

【技术实现步骤摘要】
命令词识别方法、装置、电子设备及存储介质


[0001]本申请涉及语音识别
,特别涉及一种命令词识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着语音识别技术的不断发展,通过语音控制电子设备的应用也越来越广泛。用户可以向电子设备发出语音,指示电子设备执行相应的操作。例如,用户向智能电梯发出“去十楼”的语音,控制智能电梯运行至十楼。
[0003]当前,在语音控制场景中,电子设备通常基于语音识别技术,将语音识别为文本,在文本包括命令词的情况下,执行该命令词对应的指令。但是,仅考虑语音识别到的文本是否包括命令词,难以保证语音控制的准确性。

技术实现思路

[0004]本申请实施例提供了一种命令词识别方法、装置、电子设备及存储介质,能够提高语音控制的准确性。所述技术方案如下:
[0005]根据本申请实施例的一方面,提供了一种命令词识别方法,所述方法包括:
[0006]对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值,所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度,所述目标音素是从所述多个候选音素中选取的,所述目标文本基于所述多帧语音特征的目标音素确定;
[0007]基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;
[0008]基于所述第一声学参数和所述第二声学参数,确定所述目标文本与所述目标语音之间的声学置信度,所述声学置信度与所述第一声学参数负相关,且与所述第二声学参数正相关;
[0009]在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令。
[0010]在一种可能的实现方式中,所述基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,包括:
[0011]将所述多个第一匹配度的和值,确定为所述第一声学参数。
[0012]在一种可能的实现方式中,所述基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数,包括:
[0013]将所述多个第二匹配度的和值,确定为所述第二声学参数。
[0014]在一种可能的实现方式中,所述对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,包括:
[0015]对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,将所述多个候选音素与所述语音特征之间的匹配度中的最大值,确定为所述语音特征对应的第一匹配度;
[0016]至少两次执行从所述多个候选音素中选取每帧语音特征的候选目标音素,基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数的步骤;
[0017]在得到至少两个候选文本的选取参数的情况下,将选取参数最大的候选文本,确定为所述目标文本;
[0018]对于所述目标文本对应的每个候选目标音素,将所述候选目标音素与所述候选目标音素对应的语音特征之间的匹配度,确定为所述语音特征对应的第二匹配度。
[0019]在一种可能的实现方式中,所述对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,包括:
[0020]调用声学模型,对所述多帧语音特征进行声学识别,得到所述多个候选音素与每帧语音特征之间的匹配度;
[0021]其中,所述声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到。
[0022]在一种可能的实现方式中,所述从所述多个候选音素中选取每帧语音特征的候选目标音素之后,所述方法还包括:
[0023]记录每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度。
[0024]在一种可能的实现方式中,所述基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数,包括:
[0025]基于每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度,确定所述候选文本的第三声学参数;
[0026]对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,所述语言参数用于表示所述候选文本的语句通顺程度;
[0027]基于所述第三声学参数和所述候选文本的语言参数,确定所述候选文本的选取参数。
[0028]在一种可能的实现方式中,所述对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,包括:
[0029]调用语言模型,对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数;
[0030]其中,所述语言模型是分别以样本文本中的单个文字的多个音素为输入,以所述样本文本为输出目标进行训练得到的。
[0031]在一种可能的实现方式中,所述在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令之前,所述方法还包括:
[0032]获取所述置信度阈值对应的识别准确度,所述识别准确度表示基于所述置信度阈值进行命令词识别的准确性;
[0033]在所述识别准确度不符合条件的情况下,基于所述识别准确度,调整所述置信度阈值,直至调整后的所述置信度阈值对应的识别准确度符合条件。
[0034]在一种可能的实现方式中,所述获取所述置信度阈值对应的识别准确度,包括:
[0035]对于多个测试语音中的每个测试语音,获取所述测试语音对应的声学置信度;基于所述测试语音对应的声学置信度与所述置信度阈值的比较结果,以及所述测试语音的标注信息,确定所述测试语音的测试结果;
[0036]基于所述多个测试语音的测试结果,确定所述置信度阈值对应的识别准确度;
[0037]其中,所述标注信息表示所述测试语音是否为包括所述命令词的语音,所述测试结果表示基于所述置信度阈值对所述测试语音进行命令词识别的准确性。
[0038]根据本申请实施例的另一方面,提供了一种命令词识别装置,所述装置包括:
[0039]识别模块,用于对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值,所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度,所述目标音素是从所述多个候选音素中选取的,所述目标文本基于所述多帧语音特征的目标音素确定;
[0040]参数确定模块,用于基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;
[0041]置信度确定模块,用于基于所述第一声学参数和所述第二声学参数,确定所述目标文本与所述目标语音之间的声学置信度,所述声学置信度与所述第一声学参数负相关,且与所述第二声学参数正本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命令词识别方法,其特征在于,所述方法包括:对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值,所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度,所述目标音素是从所述多个候选音素中选取的,所述目标文本基于所述多帧语音特征的目标音素确定;基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;基于所述第一声学参数和所述第二声学参数,确定所述目标文本与所述目标语音之间的声学置信度,所述声学置信度与所述第一声学参数负相关,且与所述第二声学参数正相关;在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令。2.根据权利要求1所述的方法,其特征在于,所述基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,包括:将所述多个第一匹配度的和值,确定为所述第一声学参数。3.根据权利要求1所述的方法,其特征在于,所述基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数,包括:将所述多个第二匹配度的和值,确定为所述第二声学参数。4.根据权利要求1所述的方法,其特征在于,所述对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,包括:对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,将所述多个候选音素与所述语音特征之间的匹配度中的最大值,确定为所述语音特征对应的第一匹配度;至少两次执行从所述多个候选音素中选取每帧语音特征的候选目标音素,基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数的步骤;在得到至少两个候选文本的选取参数的情况下,将选取参数最大的候选文本,确定为所述目标文本;对于所述目标文本对应的每个候选目标音素,将所述候选目标音素与所述候选目标音素对应的语音特征之间的匹配度,确定为所述语音特征对应的第二匹配度。5.根据权利要求4所述的方法,其特征在于,所述对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,包括:调用声学模型,对所述多帧语音特征进行声学识别,得到所述多个候选音素与每帧语音特征之间的匹配度;其中,所述声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到。6.根据权利要求4所述的方法,其特征在于,所述从所述多个候选音素中选取每帧语音特征的候选目标音素之后,所述方法还包括:记录每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度。
7.根据权利要求4所述的方法,其特征在于,所述基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数,包括:基于每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度,确定所述候选文本的第三声学参数;对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,所述语言参数用于表示所述候...

【专利技术属性】
技术研发人员:郭震陈孝良李智勇
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1