命令词识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：31168590 阅读：37 留言：0更新日期：2021-12-04 13:27

本申请提供了一种命令词识别方法、装置、电子设备及存储介质，属于语音识别技术领域。该方法包括：对目标语音的多帧语音特征进行识别，得到目标文本、第一匹配度和第二匹配度，第一匹配度为多个候选音素与语音特征之间的匹配度中的最大值，第二匹配度为语音特征的目标音素与语音特征之间的匹配度；基于第一匹配度确定第一声学参数；基于第二匹配度确定第二声学参数；基于第一声学参数和第二声学参数确定声学置信度，声学置信度与第一声学参数负相关且与第二声学参数正相关；在目标文本包括命令词且声学置信度大于置信度阈值的情况下，执行命令词对应的指令。本申请在准确确定语音包括命令词的情况下，执行对应的指令，提高了语音控制的准确性。控制的准确性。控制的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
命令词识别方法、装置、电子设备及存储介质

[0001]本申请涉及语音识别
，特别涉及一种命令词识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着语音识别技术的不断发展，通过语音控制电子设备的应用也越来越广泛。用户可以向电子设备发出语音，指示电子设备执行相应的操作。例如，用户向智能电梯发出“去十楼”的语音，控制智能电梯运行至十楼。
[0003]当前，在语音控制场景中，电子设备通常基于语音识别技术，将语音识别为文本，在文本包括命令词的情况下，执行该命令词对应的指令。但是，仅考虑语音识别到的文本是否包括命令词，难以保证语音控制的准确性。

技术实现思路

[0004]本申请实施例提供了一种命令词识别方法、装置、电子设备及存储介质，能够提高语音控制的准确性。所述技术方案如下：
[0005]根据本申请实施例的一方面，提供了一种命令词识别方法，所述方法包括：
[0006]对目标语音的多帧语音特征进行识别，得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度，所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值，所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度，所述目标音素是从所述多个候选音素中选取的，所述目标文本基于所述多帧语音特征的目标音素确定；
[0007]基于所述多帧语音特征分别对应的多个第一匹配度，确定第一声学参数，以及，基于所述多帧语音特征分别对应的多个第二匹配度，确定第二声学参数；
[0008]基于所述第一声学参数和...

【技术保护点】

【技术特征摘要】
1.一种命令词识别方法，其特征在于，所述方法包括：对目标语音的多帧语音特征进行识别，得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度，所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值，所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度，所述目标音素是从所述多个候选音素中选取的，所述目标文本基于所述多帧语音特征的目标音素确定；基于所述多帧语音特征分别对应的多个第一匹配度，确定第一声学参数，以及，基于所述多帧语音特征分别对应的多个第二匹配度，确定第二声学参数；基于所述第一声学参数和所述第二声学参数，确定所述目标文本与所述目标语音之间的声学置信度，所述声学置信度与所述第一声学参数负相关，且与所述第二声学参数正相关；在所述目标文本包括命令词，且所述声学置信度大于置信度阈值的情况下，执行所述命令词对应的指令。2.根据权利要求1所述的方法，其特征在于，所述基于所述多帧语音特征分别对应的多个第一匹配度，确定第一声学参数，包括：将所述多个第一匹配度的和值，确定为所述第一声学参数。3.根据权利要求1所述的方法，其特征在于，所述基于所述多帧语音特征分别对应的多个第二匹配度，确定第二声学参数，包括：将所述多个第二匹配度的和值，确定为所述第二声学参数。4.根据权利要求1所述的方法，其特征在于，所述对目标语音的多帧语音特征进行识别，得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度，包括：对于每帧语音特征，获取所述多个候选音素与所述语音特征之间的匹配度，将所述多个候选音素与所述语音特征之间的匹配度中的最大值，确定为所述语音特征对应的第一匹配度；至少两次执行从所述多个候选音素中选取每帧语音特征的候选目标音素，基于每帧语音特征的候选目标音素，确定候选文本以及所述候选文本的选取参数的步骤；在得到至少两个候选文本的选取参数的情况下，将选取参数最大的候选文本，确定为所述目标文本；对于所述目标文本对应的每个候选目标音素，将所述候选目标音素与所述候选目标音素对应的语音特征之间的匹配度，确定为所述语音特征对应的第二匹配度。5.根据权利要求4所述的方法，其特征在于，所述对于每帧语音特征，获取所述多个候选音素与所述语音特征之间的匹配度，包括：调用声学模型，对所述多帧语音特征进行声学识别，得到所述多个候选音素与每帧语音特征之间的匹配度；其中，所述声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到。6.根据权利要求4所述的方法，其特征在于，所述从所述多个候选音素中选取每帧语音特征的候选目标音素之后，所述方法还包括：记录每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度。
7.根据权利要求4所述的方法，其特征在于，所述基于每帧语音特征的候选目标音素，确定候选文本以及所述候选文本的选取参数，包括：基于每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度，确定所述候选文本的第三声学参数；对所述多帧语音特征的候选目标音素进行文本转换，得到所述候选文本和所述候选文本的语言参数，所述语言参数用于表示所述候...

【专利技术属性】
技术研发人员：郭震，陈孝良，李智勇，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人