本申请实施例提供了一种语音交互方法、装置、电子设备和可读存储介质,涉及计算机技术领域。在本申请实施例中,可以通过进行补充训练的关键词检测模型对目标语音进行关键词检测,其中,由于关键词检测模型至少基于第一样本中预定范围的音频帧进行补充训练,且预定范围以第一样本中的关键词对应的结束帧作为起始点,以预定帧数作为预定范围的长度。因此,这使得补充训练后的关键词检测模型在进行语音交互时,关键词的触发时间点会集中在上述预定范围中的各音频帧,避免了提前触发以及延迟触发的问题,提高了触发关键词的时间点的准确度。度。度。
【技术实现步骤摘要】
语音交互方法、装置、电子设备和可读存储介质
[0001]本申请涉及计算机
,特别是涉及一种语音交互方法、装置、电子设备和可读存储介质。
技术介绍
[0002]随着计算机技术的发展,电子设备智能化的程度越来越高,目前,大多数的电子设备已支持语音方式的人机交互。用户与电子设备进行语音交互时,电子设备需要准确、及时地识别用户语音。
[0003]其中,电子设备在接收到用户语音后,会对用户语音进行语音识别,当电子设备检测到用户语音中存在特定的关键词时,电子设备会根据该关键词执行相应的操作。但是,在相关技术中,电子设备在识别用户语音时,仍存在关键词过早触发或者延迟触发的问题。
技术实现思路
[0004]有鉴于此,本申请实施例提供一种语音交互方法、装置、电子设备和可读存储介质,以避免提前触发关键词以及延迟触发关键词的问题,提高了触发关键词的时间点的准确度。
[0005]第一方面,提供了一种语音交互方法,所述方法包括:
[0006]确定目标语音。
[0007]基于关键词检测模型,对所述目标语音进行关键词检测,确定关键词检测的结果,所述关键词检测模型至少基于第一样本中预定范围的音频帧进行补充训练,所述预定范围以所述第一样本中的关键词对应的结束帧作为起始点,以预定帧数作为所述预定范围的长度。
[0008]响应于检测到所述目标语音中包括所述关键词,执行所述关键词对应的预存指令。
[0009]在一些实施例中,所述关键词检测模型基于如下步骤进行补充训练:
[0010]获取预训练的关键词检测模型和第一训练集,所述第一训练集至少包括所述第一样本、所述第一样本对应的第一样本标签和所述第一样本对应预定范围的范围标记。
[0011]根据所述范围标记,在所述第一样本中确定预定范围内的音频帧。
[0012]根据所述预定范围内的音频帧和所述第一样本标签,调整所述关键词检测模型的模型参数。
[0013]在一些实施例中,所述根据所述预定范围内的音频帧和所述第一样本标签,调整所述关键词检测模型的模型参数包括:
[0014]将所述第一样本输入所述预训练的关键词检测模型,确定所述预训练的关键词检测模型输出的第一概率向量。
[0015]确定所述预定范围内的音频帧在所述第一概率向量中对应的各目标概率。
[0016]对各所述目标概率进行最大值池化,确定第二概率向量。
[0017]根据所述第二概率向量和所述第一样本标签,调整所述预训练的关键词检测模型的模型参数。
[0018]在一些实施例中,所述关键词检测模型基于如下步骤进行预训练:
[0019]获取第二训练集,所述第二训练集至少包括第二样本和所述第二样本对应的第二样本标签。
[0020]将所述第二样本输入初始关键词检测模型,确定所述初始关键词检测模型输出的第三概率向量。
[0021]根据所述第三概率向量和所述第二样本标签,调整所述初始关键词检测模型的模型参数。
[0022]在一些实施例中,所述方法还包括:
[0023]获取待处理样本和所述待处理样本对应的语音文本。
[0024]对所述待处理样本和所述语音文本进行强制对齐,以确定所述第一样本和所述第一样本对应的预定范围。
[0025]在一些实施例中,所述对所述待处理样本和所述语音文本进行强制对齐包括:
[0026]将所述待处理样本输入预先训练的语音识别模型,确定所述待处理样本对应的第一文本概率分布。
[0027]根据所述第一文本概率分布和所述语音文本,确定所述语音文本在所述待处理样本中的第二文本概率分布。
[0028]根据所述第二文本概率分布,将所述待处理样本和所述语音文本进行强制对齐。
[0029]在一些实施例中,所述根据所述第一文本概率分布和所述语音文本,确定所述语音文本在所述待处理样本中的第二文本概率分布包括:
[0030]确定所述语音文本中的各字在所述第一文本概率分布中的最大概率。
[0031]根据所述最大概率,确定所述语音文本中的各字在所述第一文本概率分布中的目标位置。
[0032]根据所述目标位置,确定所述语音文本在所述第一文本概率分布中的匹配路径,以确定所述第二文本概率分布。
[0033]第二方面,提供了一种语音交互装置,所述装置包括:
[0034]目标语音确定模块,被配置为执行确定目标语音。
[0035]关键词检测模块,被配置为执行基于预先训练的关键词检测模型,对所述目标语音进行关键词检测,确定关键词检测的结果,所述关键词检测模型至少基于第一样本中预定范围的音频帧进行补充训练,所述预定范围以所述第一样本中的关键词对应的结束帧作为起始点,以预定帧数作为所述预定范围的长度。
[0036]关键词执行模块,被配置为执行响应于检测到所述目标语音中包括所述关键词,执行所述关键词对应的预存指令。
[0037]在一些实施例中,所述关键词检测模型基于如下模块进行补充训练:
[0038]第一获取模块,被配置为执行获取预训练的关键词检测模型和第一训练集,所述第一训练集至少包括所述第一样本、所述第一样本对应的第一样本标签和所述第一样本对应预定范围的范围标记。
[0039]第一确定模块,被配置为执行根据所述范围标记,在所述第一样本中确定预定范
围内的音频帧。
[0040]补充训练模块,被配置为执行根据所述预定范围内的音频帧和所述第一样本标签,调整所述关键词检测模型的模型参数。
[0041]在一些实施例中,所述补充训练模块具体被配置为执行:
[0042]将所述第一样本输入所述预训练的关键词检测模型,确定所述预训练的关键词检测模型输出的第一概率向量。
[0043]确定所述预定范围内的音频帧在所述第一概率向量中对应的各目标概率。
[0044]对各所述目标概率进行最大值池化,确定第二概率向量。
[0045]根据所述第二概率向量和所述第一样本标签,调整所述预训练的关键词检测模型的模型参数。
[0046]在一些实施例中,所述关键词检测模型基于如下模块进行预训练:
[0047]第二获取模块,被配置为执行获取第二训练集,所述第二训练集至少包括第二样本和所述第二样本对应的第二样本标签。
[0048]第二确定模块,被配置为执行将所述第二样本输入初始关键词检测模型,确定所述初始关键词检测模型输出的第三概率向量。
[0049]预训练模块,被配置为执行根据所述第三概率向量和所述第二样本标签,调整所述初始关键词检测模型的模型参数。
[0050]在一些实施例中,所述装置还包括:
[0051]第三获取模块,被配置为执行获取待处理样本和所述待处理样本对应的语音文本。
[0052]强制对齐模块,被配置为执行对所述待处理样本和所述语音文本进行强制对齐,以确定所述第一样本和所述第一样本对应的预定范围。
[0053]在一些实施例中,所述强本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音交互方法,其特征在于,所述方法包括:确定目标语音;基于关键词检测模型,对所述目标语音进行关键词检测,确定关键词检测的结果,所述关键词检测模型至少基于第一样本中预定范围的音频帧进行补充训练,所述预定范围以所述第一样本中的关键词对应的结束帧作为起始点,以预定帧数作为所述预定范围的长度;以及响应于检测到所述目标语音中包括所述关键词,执行所述关键词对应的预存指令。2.根据权利要求1所述的方法,其特征在于,所述关键词检测模型基于如下步骤进行补充训练:获取预训练的关键词检测模型和第一训练集,所述第一训练集至少包括所述第一样本、所述第一样本对应的第一样本标签和所述第一样本对应预定范围的范围标记;根据所述范围标记,在所述第一样本中确定预定范围内的音频帧;以及根据所述预定范围内的音频帧和所述第一样本标签,调整所述关键词检测模型的模型参数。3.根据权利要求2所述的方法,其特征在于,所述根据所述预定范围内的音频帧和所述第一样本标签,调整所述关键词检测模型的模型参数包括:将所述第一样本输入所述预训练的关键词检测模型,确定所述预训练的关键词检测模型输出的第一概率向量;确定所述预定范围内的音频帧在所述第一概率向量中对应的各目标概率;对各所述目标概率进行最大值池化,确定第二概率向量;以及根据所述第二概率向量和所述第一样本标签,调整所述预训练的关键词检测模型的模型参数。4.根据权利要求2所述的方法,其特征在于,所述关键词检测模型基于如下步骤进行预训练:获取第二训练集,所述第二训练集至少包括第二样本和所述第二样本对应的第二样本标签;将所述第二样本输入初始关键词检测模型,确定所述初始关键词检测模型输出的第三概率向量;以及根据所述第三概率向量和所述第二样本标签,调整所述初始关键词检测模型的模型参数。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取待处理样本和所述待处理样本对应的语音文本;以及对所述待处理样本和所述语音文本进行强制对齐,以确定所...
【专利技术属性】
技术研发人员:周凯,李媛媛,
申请(专利权)人:出门问问创新科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。