The present invention relates to a method and device for voice wake, wherein the method comprises the following steps: acquiring the voice information corresponding to the input of the current audio frame sequence information; the current audio frame sequence information and the target wake target acoustic model sequence information word corresponding to the forced alignment, from the current audio frame sequence information in positioning range each audio frame corresponding to the target phoneme sequence information in the acoustic model; acoustic likelihood score is calculated for each audio frame, and the range of each audio frame is selected in accordance with preset number of target audio frames design requirements; according to the characteristic information of the acoustic model and target audio frame corresponding to the use of the depth of the neural network modeling sure, the confidence of speech information belongs to the target word awakened; according to the degree of confidence to determine whether to allow voice wake up function. The technical scheme effectively reduces the amount of computation of speech wakeup so as to be applied to a speech device with a low computing resource limitation.
【技术实现步骤摘要】
一种语音唤醒方法及装置
本专利技术涉及语音识别
,尤其涉及一种语音唤醒方法及装置。
技术介绍
目前,在对语音唤醒功能的唤醒词进行识别时,是采用深度学习算法对用户输入的整个语音信息进行识别,计算量比较大,耗时长。
技术实现思路
本专利技术实施例提供一种语音唤醒方法及装置,用以减少语音唤醒的计算量,从而使语音唤醒方法能应用于存在低计算资源限制的语音设备中。根据本专利技术实施例的第一方面,提供一种语音唤醒方法,包括:获取输入的当前语音信息对应的当前音频帧特征序列信息;将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音唤醒功能。在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标声学模型序列进行对齐强制处理,进而从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过使用深度神经网络建模的声学模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。在一个实施例中,将所述当前音频帧序 ...
【技术保护点】
一种语音唤醒方法,其特征在于,包括:获取输入的当前语音信息对应的当前音频帧特征序列信息;将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音唤醒功能。
【技术特征摘要】
1.一种语音唤醒方法,其特征在于,包括:获取输入的当前语音信息对应的当前音频帧特征序列信息;将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围;计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音唤醒功能。2.根据权利要求1所述的方法,其特征在于,所述将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围,包括:将所述当前音频帧序列信息与使用子空间聚类高斯混合方法对所述目标唤醒词进行建模得到的目标声学模型序列信息进行强制对齐处理,以确定所述目标声学模型序列信息中每个音节的每个音素与所述当前语音帧特征序列信息中音频帧的范围之间的对应关系。3.根据权利要求2所述的方法,其特征在于,所述从所述音频帧的范围中选取出符合预设要求的预设数量的目标音频帧,包括:从与每个音素对应的音频帧的范围中选取出声学似然评分大于或者等于预设评分和/或物理位置满足预设物理位置的预设数量的目标音频帧。4.根据权利要求3所述的方法,其特征在于,所述根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:使用深度神经网络建模的声学模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。5.根据权利要求1所述的方法,其特征在于,所述根据所述置信度确定是否允许唤醒所述语音唤醒功能,包括:当所述置信度大于或者等于预设置信度时,...
【专利技术属性】
技术研发人员:张军,苏牧,梁家恩,
申请(专利权)人:北京云知声信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。