当前位置: 首页 > 专利查询>深圳大学专利>正文

语音关键词检测方法、装置、终端设备和存储介质制造方法及图纸

技术编号:27447960 阅读:26 留言:0更新日期:2021-02-25 04:20
本申请涉及语音识别技术领域,提出一种语音关键词检测方法、装置、终端设备及计算机存储介质。本申请在获取到待检测的音频流后,首先提取该音频流的音频特征,语音端点检测模块可以根据该音频特征检测该音频流的各帧音频信号是否含有语音信号;另外,只有在检测到该音频流中连续二帧以上的音频信号均含有语音信号时,语音端点检测模块才会触发关键词检测模块启动,从而可以降低由于语音端点检测模块产生误判而导致的系统功耗。产生误判而导致的系统功耗。产生误判而导致的系统功耗。

【技术实现步骤摘要】
语音关键词检测方法、装置、终端设备和存储介质


[0001]本申请涉及语音识别
,尤其涉及一种语音关键词检测方法、装置、终端设备和存储介质。

技术介绍

[0002]语音关键词检测的主要功能是检测一段音频信号中是否含有既定关键词。随着移动互联网时代的到来,语音关键词检测技术有了更加广泛的应用,例如在智能家居、智能手机等设备中,采用语音关键词检测技术可以使设备不断的监听特定的关键词,用户仅仅需要说出预设关键词就可以唤醒设备开始工作,从而为用户提供免手持的语音识别体验。
[0003]目前,常规的语音关键词检测方法通常为:采用语音端点检测模块检测获取到的音频流中是否含有语音信号;若检测到含有语音信号则提取该语音信号的音频特征;当提取到一定数量的音频特征后,采用关键词检测模块检测该音频特征中具有的关键词。
[0004]然而,语音端点检测模块存在一定的误判可能,当产生误判时会误启动关键词检测模块,从而导致不必要的系统功耗。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种语音关键词检测方法、装置、终端设备和存储介质,能够降低由于语音端点检测模块产生误判而导致的系统功耗。
[0006]本申请实施例的第一方面提供了一种语音关键词检测方法,包括:
[0007]获取待测音频流;
[0008]提取所述待测音频流的音频特征;
[0009]根据所述音频特征检测所述待测音频流中连续二帧以上的音频信号是否均含有语音信号;
[0010]若所述待测音频流中连续二帧以上的音频信号均含有语音信号,则根据所述音频特征对所述待测音频流执行关键词检测的操作。
[0011]本申请在获取到待检测的音频流后,首先提取该音频流的音频特征,语音端点检测模块可以根据该音频特征检测该音频流的各帧音频信号是否含有语音信号;另外,只有在检测到该音频流中连续二帧以上的音频信号均含有语音信号时,语音端点检测模块才会触发关键词检测模块启动,从而可以降低由于语音端点检测模块产生误判而导致的系统功耗。
[0012]在本申请的一个实施例中,提取所述待测音频流的音频特征,可以包括:
[0013]对所述待测音频流进行分帧处理,得到多个音频片段帧;
[0014]对所述多个音频片段帧执行离散余弦变换处理,得到所述多个音频片段帧的频域信号;
[0015]采用滤波器对所述频域信号进行滤波,得到所述待测音频流的音频特征。
[0016]在对该待测音频流进行分帧处理时,可以采用添加窗函数并且结合存储器件的方
式完成。另外,可以采用离散余弦变换模块对分帧得到的多个音频片段帧进行处理,完成从时域信号到频域信号的转换,使用离散余弦变换后计算得到的信号的能量特征更集中,更易于提取语音相关特征。在经过离散余弦变换后,时域信号变换到了频域信号,接下来可以采用滤波器对该频域信号进行滤波,得到该待测音频流的音频特征。
[0017]进一步的,对所述待测音频流进行分帧处理,得到多个音频片段帧,可以包括:
[0018]将所述待测音频流写入预设尺寸的存储器件,其中,当所述存储器件写满时,新写入的数据将覆盖旧的数据;
[0019]当所述存储器件首次写满时,将所述存储器件当前已写入的数据提取出来,作为第一个音频片段帧;
[0020]当所述存储器件在首次写满后,再次写入数据长度为所述预设尺寸一半的数据时,将所述存储器件当前已写入的数据提取出来,作为第二个音频片段帧;
[0021]当所述存储器件在首次写满后,再次写入数据长度为所述预设尺寸的数据时,将所述存储器件当前已写入的数据提取出来,作为第三个音频片段帧;
[0022]不断重复上述操作,直至遍历所述待测音频流的所有数据,得到所述多个音频片段帧。
[0023]假设采用的存储器件是存储区为512*12bit的SRAM,加窗操作的实现仅需要对该SRAM的写地址进行判断,当SRAM首次写满数据时,地址0-511当前存储的数据为第一个音频片段帧;在SRAM写满数据后,新写入的数据会覆盖旧的数据,而当再次写入数据长度为该SRAM尺寸一半的数据(即256*12bit)时,将所述SRAM存储器件当前已写入的数据提取出来,作为第二个音频片段帧,即从SRAM地址256起始至下一循环的地址255,为第二个音频片段帧;然后,再往SRAM写入256*12bit的数据后,将该SRAM存储器件当前已写入的数据提取出来,作为第三个音频片段帧,以此类推,直至遍历该待测音频流的所有数据。
[0024]在本申请的一个实施例中,所述待测音频流中任意的一帧目标音频信号是否含有语音信号可以通过以下方式检测:
[0025]采用预先构建的语音信号检测模型对所述目标音频信号的音频特征进行处理,得到所述目标音频信号含有语音信号的第一概率以及所述目标音频信号不含语音信号的第二概率;
[0026]若所述第一概率大于所述第二概率,则判定所述目标音频信号含有语音信号,否则判定所述目标音频信号不含语音信号;
[0027]其中,所述语音信号检测模型的偏置值、激活值和各层神经网络的权重精度均可配置。
[0028]经过滤波之后的特征数据可以存放在一个双端SRAM中,另外该SRAM还可以存放神经网络计算过程中产生的中间值。采用一个预先构建的语音信号检测模型对音频特征进行处理,可以得到音频信号中是否含有语音信号的概率。具体的,该语音信号检测模型可以是一个神经网络模型,通过读取相应SRAM中存储的音频特征数据到神经网络的处理单元中进行计算,模型的输入层为语音特征值,输出层使用的是softmax函数,输出两个概率分别是语音和非语音的概率,当语音的概率大于非语音的概率则判定当前的音频信号包含语音信号。
[0029]进一步的,在采用预先构建的语音信号检测模型对所述目标音频信号的音频特征
进行处理之前,还可以包括:
[0030]检测所述待测音频流的信噪比;
[0031]若所述信噪比大于或等于第一阈值,则将所述语音信号检测模型的各层神经网络的权重精度设置为第一数值;
[0032]若所述信噪比小于所述第一阈值,则将所述语音信号检测模型的各层神经网络的权重精度设置为第二数值,其中,所述第二数值大于所述第一数值。
[0033]基于该语音信号检测模型的参数可配置的特征,在使用该模型之前,可以先根据现场环境的信噪比有针对性地配置该模型的参数。具体的,对于信噪比较低的环境,可以配置模型的权重精度为较高的数值,这样能够保证模型检测的精度和准确度;对于信噪比较高的环境,可以配置模型的权重精度为较低的数值,这样可以节约系统功耗,同时也不会出现检测准确度大幅下降的问题。
[0034]在本申请的一个实施例中,根据所述音频特征对所述待测音频流执行关键词检测的操作,可以包括:
[0035]针对所述待测音频流中的每帧音频信号,采用预先构建的关键词检测模型对所述音频信号进行处理,得到所述音频信号含有各个预设语音关键词的概率;
...

【技术保护点】

【技术特征摘要】
1.一种语音关键词检测方法,其特征在于,包括:获取待测音频流;提取所述待测音频流的音频特征;根据所述音频特征检测所述待测音频流中连续二帧以上的音频信号是否均含有语音信号;若所述待测音频流中连续二帧以上的音频信号均含有语音信号,则根据所述音频特征对所述待测音频流执行关键词检测的操作。2.如权利要求1所述的语音关键词检测方法,其特征在于,提取所述待测音频流的音频特征,包括:对所述待测音频流进行分帧处理,得到多个音频片段帧;对所述多个音频片段帧执行离散余弦变换处理,得到所述多个音频片段帧的频域信号;采用滤波器对所述频域信号进行滤波,得到所述待测音频流的音频特征。3.如权利要求2所述的语音关键词检测方法,其特征在于,对所述待测音频流进行分帧处理,得到多个音频片段帧,包括:将所述待测音频流写入预设尺寸的存储器件,其中,当所述存储器件写满时,新写入的数据将覆盖旧的数据;当所述存储器件首次写满时,将所述存储器件当前已写入的数据提取出来,作为第一个音频片段帧;当所述存储器件在首次写满后,再次写入数据长度为所述预设尺寸一半的数据时,将所述存储器件当前已写入的数据提取出来,作为第二个音频片段帧;当所述存储器件在首次写满后,再次写入数据长度为所述预设尺寸的数据时,将所述存储器件当前已写入的数据提取出来,作为第三个音频片段帧;不断重复上述操作,直至遍历所述待测音频流的所有数据,得到所述多个音频片段帧。4.如权利要求1所述的语音关键词检测方法,其特征在于,所述待测音频流中任意的一帧目标音频信号是否含有语音信号通过以下方式检测:采用预先构建的语音信号检测模型对所述目标音频信号的音频特征进行处理,得到所述目标音频信号含有语音信号的第一概率以及所述目标音频信号不含语音信号的第二概率;若所述第一概率大于所述第二概率,则判定所述目标音频信号含有语音信号,否则判定所述目标音频信号不含语音信号;其中,所述语音信号检测模型的偏置值、激活值和各层神经网络的权重精度均可配置。5.如权利要求4所述的语音关键词检测方法,其特征在于,在采用预先构建的语音信号检测模型对所述目标音频信号的音频特征进行处理之前,还包括:检测所述...

【专利技术属性】
技术研发人员:黎冰魏健龙
申请(专利权)人:深圳大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1