一种语音端点检测的方法和装置制造方法及图纸

技术编号:24097222 阅读:23 留言:0更新日期:2020-05-09 10:59
本申请公开了一种语音端点的检测方法,包括:将待检测的语音信号进行小波变换,在不同尺度因子下将同一语音信号经小波变换后分别得到高频和低频小波系数集,分别计算高频系数对应的熵向量和低频系数对应的熵向量;将高频和低频系数对应的熵向量分别通过第一BLSTM神经网络和第二BLSTM神经网络进行深度学习,并将进行CNN处理;利用高频系数对应的CNN处理结果,计算每帧语音信号属于噪音段的第一概率;利用低频系数对应的CNN处理结果,计算每帧语音信号属于语音段的第二概率;根据第一概率和所述第二概率的比较,确定每帧语音信号所属的类别,继而确定语音端点。应用本申请,能够提高语音端点检测性能。

A method and device of speech endpoint detection

【技术实现步骤摘要】
一种语音端点检测的方法和装置
本申请涉及语音信号处理技术,特别涉及一种语音端点检测的方法和装置。
技术介绍
端点检测是指通过准确识别一段语音信号中的起始点和结束点,区分出语音信号和噪音信号的过程,是语音分析、语音合成和语音识别等领域中的一个重要环节。端点检测通过识别并去除噪音段数据,节省数据处理时间,提升语音识别的精度,在实际应用中具有重要的研究意义。现有的端点检测方法主要包括基于能量和过零率、Mel倒频谱系数、信息熵、HMM和小波变换等分析方法。小波变换(WavletTransform)作为一种重要的时频分析方法,其性能要优于傅里叶变换。它具有同时在时域和频域表征信号局部化能力,通过在不同的尺度因子s上计算连续域或离散域语音信号的小波变换系数,然后多次分解具有低频小波系数,根据小波系数阈值或小波系数方差判断语音信号所属的类别。连续小波变换计算公式为小波基函数为其中,x(t)为语音信号,ψ(t)为连续小波变换函数,尺度因子为s,位置因子为τ。因此小波变换具有一定的瞬时性、抗噪性和多分辨率,能够处理非线性、非平稳的语音信号,是语音端点检测中比较有代表性的方法。现有的小波变换算法主要依赖于阈值和低频小波系数进行语音端点检测,对不同语音信号和噪音信号的适应性,起伏变化比较大,对于某些信号可能检测准确性较高,而对于某些信号的检测准确性又较低,同时,对语音信号起始点的识别准确度也较差。
技术实现思路
本申请提供一种语音端点的检测方法和装置,能够提高语音信号检测的抗噪能力和适应能力,同时实现起止点的准确检测。为实现上述目的,本申请采用如下技术方案:一种语音端点的检测方法,包括:将待检测的语音信号进行小波变换,在不同尺度因子下将同一语音信号经小波变换后分别得到高频和低频小波系数集,并分别计算高频系数对应的熵向量和低频系数对应的熵向量;将所述高频系数对应的熵向量和所述低频系数对应的熵向量分别输入预先训练生成的第一BLSTM神经网络和第二BLSTM神经网络进行深度学习,得到高频系数对应的隐藏层向量和低频系数对应的隐藏层向量,并将所述高频系数对应的隐藏层向量和所述低频系数对应的隐藏层向量,分别进行CNN处理;利用高频系数对应的CNN处理结果,计算每帧语音信号属于噪音段的第一概率;利用低频系数对应的CNN处理结果,计算每帧语音信号属于语音段的第二概率;根据所述第一概率和所述第二概率的比较,确定每帧语音信号所属的类别,并根据所有帧语音信号所属的类别确定语音端点。较佳地,训练所述BLSTM神经网络的方式包括:将用于训练的语音信号根据特性划分成多个语音段和噪声段,其中,语音段长度在预设的长度范围内,并将不符合要求的语音信号片段删除;将各语音段和噪音段内的信号分别以帧为单位对应标记为语音和噪音,并将所述标记作为相应帧的实际标记;将所述各语音段和所述各噪音段进行小波变换,在不同尺度因子下将同一语音信号经小波变换后分别得到高频和低频小波系数集,并分别计算高频系数对应的熵向量和低频系数对应的熵向量;将所述高频系数对应的熵向量和所述低频系数对应的熵向量分别输入当前第一BLSTM神经网络和当前第二BLSTM神经网络进行深度学习,将高频系数对应的隐藏层向量和低频系数对应的隐藏层向量,分别进行CNN处理;利用高频系数对应的CNN处理结果,计算各帧语音信号属于噪音段的第一概率;利用低频系数对应的CNN处理结果,计算各帧语音信号属于语音段的第二概率;根据所述第一概率和所述第二概率的比较,确定相应帧语音信号属于语音段还是噪音段,并将其作为帧语音信号的预测标记;将每帧语音信号对应的预测标记与实际标记进行比较,并反向传播更新当前第一BLSTM神经网络的参数和当前第二BLSTM神经网络的参数,直到预测标记的准确性达到设定要求,停止训练。较佳地,所述第一BLSTM神经网络和所述第二BLSTM神经网络相互独立。一种语音端点的检测装置,包括:小波变换单元、第一熵计算单元、第二熵计算单元、第一BLSTM神经网络处理单元、第二BLSTM神经网络、第一CNN单元、第二CNN单元、分类单元和检测单元;所述小波变换单元,用于将待检测的语音信号进行小波变换,将变换后得到的小波系数分成高频系数集和低频系数集,分别输入所述第一熵计算单元和所述第二熵计算单元;所述第一熵计算单元,用于计算高频系数对应的熵向量,并输出给所述第一BLSTM神经网络处理单元;所述第二熵计算单元,用于计算低频系数对应的熵向量,并输出给所述第二BLSTM神经网络处理单元;所述第一BLSTM神经网络处理单元,用于利用训练生成的第一BLSTM神经网络对输入的高频系数对应的熵向量进行深度学习,得到高频系数对应的隐藏层向量输出给所述第一CNN单元;所述第二BLSTM神经网络处理单元,用于利用训练生成的第二BLSTM神经网络对输入的低频系数对应的熵向量进行深度学习,得到低频系数对应的隐藏层向量输出给所述第二CNN单元;所述第一CNN单元,用于对所述高频系数对应的隐藏层向量进行CNN处理,并利用该处理结果计算每帧语音信号属于噪音段的第一概率;所述第二CNN单元,用于对所述低频系数对应的隐藏层向量进行CNN处理,并利用该处理结果计算每帧语音信号属于语音段的第二概率;所述分类单元,用于根据所述第一概率和所述第二概率的比较,确定每帧语音信号所属的类别;所述检测单元,用于根据所有帧语音信号所属的类别确定语音端点。较佳地,进一步包括训练单元;所述小波变换单元,还用于对将用于训练的语音信号根据特性划分成多个语音段和噪声段,并对所述语音段和噪声段进行小波变换,将变换后得到的小波系数分成高频系数集和低频系数集,分别输入所述第一熵计算单元和所述第二熵计算单元;其中,语音段长度在预设的长度范围内,并将不符合要求的语音信号片段删除;所述训练单元,用于将各所述语音段和各所述噪音段内的信号分别以帧为单位对应标记为语音和噪音,并将所述标记作为相应帧的实际标记;将所述分类单元确定出的各所述语音段和各所述噪音段内每帧的标记与相应帧的实际标记进行比较,并反向传播更新当前第一BLSTM、当前第一CNN神经网络的参数和当前第二BLSTM、当前第二CNN神经网络的参数,直到预测标记的准确性达到设定要求,停止训练。由上述技术方案可见,本申请中,将待检测的语音信号进行小波变换,将变换后得到的小波系数分成高频系数集和低频系数集,并分别计算高频系数对应的熵向量和低频系数对应的熵向量;将高频系数对应的熵向量和所述低频系数对应的熵向量分别输入预先训练生成的第一BLSTM神经网络和第二BLSTM神经网络进行深度学习,得到高频系数对应的隐藏层向量和低频系数对应的隐藏层向量,并将高频系数对应的隐藏层向量和低频系数对应的隐藏层向量,分别进行CNN处理;利用高频系数对应的CNN处理结果,计算每帧语音信号属于噪音段的第一概率;利用低频系数对应本文档来自技高网...

【技术保护点】
1.一种语音端点的检测方法,其特征在于,该方法包括:/n将待检测的语音信号进行小波变换,在不同尺度因子下将同一语音信号经小波变换后分别得到高频和低频小波系数集,并分别计算高频系数对应的熵向量和低频系数对应的熵向量;/n将所述高频系数对应的熵向量和所述低频系数对应的熵向量分别输入预先训练生成的第一BLSTM神经网络和第二BLSTM神经网络进行深度学习,得到高频系数对应的隐藏层向量和低频系数对应的隐藏层向量,并将所述高频系数对应的隐藏层向量和所述低频系数对应的隐藏层向量,分别进行CNN处理;/n利用高频系数对应的CNN处理结果,计算每帧语音信号属于噪音段的第一概率;利用低频系数对应的CNN处理结果,计算每帧语音信号属于语音段的第二概率;/n根据所述第一概率和所述第二概率的比较,确定每帧语音信号所属的类别,并根据所有帧语音信号所属的类别确定语音端点。/n

【技术特征摘要】
1.一种语音端点的检测方法,其特征在于,该方法包括:
将待检测的语音信号进行小波变换,在不同尺度因子下将同一语音信号经小波变换后分别得到高频和低频小波系数集,并分别计算高频系数对应的熵向量和低频系数对应的熵向量;
将所述高频系数对应的熵向量和所述低频系数对应的熵向量分别输入预先训练生成的第一BLSTM神经网络和第二BLSTM神经网络进行深度学习,得到高频系数对应的隐藏层向量和低频系数对应的隐藏层向量,并将所述高频系数对应的隐藏层向量和所述低频系数对应的隐藏层向量,分别进行CNN处理;
利用高频系数对应的CNN处理结果,计算每帧语音信号属于噪音段的第一概率;利用低频系数对应的CNN处理结果,计算每帧语音信号属于语音段的第二概率;
根据所述第一概率和所述第二概率的比较,确定每帧语音信号所属的类别,并根据所有帧语音信号所属的类别确定语音端点。


2.根据权利要求1所述的方法,其特征在于,训练所述BLSTM神经网络的方式包括:
将用于训练的语音信号根据特性划分成多个语音段和噪声段,其中,语音段长度在预设的长度范围内,并将不符合要求的语音信号片段删除;将各语音段和噪音段内的信号分别以帧为单位对应标记为语音和噪音,并将所述标记作为相应帧的实际标记;
将所述各语音段和所述各噪音段进行小波变换,在不同尺度因子下将同一语音信号经小波变换后分别得到高频和低频小波系数集,并分别计算高频系数对应的熵向量和低频系数对应的熵向量;将所述高频系数对应的熵向量和所述低频系数对应的熵向量分别输入当前第一BLSTM神经网络和当前第二BLSTM神经网络进行深度学习,将高频系数对应的隐藏层向量和低频系数对应的隐藏层向量,分别进行CNN处理;
利用高频系数对应的CNN处理结果,计算各帧语音信号属于噪音段的第一概率;利用低频系数对应的CNN处理结果,计算各帧语音信号属于语音段的第二概率;
根据所述第一概率和所述第二概率的比较,确定相应帧语音信号属于语音段还是噪音段,并将其作为帧语音信号的预测标记;将每帧语音信号对应的预测标记与实际标记进行比较,并反向传播更新当前第一BLSTM神经网络的参数和当前第二BLSTM神经网络的参数,直到预测标记的准确性达到设定要求,停止训练。


3.根据权利要求2所述的方法,其特征在于,所述第一BLSTM神经网络和所述第二BLSTM神经网络相互独立。


4.一种语音端点的...

【专利技术属性】
技术研发人员:于永胜
申请(专利权)人:普天信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1