一种噪声鲁棒的语音端点检测方法及系统技术方案

技术编号：43626097 阅读：9 留言：0更新日期：2024-12-11 15:04

本发明专利技术公开了一种噪声鲁棒的语音端点检测方法及系统，该方法包括包括：步骤1，构建语音端点检测模型，包括级联的CNN、BILSTM、注意力层、DNN层和Speech、Nospeech分类层；步骤2，在语音端点检测模型的BILSTM后引入Nospeech噪声分类层作为网络训练模型，引入的Nospeech噪声分类层为与注意力层、DNN层和Speech、Nospeech分类层并联的分支，对网络训练模型迭代训练，直至满足训练停止条件，得到训练好的语音端点检测模型；步骤3，通过训练好的语音端点检测模型得的帧级别的二分类结果，在此基础上采用顺滑归并得到端点检测的结果。本发明专利技术提升了语音检测效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别，具体涉及一种噪声鲁棒的语音端点检测方法及系统。

技术介绍

1、语种端点检测技术经过几十年的发展改进，各种各样的检测算法不断涌现出来，它们有的在某些环境下表现突出，有的在符合条件的情况下性能优良。总结来说语音端点检测大致可以分为如下几种：基于时域特征的方法、基于变换域(频域、倒谱域、时频域)的方法、基于模型匹配的方法以及基于神经网络的方法。

2、随着深度学习方法的推广应用，目前基于神经网络的端点检测技术已成为主流算法。该方法利用话音(speech)及非话音(nospeech)训练语料，训练一个二分类模型，用于区分当前帧信号是否为有效话音，之后在对整条语音信号的识别结果做规整平滑，得到有效话音的时间区间。这些有效话音片段既可以送入后续的模型做属性或者文本内容识别。如图1所示一个典型的语音端点检测网络的结构图，端点检测检测系统所使用的深度神经网络为dnn(deep neural network)网络，在训练时，语音的fb(filterbank)特征参数输入到dnn网络，dnn网络对特征做变换后接全连接层，之后给出帧级别的speech、nospeech分类结果。

3、这些技术在语音信噪比较高，背景噪声较小的场景下，语种端点检测的效果较好，但当背噪较大，信噪比较小时，端点检测的效果会出现明显的下降，如将噪声片段归类为speech，将带噪的speech片段归类为nospeech，导致后续的识别任务效果下降明显，如在连续语音识别中会造成插入及删除等错误急剧增加，转写内容不可用，语音检出的效果存在

技术实现思路

1、本专利技术的目的在于提供一种噪声鲁棒的语音端点检测方法及系统，以解决
技术介绍
中噪声较大的场景下的语音端点检测问题。

2、实现本专利技术目的的技术解决方案为：

3、一种噪声鲁棒的语音端点检测方法，包括：

4、步骤1，构建语音端点检测模型，包括级联的cnn、bilstm、注意力层、dnn层和speech、nospeech分类层；

5、步骤2，在语音端点检测模型的bilstm后引入nospeech噪声分类层作为网络训练模型，引入的nospeech噪声分类层为与注意力层、dnn层和speech、nospeech分类层并联的分支，对网络训练模型迭代训练，直至满足训练停止条件，得到训练好的语音端点检测模型；

6、步骤3，通过训练好的语音端点检测模型得的帧级别的二分类结果。

7、进一步骤地，所述注意力层为：

8、ac＝tanhh(wxc(：))

9、

10、

11、其中，xc(:)为特征x中的第c个通道的特征，特征维度大小为t×1，共c个通道就有c个t×1卷积特征，为加权后的表征向量，t为固定值，ac为第c个通道的计算值，wc为第c个通道的叠加权重，w为一个1×t的向量。

12、进一步骤地，所述t＝10。

13、进一步骤地，通过nospeech噪声分类层对语音端点检测模型迭代训练具体包括：

14、步骤2-1，采集speech、nospeech数据，作为训练数据集；

15、步骤2-2，确定两个batch，随机取k1个类别的nospeech类型作为一个batch的nospeech标签数据，每个nospeech类型随机取k2条数据，k1与k2的乘积为m，另一个batch为数量为m的speech标签数据，提取两个batch有标签数据的fb特征；

16、步骤2-3，将两个batch的特征输入到网络模型中训练，训练中，两个batch的特征数据经过cnn、bilstm后，只有nospeech的数据送往引入的nospeech噪声分类层，两个batch的数据会再经过注意力层及dnn层最后送到speech、nospeech分类层做二分类，引入的nospeech噪声分类层对分类结果做梯度翻转，回传到bilstm、cnn；

17、步骤2-4，反复迭代步骤2-2至步骤2-3，直至网络训练模型的损失函数稳定或达到最大迭代次数n。

18、进一步骤地，所述网络训练模型的损失函数为：

19、

20、celossclass1对应speech、nospeech分类层，celossclass1(n)表示第n个样本计算的分类损失；celossclass2对应引入的nospeech噪声分类层，celossclass2(i)表示第i个样本的分类损失，α为设置参数。

21、进一步骤地，α设置为0.1。

22、进一步骤地，步骤2-1采集的speech、nospeech数据时长不低于20小时。

23、进一步骤地，所述步骤3具体包括：

24、步骤3-1，对待识别的语音提取fb特征；

25、步骤3-2，将fb特征输入到训练好的语音端点检测模型，得到整条音频的帧级别speech、nospeech识别结果；

26、步骤3-3对帧级别speech、nospeech识别结果做顺滑归并操作，得到最终的识别结果。

27、进一步骤地，所述顺滑归并操作的时间区间阈值为0.2秒。

28、一种噪声鲁棒的语音端点检测系统，包括：

29、语音端点检测模型构建单元，用于构建包括级联的cnn、bilstm、注意力层、dnn层和speech、nospeech分类层的语音端点检测模型；

30、训练单元，在语音端点检测模型的bilstm后引入nospeech噪声分类层作为网络训练模型，引入的nospeech噪声分类层为与注意力层、dnn层和speech、nospeech分类层并联的分支，对网络训练模型迭代训练，直至满足训练停止条件，得到训练好的语音端点检测模型；

31、识别单元，通过训练好的语音端点检测模型得的帧级别的二分类结果，在此基础上采用顺滑归并得到端点检测的结果。

32、不同于已有的基于dnn的语音信号端点检测技术，本方案实现了一种噪声鲁棒的语音信号端点检测技术，能有效解决背噪较大情况下的语音信号端点检测问题，具体的优势有：

33、1)在训练阶段采用了两个分支的网络，其中一个nospeech分类分支的网络回传的梯度做了反转，使得公用的特征提取网络提取的nospeech

34、特征更加平稳，更有利于与speech、nospeech分类网络的分类效果；

35、2)在训练阶段对speech、nospeech分类网络分支部分采用了特征注意力加权，更有利于后续的speech、nospeech分类；

36、3)测试阶段顺滑合并操作避免了识别结果出现连续毛刺交错的现象。

本文档来自技高网...

【技术保护点】

1.一种噪声鲁棒的语音端点检测方法，其特征在于，包括：

2.根据权利要求1所述的一种噪声鲁棒的语音端点检测方法，其特征在于，所述注意力层为：

3.根据权利要求2所述的一种噪声鲁棒的语音端点检测方法，其特征在于，所述T＝10。

4.根据权利要求1所述的一种噪声鲁棒的语音端点检测方法，其特征在于，通过Nospeech噪声分类层对语音端点检测模型迭代训练具体包括：

5.根据权利要求4所述的一种噪声鲁棒的语音端点检测方法，其特征在于，所述网络训练模型的损失函数为：

6.根据权利要求5所述的一种噪声鲁棒的语音端点检测方法，其特征在于，α设置为0.1。

7.根据权利要求4所述的一种噪声鲁棒的语音端点检测方法，其特征在于，步骤2-1采集的Speech、Nospeech数据时长不低于20小时。

8.根据权利要求1所述的一种噪声鲁棒的语音端点检测方法，其特征在于，所述步骤3具体包括：

9.根据权利要求8所述的一种噪声鲁棒的语音端点检测方法，其特征在于，所述顺滑归并操作的时间区间阈值为0.2秒。

<...

【技术特征摘要】

1.一种噪声鲁棒的语音端点检测方法，其特征在于，包括：

2.根据权利要求1所述的一种噪声鲁棒的语音端点检测方法，其特征在于，所述注意力层为：

3.根据权利要求2所述的一种噪声鲁棒的语音端点检测方法，其特征在于，所述t＝10。

4.根据权利要求1所述的一种噪声鲁棒的语音端点检测方法，其特征在于，通过nospeech噪声分类层对语音端点检测模型迭代训练具体包括：

5.根据权利要求4所述的一种噪声鲁棒的语音端点检测方法，其特征在于，所述网络训练模型的损失函数为：

6.根据权利要求5所述...

【专利技术属性】
技术研发人员：杨思琪，张艳，刘珂，汪仲琪，张宇杰，付强，王晖，
申请(专利权)人：杭州智元研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人