一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法技术

技术编号:31081111 阅读:16 留言:0更新日期:2021-12-01 11:57
本发明专利技术提供一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,包括获取不包含人声和包含人声的语音信号,并切分和补齐MFCC特征及其Delta信息、Delta

【技术实现步骤摘要】
一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法


[0001]本专利技术涉及语音信号处理及计算机软件
,具体而言,涉及一种基于神经网络和MFCC(Mel Frequency Cepstrum Coefficient)的嘈杂环境下非人声语音过滤方法。

技术介绍

[0002]近年来,人工智能技术飞速发展且日趋成熟,一方面计算机产业的迅速发展,软、硬件环境的改善为复杂算法的实现提供了良好的环境;另一方面,数字信号处理的理论和算法已有大量积累,如快速傅里叶变换、倒谱计算、线性预测算法、数字滤波器等诸多算法的出现,使得识别系统使用方式逐渐从特定人、孤立词、小词表方式发展到非特定人、连续语音、大词表方式。
[0003]语音识别和分类技术已广泛应用于各项领域中,但现有的语音识别系统都有一个共同的问题,即在噪音环境下,识别率会大幅下降。在语音分类中由于噪声导致的误吸收最为显著,因此语音分类系统就必须考虑在面对嘈杂环境时的准确率。在将特征输入至神经网络前需确保其维度一致,现有的通用补全策略是对末尾进行补0,但在面对仅在信号末尾处有人声且需进行补齐的极端情况时,这种补全策略不能满足对准确率有高需求的过滤系统。

技术实现思路

[0004]本专利技术旨在提供一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,以解决上述存在的问题。
[0005]本专利技术提供的一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,包括如下步骤:
[0006]步骤S1,训练神经网络:
[0007](11)获取不包含人声和包含人声的语音信号;
[0008](12)提取该语音信号的MFCC融合特征;所述MFCC融合特征均包括MFCC特征、Delta信息、Delta

Delta信息以及RMSE;
[0009](13)对该语音信号的MFCC融合特征进行特征处理;所述特征处理包括切分和补齐;
[0010](14)利用特征处理后的该语音信号的MFCC融合特征对神经网络进行训练,得到训练好的预测模型;
[0011]步骤S2,非人声语音过滤:
[0012](21)获取待预测语音信号;
[0013](22)提取该待预测语音信号的MFCC融合特征;
[0014](23)对该待预测语音信号的MFCC融合特征进行特征处理;
[0015](24)将特征处理后的该待预测语音信号的MFCC融合特征输入训练好的预测模型,实现对待预测语音信号的非人声语音过滤。
[0016]进一步的,步骤(12)和步骤(22)中提取MFCC融合特征的方法为:
[0017]对语音信号进行预校验和添加标记;
[0018]将进行预校验和添加标记后的语音信号,通过N阶滤波器并剔除第零分量后,得到N

1维的MFCC特征;
[0019]对N

1维的MFCC特征沿着时间轴做一次Savitsky

Golay滤波,得到Delta信息;
[0020]对N维的MFCC特征沿着时间轴做两次Savitsky

Golay滤波,得到Delta

Delta信息;
[0021]根据原始的语音信号的梅尔频谱计算RMSE;
[0022]将所述MFCC特征、Delta信息、Delta

Delta信息以及RMSE拼接为3N+1维的MFCC融合特征。
[0023]进一步的,所述对语音信号进行预校验和添加标记的方法为:遍历所有语音信号,若存在语音信号不一致的声道则拼接不一致的声道形成新的语音信号序列参与后续计算,并给予不一致标记;否则仅将语音信号中的一个声道参与后续计算,并给予一致标记。
[0024]进一步的,步骤(13)和步骤(23)中对MFCC融合特征进行特征处理的方法为:按预设窗口大小M将3N+1维的MFCC融合特征进行切分,得到K个切片;并对K个切片进行自动补齐,获得K个N

1*M维的特征矩阵。
[0025]进一步的,所述对K个切片进行自动补齐的方法为:
[0026]若K>1,则通过向前平移进行补齐;
[0027]若K=1,则通过迭代自身进行补齐。
[0028]进一步的,步骤(24)的方法为:将K个N

1*M维的特征矩阵输入训练好的预测模型,最终输出一个代表每一个切片是否需要过滤的K维矩阵,若某个切片的K维矩阵中各值均不大于阈值S,则将该切片标记为过滤。
[0029]作为优选,S=0.5。
[0030]进一步的,所述神经网络包括:
[0031]卷积核分别为3*3、2*2的最大池化层;
[0032]以LeakyRELU为激活函数的CNN;
[0033]一层隐藏单元为128的BiLSTM层;
[0034]以及两层隐藏单元分别为256和1的全连接层。
[0035]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0036]本专利技术将基于MFCC的多维特征进行融合、补全,以及神经网络对每个语音切片的概率评分,解决了现有技术中嘈杂环境下识别准确率低、信号末尾人声无法检测的问题,能够在嘈杂环境下对非人声语音进行快速过滤。具体地:
[0037]1、本专利技术在计算MFCC特征时分析各分量对噪声的敏感程度,通过对MFCC特征去除对噪声敏感的第零分量,能够有效提升特征在嘈杂环境下的鲁棒性。结合Delta、Delta

Delta、RMSE特征,将多个特征融合作为预测模型的输入特征,能够显著提升嘈杂环境下对非人声语音信号的识别准确率。
[0038]2、本专利技术引入了自动补齐的机制,可以有效提升仅在信号末尾处有人声且需进行补齐的极端情况的识别准确率。
[0039]3、本专利技术中实现了基于CNN和BiLSTM的语音信号二分类神经网络模型,结合自动
补齐的机制将会更加充分的挖掘语音信号的上下文关系,最终得出更加准确地识别结果。
附图说明
[0040]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0041]图1为本专利技术实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的运行环境业务关系图。
[0042]图2为本专利技术实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的流程图。
[0043]图3a为本专利技术实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的自动补齐机制中向前平移补齐与传统补零补齐的对比示意图。
[0044]图3b为本专利技术实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的自动补齐机制中自身迭代补齐与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,所述嘈杂环境下非人声语音过滤方法包括如下步骤:步骤S1,训练神经网络:(11)获取不包含人声和包含人声的语音信号;(12)提取该语音信号的MFCC融合特征;所述MFCC融合特征均包括MFCC特征、Delta信息、Delta

Delta信息以及RMSE;(13)对该语音信号的MFCC融合特征进行特征处理;所述特征处理包括切分和补齐;(14)利用特征处理后的该语音信号的MFCC融合特征对神经网络进行训练,得到训练好的预测模型;步骤S2,非人声语音过滤:(21)获取待预测语音信号;(22)提取该待预测语音信号的MFCC融合特征;(23)对该待预测语音信号的MFCC融合特征进行特征处理;(24)将特征处理后的该待预测语音信号的MFCC融合特征输入训练好的预测模型,实现对待预测语音信号的非人声语音过滤。2.根据权利要求1所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,步骤(12)和步骤(22)中提取MFCC融合特征的方法为:对语音信号进行预校验和添加标记;将进行预校验和添加标记后的语音信号,通过N阶滤波器并剔除第零分量后,得到N

1维的MFCC特征;对N

1维的MFCC特征沿着时间轴做一次Savitsky

Golay滤波,得到Delta信息;对N维的MFCC特征沿着时间轴做两次Savitsky

Golay滤波,得到Delta

Delta信息;根据原始的语音信号的梅尔频谱计算RMSE;将所述MFCC特征、Delta信息、Delta

Delta信息以及RMS...

【专利技术属性】
技术研发人员:韩皓天余安东
申请(专利权)人:电信科学技术第五研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1