一种应用于说话人识别的噪声消除方法技术

技术编号:14354824 阅读:119 留言:0更新日期:2017-01-07 18:06
本发明专利技术涉及一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。本发明专利技术的方法实现了在特征层消除噪声影响;不需要增加额外的训练数据;在系统速度不会大幅降低的情况下可以明显提高系统在噪声环境下的性能。

【技术实现步骤摘要】

本专利技术涉及语音处理领域,特别涉及一种应用于说话人识别的噪声消除方法
技术介绍
随着现代社会信息的全球化,说话人识别成为语音识别技术研究热点之一。随着互联网的普及,网上用户登录、网上支付等也面临着一定的风险,声纹密码可以在原有密码基础上增加账户的安全性。声纹识别即说话人识别系统,目前在实验环境下达到了很高的识别效果,但在实际应用中却表现不佳。导致这一结果的原因主要是由于实际应用中噪声对语音的影响,这里的噪声主要包括环境噪声和信道噪声。当前,如何提高噪声条件下的声纹识别效果,已经成为了该领域的研究重点。在参考文献[1](SadjadiSO,HasanT,HansenJHL.MeanHilbertEnvelopeCoefficients(MHEC)forRobustSpeakerRecognition[C]//INTERSPEECH.2012)、参考文献[2](ShaoY,WangDL.Robustspeakeridentificationusingauditoryfeaturesandcomputationalauditorysceneanalysis[C]//Acoustics,SpeechandSignalProcessing,2008.ICASSP2008.IEEEInternationalConferenceon.IEEE,2008:1589-1592)和参考文献[3](LiQ,HuangY.Robustspeakeridentificationusinganauditory-basedfeature[C]//AcousticsSpeechandSignalProcessing(ICASSP),2010IEEEInternationalConferenceon.IEEE,2010:4514-4517)中,作者尝试使用对噪声不敏感的特征来提高系统对噪声环境的鲁棒性。但这些特征主要试图提高特征的整体鲁棒性,没有对特定噪声进行针对性优化。在参考文献[4](J.PelecanosandS.Sridharan,“Featurewarpingforrobustspeakerverification,”inProc.Odyssey:TheSpeakerandLanguageRecognitionWorkshop,Crete,Greece,Jun.2001,pp.213–218)中,作者通过一定的特征变换来提高特征对噪声的鲁棒性,但是该方法的实时计算量太大。在参考文献[5](Man-WaiMAK.SNR-DependentMixtureofPLDAforNoiseRobustSpeakerVerification[J].inInterspeech.2014,pp.1855-1899)中,作者通过在训练数据中添加噪声来提高系统对噪声的鲁棒性。该方法对于已经在线应用的系统需要更换系统背景模型,且对于不同的应用场景需要重新训练背景模型,对于系统在实际应用中的部署带来很大不便。
技术实现思路
本专利技术的目的在于克服已有的噪声消除方法所存在的缺陷,从而提供一种在特征层消除噪声的方法为了实现上述目的,本专利技术提供了一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。上述技术方案中,该方法包括以下步骤:步骤1)、判断测试集中的语音数据所包含的噪声类型,对所含噪声类型中的任意一种噪声类型,在较宽的信噪比范围内取若干个有代表性的信噪比,作为与该噪声类型相对应的信噪比;其中,所述测试集包括了用于做说话人识别的语音数据;步骤2)、采用多个不含噪声的训练集语音数据作为噪声消除训练数据,为噪声消除训练数据按照步骤1)取定的若干个信噪比分别进行加噪,得到加噪后的噪声消除训练数据组;其中,所述训练集包括来自说话人识别系统中的通用背景模型的语音数据;步骤3)、对未加噪前的噪声消除训练数据和步骤2)所得到的加噪后的噪声消除训练数据分别提取声学谱特征,得到对应的声学谱特征组;步骤4)、根据步骤3)所得到的未加噪前的噪声消除训练数据的声学谱特征组,以及按照某一信噪比加噪后的噪声消除训练数据的声学谱特征组,利用梯度下降算法训练该信噪比对应的特征邻近帧补偿的模型参数;重复本步骤,直至得到步骤1)中所选择的所有信噪比所对应的特征邻近帧补偿的模型参数;步骤5)、为测试集中的语音提取声学谱特征;步骤6)、为测试集中的每句语音分别做噪声类型判断和信噪比估计;步骤7)、根据步骤6)所得到的噪声类型与信噪比估计结果,从步骤1)中所确定的若干个有代表性的信噪比中寻找最为接近的信噪比,然后从步骤4)所得到的结果中选取与该最为接近的信噪比相关的特征邻近帧补偿的模型参数;利用该特征邻近帧补偿的模型参数为步骤5)得到的测试集语音的声学谱特征进行邻近帧补偿,得到恢复后的特征向量;步骤8)、利用步骤7)所得到的特征向量做说话人识别。上述技术方案中,所述提取声学谱特征包括:首先提取通用的美尔倒谱特征,然后求取差分倒谱特征。上述技术方案中,所述特征邻近帧补偿的模型参数为Γ矩阵,所述Γ矩阵的表达式为:Γ=[γ→1,γ→2,...,γ→D]T∈RD*((2*k+1)*D+1);]]>其中,γ→j=[α→n,jT,...,α→1,jT,λ→jT,β→1,jT,...,β→n,jT,χj]T;]]>D表示声学谱特征的特征维数,T表示矩阵或向量的转置;RD*((2*k+1)*D+1)表示D行(2*k+1)*D+1列的实数矩阵的集合;χj是一个待估计系数;其中,α→k,j={αk,j1,αk,j2,...,αk,jD本文档来自技高网
...
一种应用于说话人识别的噪声消除方法

【技术保护点】
一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。

【技术特征摘要】
1.一种应用于说话人识别的噪声消除方法,包括:利用加噪后语音的声学谱特征时域上相邻的多帧特征来消除特征中噪声的影响。2.根据权利要求1所述的应用于说话人识别的噪声消除方法,其特征在于,该方法包括以下步骤:步骤1)、判断测试集中的语音数据所包含的噪声类型,对所含噪声类型中的任意一种噪声类型,在较宽的信噪比范围内取若干个有代表性的信噪比,作为与该噪声类型相对应的信噪比;其中,所述测试集包括了用于做说话人识别的语音数据;步骤2)、采用多个不含噪声的训练集语音数据作为噪声消除训练数据,为噪声消除训练数据按照步骤1)取定的若干个信噪比分别进行加噪,得到加噪后的噪声消除训练数据组;其中,所述训练集包括来自说话人识别系统中的通用背景模型的语音数据;步骤3)、对未加噪前的噪声消除训练数据和步骤2)所得到的加噪后的噪声消除训练数据分别提取声学谱特征,得到对应的声学谱特征组;步骤4)、根据步骤3)所得到的未加噪前的噪声消除训练数据的声学谱特征组,以及按照某一信噪比加噪后的噪声消除训练数据的声学谱特征组,利用梯度下降算法训练该信噪比对应的特征邻近帧补偿的模型参数;重复本步骤,直至得到步骤1)中所选择的所有信噪比所对应的特征邻近帧补偿的模型参数;步骤5)、为测试集中的语音提取声学谱特征;步骤6)、为测试集中的每句语音分别做噪声类型判断和信噪比估计;步骤7)、根据步骤6)所得到的噪声类型与信噪比估计结果,从步骤1)中所确定的若干个有代表性的信噪比中寻找最为接近的信噪比,然后从步骤4)所得到的结果中选取与该...

【专利技术属性】
技术研发人员:袁庆升颜永红包秀国黄厚军云晓春周若华陈训逊黄文廷
申请(专利权)人:国家计算机网络与信息安全管理中心中国科学院声学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1