一种应用于语种识别的鉴别性特征提取方法技术

技术编号:14410151 阅读:166 留言:0更新日期:2017-01-11 20:36
本发明专利技术涉及一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。

【技术实现步骤摘要】

本专利技术涉及计算机语种识别领域,特别涉及一种应用于语种识别的鉴别性特征提取方法
技术介绍
语种识别是指计算机自动判定或确认一段语音所属的语言种类的技术。这是个可使大规模跨语言语音识别应用成为可能的技术,可用于口语语言翻译、口语文件检索等。同时也是智能与安全领域信息提取的研究热点。语种识别技术的关键在于用科学的方法来度量不同语言的个性。认知学的实验表明,语言之间的差异可以由不同层次的特征反映出来,包括声学层特征、音素层特征、韵律特征、词法特征和句法特征。声学层特征通常从原始语音直接提取,常用的有美尔倒谱系数(MFCC)、线性预测倒谱系数(LPCC)和感知器线性预测(PLP)等。考虑语音帧前后间的相互关系,通常要对特征进行差分变换,例如一阶差分,二阶差分等。音素层特征主要考虑了各语言间的音节和音素不完全相同、音节和音素出现频率的差异,以及音节和音素出现前后关系的不同作为识别依据。目前的语种识别系统大部分都基于声学层特征和音素层特征。近年来,受益于信号处理、模式识别与机器学习等相关领域的科技突破,语种识别特征研究已取得了长足的进步,但仍有很多地方需要改进与进一步研究。参考文献[1](H.Wang,C.Leung,T.Lee,B.MaandH.Li,“Shifted-DeltaMLPFeaturesforSpokenLanguageRecognition”,IEEESignalProcessingLetters,vol.20,issue1,pp.15-18,2013.)中研究表明,音素的后验概率可直接作为特征:语音信号经音素识别器识别为帧级的音素后验概率向量后,用log运算规整,再利用PCA进行降维,代替传统的MFCC特征训练模型,在语种识别任务中取得优秀的性能。该特征由于不需要解码为音素序列或者音素网格,因此对音素识别器的依赖较小。实验结果显示,该特征性能明显优于提取音素串或者音素网格的传统特征。参考文献[2](M.Diez,A.Varona,M.Penagarikano,L.J.Rodriguez-FuentesandG.Bordel,“OntheUseofPhoneLog-likelihoodRatiosasFeaturesinSpokenLanguageRecognition”,SpokenLanguageTechnologyWorkshop(SLT),2012IEEE,pp.274-279)使用了不同的规整技术,对概率比进行Log规整而不是直接对概率进行规整,从而定义了新的特征PLLR(PhoneLog-LikelihoodRatio),同样取得了很好的性能。参考文献[1]和参考文献[2]为提取音素层特征开辟了新的思路,但这两种方法中都没有考虑不同音素对语种识别的贡献是有差别的。具体来讲,不同音素在不同语种中的分布不同,有些音素集中出现在某个语种,而有些音素则很少出现于某个语种,那么这些音素对语种识别将比那些在所有语种中出现频率差不多的音素具有更高的语种鉴别性,在特征中应当给予高的权重。
技术实现思路
本专利技术的目的在于解决现有基于音素后验概率特征中未考虑不同音素具有不同语种鉴别性的不足,从而提供为了实现上述目的,本专利技术提供了一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。上述技术方案中,该方法包括:训练阶段:步骤101)、去除训练集中各段语音数据的非语音部分;其中,所述非语音部分包括静音段、噪声段;步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别,得到各段语音数据的帧级的音素后验概率特征向量;步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向量分别进行规整;步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献大小,得到F比指标的值;步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F比指标值的基础上,设定用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重;所述权重的计算表达式如下:w(k)=x×F-Ratio(k)其中,w(k)为规整后音素后验概率特征向量第k维对语种鉴别性的贡献大小的权重,F-Ratio(k)为规整后的音素后验概率特征向量第k维的F-Ratio值,参数x为经过实验得到的经验值;测试阶段:步骤201)、去除待测试语音数据中的非语音部分;步骤202)、对经过步骤201)处理的待测试语音数据做音素识别,得到该待测试语音数据的帧级的音素后验概率特征向量;步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整;步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重,为步骤203)所得到的规整后音素后验概率特征向量做加权。上述技术方案中,该方法在训练阶段还包括:步骤106)、由步骤105)所得到的权重为步骤103)得到的规整后的音素后验概率特征向量做加权,利用加权后的特征数据训练主成分分析矩阵;该方法在测试阶段还包括:步骤205)、应用步骤106)所得到的主成分分析矩阵对待测试语音的经过规整、加权后的音素后验概率特征向量进行降维处理,得到维数较低的音素后验概率特征向量。上述技术方案中,所述规整操作采用下列两种方式之一实现:规整方式1lt(k)=log(pt(k));规整方式2lt(k)=log(pt(k)1-pt(k));]]>其中,pt(k)表示第t帧的第k维的音素后验概率特征向量,lt(k)表示规整后的第t帧的第k维的音素后验概率特征向量。上述技术方案中,所述步骤104)进一步包括:设为语种i语句j中所有帧的规整后帧级音素后验概率特征向量的第k个值的和,其表达式如下:sij(k)=Σt=1Tli,tj(k);]]>其中,T为语种i语句j中帧的总数;设si(k)为特征第k维在语种i中所有语音数据中所有帧的规整后帧级音素后验概率特征向量的和,其表达式如下:si(k)=Σj=1Nsij(k);]]>其中,N为语种i中语音数据的条数;设s(k)为特征第k维在所有语种数据中所有帧的规整后帧级音素后验概率特征向量的总和,其表达式如下:s(k)=Σi=1Msi(k);]]>其中M为训练集中的语种总数;设mi(k)和m(k)分别为si(k)和s(k)的归一化值,它们的表达式分别如下:mij(k)=sij(k)Σq=1Ksij(q);]]>mi(k)=si(k)Σq=1Ksi(q);]]>m(k)=s(k)Σq=1Ks(q);]]>则规整后的音素后验概率特征向量第k维的F比指标的值为:F_Ratio(k)=1MΣi=1M(mi(k)-m(k))21MΣi=1M1NΣj=1N(mij(k)-mi(k))2.]]>本专利技术的优点在于本专利技术的特点:(1)量化定义了音素后验概率特征向量各维对语种鉴别性的贡本文档来自技高网
...
一种应用于语种识别的鉴别性特征提取方法

【技术保护点】
一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。

【技术特征摘要】
1.一种应用于语种识别的鉴别性特征提取方法,包括:在训练阶段为训练集中的语音数据的帧级的音素后验概率特征向量计算F比指标,所述F比指标反映了音素后验概率特征向量中每一维对语种鉴别性的贡献大小;在测试阶段为待测试的语音提取音素后验概率特征向量,并为所提取的音素后验概率特征向量根据F比指标做特征加权。2.根据权利要求1所述的应用于语种识别的鉴别性特征提取方法,其特征在于,该方法包括:训练阶段:步骤101)、去除训练集中各段语音数据的非语音部分;其中,所述非语音部分包括静音段、噪声段;步骤102)、将经过步骤101)处理的训练集中各段语音数据做音素识别,得到各段语音数据的帧级的音素后验概率特征向量;步骤103)、对步骤102)所得到的各段语音数据的帧级的音素后验概率特征向量分别进行规整;步骤104)、计算规整后的音素后验概率特征向量中每一维对语种鉴别性的贡献大小,得到F比指标的值;步骤105)、在步骤104)所得到的规整后的音素后验概率特征向量中每一维的F比指标值的基础上,设定用于描述规整后音素后验概率特征向量每一维对语种鉴别性的贡献大小的权重;所述权重的计算表达式如下:w(k)=x×F-Ratio(k)其中,w(k)为规整后音素后验概率特征向量第k维对语种鉴别性的贡献大小的权重,F-Ratio(k)为规整后的音素后验概率特征向量第k维的F-Ratio值,参数x为经过实验得到的经验值;测试阶段:步骤201)、去除待测试语音数据中的非语音部分;步骤202)、对经过步骤201)处理的待测试语音数据做音素识别,得到该待测
\t试语音数据的帧级的音素后验概率特征向量;步骤203)、对步骤202)所得到的每一帧的音素后验概率特征向量进行规整;步骤204)、根据训练阶段为规整后音素后验概率特征向量每一维赋予的权重,为步骤203)所得到的规整后音素后验概率特征向量做加权。3.根据权利要求2所述的应用于语种识别的鉴别性特征提取方法,其特征在于,该方法在训练阶段还包括:步骤106)、由步骤105)所得到的权重为步骤103)得...

【专利技术属性】
技术研发人员:袁庆升周若华云晓春张健陈训逊颜永红徐杰李锐光
申请(专利权)人:国家计算机网络与信息安全管理中心中国科学院声学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1