本发明专利技术公开一种基于分类器融合的汉语方言自动辨识方法,分为汉语方言语音特征提取、方言模型匹配打分,分类矢量提取及后端分类四个步骤。采用两级特征提取方式,将高斯混合模型(GMM)作为高级特征提取器加以使用。在计算的过程中将语音特征送入到含有方言语音先验知识的高斯混合模型中进行打分,并对所得打分进行归一化和差分计算,形成具有高类间差异度和类内聚合度的分类矢量。将其送入到后端支撑矢量机(SVM)分类器中进行分类。融合GMM在数据分布拟合,SVM在分类面建模时的技术优势,最终实现对汉语方言所属方言区种类的辨识。本发明专利技术能够稳定可靠的用于汉语电话方言语音等的辨识任务,准确率较高。
【技术实现步骤摘要】
【专利摘要】本专利技术公开一种,分为汉语方言语音特征提取、方言模型匹配打分,分类矢量提取及后端分类四个步骤。采用两级特征提取方式,将高斯混合模型(GMM)作为高级特征提取器加以使用。在计算的过程中将语音特征送入到含有方言语音先验知识的高斯混合模型中进行打分,并对所得打分进行归一化和差分计算,形成具有高类间差异度和类内聚合度的分类矢量。将其送入到后端支撑矢量机(SVM)分类器中进行分类。融合GMM在数据分布拟合,SVM在分类面建模时的技术优势,最终实现对汉语方言所属方言区种类的辨识。本专利技术能够稳定可靠的用于汉语电话方言语音等的辨识任务,准确率较高。【专利说明】
本专利技术涉及多分类器融合技术的语音辨识方法,尤其涉及一种汉语方言辨识方法,属于语音信号处理领域。
技术介绍
汉语方言自动辨识是利用计算机分析一段输入的语音,判别说话人所属方言区域的语音处理技术。在我国这样一个多民族、多方言的国家,汉语方言自动辩识的研究为我国各民族间的无障碍沟通建立了基础,随着我国科学技术的快速发展,其中更是酝酿着巨大的应用价值和广阔的应用前景。作为语音识别研究的一个分支,在早期的研究中,汉语方言辨识系统往往采用单分类器单特征的设计策略,忽视了信息融合在系统设计中的应用,使得系统完全依赖于某一分类器和某一特征,制约了系统性能的提高。多信息融合是目前信息处理研究领域的热点,它不仅可以更加全面、详细地描述客观现象,还能实现深层信息的挖掘。在语音处理领域,信息融合方式主要采用两种方式:一、多特征融合;二、多分类器融合。前者采用多特征-单分类器的设计策略,通过不同特征得分的加权和,使得一个系统中同时使用多个特征,从而提供更高正确率的决策;而后者则采用多分类器的设计策略,将具有互补性的分类器融合到一个系统中,通过不同分类器在分类策略上的差异实现多重分类并融合分类结果。在相应的分类器融合的研究中,目前多是针对与文本相关的语音识别,而能够适应与文本无关语音识别的融合机制并不多见。
技术实现思路
专利技术目的:针对现有技术中存在的问题,本专利技术以两级分类器为框架,提出了一套新分类器融合机制,具体是一种。本专利技术可以更好的提取类汉语方言语音特征间差异信息,并且更加适应与文本无关的方言、语种识别等识别系统,显著提高分类能力和鲁棒性。在分类器融合中,融合系统的性能主要取决于以下两点:一、分类器的选取;二、融合机制的设计。在分类器的选取上,通常要求多分类器在分类策略上具有互补性,从而在融合后实现置信度更高的决策。鉴于此,本文选用生成式分类器高斯混合模型(GMM)和判决式分类器支撑矢量机(SVM)为融合对象。作为生成式分类器,GMM具有较好的数据拟合能力,能够较好的描述整体数据的分布状态。但是,由于需要从完备的数据中学习参量,对于训练集的数据量要求过高且训练周期较长。相比较,SVM不具备较好的数据分布的拟合能力但能够较为清晰的描述分类面的状态。因此,GMM和SVM在原理上具有互补性将其融合可以发挥两种分类器的优势。对于融合机制的设计可以采取后端分数融合和多级融合两种方式。前者对SVM的决策进行置信度打分,并将其与GMM的打分进行加权求,以此进行类别决策;后者将GMM作为分类矢量的生成器,生成含有全局信息的分类矢量并送入SVM进行分类。在方言识别中由于数据的分布状态过于复杂且数据量过于庞大,不宜使用SVM对原始语音特征进行分类和打分,此外在分数融合中权重的选择也有一定的难度,因此,多级分类器融合系统更加适应于汉语方言辨识研究。传统基于GMM、SVM的两级分类器融合通常采用Fisher核函数作为融合机制,在所提取的特征中不仅含有方言语音的声学信息也含有该方言的全局信息,是一种高级的分类矢量。但是,其中也存在着诸多局限。首先,Fisher核函数的映射空间存在着维数灾难的隐患,很难满足大数据量的与文本无关的语音识别。其次,对于同一语音基兀,不同方言模型的打分间有一定的相关性,如表1所不,而种相关性影响了分类矢量的类代表性。最后,对于方言辨识,我们期望分类特征体现出方言的类间差异,即不同方言模型对一段语音打分间的差异性。表.1不同方言模型对语音基元的打分【权利要求】1.一种,其特征在于:选用GMM和SVM为融合对象,输入汉语方言信号进行语音特征提取,在新分类特征的提取过程中,首先利用已知的训练样本集合训练方言的GMM ;然后将语音数据输入到设计好的各种方言的GMM中,对语音基元进行似然打分,组成分数矢量 2.如权利要求1所述的,其特征在于:GMM是生成式概率统计模型,其概率密度计算公式为: 3.如权利要求1所述的,其特征在于:对所述分数矢量进行归一化处理和差分运算计算如下: 一、对语音的得分进行归一化处理: 4.如权利要求1所述的,其特征在于:基于训练分类矢量训练SVM分类器中,采用ECOC算法对待分类别进行二值编码,以此作为类别的标签;在编码的过程中,要求码矩阵中每行每列的码字间要保持独立性和可分性;当3^k^7时,码本的最大长度应为2H-1维,其中k为类别数;编码规则为:首行为单位矢量,第二行码本的是由2k_2个O和2k_2个I交替组成,以此类推,第i行码本是由2H个O和2η个I交替组成;假设以4类问题为分类对象,便需要7维的码书来进行编码设计,行向量是ECOC算法针对每一类别的编码;根据码字矩阵中的列向量的类别标签设计分类器,得到f1; f2,…fn η ( 2^-1 ;在测试过程中,该算法首先对输入语音按照f\,f2,…fn分类规则进行分类,然后根据分类结果对未知语音进行编码,设计出该语音的码书,最后将其与已知的类别码书相匹配。【文档编号】G10L15/18GK103474061SQ201310416173【公开日】2013年12月25日 申请日期:2013年9月12日 优先权日:2013年9月12日 【专利技术者】朱贺, 高红民, 王慧斌 申请人:河海大学本文档来自技高网...
【技术保护点】
一种基于分类器融合的汉语方言自动辨识方法,其特征在于:选用GMM和SVM为融合对象,输入汉语方言信号进行语音特征提取,在新分类特征的提取过程中,首先利用已知的训练样本集合训练方言的GMM;然后将语音数据输入到设计好的各种方言的GMM中,对语音基元进行似然打分,组成分数矢量[P(xi|μ1Σ1)P(xi|μ2Σ2)…P(xi|μNΣN)],实现从原始语音特征空间到分数空间的映射;其次对该分数矢量进行归一化处理和差分运算;随后,基于训练分类矢量训练SVM分类器。
【技术特征摘要】
【专利技术属性】
技术研发人员:朱贺,高红民,王慧斌,
申请(专利权)人:河海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。