一种基于矢量泰勒级数的多环境模型孤立词识别方法,通过模型训练阶段:设置基本环境信噪比,利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;通过孤立词识别阶段,根据训练阶段获得的含噪GMM模型,首先选择与当前测试环境最匹配的信噪比环境;其次基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差,并根据最小均方误差准则将测试语音特征参数映射到最匹配信噪比环境下的含噪语音特征参数;最后,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。本发明专利技术误识率比现有矢量泰勒级数大幅降低。
【技术实现步骤摘要】
一种基于矢量泰勒级数的多环境模型孤立词识别方法
本专利技术涉及语音识别领域,具体涉及一种基于矢量泰勒级数的多环境模型孤立词识别方法。
技术介绍
语音识别是一门涉及很广泛的学科,包括:信号处理、数理统计、模式识别、声学与语音学、人工智能等等。随着现代科学技术的迅猛发展,语音识别技术已经逐渐走出实验室进入人们的日常生活中。虽然语音识别系统在实验室中有较高的识别性能,但在实际环境中,由于语音的变异性和环境噪声的干扰,导致语音识别系统的识别性能不尽如人意。因此,研究语音识别技术,提高语音识别系统在噪声环境下的鲁棒性具有十分重要的实际意义。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于矢量泰勒级数的多环境模型孤立词识别方法,通过建立多种信噪比环境下的GMM模型和HMM模型,改进了现有技术的不足。技术方案:一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,该方法包括以下步骤:步骤1)模型训练阶段:设置基本环境信噪比,对白噪声进行加权,将加权结果加载到纯净训练语音中,分别得到对应信噪比条件下的含噪训练语音;利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;其中含噪GMM模型表示每一信噪比环境下所有孤立词的特征参数分布,含噪HMM模型表示每一信噪比环境下每个孤立词的特征参数分布;步骤2)孤立词识别阶段:根据训练阶段获得的含噪GMM模型,基于最大似然准则选择与当前测试环境最匹配的信噪比环境,然后基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差;接着基于最小均方误差估计准则和最匹配信噪比环境下的含噪GMM模型,将测试环境下的含噪语音特征参数映射到最匹配信噪比环境下的含噪特征参数;最后识别时,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。进一步的,设置基本环境包括信噪比分别为0dB、5dB、10dB、15dB、20dB和纯净环境,步骤1)中模型训练阶段的具体包括以下步骤:步骤1.1)根据设置的信噪比,对白噪声信号进行加权,加载到纯净训练语音数据中,得到不同环境下的含噪训练语音和纯净训练语音,在每一信噪比下,对训练语音进行预处理,所述预处理过程包括预加重、分帧加窗和端点检测;步骤1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数;得到不同信噪比环境下所有孤立词的MFCC特征参数;步骤1.3)在每一信噪比下,利用所有孤立词的MFCC特征参数建立该环境下的含噪GMM模型,得到设置的基本信噪比环境中所有孤立词特征参数的含噪GMM模型;所述含噪GMM模型包括纯净环境下的纯净GMM模型;步骤1.4)在每一信噪比环境下,利用步骤1.2)中每个孤立词的MFCC特征参数,分别建立各个孤立词的含噪HMM模型;所述含噪HMM模型包括纯净环境下的纯净HMM模型。进一步的,步骤2)中孤立词识别阶段具体包括以下步骤:步骤2.1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗和端点检测,提取出MFCC参数;步骤2.2)利用步骤2.1)得到的MFCC参数和训练阶段建立的不同信噪比环境下的含噪GMM模型,基于ML准则估计与测试语音最匹配的最优GMM模型,该最优GMM模型所对应的信噪比环境就是和当前测试语音最为匹配的信噪比环境;步骤2.3)基于矢量泰勒级数方法和纯净环境下的纯净GMM模型,根据步骤2.1)得到的MFCC参数,估计测试语音中噪声的均值和方差;步骤2.4)利用步骤2.3)估计出的噪声参数和步骤2.2)得到的最优GMM模型,基于最小均方误差准则,将当前测试语音的MFCC特征参数映射为最匹配信噪比环境下的MFCC特征参数;步骤2.5)将步骤2.2)得到的最匹配信噪比环境下各个孤立词的含噪HMM模型作为当前识别模型,对经过步骤2.4)映射后的最匹配信噪比环境下的MFCC参数进行概率计算,得到最终的孤立词识别结果。进一步的,MFCC特征参数为26维,该参数包括13维MFCC参数和13维一阶差分MFCC参数。有益效果:与现有的矢量泰勒级数孤立词识别技术相比,本专利技术提出的基于矢量泰勒级数的多环境模型方法能明显提高各种噪声下孤立词识别的性能。在信噪比为0dB的白噪声(white)、工厂噪声(factory)和粉红噪声(pink)噪声环境下,本专利技术的误识率比现有矢量泰勒级数平均低11.2%。在white、factory和pink三种噪声的平均情况下,当信噪比分别为3dB、8dB及12dB时,本方法相对于现有矢量泰勒级数的平均误识率分别降低了39.6%、29.8%及19.0%。附图说明图1为本专利技术算法总体流程图。图2为双门限端点检测流程图。图3为MFCC特征参数提取流程图。图4为多环境特征补偿的实现流程图。图5为HMM识别流程图。具体实施方式下面结合附图对本专利技术作更进一步的说明。下面对本专利技术做更进一步的说明。本专利技术提供一种基于矢量泰勒级数(VTS:VectorTaylorSeries)的多环境模型(VTSME:VTS-basedMulti-Environment)孤立词识别方法,主要包括两个阶段:训练阶段和识别阶段。在模型训练阶段,设定基本环境包括信噪比为0dB、5dB、10dB、15dB、20dB和纯净环境,根据设置的信噪比参数,对白噪声进行加权,加载到纯净的训练语音,从而得到不同信噪比环境下的含噪训练语音。在每一种基本环境下,提取含噪训练语音的MFCC参数,分别训练生成含噪GMM(包括纯净GMM模型)和含噪HMM模型(包括纯净HMM模型),这些含噪GMM模型和含噪HMM模型就组成了基本模型集。在识别阶段,首先根据测试语音基于最大似然(ML:MaximumLikelihood)准则,在基本模型集中选择一个跟测试环境最匹配的信噪比环境。基于VTS和纯净环境下的GMM模型从测试语音中估计出当前测试环境噪声的均值和方差。然后利用选择的最匹配信噪比环境下的含噪GMM模型和估计出的当前测试语音的噪声参数,将当前测试环境下的MFCC特征参数映射到最匹配信噪比环境的MFCC特征参数。最后识别时,选择最匹配信噪比环境下的各个孤立词的含噪HMM模型,将映射后的含噪MFCC特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。图1给出了基于矢量泰勒级数的多环境模型孤立词识别算法总体流程图。下面结合附图对本专利技术技术方案的具体实施方式进行详细说明:1、模型训练阶段:1.1)本专利技术中所用的纯净训练语音采样频率为8KHz,量化位数为16比特。根据0dB、5dB、10dB、15dB、20dB的信噪比,将白噪声进行加权处理,和纯净的训练语音进行叠加,得到包含纯净训练语音在内共6种不同信噪比环境下的训练语音。训练语音经过预加重、分帧加窗和端点检测处理。预加重使用一个一阶FIR高通滤波器来完成,其传递函数表达式为:H(z)=1-αz-1,其中α是预加重系数,本专利技术中取值0.9375。分帧加窗中使用的窗函数是汉明窗,汉明窗的表达式为:N表示帧长,本专利技术中取帧长N为128点,帧移为64点。本专利技术采用动态双门限方法进行端点检测,根据语音信号对应的短时能量(Et)和短时过零率(Zt)分别设置一高一低两个门限。其中xt(n)是分帧本文档来自技高网...
【技术保护点】
一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,该方法包括以下步骤:1)模型训练阶段:设置基本环境信噪比,对白噪声进行加权,将加权结果加载到纯净训练语音中,分别得到对应信噪比条件下的含噪训练语音;利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;其中含噪GMM模型表示每一信噪比环境下所有孤立词的特征参数分布,含噪HMM模型表示每一信噪比环境下每个孤立词的特征参数分布;2)孤立词识别阶段:根据训练阶段获得的含噪GMM模型,基于最大似然准则选择与当前测试环境最匹配的信噪比环境,然后基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差;接着基于最小均方误差估计准则和最匹配信噪比环境下的含噪GMM模型,将测试环境下的含噪语音特征参数映射到最匹配信噪比环境下的含噪特征参数;最后识别时,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。
【技术特征摘要】
1.一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,该方法包括以下步骤:1)模型训练阶段:设置基本环境信噪比,对白噪声进行加权,将加权结果加载到纯净训练语音中,分别得到对应信噪比条件下的含噪训练语音;利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;其中含噪GMM模型表示每一信噪比环境下所有孤立词的特征参数分布,含噪HMM模型表示每一信噪比环境下每个孤立词的特征参数分布;2)孤立词识别阶段:根据训练阶段获得的含噪GMM模型,基于最大似然准则选择与当前测试环境最匹配的信噪比环境,然后基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差;接着基于最小均方误差估计准则和最匹配信噪比环境下的含噪GMM模型,将测试环境下的含噪语音特征参数映射到最匹配信噪比环境下的含噪特征参数;最后识别时,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。2.如权利要求1所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,设置基本环境包括信噪比分别为0dB、5dB、10dB、15dB、20dB和纯净环境,步骤1)中模型训练阶段的具体包括以下步骤:1.1)根据设置的信噪比,对白噪声信号进行加权,加载到纯净训练语音数据中,得到不同环境下的含噪训练语音和纯净训练语音,在每一信噪比下,对训练语音进行预处理,所述预处理过程包括预加重、分帧加窗和端点检测;1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数;得到不同信噪比环境下所有孤立词的MFCC特征参数;1.3)在每一信噪比下,利用所有孤立词的M...
【专利技术属性】
技术研发人员:周琳,束佳明,吕勇,吴镇扬,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。