本发明专利技术涉及一种与文本无关的说话人识别方法,其主要步骤是:(1)获取说话人语音信号,对语音信号处理得到语音预处理信号;(2)对预处理后获得的语音信号进行特征提取,求得识别系统中说话人的特征参数;(3)重复上述两步骤若干次,获取已注册说话人特征参数序列,建立所有已注册说话人特征参数参考库;(4)获取待识别说话人特征参数序列,计算待识别说话人与所有已注册说话人间的加权灰色关联度;(5)提取所有加权灰色关联度的最大值,将其与加权灰色关联度识别阈值进行比较,得出识别结果。本发明专利技术涉及生物特征识别技术领域,特别是说话人识别技术领域。它解决了现有与文本无关的说话人识别技术中错误率较高的问题,具有广泛的应用前景。
【技术实现步骤摘要】
本专利技术涉及生物特征识别技术,主要是一种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法。
技术介绍
随着计算机技术的发展和社会信息化程度的提高,利用人的生物特征(如指纹、 声纹、图像等)进行身份识别或验证已成为信息产业中极为重要的前沿技术。说话人识别是指利用人的发音来进行说话人身份的识别或验证,说话人识别可广泛应用于公安司法部门、商务贸易、银行金融、保守个人机密、安全检查等领域。说话人识别
的研究重点在于特征参数的提取和识别算法的构造。特征提取就是从说话人的语音信号中提取出能够详尽地、精确地表达其语音的特征参数。目前, 语音识别技术中使用的特征参数是基于声道模型的LPCC (Linear Prediction Cepstrum Coefficient)参数、基于听觉机理的 MFCC (Mel Frequency Cepstmm Coefficient)参数或其改进和组合,但这些特征参数所表征的语音信息量不足。因此本专利技术提出采用1/3倍频程频谱分析法对语音信号进行特征参数的提取。1/3倍频程频谱分析法把人耳能听到的 20HZ-20KHZ整个声频范围分成30个恒定带宽比的频带,并对落在这些频带中的音频信号进行频谱分析,能够更准确地表达说话人的语音信号中所蕴含的信息,进而增强说话人特征参数的鲁棒性。在语音技术研究及应用领域,语音信号的识别算法有三种基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。基于声道模型和语音知识方法的研究虽然起步较早,但由于其过于复杂,现阶段没有取得很好的实用效果。模板匹配的方法有动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术,这些算法在噪声环境下抗干扰能力差,不能达到良好的识别效果。人工神经网络方法具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入_输出映射能力在语音识别中都很有吸引力,但由于存在训练、识别时间太长的缺点,也不能取得很好的实用效果。本专利技术提出使用基于加权灰色关联度的方法进行说话人识别,同时考虑说话人语音信号中蕴含的信息及其信息变化在说话人识别中的作用,显著地提高了语音信号的识别率。说话人识别又可分为与文本有关的和与文本无关的,此二者都是根据语音信号中蕴含的特征信息进行说话人识别。“与文本有关”,是采用受限制的说话文本内容,且只对说话人的语音信号中一种或几种特征参数进行识别,较容易被假冒模仿,识别系统的保密性不高。“与文本无关”,则是采用随机说话文本内容,识别系统的灵活性好。但由于语音信号中所蕴含特征信息的丰富性,以及实际环境中噪声的复杂性,传统的说话人识别方法的步骤又比较繁琐。
技术实现思路
为了解决上述技术所存在的缺陷以及提高与文本无关的说话人识别率,本专利技术提供一种基于1/3倍频程和加权灰色关联的与文本无关的说话人识别方法。该方法通过1/3 倍频程频谱分析法对说话人语音信号进行特征提取,并采用加权灰色关联度算法进行说话人识别,是一种可靠的、有效的与文本无关的说话人识别方法,具有优良的鲁棒性。为达到以上专利技术目的,本专利技术方法包括如下步骤一、建立N个说话人的语音特征参考库,所述的N为大于或等于1的整数,步骤如下A、采集第1说话人第1段语音信号并依次采样量化、去零漂、预加重和加窗,得到加窗后的第1-1音频帧Fm' (η);B、对第1-1音频帧F/ (η)使用1/3倍频程频谱分析法,获得第1_1特征参数,所述的特征参数为各中心频率所处频带对应的功率谱值序列,所述的1-1表示第1说话人第 1段语音信号;C、N个说话人进行M次A、B步骤,依次获得NXM个特征参数,所述的NXM个特征参数形成特征参数参考库,所述的NXM表示N个说话人M次特征参数提取;二、获得N个加权灰色关联度,步骤如下I、通过步骤A、B采集待测说话人特征参数X ;II、将特征参数X的序列分别添加到参考库中,并根据频域信号的时不变性均勻地赋予N个特征参数的序列以相同的权重系数,重新组合构成N个加权平均特征参数序列, 获得N个加权灰色关联度值;三、识别匹配,提取N个加权灰色关联度值中最大值Rmax与R0比较,若Rmax ^ R,则匹配,否,则不匹配。根据本专利技术一个实施方式的,步骤B中所述的特征提取的步骤为(A)信号时频变换采用基-2算法的FFT变换将说话人语音的时域信号转换为频域信号,求取说话人语音信号的功率谱;(B)确定1/3倍频程频谱分析法的中心频率f。;(C)求取上、下限频率1/3倍频程的上、下限频率以及中心频率之间的关系为权利要求1. ,其特征在于,包括如下步骤一、建立N个说话人的语音特征参考库,设定加权灰色关联度识别阈值R0所述的N为大于或等于1的整数,步骤如下A、采集第1说话人第1段语音信号并依次采样量化、去零漂、预加重和加窗,得到加窗后的第1-1音频帧F/ (η);B、对第1-1音频帧Fm'(η)使用1/3倍频程频谱分析法,获得第1_1特征参数,所述的特征参数为各中心频率所处频带对应的功率谱值序列,C、N个说话人依次进行M次A、B步骤,依次获得NXM个特征参数,所述的N个特征参数序列形成语音特征参考库;二、获得N个加权灰色关联度,步骤如下1、通过步骤A、B采集待测说话人特征参数X;II、将特征参数X的序列分别添加到参考库中,并根据频域信号的时不变性均勻地赋予N个特征参数的序列以相同的权重系数,重新组合构成N个加权平均特征参数序列,获得 N个加权灰色关联度值;三、识别匹配,提取N个加权灰色关联度值中最大值Rmax与R0比较,若Rmax^ R,则匹配,否,则不匹配。2.根据权利要求1所述的,其特征在于步骤B中所述的特征提取的步骤为(A)信号时频变换采用基_2算法的FFT变换将说话人语音的时域信号转换为频域信号,求取说话人语音信号的功率谱;(B)确定1/3倍频程频谱分析法的中心频率f。;(C)求取上、下限频率1/3倍频程的上、下限频率以及中心频率之间的关系为 fu — 21/3 £c_ — 21/6 Li- — 21/6(D)声压级转换,即Lp Hg^idB)其中Ptl为基准声压,其值为2X 10_5Pa ;(E)计算各中心频率f。所处频带的功率谱的平均值按照1/3倍频程的上、下限频率以及中心频率将功率谱中的频率划分成多个频带,并在每个频带中将所有的功率幅值按对数叠加,获得1/3倍频程频谱,其幅值即为特征参数。3.根据权利要求1所述的,其特征在于步骤II中所述的加权灰色关联度计算的详细步骤为(F)提取特征参数序列获得待识别说话人特征参数X的序列X0,并提取所有已注册说话人参考库的各特征参数序列,即已注册说话人A的特征参数序列Α1、Α2、κ、ΑΝ,已注册说话人B的特征参数序列Bi、Β2、κ、ΒΝ,以此类推;(G)构造加权平均特征参数序列将待识别说话人的特征参数序列分别添加到识别系统中所有已注册说话人参考库中,并根据频域信号的时不变性均勻地赋予这些特征参数序列以相同的权重系数,以使待识别说话人分别与已注册说话人重新组合构成加权平均特征参数序列。即已注册说话人A和待识别说话人X构成序列ω ηΑ1、ω 12Α2、κ、ω 1ηΑΝ、ω 1χΧ0, 其中ω η = ω12 = L = ω 1η = ω 1χ且ω ω 12+L+ 本文档来自技高网...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:朱坚民,黄之文,李孝茹,李海伟,王军,翟东婷,毛得吉,
申请(专利权)人:上海理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。