本发明专利技术公开了一种基于语义细胞混合模型的说话人识别方法,包括以下步骤:(1)构建语音库,语音库中包括多个说话人的多条语音信号;(2)将语音库中每条语音信号进行预处理,提取语音特征,得到每个人的各个特征向量;(3)基于语义细胞的特征选择法,特征向量进行降维得到降维特征向量,并训练语义细胞混合模型;(4)使用基于语义细胞混合模型的核函数构造各说话人的SVM分类器,并训练SVM分类器的识别模型;(5)利用识别模型识别未知说话人。本发明专利技术能解决现有SVM模型的核函数对特定说话人无针对性优化的问题,在选取用于训练分类器的语音特征时,较目前常见方法更有针对性,且能因此减小模型存储所需空间。
【技术实现步骤摘要】
本专利技术设及信号处理和模式识别领域,尤其设及一种基于语义细胞混合模型的说 话人识别方法。
技术介绍
说话人识别(Speaker Recognition)又称话者识别,指通过对未知说话人产生 的语音信号进行特征提取等分析,自动确定说话人是否在已登记的说话人集合中,并辨别 具体说话人的过程。由于个体声道、喉部及其他发生器官的形状大小各不相同,任意两 个个体的语音特征都不相同(见 Kinnunen T, Li H. An overview of text-independent speaker recognition:from features to supervectors.Speech communicati on, 2010, 52(1) : 12-40.)。该项技术可用于电话银行、语音口禁、电话购物等需对操作者进行 鉴别的过程。 目前的说话人识别方法通常包括W下两个操作步骤;1.利用语料库中的说话人 数据集训练给定的分类器模型。当前应用较为广泛的有模板模型、高斯混合模型(GMM)、隐 马尔科夫模型(HMM)、支持向量机(SVM)等。2.将未知说话人的语音输入识别系统,与已知 说话人的模型进行匹配并做出决策,判断该未知说话人是否在已登记的说话人集合中。 其中步骤1需要对音频信号进行特征提取步骤,目前常用的流程为;1.对采样的 语音信号(波形信号)进行预加重(pre-emphasis)、分帖(framing)、加窗(windowing) 操作,称为预处理;2.进行特征提取,目前一般对预处理过的信号提取Mel频率倒谱系数 (Mel-frequen巧 Cepstral Coefficients, MFCC)、线性预测倒谱系数(Xinear Prediction Cepstral Coefficients, LPCC)等,该些特征是基于声道的特征,主要特点是鲁椿性强,描 述能力好,且易于实施。 语义细胞(Information Cell)理论由汤永川和Lawry J.共同提出(见TANG Y, LAWRY J.Information Cell Mixture Models:The Cognitive Representations of Vague Concepts//Integrated Uncertainty Management and Applications. Heidelbe rg, BerlirKSpringer, 2010:371-382),其基础是模糊计算和原型理论,主要思想是;概念并 不由形式规则或映射来表示,而是由其原型来表示,概念范畴基于同原型的相似性来判定。 该理论已被应用于预测Mack巧-Glass时间序列及太阳黑子问题,其性能优于Kim&Kim、自 回归模型算法。 语义细胞具有透明的认知结构,符合人类学习概念的认知过程,有坚实的认知屯、 理学基础与严格的数学定义,具备描述模糊概念的先天优势。说话人识别是模糊概念领域 中的典型问题,根据当前的研究现状,说话人的声音特性是一种模糊概念,目前难W凭借具 体规则进行界定。而通过原型表达概念的语义细胞因为其不依赖具体分类规则的特点,适 合于说话人识别。
技术实现思路
[000引本专利技术提供了。本专利技术采用基于语 义细胞混合模型的核函数构造SVM的分类器,通过SVM分类器的识别模型达到区分说话人 的目的。 ,包括W下步骤: (1)构建语音库,所述语音库中包括多个说话人的多条语音信号; 似将语音库中每个说话人的每条语音信号进行预处理,提取语音特征,得到每个 说话人的各个特征向量; (3)基于语义细胞的特征选择法,对步骤(2)生成的各特征向量进行降维得到降 维特征向量,并训练每个说话人的语义细胞混合模型; (4)使用基于语义细胞混合模型的核函数构造每个说话人的SVM分类器,并训练 SVM分类器的识别模型; (5)利用SVM分类器的识别模型识别未知说话人。 步骤(2)对每条语音信号进行预处理得到相应的特征向量,每个说话人有多条语 音信号,经预处理后得到每个说话人的各个特征向量。 步骤(2)所述预处理包括预加重、分帖和加窗。 (2-1)使用传递函数为H(z) = 1-0. 97z^谐行预加重滤波; (2-2)将语音信号划分为若干短时段,每一个短时段称为一帖,每一帖的长度大概 为 l〇-30ms ; (2-3)使用汉明窗函数对语音帖加窗; (2-4)提取当前语音信号中每一帖的特征:所述特征为1至12阶Mel频率倒谱 (MFCC)系数的下列9项统计值;最大值、最小值、最大值所在帖位置、最小值所在帖位置、算 数平均值、线性回归系数(斜率、截距)、偏度系数和峰度系数; (2-5)根据各项特征的统计值构建得到当前语音信号的特征向量; (2-6)使用标准分(z-score)将特征向量归一化,获得待选的特征集合。 步骤(3)基于语义细胞的特征选择法对特征向量进行降维,较目前常见降维方法 更有针对性,且能因此减小模型存储所需空间。 步骤(3)所述降维过程是:从每个说话人的各个特征向量中挑选预定数量的特 征,每次挑选时,逐个选取每个说话人的各个特征向量中的特征,构成中间向量,结合已挑 选出的W中间向量形式表达的所有特征作为训练集,训练语义细胞混合模型,并挑选出语 义细胞混合模型的覆盖率最大的特征加入降维特征向量,重复此步骤直至降维特征向量的 特征达到预定数量。 挑选预定数量的特征,预定数量较少时,模型训练、识别速度快;预定数量较大时, 准确率较高,但模型训练、识别速度缓慢。 优选地,所述预定数量为总特征量的30%?50%。 步骤(3)所述的训练语义细胞混合模型的步骤如下:[002引 (3-1)对训练集中的中间向量进行聚类得到多个聚类中屯、,并作为各个语义细胞 的中屯、,一个语义细胞混合模型由n个语义细胞组成,包含n个具有不同权重的聚类中屯、; 语义细胞个数n的取值影响识别结果及性能:当n较小时,对复杂概念的语义概括 可能出现不清晰的情况,但模型训练、识别速度快;n较大时,能较好地概括复杂概念的语 义,但模型训练、识别速度缓慢。 优选地,n为3?10。 (3-2)计算参数初始值;针对每一个语义细胞,利用训练集中各个中间向量到该 语义细胞的中屯、的距离计算语义细胞的位置参数和尺度参数,并设定各个语义细胞对混合当前第1页1 2 本文档来自技高网...
【技术保护点】
一种基于语义细胞混合模型的说话人识别方法,包括以下步骤:(1)构建语音库,所述语音库中包括多个说话人的多条语音信号;(2)将语音库中每个说话人的每条语音信号进行预处理,提取语音特征,得到每个说话人的各个特征向量;(3)基于语义细胞的特征选择法,对步骤(2)得到的各特征向量进行降维得到相应的降维特征向量,并训练每个说话人的语义细胞混合模型;(4)使用基于语义细胞混合模型的核函数构造每个说话人的SVM分类器,并训练SVM分类器的识别模型;(5)利用SVM分类器的识别模型识别未知说话人。
【技术特征摘要】
【专利技术属性】
技术研发人员:孙凌云,何博伟,尤伟涛,李彦,郑楷洪,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。