一种基于多特征的声纹识别方法技术

技术编号：25311603 阅读：34 留言：0更新日期：2020-08-18 22:29

本发明专利技术公开了一种基于多特征的声纹识别方法，包括步骤：数据预处理，将语音语料进行处理；特征提取，将梅尔频率倒谱系数MFCC和感知线性预测PLP进行动态线性融合；特征处理，利用PCA主成分分析法将动态特征进行降维处理；模型训练，利用I‑Vector说话人识别模型对动态特征进行训练；打分判决，利用概率线性判决分析算法PLDA进行似然对数比打分，并根据得分的大小判断出两个集合是否为同一个说话人。本发明专利技术动态融合MFCC和PLP两种说话人特征，能更好地包含说话人信息，并通过主成分分析法PCA降低融合特征的维度，计算效率高，同时，不依赖于在线获取的说话人数据，可以单独、快速地完成说话人的识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多特征的声纹识别方法
本专利技术涉及声音识别领域，尤其涉及一种基于多特征的声纹识别方法。
技术介绍
随着社会和科技的不断进步，人们在信息认证方式上发生了巨大的变化，越来越多的用户通过声纹识别来进行身份认证，对于用户来说，方便经济的身份认证方式已经成为不可或缺的的内容，因此，声纹支付、声纹考勤、声纹门禁、社保认证等相关应用得到迅速发展，并有着广泛的应用前景。然而，虽然说话人识别技术不断发展，但是由于在实际应用中，存在各种各样复杂的场景，这可能导致系统的鲁棒性不足和抗噪能力弱，使得识别结果存在不同的误差。
技术实现思路
为克服传统说话人识别技术的鲁棒性差，系统抗噪能力弱的不足，本专利技术提出一种基于多特征的声纹识别方法，以有效的提高说话人识别的检测效率。本专利技术的技术方案是这样实现的，一种基于多特征的声纹识别方法，包括步骤S1：数据预处理，将语音语料利用Kaldi语音识别工具进行处理；S2：特征提取，根据梅尔频率倒谱系数MFCC和感知线性预测PLP特征的特性，这些特征的特性具体包括：两者频谱映射的方式不同：MFCC特征映射方式为Mel滤波器组log对数，PLP特征映射方式为Bark滤波器组和cuberoot立方根；两者的解卷方式不同：MFCC特征的解卷方式为非参数解卷，PLP特征的解卷方式为参数解卷；两者对噪声的鲁棒性不同：MFCC特征对噪声的鲁棒性较差，PLP特征对噪声的鲁棒性较好；将梅尔频率倒谱系数MFCC和感知线性预测PL...

【技术保护点】
1.一种基于多特征的声纹识别方法，其特征在于，包括步骤/nS1：数据预处理，将语音语料利用Kaldi语音识别工具进行处理；/nS2：特征提取，然后将梅尔频率倒谱系数MFCC和感知线性预测PLP进行动态线性融合，所述动态线性融合包括步骤：计算梅尔频率倒谱系数MFCC和感知线性预测PLP特征的维度，将MFCC和PLP特征参数在同一个矩阵中进行动态融合处理，计算如公式(1)所示，/nF

【技术特征摘要】
1.一种基于多特征的声纹识别方法，其特征在于，包括步骤
S1：数据预处理，将语音语料利用Kaldi语音识别工具进行处理；
S2：特征提取，然后将梅尔频率倒谱系数MFCC和感知线性预测PLP进行动态线性融合，所述动态线性融合包括步骤：计算梅尔频率倒谱系数MFCC和感知线性预测PLP特征的维度，将MFCC和PLP特征参数在同一个矩阵中进行动态融合处理，计算如公式(1)所示，
Fm×n＝[(A1，A2，L，Am)，(B1，B2，L，Bn)](1)
其中，A和B分别表示MFCC和PLP特征参数，m和n分别表示MFCC、PLP的特征参数阶数；
S3：特征处理，使用PCA主成分分析法将动态线性融合后获得的动态特征进行降维处理；
S4：模型训练，使用I-Vector说话人识别模型对降维后的动态特征进行训练；
S5：打分判决，使用PLDA概率线性判决分析算法进行似然对数比打分，并根据得分的大小判断出两个集合是否为同一个说话人。

2.如权利要求1所述的基于多特征的声纹识别方法，其特征在于，所述步骤S1包括步骤
S11，使用TIMIT语音数据库准备语音语料；
S12，使用Kaldi生成spk2utt、utt2spk和wav.scp文件准备数据部分。

3.如权利要求1所述的基于多特征的声纹识别方法，其特征在于，步骤S3中所述的降维处理实现包括步骤
S31，选取经过线性融合处理后的动态特征，采用PCA主成分分析法对其进行降维处理，计算如公式(2)所示，
ωPCA＝[ω1ω2LωM](2)
求得前M个最大特征值对应特征向量的投影矩阵，计算如公式(3)...

【专利技术属性】
技术研发人员：赵宏，岳鲁鹏，孔东一，郭岚，傅兆阳，郑厚泽，刘璐，党育，马栋林，
申请(专利权)人：兰州理工大学，
类型：发明
国别省市：甘肃;62

全部详细技术资料下载我是这个专利的主人