一种基于线性回归的声纹识别方法及系统技术方案

技术编号：18085511 阅读：111 留言：0更新日期：2018-05-31 14:01

本申请提供了一种基于线性回归的声纹识别方法及系统，从语音数据中获取第一声纹特征矢量，使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量，并对所述第二声纹特征矢量进行分类识别。创新地将线性回归模型引入声纹识别领域，实验证明，能够有效提高声纹识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于线性回归的声纹识别方法及系统
本申请涉及电子信息领域，尤其涉及一种基于线性回归的声纹识别方法及系统。
技术介绍
声纹识别系统通常包括声纹特征提取前端和声纹识别后端两个部分。声纹特征提取前端用于从说话人语句中抽取该说话人的声纹特征：即通过模型将一句任意长度的语音映射为一个固定长度的向量。常见的声纹特征提取前端使用的算法包括：基于高斯混合模型的通用背景模型(Gaussianmixturemodelbaseduniversalbackgroundmodel，GMM-UBM)/身份向量(identityvector，i-vector)算法(简称GMM/i-vector算法)、基于深度学习的语音识别声学模型的通用背景模型/i-vector算法(简称DNN/i-vector算法)、以及使用深度学习模型对说话人做分类，并将最顶层的隐层输出作为说话人的声纹向量的d-vector算法。声纹识别后端通过有监督机器学习算法对该说话人的声纹矢量做分类。它可以分为两部分，第一个部分是通过有监督机器学习方法将声纹特征矢量映射为另一种新的声纹特征矢量，第二个部分是通过有监督机器学习方法对降维后的新声纹特征矢量做分类。对于第一个部分，常见的映射方法包括线性鉴别性分析(Lineardiscriminantanalysis，LDA)、类内方差归一化(Within-classcovariancenormalization，WCCN)以及扰动属性投影(Nuisanceattributeprojection，NAP)等。对于第二个部分，常见的分类器包括cosine距离分类器、支持向量机(S...
一种基于线性回归的声纹识别方法及系统

【技术保护点】
一种基于线性回归的声纹识别方法，其特征在于，包括：从语音数据中获取第一声纹特征矢量；使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量；对所述第二声纹特征矢量进行分类识别。

【技术特征摘要】
1.一种基于线性回归的声纹识别方法，其特征在于，包括：从语音数据中获取第一声纹特征矢量；使用预先训练的线性回归模型，将所述第一声纹特征矢量映射为第二声纹特征矢量；对所述第二声纹特征矢量进行分类识别。2.根据权利要求1所述的方法，其特征在于，所述将所述第一声纹特征矢量映射为第二声纹特征矢量包括：使用映射关系z＝ATx，将所述第一声纹特征矢量映射为第二声纹特征矢量，其中，A为所述预先训练的线性回归模型，x为所述第一声纹特征矢量，z为所述第二声纹特征矢量。3.根据权利要求1或2所述的方法，其特征在于，所述线性回归模型的训练过程包括：从声纹数据库中获取训练数据其中，xi,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量，i＝1,…,n，j＝1,…,Mi，n为所述声纹数据库中的说话人的数量，任意一个说话人对应Mn句话；yi,j为第i个说话人的n维示性矢量yi,j＝[0,…,1,…,0]T；d为预设数值；使用A＝(XXT)-1XYT，得到所述线性回归模型，其中，为训练数据的声纹矢量组成的的矩阵，为训练数据的示性矢量组成的的矩阵。4.根据权利要求1所述的方法，其特征在于，所述对所述第二声纹特征矢量进行分类识别包括：使用余弦分类器，对所述第二声纹特征矢量进行分类识别。5.根据权利要求1所述的方法，其特征在于，所述从语音数据中获取第一声纹特征矢量包括：使用GMM/i-vector算法、DNN/i-vector算法或者d-vector算法，从语音数据中获取第一声纹特征矢量。6.一种基于线性回归的声纹识别系统，其特征...

【专利技术属性】
技术研发人员：张晓雷，
申请(专利权)人：张晓雷，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人