本申请提供了一种基于线性回归的声纹识别方法及系统,从语音数据中获取第一声纹特征矢量,使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量,并对所述第二声纹特征矢量进行分类识别。创新地将线性回归模型引入声纹识别领域,实验证明,能够有效提高声纹识别的准确性。
【技术实现步骤摘要】
一种基于线性回归的声纹识别方法及系统
本申请涉及电子信息领域,尤其涉及一种基于线性回归的声纹识别方法及系统。
技术介绍
声纹识别系统通常包括声纹特征提取前端和声纹识别后端两个部分。声纹特征提取前端用于从说话人语句中抽取该说话人的声纹特征:即通过模型将一句任意长度的语音映射为一个固定长度的向量。常见的声纹特征提取前端使用的算法包括:基于高斯混合模型的通用背景模型(Gaussianmixturemodelbaseduniversalbackgroundmodel,GMM-UBM)/身份向量(identityvector,i-vector)算法(简称GMM/i-vector算法)、基于深度学习的语音识别声学模型的通用背景模型/i-vector算法(简称DNN/i-vector算法)、以及使用深度学习模型对说话人做分类,并将最顶层的隐层输出作为说话人的声纹向量的d-vector算法。声纹识别后端通过有监督机器学习算法对该说话人的声纹矢量做分类。它可以分为两部分,第一个部分是通过有监督机器学习方法将声纹特征矢量映射为另一种新的声纹特征矢量,第二个部分是通过有监督机器学习方法对降维后的新声纹特征矢量做分类。对于第一个部分,常见的映射方法包括线性鉴别性分析(Lineardiscriminantanalysis,LDA)、类内方差归一化(Within-classcovariancenormalization,WCCN)以及扰动属性投影(Nuisanceattributeprojection,NAP)等。对于第二个部分,常见的分类器包括cosine距离分类器、支持向量机(Supportvectormachine,SVM)分类器、概率线性鉴别性分析(Probabilisticlineardiscriminantanalysis,PLDA)分类器等。上述后端算法中LDA+PLDA的方法在许多标准化测试中取得了最优性能,目前已被实际系统广泛采用。上述声纹特征提取前端和声纹识别后端可以任意组合形成声纹识别系统。但是,目前的声纹识别的准确性还有待提高。
技术实现思路
本申请提供了一种基于线性回归的声纹识别方法及系统,目的在于解决如何提高声纹识别的准确性的问题。为了实现上述目的,本申请提供了以下技术方案:一种基于线性回归的声纹识别方法,包括:从语音数据中获取第一声纹特征矢量;使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量;对所述第二声纹特征矢量进行分类识别。可选的,所述将所述第一声纹特征矢量映射为第二声纹特征矢量包括:使用映射关系z=ATx,将所述第一声纹特征矢量映射为第二声纹特征矢量,其中,A为所述预先训练的线性回归模型,x为所述第一声纹特征矢量,z为所述第二声纹特征矢量。可选的,所述线性回归模型的训练过程包括:从声纹数据库中获取训练数据其中,xi,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量,i=1,…,n,j=1,…,Mi,n为所述声纹数据库中的说话人的数量,任意一个说话人对应Mn句话;yi,j为第i个说话人的n维示性矢量yi,j=[0,...,1,...,0]T;d为预设数值;使用A=(XXT)-1XYT,得到所述线性回归模型,其中,为训练数据的声纹矢量组成的的矩阵,为训练数据的示性矢量组成的的矩阵。可选的,所述对所述第二声纹特征矢量进行分类识别包括:使用余弦分类器,对所述第二声纹特征矢量进行分类识别。可选的,所述从语音数据中获取第一声纹特征矢量包括:使用GMM/i-vector算法、DNN/i-vector算法或者d-vector算法,从语音数据中获取第一声纹特征矢量。一种基于线性回归的声纹识别系统,包括:声纹特征提取前端,用于从语音数据中获取第一声纹特征矢量;声纹识别后端,所述声纹识别后端包括声纹特征映射模块和声纹分类器,所述声纹特征映射模块用于使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量;所述声纹分类器用于对所述第二声纹特征矢量进行分类识别。可选的,所述声纹特征映射模块用于使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量包括:所述声纹特征映射模块具体用于,使用映射关系z=ATx,将所述第一声纹特征矢量映射为第二声纹特征矢量,其中,A为所述预先训练的线性回归模型,x为所述第一声纹特征矢量,z为所述第二声纹特征矢量。可选的,所述声纹特征映射模块还用于:从声纹数据库中获取训练数据其中,xi,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量,i=1,...,n,j=1,...,Mi,n为所述声纹数据库中的说话人的数量,任意一个说话人对应Mn句话;yi,j为第i个说话人的n维示性矢量yi,j=[0,…,1,…,0]T;d为预设数值;使用A=(XXT)-1XYT,得到所述线性回归模型,其中,为训练数据的声纹矢量组成的的矩阵,为训练数据的示性矢量组成的的矩阵。可选的,所述声纹分类器包括:余弦分类器。可选的,所述声纹特征提取前端包括:GMM/i-vector前端、DNN/i-vector前端或者d-vector前端。本申请所述的基于线性回归的声纹识别方法及系统,从语音数据中获取第一声纹特征矢量,使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量,并对所述第二声纹特征矢量进行分类识别。创新地将线性回归模型引入声纹识别领域,实验证明,能够有效提高声纹识别的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为声纹识别系统的结构示意图;图2为本申请实施例公开的基于线性回归的声纹识别方法的流程图。具体实施方式图1为声纹识别系统的示意图,其中包括声纹特征提取前端和声纹识别后端两个部分。声纹识别后端又包括声纹特征映射模块和声纹分类器。为了提高声纹识别的准确性,本申请的实施例中,对声纹识别后端中的第一部分,即声纹特征映射模块进行改进。本申请的核心点在于,训练并使用训练后的线性回归(LinearRegression,LR)模型将声纹特征提取前端提取的声纹特征矢量映射为新的声纹特征矢量,新的声纹特征矢量作为声纹分类的基础,以提高后续声纹分类的准确性。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1所示的声纹识别系统的后端的工作流程可以分成三个阶段:训练阶段、注册阶段和测试阶段。LR模型的训练在训练阶段进行,注册阶段和测试阶段均需要使用训练好的LR模型。下面对上述三个阶段进行详细说明。图2为本申请实施例公开的基于线性回归的声纹识别方法,包括以下步骤:一、训练阶段S201:准备训练数据。假设声纹数据库包含n个说话人的语音数据,每个说话人对应Mn句话,则声纹特征提取前端从每句话抽取一个d维的声本文档来自技高网...
【技术保护点】
一种基于线性回归的声纹识别方法,其特征在于,包括:从语音数据中获取第一声纹特征矢量;使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量;对所述第二声纹特征矢量进行分类识别。
【技术特征摘要】
1.一种基于线性回归的声纹识别方法,其特征在于,包括:从语音数据中获取第一声纹特征矢量;使用预先训练的线性回归模型,将所述第一声纹特征矢量映射为第二声纹特征矢量;对所述第二声纹特征矢量进行分类识别。2.根据权利要求1所述的方法,其特征在于,所述将所述第一声纹特征矢量映射为第二声纹特征矢量包括:使用映射关系z=ATx,将所述第一声纹特征矢量映射为第二声纹特征矢量,其中,A为所述预先训练的线性回归模型,x为所述第一声纹特征矢量,z为所述第二声纹特征矢量。3.根据权利要求1或2所述的方法,其特征在于,所述线性回归模型的训练过程包括:从声纹数据库中获取训练数据其中,xi,j为从所述声纹数据库中的每句话抽取的一个d维的声纹特征矢量,i=1,…,n,j=1,…,Mi,n为所述声纹数据库中的说话人的数量,任意一个说话人对应Mn句话;yi,j为第i个说话人的n维示性矢量yi,j=[0,…,1,…,0]T;d为预设数值;使用A=(XXT)-1XYT,得到所述线性回归模型,其中,为训练数据的声纹矢量组成的的矩阵,为训练数据的示性矢量组成的的矩阵。4.根据权利要求1所述的方法,其特征在于,所述对所述第二声纹特征矢量进行分类识别包括:使用余弦分类器,对所述第二声纹特征矢量进行分类识别。5.根据权利要求1所述的方法,其特征在于,所述从语音数据中获取第一声纹特征矢量包括:使用GMM/i-vector算法、DNN/i-vector算法或者d-vector算法,从语音数据中获取第一声纹特征矢量。6.一种基于线性回归的声纹识别系统,其特征...
【专利技术属性】
技术研发人员:张晓雷,
申请(专利权)人:张晓雷,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。