声纹识别模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38204637 阅读：8 留言：0更新日期：2023-07-21 16:50

本申请提供的声纹识别模型训练方法、装置、电子设备及存储介质，包括：获取训练样本；将所述训练样本输入至待训练的声纹识别模型中；计算标签类别的协方差矩阵；根据说话人特征以及说话人特征对应的标签类别的协方差矩阵，确定第一损失函数；采用第一损失函数对声纹识别模型进行训练，得到训练完成的声纹识别模型；通过上述方式，利用对应标签类别的协方差矩阵实现对说话人特征的语义上的数据增强，将说话人特征以及对应标签类别的协方差矩阵融入到第一损失函数的计算中，在模型的训练过程中实现了特征空间上的数据增强，能够解决声纹识别模型数据增强困难的问题，具有实现了语义数据增强的效果，还具有提高了声纹识别模型的识别准确性的效果。的识别准确性的效果。的识别准确性的效果。

全部详细技术资料下载

【技术实现步骤摘要】
声纹识别模型训练方法、装置、电子设备及存储介质

[0001]本申请涉及声纹识别
，还涉及人工智能
，具体涉及一种声纹识别模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]声纹识别(Voiceprint Recognition,VPR)技术，也称为说话人识别(Speaker Recognition,SR)技术，属于生物特征识别技术的一种，包括说话人辨认和说话人确认。人类声音的产生过程是语言中枢和发音器官之间的复杂生理过程，尽管每个人的声音受如年龄、身体状况、情绪波动等各种因素的影响而具有一定的可变性，但由于每个人的发声器官如舌头、牙齿、肺、鼻腔等的大小和形态基本都不相同，因此不同人的声音仍然是具有区分性的。声纹识别是计算机利用语音波形中所包含的反映特定说话人生理和行为特征的语音特征参数来自动识别说话人身份的技术。
[0003]另外，利用声纹识别技术，说话人确认是比较给定的两段语音，并验证它们是否来自同一个说话人。近年来，随着深度神经网络取得的巨大进展，说话人确认技术也深受影响，逐渐从传统的基于概率统计方法转移到基于深度学习的方法。目前说话人确认已经变成一种日常生活中的一项重要技术，如生物认证、智能控制等。但是当前的说话人确认系统在真实工业应用场景下的表现仍然不太令人满意，数据量的缺失是复杂场景下性能鲁棒性的一个关键挑战，因此音频数据的需求也与日俱增。
[0004]在用于声纹识别的神经网络以及用于说话人确认的神经网络的训练过程中，数据增强是一种解决数据缺失、增加训练样本数量和分布...

【技术保护点】

【技术特征摘要】
1.一种声纹识别模型训练方法，其特征在于，包括：获取训练样本，其中，所述训练样本包括语音数据以及所述语音数据对应的标签类别；将所述训练样本输入至待训练的声纹识别模型中，通过声纹识别模型的说话人编码器获取每个训练样本对应的说话人特征，通过声纹识别模型的分类器对所述说话人特征进行识别；根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵，其中，所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向；根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵，确定第一损失函数；采用第一损失函数对所述声纹识别模型进行训练，得到训练完成的所述声纹识别模型。2.根据权利要求1所述的声纹识别模型训练方法，其特征在于，所述根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵之后，还包括：根据所述说话人特征对应的标签类别的权重矩阵以及所述说话人特征计算所述说话人特征的难度系数，其中，所述难度系数用于表征对应说话人特征的识别难度；相应地，所述根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵，确定第一损失函数，包括：根据所述说话人特征、所述说话人特征对应的难度系数以及所述说话人特征对应的所述标签类别的协方差矩阵，确定第一损失函数。3.根据权利要求2所述的声纹识别模型训练方法，其特征在于，所述第一损失函数为：其中，N为训练样本的总数，C为标签类别的数量，f
i
为第i个训练样本的说话人特征，yi为第i个训练样本的标签类别，w
yi
为第i个训练样本的标签类别yi对应的权重矩阵，w
j
为第j个标签类别对应的权重矩阵，∑yi为第i个训练样本对应的标签类别yi的协方差矩阵，dill
i
为第i个训练样本的难度系数，为第i个训练样本的难度系数，m为第一超参数，s为第二超参数，λ为第三超参数。4.根据权利要求3所述的声纹识别模型训练方法，其特征在于，所述根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵，包括：根据标签类别对应的多个训练样本的说话人特征获取所述标签类别的类别均值中心μ
j
，其中，f
k
为第j个标签类别中第k个训练样本的说话人特征，M为第j个标签类别的训练样本的数量；根据所述类别均值中心以及所述标签类别的所有说话人特征，获取所述标签类别的协方差矩阵中每个矩阵元素∑j(m，n)，方差矩阵中每个矩阵元素∑j(m，n)，其中，∑j(m，n)为协方差矩阵∑j中第m行、第n列的矩阵元素，和分别为第j个标签类别中第k个训
练样本的说话人特征在第m维和第n维的数值，和分别为第j个标签类别的类别均值中...

【专利技术属性】
技术研发人员：魏韬，王媛媛，吴志勇，马骏，王少军，肖京，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人