一种基于梯度反转层的远场说话人认证方法及系统技术方案

技术编号：29616866 阅读：12 留言：0更新日期：2021-08-10 18:35

本发明专利技术提供的一种基于梯度反转层的远场说话人认证方法，包括：采集声音信号；建立说话人特征提取器、说话人分类器、梯度反转层和距离判别器，说话人分类器与说话人特征提取器相连，距离判别器通过梯度反转层与说话人特征提取器相连，并对说话人特征提取器、说话人分类器和距离判别器进行训练，得到训练好的说话人特征提取器；确定认证最佳阈值；得到注册声音的频率特征图和认证声音的频率特征图；得到注册声音的说话人特征，获取认证声音的说话人特征并加入到注册库；将认证声音的说话人特征与注册库中的说话人特征进行逐一对比认证。还提供了相应的系统。本发明专利技术可以在不对输入时域信号进行降噪等处理的情况下，提升远场说话人认证的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于梯度反转层的远场说话人认证方法及系统
本专利技术属于音频信号处理技术与生物特征识别领域，更具体地说，涉及一种基于梯度反转层的远场说话人认证方法及系统。
技术介绍
生物特征识别技术是人类身份认证中的一类重要技术，通过各种传感器采集人体稳定的生理特征(人脸、指纹、指静脉等)或稳定的行为特征(声纹、签名、手势等)，通过各种比对算法进行差异性度量后进行身份认证。生物特征识别技术凭借其便利性和安全性，为解决当前信息化发展中的安全问题提供了可靠的方案。随着智能设备的普及和互联网的广泛应用，人们对安全、便捷的身份认证技术需求日趋迫切。目前，最常用的生物特征识别技术为人脸识别和指纹识别，它们被广泛应用在安防、边检、刑侦等领域。然而，目前流行的生物特征识别技术在使用时都需要用户与设备之间保持较近的距离，尤其是指纹识别技术，需要用户与传感器直接接触。这一限制条件带来了诸多不变，例如，在家居环境下，用户并不希望靠近家电设备进行身份认证。此时，说话人认证技术可以凭借声音的传播范围广的特点解决这一问题。通过声音，用户可以在任意距离、任意角度进行身份认证，十分方便。说话人认证技术扩大了用户的使用范围，也存在一些问题。用户在注册自己的声音信息时离设备较近，而在使用时通常离设备较远，本专利技术称这种使用情景为远场说话人认证。距离的不同会导致设备录制的声音信号具有不同的信噪比，而信噪比差异会降低远场说话人认证的准确度。目前有两种方法运用在远场说话人认证中：基于时域信号处理的和基于概率线性判别分类器(PLDA)的远场说话人认证。...

【技术保护点】
1.一种基于梯度反转层的远场说话人认证方法，其特征在于，包括以下步骤：/n采集用户的声音信号，并对声音信号进行预处理，得到FBANK特征，并制得数据集；/n建立说话人特征提取器、说话人分类器、梯度反转层和距离判别器，说话人分类器与说话人特征提取器相连，距离判别器通过梯度反转层与说话人特征提取器相连，并对说话人特征提取器、说话人分类器和距离判别器进行训练，得到训练好的说话人特征提取器；/n确定远场说话人认证的最佳阈值；/n基于用户注册声音信号得到注册声音信号的频率特征图；/n基于用户认证声音信号得到认证声音信号的频率特征图；/n训练好的说话人特征提取器根据注册声音信号的频率特征图得到注册声音的说话人特征，训练好的说话人特征提取器根据认证声音信号的频率特征图得到认证声音的说话人特征，并将注册声音的说话人特征加入到注册库；/n将认证声音的说话人特征与注册库中的说话人特征进行逐一对比，将两个说话人特征的余弦距离作为度量值，若度量值大于最佳阈值，则认证通过，否则，认证失败。/n

【技术特征摘要】
1.一种基于梯度反转层的远场说话人认证方法，其特征在于，包括以下步骤：
采集用户的声音信号，并对声音信号进行预处理，得到FBANK特征，并制得数据集；
建立说话人特征提取器、说话人分类器、梯度反转层和距离判别器，说话人分类器与说话人特征提取器相连，距离判别器通过梯度反转层与说话人特征提取器相连，并对说话人特征提取器、说话人分类器和距离判别器进行训练，得到训练好的说话人特征提取器；
确定远场说话人认证的最佳阈值；
基于用户注册声音信号得到注册声音信号的频率特征图；
基于用户认证声音信号得到认证声音信号的频率特征图；
训练好的说话人特征提取器根据注册声音信号的频率特征图得到注册声音的说话人特征，训练好的说话人特征提取器根据认证声音信号的频率特征图得到认证声音的说话人特征，并将注册声音的说话人特征加入到注册库；
将认证声音的说话人特征与注册库中的说话人特征进行逐一对比，将两个说话人特征的余弦距离作为度量值，若度量值大于最佳阈值，则认证通过，否则，认证失败。

2.根据权利要求1所述的一种基于梯度反转层的远场说话人认证方法，其特征在于，所述采集用户的声音信号中，每段语音上设置有用于表示该段语音对应的说话人的说话人标签和用于表示该说话人与录音设备的距离的距离标签。

3.根据权利要求1所述的一种基于梯度反转层的远场说话人认证方法，其特征在于，所述对声音信号进行预处理，包括：将采集的一维时域声音信号通过傅里叶变换转换为二维频率特征图，再对二维的频率特征图进行滤波得到FBANK特征。

4.根据权利要求1所述的一种基于梯度反转层的远场说话人认证方法，其特征在于，说话人特征提取器包括卷积神经网络、池化层和全连接层，卷积神经网络用于提取表征说话人发音特点的信息，池化层用于对卷积神经网络的输出进行降维，全连接层用于对降维后的信息进行非线性变换并输出说话人特征。

5.根据权利要求4所述的一种基于梯度反转层的远场说话人认证方法，其特征在于，距离判别器包括至少一层全连接层，用于提取对距离不敏感的说话人特征。

6.根据权利要求5所述的一种基于梯度反转层的远场说话人认证方法，其特征在于，说话人分类器包括至少一层全连接层，用于判断输入样本属于哪个说话人。

7.根据权利要求4所述的一种基于梯度反转层的远场说话人认证方法，其特征在于，所述对说话人特征提取器、说话人分类器和距离判别器进行训练，包括：
将预处理后得到的FBANK特征输入卷积神经网络，卷积神经网络的输出依次经过说话人特征提取器的池化层和全连接层处理后得到每个输入样本的说话人特征；
将说话人特征输入到说话人分类器的损失函数中，得到误差梯度值，误差梯度值以反向传播的方式更新说话人特征提取器参数；
将说话人特征输入距离判别器的损失函数中，得到距离判别器产生的误差梯度值，梯度反转层将距离判别器产生的误差梯度值乘上一个负的系数γ后传递给说话人特征提取器。

8.根据权利要求1所述的一种基于梯度反转层的远场说话人认证...

【专利技术属性】
技术研发人员：徐伟，康文雄，邓飞其，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人