一种基于梯度反转层的远场说话人认证方法及系统技术方案

技术编号:29616866 阅读:12 留言:0更新日期:2021-08-10 18:35
本发明专利技术提供的一种基于梯度反转层的远场说话人认证方法,包括:采集声音信号;建立说话人特征提取器、说话人分类器、梯度反转层和距离判别器,说话人分类器与说话人特征提取器相连,距离判别器通过梯度反转层与说话人特征提取器相连,并对说话人特征提取器、说话人分类器和距离判别器进行训练,得到训练好的说话人特征提取器;确定认证最佳阈值;得到注册声音的频率特征图和认证声音的频率特征图;得到注册声音的说话人特征,获取认证声音的说话人特征并加入到注册库;将认证声音的说话人特征与注册库中的说话人特征进行逐一对比认证。还提供了相应的系统。本发明专利技术可以在不对输入时域信号进行降噪等处理的情况下,提升远场说话人认证的准确度。

【技术实现步骤摘要】
一种基于梯度反转层的远场说话人认证方法及系统
本专利技术属于音频信号处理技术与生物特征识别领域,更具体地说,涉及一种基于梯度反转层的远场说话人认证方法及系统。
技术介绍
生物特征识别技术是人类身份认证中的一类重要技术,通过各种传感器采集人体稳定的生理特征(人脸、指纹、指静脉等)或稳定的行为特征(声纹、签名、手势等),通过各种比对算法进行差异性度量后进行身份认证。生物特征识别技术凭借其便利性和安全性,为解决当前信息化发展中的安全问题提供了可靠的方案。随着智能设备的普及和互联网的广泛应用,人们对安全、便捷的身份认证技术需求日趋迫切。目前,最常用的生物特征识别技术为人脸识别和指纹识别,它们被广泛应用在安防、边检、刑侦等领域。然而,目前流行的生物特征识别技术在使用时都需要用户与设备之间保持较近的距离,尤其是指纹识别技术,需要用户与传感器直接接触。这一限制条件带来了诸多不变,例如,在家居环境下,用户并不希望靠近家电设备进行身份认证。此时,说话人认证技术可以凭借声音的传播范围广的特点解决这一问题。通过声音,用户可以在任意距离、任意角度进行身份认证,十分方便。说话人认证技术扩大了用户的使用范围,也存在一些问题。用户在注册自己的声音信息时离设备较近,而在使用时通常离设备较远,本专利技术称这种使用情景为远场说话人认证。距离的不同会导致设备录制的声音信号具有不同的信噪比,而信噪比差异会降低远场说话人认证的准确度。目前有两种方法运用在远场说话人认证中:基于时域信号处理的和基于概率线性判别分类器(PLDA)的远场说话人认证。一种基于时域信号处理的方法主要通过在时域信号中去除噪声信息来降低距离的影响。比如谱减法,将每段声音信号开头的一段较短的片段当作没有说话人声音的参考环境声音片段,然后将之后的语音信号和该参考片段相减以提升语音信号的信噪比,但是该方法需要环境声音是稳定的,且噪声均为加性噪声,实际环境很难满足这一条件。另一种基于时域信号处理的方法为加权预测误差(WPE),以麦克风阵列的多个录音设备采集的声音信号为输入,利用声音到达不同录音设备的时间差提升声音信号的信噪比。这种方法对设备的要求很高,通常需要有两个以上的录音设备。另一种基于概率线性判别分类器的方法则在说话人特征空间中进行特征分解,将说话人特征提取器提取的说话人特征分解为发音信息和干扰信息两部分,利用发音信息进行说话人认证,该方法可以在一定程度上提升远场说话人认证的准确率,但不是端到端的识别算法,并且需要为PLDA单独训练模型。此外,该算法带来的提升严重依赖特征空间维度的选择,当维度选择不合适时,认证准确率会有所降低。
技术实现思路
本专利技术的目的在于克服现有的远场说话人认证技术的不足之处,通过在说话人特征提取器的训练过程中引入距离信息,并通过梯度反转层消除距离对说话人特征的影响,提供端到端的解决方法。为了达到上述目的,本专利技术提供的一种基于梯度反转层的远场说话人认证方法,包括以下步骤:采集用户的声音信号,并对声音信号进行预处理,得到FBANK特征,并制得数据集;建立说话人特征提取器、说话人分类器、梯度反转层和距离判别器,说话人分类器与说话人特征提取器相连,距离判别器通过梯度反转层与说话人特征提取器相连,并对说话人特征提取器、说话人分类器和距离判别器进行训练,得到训练好的说话人特征提取器;确定远场说话人认证的最佳阈值;基于用户注册声音信号得到注册声音信号的频率特征图;基于用户认证声音信号得到认证声音信号的频率特征图;训练好的说话人特征提取器根据注册声音信号的频率特征图得到注册声音的说话人特征,训练好的说话人特征提取器根据认证声音信号的频率特征图得到认证声音的说话人特征,并将注册声音的说话人特征加入到注册库;将认证声音的说话人特征与注册库中的说话人特征进行逐一对比,将两个说话人特征的余弦距离作为度量值,若度量值大于最佳阈值,则认证通过,否则,认证失败。进一步地,所述采集用户的声音信号,语音信号的采样率为16KHZ,即每秒语音中有16000个采样点。每段语音有两个人工标注的标签,分别表示该段语音对应的说话人(说话人标签)和该说话人与录音设备的距离(距离标签)。所述预处理包括频域变换。在频域变换处理过程中,以25ms(400个采样点)作为窗口,以10ms(160个采样点)为移动距离,在一维时域信号中进行滑动。对每个窗口内的采样点进行快速傅里叶变换,得到257维的向量,该向量为此窗口的采样点在频域中的能量分布,本专利技术称一个窗口为一帧。对于一段时长为t(ms)的语音,经过频率变换后,其转换为257×t/10的二维频率特征图。再使用滤波器组在时间维度上对此频率特征图进行滤波,得到尺寸为40×t/10的FBANK特征。在本专利技术中,将此特征作为说话人特征提取器的输入。进一步地,说话人特征提取器包括卷积神经网络、池化层和全连接层。进一步地,距离判别器包括至少一层全连接层,用于提取对距离不敏感的说话人特征。进一步地,说话人分类器包括至少一层全连接层,用于判断输入样本属于哪个说话人。进一步地,所述对说话人特征提取器、说话人分类器和距离判别器进行训练,包括:将预处理后得到的FBANK特征输入卷积神经网络,卷积神经网络的输出依次经过说话人特征提取器的池化层和全连接层处理后得到每个输入样本的说话人特征;将说话人特征输入说话人特征提取器的损失函数中,得到误差梯度值,误差梯度值以反向传播的方式更新说话人特征提取器参数;将说话人特征输入距离判别器的损失函数中,得到距离判别器产生的误差梯度值,梯度反转层将距离判别器产生的误差梯度值乘上一个负的系数γ后传递给说话人特征提取器。在说话人特征提取器和说话人分类器的训练过程中,S1输出的40×t/10维特征首先被输入到ResNet网络中,输出为一个张量,其尺寸为BS×W×T×CHANNEL,然后通过池化层将该四维张量转换为尺寸为BS×d的二维张量,最后经过全连接层变换为尺寸为BS×D的张量。BS表示训练过程中,每次迭代输入的样本数量,每个D维张量表示一个说话人特征。将说话人特征张量输入到损失函数中可得到用于更新说话人特征提取器参数和说话人分类器参数的误差梯度值,该误差梯度值可通过反向传播的方式更新说话人特征提取器参数和说话人分类器参数。此时用到S1中的说话人标签。说话人分类器中使用的损失函数为原型损失(prototypicalloss),其表达式如下:其中,fΦ()为说话人特征提取器,d()为欧式距离度量函数,X为输入的频率特征图,K表示训练过程中一次迭代输入到网络中的说话人个数。本专利技术中,每个说话人对应两个样本,一个放入支持集,另一个放入查询集。使用支持集中的每个样本分别与查询集中的每个样本计算度量距离。k表示支持集中的样本与查询集中的样本属于同一个说话人,k′表示两个比对的样本属于不同的说话人。Φ为说话人特征提取器的参数。距离判别器训练过程:距离判别器的输入为说话人特征提取器输出的尺寸为BS×D的张本文档来自技高网
...

【技术保护点】
1.一种基于梯度反转层的远场说话人认证方法,其特征在于,包括以下步骤:/n采集用户的声音信号,并对声音信号进行预处理,得到FBANK特征,并制得数据集;/n建立说话人特征提取器、说话人分类器、梯度反转层和距离判别器,说话人分类器与说话人特征提取器相连,距离判别器通过梯度反转层与说话人特征提取器相连,并对说话人特征提取器、说话人分类器和距离判别器进行训练,得到训练好的说话人特征提取器;/n确定远场说话人认证的最佳阈值;/n基于用户注册声音信号得到注册声音信号的频率特征图;/n基于用户认证声音信号得到认证声音信号的频率特征图;/n训练好的说话人特征提取器根据注册声音信号的频率特征图得到注册声音的说话人特征,训练好的说话人特征提取器根据认证声音信号的频率特征图得到认证声音的说话人特征,并将注册声音的说话人特征加入到注册库;/n将认证声音的说话人特征与注册库中的说话人特征进行逐一对比,将两个说话人特征的余弦距离作为度量值,若度量值大于最佳阈值,则认证通过,否则,认证失败。/n

【技术特征摘要】
1.一种基于梯度反转层的远场说话人认证方法,其特征在于,包括以下步骤:
采集用户的声音信号,并对声音信号进行预处理,得到FBANK特征,并制得数据集;
建立说话人特征提取器、说话人分类器、梯度反转层和距离判别器,说话人分类器与说话人特征提取器相连,距离判别器通过梯度反转层与说话人特征提取器相连,并对说话人特征提取器、说话人分类器和距离判别器进行训练,得到训练好的说话人特征提取器;
确定远场说话人认证的最佳阈值;
基于用户注册声音信号得到注册声音信号的频率特征图;
基于用户认证声音信号得到认证声音信号的频率特征图;
训练好的说话人特征提取器根据注册声音信号的频率特征图得到注册声音的说话人特征,训练好的说话人特征提取器根据认证声音信号的频率特征图得到认证声音的说话人特征,并将注册声音的说话人特征加入到注册库;
将认证声音的说话人特征与注册库中的说话人特征进行逐一对比,将两个说话人特征的余弦距离作为度量值,若度量值大于最佳阈值,则认证通过,否则,认证失败。


2.根据权利要求1所述的一种基于梯度反转层的远场说话人认证方法,其特征在于,所述采集用户的声音信号中,每段语音上设置有用于表示该段语音对应的说话人的说话人标签和用于表示该说话人与录音设备的距离的距离标签。


3.根据权利要求1所述的一种基于梯度反转层的远场说话人认证方法,其特征在于,所述对声音信号进行预处理,包括:将采集的一维时域声音信号通过傅里叶变换转换为二维频率特征图,再对二维的频率特征图进行滤波得到FBANK特征。


4.根据权利要求1所述的一种基于梯度反转层的远场说话人认证方法,其特征在于,说话人特征提取器包括卷积神经网络、池化层和全连接层,卷积神经网络用于提取表征说话人发音特点的信息,池化层用于对卷积神经网络的输出进行降维,全连接层用于对降维后的信息进行非线性变换并输出说话人特征。


5.根据权利要求4所述的一种基于梯度反转层的远场说话人认证方法,其特征在于,距离判别器包括至少一层全连接层,用于提取对距离不敏感的说话人特征。


6.根据权利要求5所述的一种基于梯度反转层的远场说话人认证方法,其特征在于,说话人分类器包括至少一层全连接层,用于判断输入样本属于哪个说话人。


7.根据权利要求4所述的一种基于梯度反转层的远场说话人认证方法,其特征在于,所述对说话人特征提取器、说话人分类器和距离判别器进行训练,包括:
将预处理后得到的FBANK特征输入卷积神经网络,卷积神经网络的输出依次经过说话人特征提取器的池化层和全连接层处理后得到每个输入样本的说话人特征;
将说话人特征输入到说话人分类器的损失函数中,得到误差梯度值,误差梯度值以反向传播的方式更新说话人特征提取器参数;
将说话人特征输入距离判别器的损失函数中,得到距离判别器产生的误差梯度值,梯度反转层将距离判别器产生的误差梯度值乘上一个负的系数γ后传递给说话人特征提取器。


8.根据权利要求1所述的一种基于梯度反转层的远场说话人认证...

【专利技术属性】
技术研发人员:徐伟康文雄邓飞其
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1