基于Group-Res2Block网络的智能合成语音说话人确认方法技术

技术编号:37521586 阅读:8 留言:0更新日期:2023-05-12 15:44
本发明专利技术公开了一种基于Group

【技术实现步骤摘要】
基于Group

Res2Block网络的智能合成语音说话人确认方法


[0001]本专利技术属于说话人识别领域,具体的说是一种基于Group

Res2Block网络的智能合成语音说话人确认方法。

技术介绍

[0002]随着人工智能技术的兴起,智能语音合成技术可以快速合成“一个听起来像你的声音的数字语音”,对个人的声音权带来了侵害,由此提出了“声音权”,明确了声音跟肖像一样,具有人身属性。因此,当采用语音智能合成技术侵害他人声音权时,如何确定侵权行为,即智能合成语音的说话人确认,是当前司法实践的难点和重点问题。
[0003]在说话人识别领域,特征参数和模式匹配是早期主要方法。特征参数方法通过进行人的声道建模对不同说话人进行识别;模式匹配方法包括动态时间规整(DTW)和矢量量化(VQ)。但这两种方法高度依赖于人工设计。在机器学习方法中传统的高斯混合模型(GMM)和高斯混合通用背景模型(GMM

UBM)能够以学习的方式自动学习到说话人的声纹特征。但识别准确率对样本数据量要求非常高。
[0004]随着深度学习的兴起,在各大领域显示出优越性能,神经网络方法将各种网络应用于说话人识别领域,例如:密集卷积网络(DenseNet)、深度卷积网络VGGVox、深度残差网络(ResNet)、融入多尺度特征的时延神经网络ECAPA

TDNN、RNN网络BiLSTM,纯注意力网络Transformer等,但这些方法都在经典的网络基础上,通过加深网络深度、对网络层输出特征进行简单叠加或者在通道维度和空间维度使用注意力机制实现说话人的声纹特征提取,对自然语音的特征提取具有优势,但在智能合成语音数据集上效果并不理想,存在信息冗余或信息缺失的问题。

技术实现思路

[0005]本专利技术是为了解决上述现有技术存在的不足之处,提出一种基于Group

Res2Block网络的智能合成语音说话人确认方法,以期能最大限度获取到自然人声和智能合成语音的公共有效声纹特征,从而能有效实现智能合成语音说话人确认,并能提高确认准确度。
[0006]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0007]本专利技术一种基于Group

Res2Block网络的智能合成语音说话人确认方法的特点在于,是按如下步骤进行:
[0008]步骤1、智能合成语音数据的收集和Fbank特征的预处理:
[0009]步骤1.1、构建智能合成语音数据集:
[0010]获取H个不同说话人的k条自然语音,并利用语音合成器对H个人的k条自然语音进行合成,得到H个人的k条合成语音,从而构建包含U=2
×
H
×
k条训练语音数据;
[0011]获取N个不同说话人的q对测试组,每对测试组包含同一个人的一条自然语音和一条合成语音,从而得到V=2
×
q条测试语音数据;
[0012]若任一对测试组中的自然语音和合成语音属于同一个说话人,则令相应一对测试组为正样本,并将标签设为“1”;否则,令相应一对测试组为负样本,并将标签设为“0”;
[0013]由U条训练语音数据和V条测试语音数据构成智能合成语音数据集;
[0014]步骤1.2、利用Fbank特征提取器对智能合成语音数据集进行初步特征提取,得到原始声纹Fbank特征;
[0015]步骤2、建立基于Group

Res2Block网络的智能合成语音说话人确认特征提取模型,依次包括:多尺度通道注意力机制下的特征融合模块,Group

Res2Block模块、层注意力机制下的特征融合模块和输出模块:
[0016]步骤2.1、所述多尺度通道注意力机制下的特征融合模块由a个不同大小卷积核单元、通道注意力机制模块构成,其中,每个单元是由二维卷积Conv2D、归一化层BN以及激活函数层ReLu依次构成,且每个单元并行连接;所述通道注意力机制模块由一层二维卷积Conv2D中间层、另一层二维卷积Conv2D以及Softmax函数依次组成,所述中间层由归一化层BN和激活函数层ReLu依次构成;
[0017]将所述原始声纹Fbank特征分别输入a个不同大小卷积核单元中进行并行处理后,得到的a个特征在其通道维度上使用concatenate函数进行级联,得到级联后的不同尺度总特征scale_feature,再将scale_feature输入所述通道注意力机制模块中,并利用Softmax函数得到不同尺度总特征在通道上的权重矩阵W
MCA
,从而利用式(1)得到融合特征fusion_feature1;
[0018]fusion_feature1=W
MCA
×
scale_feature
ꢀꢀꢀꢀꢀ
(1)
[0019]步骤2.2、所述Group

Res2Block模块依次由b个Group

Res2Block单元构成,每个Group

Res2Block单元依次由1个残差单元、主体单元、激活函数层ReLu、归一化层BN构成;
[0020]第i个Group

Res2Block单元中的主体单元与残差单元分别将所接收到的特征进行相加后,再依次经过激活函数层ReLu、归一化层BN的处理后得到第i个特征mid[i]_feature;第b个Group

Res2Block单元输出第b个特征mid[b]_feature为Group

Res2Block模块最终输出特征;
[0021]步骤2.3、所述层注意力机制下的特征融合模块包括:层维度构建模块和注意力机制模块,用于得到融合层注意力机制下的特征fusion_feature2;
[0022]其中,所述注意力机制模块由AdaptiveAvgPool层、AdaptiveMaxPool层、卷积模块以及Softmax函数构成;所述全连接层fc模块由两层二维卷积Conv2D和激活函数层ReLu构成,其中,激活函数层ReLu设置在两层二维卷积Conv2D之间;
[0023]步骤2.4、所述输出模块依次包括数据处理模块和全连接层,用于输出说话人嵌入特征;
[0024]步骤3、以交替训练和测试的方式对所述智能合成语音说话人确认特征提取模型进行迭代训练,从而得到最优智能合成语音说话人确认特征提取模型。
[0025]本专利技术所述的基于Group

Res2Block网络的智能合成语音说话人确认方法的特点也在于,步骤2.2中的每个主体单元由分组模块、两个二维卷积Conv2D模块以及SE模块构成;
[0026]两个二维卷积Conv2D模块构成相同,依次包含:卷积层、归一化层BN和激活函数层ReLu;
[0027]所述SE模块依次本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Group

Res2Block网络的智能合成语音说话人确认方法,其特征在于,是按如下步骤进行:步骤1、智能合成语音数据的收集和Fbank特征的预处理:步骤1.1、构建智能合成语音数据集:获取H个不同说话人的k条自然语音,并利用语音合成器对H个人的k条自然语音进行合成,得到H个人的k条合成语音,从而构建包含U=2
×
H
×
k条训练语音数据;获取N个不同说话人的q对测试组,每对测试组包含同一个人的一条自然语音和一条合成语音,从而得到V=2
×
q条测试语音数据;若任一对测试组中的自然语音和合成语音属于同一个说话人,则令相应一对测试组为正样本,并将标签设为“1”;否则,令相应一对测试组为负样本,并将标签设为“0”;由U条训练语音数据和V条测试语音数据构成智能合成语音数据集;步骤1.2、利用Fbank特征提取器对智能合成语音数据集进行初步特征提取,得到原始声纹Fbank特征;步骤2、建立基于Group

Res2Block网络的智能合成语音说话人确认特征提取模型,依次包括:多尺度通道注意力机制下的特征融合模块,Group

Res2Block模块、层注意力机制下的特征融合模块和输出模块:步骤2.1、所述多尺度通道注意力机制下的特征融合模块由a个不同大小卷积核单元、通道注意力机制模块构成,其中,每个单元是由二维卷积Conv2D、归一化层BN以及激活函数层ReLu依次构成,且每个单元并行连接;所述通道注意力机制模块由一层二维卷积Conv2D中间层、另一层二维卷积Conv2D以及Softmax函数依次组成,所述中间层由归一化层BN和激活函数层ReLu依次构成;将所述原始声纹Fbank特征分别输入a个不同大小卷积核单元中进行并行处理后,得到的a个特征在其通道维度上使用concatenate函数进行级联,得到级联后的不同尺度总特征scale_feature,再将scale_feature输入所述通道注意力机制模块中,并利用Softmax函数得到不同尺度总特征在通道上的权重矩阵W
MCA
,从而利用式(1)得到融合特征fusion_feature1;fusion_feature1=W
MCA
×
scale_feature (1)步骤2.2、所述Group

Res2Block模块依次由b个Group

Res2Block单元构成,每个Group

Res2Block单元依次由1个残差单元、主体单元、激活函数层ReLu、归一化层BN构成;第i个Group

Res2Block单元中的主体单元与残差单元分别将所接收到的特征进行相加后,再依次经过激活函数层ReLu、归一化层BN的处理后得到第i个特征mid[i]_feature;第b个Group

Res2Block单元输出第b个特征mid[b]_feature为Group

Res2Block模块最终输出特征;步骤2.3、所述层注意力机制下的特征融合模块包括:层维度构建模块和注意力机制模块,用于得到融合层注意力机制下的特征fusion_feature2;其中,所述注意力机制模块由AdaptiveAvgPool层、AdaptiveMaxPool层、卷积模块以及Softmax函数构成;所述全连接层fc模块由两层二维卷积Conv2D和激活函数层ReLu构成,其中,激活函数层ReLu设置在两层二维卷积Conv2D之间;步骤2.4、所述输出模块依次包括数据处理模块和全连接层,用于输出说话人嵌入特
征;步骤3、以交替训练和测试的方式对所述智能合成语音说话人确认特征提取模型进行迭代训练,从而得到最优智能合成语音说话人确认特征提取模型。2.根据权利要求1所述的基于Group

Res2Block网络的智能合成语音说话人确认方法,其特征在于,步骤2.2中的每个主体单元由分组模块、两个二维卷积Conv2D模块以及SE模块构成;两个二维卷积Conv2D模块构成相同,依次包含:卷积层、归一化层BN和激活函数层ReLu;所述SE模块依次包含:AdaptiveAvgPool层、二维卷积Conv2D、激活函数层ReLu、二维卷积Conv2D层和Sigmoid函数;将所接收到的特征输入到第一个二维卷积Conv2D模块进行处理后,所得的特征再输入到分组模块;对于分组模块,采用split函数将经过二维卷积Conv2D模块处理后的特征初步分成c组,对于第一个分组,结合第二个分组进行加操作后形成新的分组;对于最后一个分组,结合倒数第二个分组进行加操作后形成新的分组;对于中间分组,将当前分组的前一个分组进行3
×
3卷积处理后,再与当前分组以及当前分组的后一个分组一起进行加操作后形成新的分组;对所有新的分组进行3
×
3的卷积操作后再进行拼接,得到与fusion_feature1相同尺寸的中间特征M_feature;所述中间特征M_feature依次通过第二个二维卷积Conv2D模块和SE模块的处理后,得到主体单元的特征GR2B_feature。3.根据权利要求2所述的基于Group

...

【专利技术属性】
技术研发人员:苏兆品李菲张国富岳峰魏玉洋
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1