一种基于多尺度GMM-ResNet模型的语音伪造检测方法技术

技术编号：43794826 阅读：22 留言：0更新日期：2024-12-24 16:25

本发明专利技术属于语音伪造检测技术领域，具体为一种基于多尺度GMM‑ResNet模型的语音伪造检测方法，获取说话人真实语音数据及伪造语音数据作为原始语音数据，多尺度GMM‑ResNet模型主要包含两部分：多尺度对数高斯概率特征融合和多尺度特征聚合ResNet模型，多尺度LGP特征融合将基于不同阶数的GMM得到的三种不同尺度LGP特征进行加权融合，从而促进不同尺度LGP特征之间的信息交换，多尺度特征聚合ResNet模型通过对每个ResNet块输出的特征进行聚合，充分融合网络内不同层级的特征信息，从而提高网络的特征提取能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音伪造检测，具体为一种基于多尺度gmm-resnet模型的语音伪造检测方法。

技术介绍

1、自动说话人确认(automatic speaker verfication，asv)系统是一种根据说话人的声音信息进行身份认证的系统，目前正被广泛用于手机解锁、智能门禁、银行身份验证等各种生活场景。随着近年来深度学习模型的应用，asv系统也取得了重大进展，展现了其良好的性能。但同时也容易受到合成或转换语音的伪造攻击，合成语音伪造检测系统致力于解决这一问题。

2、在实际应用中，尽管语音伪造检测技术已经越来越成熟，但仍然会面临模型泛化性能不足的问题。这是由于实际应用场景往往更容易受到未知攻击类型的语音攻击，因此需要采取有效的语音伪造检测方法，降低各种编解码器和传输通道对语音伪造检测系统的影响，提高模型的泛化性能。

技术实现思路

1、本专利技术的目的在于提供一种基于多尺度gmm-resnet模型的语音伪造检测方法，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本申请提供了如下方案：

3、一种基于多尺度gmm-resnet模型的语音伪造检测方法，该语音伪造检测方法的具体步骤流程如下：

4、s1、获取说话人真实语音数据及伪造语音数据作为原始语音数据；

5、s2、计算所述原始语音数据的线性频率倒谱系数特征；

6、s3、采用128阶、256和512阶高斯混合模型对所述原始语音数据的线性频率倒谱系数特征分别进行建

7、s4、将所述原始语音数据的线性频率倒谱系数特征同时作为128阶高斯混合模型、256阶高斯混合模型和512阶高斯混合模型的输入，分别计算得到128阶、256阶和512阶的对数高斯概率特征；

8、s5、构建多尺度gmm-resnet模型，将基于上述三种不同阶的对数高斯概率特征作为多尺度gmm-resnet模型的输入，对所述多尺度gmm-resnet模型进行训练，训练好的多尺度gmm-resnet模型用于对新的语音数据进行伪造检测。

9、优选的，所述语音高斯混合模型采用最大期望算法进行训练。

10、优选的，所述s4包括：

11、s4.1、计算所述原始语音数据的线性频率倒谱系数特征x的对数高斯概率特征y，其大小等于高斯混合模型的阶数,其中每个分量yi计算公式为：

12、yi＝log(wi·pi(x))

13、其中：wi为高斯混合模型的第i个高斯分量权重，pi(x)为单高斯概率密度函数，μi为均值向量，σi为协方差矩阵，如公式所示：

14、

15、s4.2、对yi进行均值方差归一化，得到最终的对数高斯概率特征fi：

16、

17、其中：和是所有所述基于原始语音高斯混合模型的对数高斯概率特征的均值与方差。

18、优选的，所述s5包括：

19、s5.1、构建多尺度对数高斯概率特征融合网络，将基于所述128阶高斯混合模型、256阶高斯混合模型、512阶高斯混合模型得到的概率特征作为多尺度对数高斯概率特征融合网络的输入；

20、s5.2、多尺度对数高斯概率特征融合网络将三种不同尺度的对数高斯概率特征分别进行加权融合，且系数加权和为1，融合后得到128维、256维和512维三种尺度的特征；

21、s5.3、构建三个多尺度特征聚合resnet模型，将上述融合后的128维特征、256维特征和512维特征分别作为各自多尺度特征聚合resnet模型的输入；

22、s5.4、三个多尺度特征聚合resnet模型将三组特征分别映射成三组二维向量；

23、s5.5、将上述得到的二维向量进行自适应最大池化操作，得到固定大小的三组一维向量；

24、s5.6、将所述固定大小的三组一维向量进行拼接，得到一组一维向量，并输入到全连接线性层，通过softmax函数输出真实语音和伪造语音标签的得分；

25、s5.7、根据所述分类得分判断语音是真实语音还是伪造语音。

26、优选的，所述s5.1包括：

27、s5.1.1、多尺度对数高斯概率特征融合网络采用模块化结构，共有三个模块；

28、s5.1.2、每个多尺度对数高斯概率特征融合模块都包括两个卷积层、一个批量归一化层，其中卷积层使用一维卷积；

29、s5.1.3、每个多尺度对数高斯概率特征融合模块中的输入特征均为128阶、256阶和512阶三种尺度的对数高斯概率特征。

30、优选的，所述s5.3包括：

31、s5.3.1、每个多尺度特征聚合resnet网络路径都采用模块化的结构，共有六个模块；

32、s5.3.2、每个多尺度特征聚合resnet网络路径中的模块都包括卷积层、批量归一化层、非线性激活层，其中卷积层使用一维卷积；

33、s5.3.3、每个多尺度特征聚合resnet网络路径中的输入特征通道数分别为128，256，512。

34、优选的，所述s5.7包括：

35、s5.7.1、根据分类结果得到真实语音和伪造语音的得分值；

36、s5.7.2、如果真实语音的得分值大于伪造语音的得分值，则判断说话人语音为真实语音；如果真实语音的得分值小于伪造语音的得分值，则判断说话人语音为伪造语音。

37、与现有技术相比，本专利技术的有益效果是：

38、本申请公开了采用基于一维卷积的resnet残差块；用128阶、256阶和512阶的高斯混合模型分别对语音数据进行进行建模，提取不同尺度的对数高斯概率特征，结合多尺度gmm-resnet模型能够有效提高语音伪造检测系统的性能，多尺度gmm-resnet模型主要包含两部分：多尺度对数高斯概率特征融合和多尺度特征聚合resnet模型。多尺度lgp特征融合将基于不同阶数的gmm得到的三种不同尺度lgp特征进行加权融合，从而促进不同尺度lgp特征之间的信息交换。多尺度特征聚合resnet模型通过对每个resnet块输出的特征进行聚合，充分融合网络内不同层级的特征信息，从而提高网络的特征提取能力。

本文档来自技高网...

【技术保护点】

1.一种基于多尺度GMM-ResNet模型的语音伪造检测方法，其特征在于，该语音伪造检测方法的具体步骤流程如下：

2.根据权利要求1所述的一种基于多尺度GMM-ResNet模型的语音伪造检测方法，其特征在于，所述语音高斯混合模型采用最大期望算法进行训练。

3.根据权利要求1所述的一种基于多尺度GMM-ResNet模型的语音伪造检测方法，其特征在于，所述S4包括：

4.根据权利要求1所述的一种基于多尺度GMM-ResNet模型的语音伪造检测方法，其特征在于，所述S5包括：

5.根据权利要求4所述的一种基于多尺度GMM-ResNet模型的语音伪造检测方法，其特征在于，所述S5.1包括：

6.根据权利要求4所述的一种基于多尺度GMM-ResNet模型的语音伪造检测方法，其特征在于，所述S5.3包括：

7.根据权利要求4所述的一种基于多尺度GMM-ResNet模型的语音伪造检测方法，其特征在于，所述S5.7包括：

【技术特征摘要】

1.一种基于多尺度gmm-resnet模型的语音伪造检测方法，其特征在于，该语音伪造检测方法的具体步骤流程如下：

2.根据权利要求1所述的一种基于多尺度gmm-resnet模型的语音伪造检测方法，其特征在于，所述语音高斯混合模型采用最大期望算法进行训练。

3.根据权利要求1所述的一种基于多尺度gmm-resnet模型的语音伪造检测方法，其特征在于，所述s4包括：

4.根据权利要求1所述的一种基于多尺度gm...

【专利技术属性】
技术研发人员：雷震春，周勇，马明磊，
申请(专利权)人：江西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人