一种基于流形测度的多模型融合的语音鉴伪识别方法技术

技术编号:38756097 阅读:66 留言:0更新日期:2023-09-10 09:41
本发明专利技术提出了一种基于流形测度的多模型融合的语音鉴伪识别方法,方法包括:对测试语音进行预处理;再将测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的鉴伪特征;将鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;度量测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;将识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。本发明专利技术通过融合多模型的深层嵌入特征、构建不同手段伪造语音的流形空间、度量不同空间的测地线距离作为识别相似度得分,从而实现鉴伪模型泛化性能的提升、以及开集条件下的语音真伪检测及伪造手段识别。伪造手段识别。伪造手段识别。

【技术实现步骤摘要】
一种基于流形测度的多模型融合的语音鉴伪识别方法


[0001]本专利技术涉及语音识别
,尤其涉及一种基于流形测度的多模型融合的语音鉴伪识别方法。

技术介绍

[0002]当前,语音深度伪造技术手段日新月异、伪造水平愈发成熟,且为了提升伪造语音的抗鉴别检测能力以及伪造语音的逼真度,伪造语音中往往掺杂着一些背景环境声音。近几年的语音鉴伪相关的国际比赛中也模拟发布了相关的挑战内容,如在ASVSpoof2021 LA赛道中,评估数据集中包含了编解码方式、传输信道等方面的泛化挑战;在ADD2023 Track1.2 语音真伪检测和Track 3伪造手段识别的评估数据集中,包含了音乐、流水、多人说话、鸣笛、混响等多种复杂噪声背景干扰。这样的现状,一方面,在鉴伪模型训练阶段难以获取到所有可能的伪造手段下的数据,导致出现开集识别问题;另一方面,伪造时添加的背景环境声也大大降低了训练数据与测试数据的匹配度,导致鉴伪模型在实际应用中的泛化应用问题。由此出现在训练阶段由验证数据集测试的模型性能很好,而在实际应用的测试数据集下模型性能却较差。

技术实现思路

[0003]本专利技术要解决的技术问题是,如何克服干扰,实现开集条件下的语音真伪检测及伪造手段识别,并提升鉴伪模型的泛化能力。有鉴于此,本专利技术提供一种基于流形测度的多模型融合的语音鉴伪识别方法。
[0004]本专利技术采用的技术方案是,所述一种基于流形测度的多模型融合的语音鉴伪识别方法,包括:步骤S1,对测试语音进行预处理;步骤S2,将预处理后的测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的至少两组鉴伪特征;步骤S3,将所述鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;步骤S4,度量所述测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;步骤S5,将得到的识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。
[0005]在一个实施方式中,所述对测试语音进行预处理,包括:将测试语音依次进行如下操作:重采样到16kHz、去零偏、幅值归一化、加重、分段。
[0006]在一个实施方式中,所述至少两个鉴伪模型具体包括两种类型:以LFCC特征为输入、SE

Res2Net50为学习网络的鉴伪模型,和以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型。
[0007]在一个实施方式中,所述以LFCC特征为输入、SE

Res2Net50为学习网络的鉴伪模
型,具体通过以下步骤训练得到:对预先获取的的C种伪造手段下的训练语音数据进行预处理操作;对预处理后的训练语音数据提取LFCC特征;将提取的LFCC特征输入给SE

Res2Net50网络,输出256维的鉴伪特征;将所述鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;以交叉熵作为训练损失函数进行W轮训练,得到W个鉴伪模型。
[0008]在一个实施方式中,所述以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型,具体通过以下步骤训练得到:对事先准备好的C种伪造手段下的训练语音数据进行预处理操作;将预处理后的训练语音数据作为预训练模型HuBERT的输入,并通过一个(1024,256)的全连接层,输出256维的鉴伪特征;将鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;以交叉熵作为训练损失函数进行V轮训练,得到V个鉴伪模型。
[0009]在一个实施方式中,所述至少两个鉴伪模型,是从W+V个鉴伪模型中通过以下步骤优选得到:对事先准备好的C种伪造手段下的验证语音数据进行预处理操作;将预处理后的验证语音数据依次作为训练后的W+V个模型的输入,输出识别标签;根据验证语音数据的真实标签和识别标签,依次计算W+V个模型的F1

score指标并降序排序;取前M个F1

score对应的模型,作为M个优选的鉴伪模型。
[0010]在一个实施方式中,所述预先配置的用于表征不同伪造手段的语音流形空间,通过以下步骤得到:对预先配置的C种伪造手段下的训练语音数据进行预处理操作;对每种伪造手段下预处理后的训练语音数据依次作为M个优选的鉴伪模型的输入,输出M组鉴伪特征;将每种伪造手段下的M组鉴伪特征串联后作为ONPE变换的输入特征矩阵,输出该伪造手段的流形空间。
[0011]在一个实施方式中,所述识别相似度得分,通过以下步骤计算得到:确定测试数据流形空间与训练数据各个流形空间之间的测地线距离,并通过以下公式计算得到最终的相似度得分:
[0012]公式中,为测试数据x与伪造手段i的识别相似度,代表测试数据流形空间与伪造手段i的流形空间的测地线距离。
[0013]在一个实施方式中,所述判别阈值通过下述步骤确定:对事先准备好的C种伪造手段下的语音数据,每次随机抽取一种伪造手段下的数据作为未知伪造手段,使用余下的C

1种已知伪造手段下的语音数据训练得到鉴伪模型;
将C种伪造手段下的语音数据输入给训练好的鉴伪模型,输出对应的识别相似度得分;设判别阈值为T,当输入语音数据的识别相似度得分小于T时,判定其识别标签为未知伪造数据;而当输入语音数据的识别相似度得分大于T时,判定相似度得分对应的类别标签即为识别标签;调整判别阈值T,使得模型对C

1种已知伪造手段和未知伪造手段下的音频识别的F1

score值最佳。
[0014]本专利技术的另一方面还提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上任一项所述的基于流形测度的多模型融合的语音鉴伪识别方法的步骤。
[0015]采用上述技术方案,本专利技术至少具有下列优点:本专利技术提供的基于流形测度的多模型融合的语音鉴伪识别方法,通过融合多模型的深层嵌入特征、构建不同手段伪造语音的流形空间、度量不同空间的测地线距离作为识别相似度得分,从而实现鉴伪模型泛化性能的提升、以及开集条件下的语音真伪检测及伪造手段识别。
附图说明
[0016]图1为根据本专利技术实施例的基于流形测度的多模型融合的语音鉴伪识别方法流程图;图2为根据本专利技术实施例的语音鉴伪及伪造手段鉴别器训练的流程示意图;图3为根据本专利技术实施例的语音鉴伪及伪造手段鉴别的流程示意图;图4为根据本专利技术实施例的HuBERT类和SE

Res2Net50类模型提取的嵌入特征的散点图;图5为根据本专利技术实施例的基于流形测度的多模型融合的语音鉴伪识别装置的组成结构示意图;图6为根据本专利技术实施例的电子设备构成示意图。
具体实施方式
[0017]为更进一步阐述本专利技术为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本专利技术进行详细说明如后。
[0018]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述方法包括:步骤S1,对测试语音进行预处理;步骤S2,将预处理后的测试语音输入到至少两个鉴伪模型,并获取输出的与鉴伪模型数量匹配的至少两组鉴伪特征;步骤S3,将所述鉴伪特征串联后进行ONPE变换,构建得到测试语音的流形空间;步骤S4,度量所述测试语音的流形空间与预先配置的用于表征不同伪造手段的语音流形空间之间的测地线距离,作为识别相似度得分;步骤S5,将得到的识别相似度得分与预先配置的判别阈值进行比对,根据比对结果确定鉴伪结果。2.根据权利要求1所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述对测试语音进行预处理,包括:将测试语音依次进行如下操作:重采样到16kHz、去零偏、幅值归一化、加重、分段。3.根据权利要求1所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述至少两个鉴伪模型具体包括两种类型:以LFCC特征为输入、SE

Res2Net50为学习网络的鉴伪模型,和以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型。4.根据权利要求3所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述以LFCC特征为输入、SE

Res2Net50为学习网络的鉴伪模型,具体通过以下步骤训练得到:对预先获取的C种伪造手段下的训练语音数据进行预处理操作;对预处理后的训练语音数据提取LFCC特征;将提取的LFCC特征输入给SE

Res2Net50网络,输出256维的鉴伪特征;将所述鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;以交叉熵作为训练损失函数进行W轮训练,得到W个鉴伪模型。5.根据权利要求4所述的基于流形测度的多模型融合的语音鉴伪识别方法,其特征在于,所述以原始信号为输入、预训练模型HuBERT为学习网络的鉴伪模型,具体通过以下步骤训练得到:对事先准备好的C种伪造手段下的训练语音数据进行预处理操作;将预处理后的训练语音数据作为预训练模型HuBERT的输入,并通过一个(1024,256)的全连接层,输出256维的鉴伪特征;将鉴伪特征依次输入给(256,C)的全连接层、softmax层,输出识别的伪造手段标签;以交叉熵作为训练损失函数进行V轮训练,得到V个鉴伪模型。6.根据权利要求5所述的基于流形测度的多模型融合的语音鉴伪识...

【专利技术属性】
技术研发人员:田野汤跃忠陈云坤付泊暘
申请(专利权)人:中国电子科技集团公司第三研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1