System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多媒体信息安全,特别是一种用于检测低质量压缩语音中深度伪造的检测方法。
技术介绍
1、随着人工智能技术的快速发展,语音伪造技术近年来发展迅速,新型语音合成技术可以生成高度逼真的伪造语音。语音伪造技术虽然有娱乐应用,但也被滥用于诈骗、散布虚假信息等,造成严重危害。近年来,不法分子利用语音伪造技术实施诈骗,造成大量财产损失。语音伪造技术还被用于制造虚假信息,在政治、军事等领域造成严重影响。
2、为了应对语音伪造带来的安全挑战,语音伪造检测技术研究受到了广泛关注。近年来,在开发有效的语音伪造检测器方面已经有了大量的研究工作。2015年、2017年、2019年和2021年,asvspoof挑战赛成功举办,为语音伪造检测技术的研发提供了重要的平台。2022年和2023年,音频深度合成检测挑战赛(add 2022和add 2023)也相继举行,进一步推动了语音伪造检测技术的发展。
3、现有的语音伪造检测技术主要在高清晰度数据集上具有较好的检测性能。然而,在现实生活中,社交媒体上的语音大多是经过压缩算法处理后存储的低清晰度语音。低清晰度语音数据比高清晰度数据包含更少的信息,因此在低清晰度语音上进行语音伪造检测更加具有挑战性。低质量压缩数据主要存在以下两个问题:(1)丢失频域的高频信息
4、人类听觉系统对低频成分更加敏感,而对高频成分的感知相对不敏锐。基于此,许多有损压缩编码方式,例如mp3、aac等,会在压缩过程中有意去除部分高频信息,以降低音频文件大小。此外,较低的压缩码率通常会导致更多高频
5、(2)丢失时域的细节信息
6、压缩编码通常以减小音频数据体积为目标,这会导致语音信号的时域信息丢失。包括语音信号的快速振幅变化、语音特征之间的时序关系以及语音的感知特征。部分压缩算法会对语音信号的幅度进行离散化和表示,在这个过程中,信号幅度可能被限制在一定范围内,导致较大强度值的降低,这可能导致时域细节丢失,使语音信号变得更加平缓,尤其是在快速变化的部分。图2展示了原始语音和压缩语音在时域波形上的差异,可以看出压缩语音在某些时段内波形更加平缓。由于压缩语音的时域信息丢失,导致语音鉴伪系统的准确率通常会下降,与高清晰度语音相比,检测性能有所降低。
7、综上所述,现有的语音鉴伪系统主要针对高清晰度语音,而社交媒体上广泛存在的压缩语音缺少部分对伪造检测有用的信息,相比于高清晰度语音,针对压缩语音的伪造检测具有更大的挑战性。故如何针对低质量压缩语音进行准确率高的伪造检测是目前亟需解决的问题。
技术实现思路
1、为了解决上述现有技术中存在的问题,针对低质量压缩语音伪造检测性能不佳的问题,本专利技术提出了一种基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,该方法以知识蒸馏为框架,采用数据蒸馏策略,利用高质量数据训练教师模型,低质量数据训练学生模型。此外,通过频域和时域蒸馏,使得学生模型能够从教师模型习得压缩数据丢失的频域和时域信息,有效提升低质量语音的伪造检测性能。值得一提的是,训练蒸馏模型的高质量数据和低质量数据是配对的,并采用有损压缩算法对高质量数据集进行压缩,生成对应的低质量压缩数据集。
2、为实现上述目的,本专利技术提供如下技术方案:
3、一种基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,步骤如下:
4、s1、压缩训练数据集:采用六种有损压缩算法对训练数据集进行压缩,从而得到与高质量训练集匹配的低质量数据;具体步骤如下:
5、s1.1、遍历asvspoof 2019数据集中的每个音频文件;
6、s1.2、随机选择一种压缩算法对音频文件进行压缩;
7、s1.3、将压缩后的音频文件保存到指定路径;
8、重复步骤s1.1-s1.3,直到完成所有音频文件的压缩;
9、s2、语音特征提取:使用预训练的大模型xls-r从语音数据中提取特征;具体步骤如下:
10、s2.1、下载预训练语音特征提取模型xls-r;
11、s2.2、将读取的音频文件直接输入xls-r模型,提取音频特征;
12、s2.3、将提取的音频特征保存供后续使用;
13、s3、教师模型训练:使用高质量的原始数据训练教师模型;具体步骤如下:
14、s3.1、将asvspoof 2019训练集的音频特征输入resnet18网络中;
15、s3.2、使用交叉熵损失函数训练resnet18网络,使模型能够学习到高质量语音的特征分布和判别信息;
16、s3.3、训练至模型在asvspoof 2019训练集上达到满意的拟合度;
17、s4、学生模型训练:使用低质量压缩数据,通过频域蒸馏和时域蒸馏训练学生模型。
18、进一步的,步骤s4的具体步骤如下:
19、s4.1、重复步骤s2.1和步骤s2.2,提取压缩后的asvspoof 2019训练集的音频特征,将压缩后的asvspoof 2019训练集的音频特征输入resnet18网络中;
20、s4.2、将学生模型和教师模型的中间层特征分别输入频域蒸馏模块和时域蒸馏模块;
21、s4.3、计算频域蒸馏loss和时域蒸馏loss;
22、s4.4、将resnet18网络的分类loss、频域蒸馏loss和时域蒸馏loss加权相加,得到模型整体的loss;使用反向传播算法训练学生模型,不断更新模型参数;训练至模型收敛到一个满意的状态;
23、
24、其中,代表学生模型分类损失,代表频域蒸馏损失,代表时域蒸馏损失,α、β和γ分别是学生模型分类loss、频域蒸馏loss和时域蒸馏loss的权重。
25、进一步的,所述频域蒸馏模块执行如下步骤:
26、将教师模型和学生模型的中间层特征从时间域转换到频域,利用快速傅立叶变换实现这一转换;通过fft,考察语音数据的频谱特性,并识别压缩过程中受影响最大的频率成分;fft公式如下:
27、
28、其中,k表示频域中的频率索引,i表示虚数单位;用和分别表示学生和教师网络中间层特征的频域表示。
29、进一步的,所述频域蒸馏模块执行如下步骤:
30、采用l2范数的平方来衡量教师模型和学生模型频域特征之间的差异本文档来自技高网...
【技术保护点】
1.一种基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,步骤如下:
2.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,步骤S4的具体步骤如下:
3.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,所述频域蒸馏模块执行如下步骤:
4.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,所述频域蒸馏模块执行如下步骤:
5.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,所述时域蒸馏模块执行如下步骤:
6.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,所述时域蒸馏模块执行如下步骤:
7.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,所述时域蒸馏模块执行如下步骤:
8.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,所述时
...【技术特征摘要】
1.一种基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,步骤如下:
2.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,步骤s4的具体步骤如下:
3.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,所述频域蒸馏模块执行如下步骤:
4.如权利要求1所述的基于频域与时域知识提取的低质量压缩语音深度伪造检测方法,其特征在于,所述频域蒸馏模块执行如下步骤:
5.如权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。