本发明专利技术实施例公开了一种基于频带选择的伪造语音检测方法。所述方法包括,获取目标语音信号,将目标语音信号进行变换,获得语谱图特征;对所述语谱图特征进行频带切分,获得低频子带特征和高频子带特征;使用低频子带特征训练语音合成伪造语音检测模型;使用高频子带特征训练录音回放伪造语音检测模型;然后将低频子带特征输入语音合成伪造语音检测模型;以及将交叉匹配的高、低频子带特征输入录音回放伪造语音检测模型,获得最终的语音检测结果。在本发明专利技术实施例中,实现了提升神经网络伪造语音检测系统在数据集不匹配等情况下的鲁棒性,以及通过子带选择减小了特征大小,降低了伪造语音检测的参数量和计算量。语音检测的参数量和计算量。语音检测的参数量和计算量。
【技术实现步骤摘要】
一种基于频带选择的伪造语音检测方法
[0001]本专利技术涉及语音检测领域,尤其涉及一种基于频带选择的伪造语音检测方法。
技术介绍
[0002]随着语音合成与语音转换技术的飞速发展,以及高质量便携录音回放设备的普及,高质量伪造语音的获取成本逐渐降低。伪造语音在语音交互等领域带来了便利,但伪造语音也可被恶意用于电信欺诈,舆论宣传,造谣诽谤等方面,给社会稳定和人民生命财产安全带来威胁。伪造语音检测技术的主要目标就是高效准确地自动鉴别出伪造语音。典型的伪造语音检测系统一般由前端特征提取和后端分类器两部分组成,前端通过分析语音信号提取具有区分性的特征,后端通过分类判断语音是真实语音还是伪造语音。传统的检测系统前端的区分性特征采用传统低维声学特征,后端直接使用高斯混合模型或支持向量机进行分类判决。近年来基于深度学习的系统逐渐成为主流,系统前端提取输入神经网络的高维语音特征如语谱图等,后端则通过神经网络学习特征的高级表示,从而进行分类判决。但目前对伪造语音检测特征的研究大多停留在比较不同的特征种类上,缺少对特征内涵的细致分析和选择。
技术实现思路
[0003]本专利技术实施例提供了一种基于频带选择的伪造语音检测方法,其要解决的技术问题是,通过对训练与检测时特征的不同频带进行选择提升伪造语音检测系统的性能。通过在检测语音合成伪造语音时使用低频特征训练和测试,在检测录音回放伪造语音时交叉使用高频特征训练低频特征测试,提升伪造语音检测在跨数据集等条件下的鲁棒性。
[0004]第一方面,本专利技术提供了一种基于频带选择的伪造语音检测模型的训练方法,该基于频带选择的伪造语音检测的方法包括:
[0005]获取目标语音信号,对目标语音信号进行变换,获得语谱图特征;对所述语谱图特征进行频带切分,获得低频子带的第一子带特征和高频子带的第二子带特征;使用第一子带特征对语音合成伪造语音检测模型进行训练,得到训练完成的第一机器学习模型;使用第二子带特征对录音回放伪造语音检测模型进行训练,得到训练完成的第二机器学习模型。
[0006]在一些实施例中,将目标语音信号进行变换,获得语谱图特征包括:
[0007]确定目标语音信号的采样率,如果高于16kHz,则将目标语音降采样到16k Hz;对所述降采样后的目标语音信号进行行预加重、分帧与加窗处理获得语音帧;对所述语音帧进行短时傅里叶变换并求取其对数幅度谱获得所述语谱图特征。
[0008]在一些实施例中,将目标语音信号进行变换,对语谱图特征进行频带切分,获得低频子带的第一子带特征和高频子带的第二子带特征,包括:
[0009]对所述语谱图的对数幅度谱特征进行拼接或裁减,得到相同帧数的对数幅度谱特征;对所述相同帧数的对数幅度谱特征按照4kHz进行等分,0
‑
4kHz为低频子带的第一子带
特征,4
‑
8kHz为高频子带的第二子带特征。
[0010]在一些实施例中,使用第一子带特征对语音合成伪造语音检测模型进行训练,得到训练完成的第一机器学习模型,包括:
[0011]将第一子带特征输入挤压
‑
激励网络的头部卷积层,扩展特征通道数,压缩特征大小,并通过激活函数和批正则化;将处理后的第一子带特征送入挤压
‑
激励网络的卷积层和四组残差模块,并通过自适应池化获得嵌入式特征;将所述嵌入式特征输入二分类线性层,得到分类结果,并确定损失函数;对所述挤压
‑
激励网络和所述线性层进行训练,得到所述第一机器学习模型。
[0012]在一些实施例中,使用第二子带特征对录音回放伪造语音检测模型进行训练,得到训练完成的第二机器学习模型,包括:
[0013]将第二子带特征输入挤压
‑
激励网络的头部卷积层,扩展特征通道数,压缩特征大小,并通过激活函数和批正则化;将处理后的第二子带特征输入挤压
‑
激励网络的卷积层四组残差模块,并通过自适应池化提取嵌入式特征;将嵌入式特征输入二分类线性层,得到分类结果,并计算损失函数;对所述挤压
‑
激励网络和所述线性层使用Adam优化器进行训练,得到所述第二机器学习模型。
[0014]另一方面,本专利技术提供了一种基于频带选择的伪造语音检测模型的测试方法,方法包括:
[0015]获取待测试语音信号,对待测试语音信号进行变换,获得语谱图特征;对语谱图特征进行频带切分,获得低频子带的第三子带特征和高频子带的第四子带特征;将第三子带特征输入权利要求1所述方法训练得到的第一机器学习模型,对所述第三特征进行检测,确定最终的语音合成伪造语音检测结果;对第三子带特征和第四子带特征进行交叉匹配获得第五子带特征,将第五子带特征输入权利要求1所述方法训练得到的第二机器学习模型,对所述第五特征进行检测,确定最终的录音回放伪造语音检测结果。
[0016]在一些实施例中,对待测试语音信号进行变换,获得语谱图特征,包括:
[0017]确定所述待测试语音信号的采样率,如果高于16kHz,则将目标语音降采样到16kHz;对所述降采样后的目标语音进行行预加重、分帧与加窗处理获得语音帧;对所述语音帧进行短时傅里叶变换并求取其对数幅度谱获得所述语谱图特征。
[0018]在一些实施例中,对语谱图特征进行频带切分,获得低频子带的第三子带特征和高频子带的第四子带特征,包括:对所述语谱图的对数幅度谱特征进行拼接或裁减,得到相同帧数的对数幅度谱特征;对所述相同帧数的对数幅度谱特征按照4kHz进行等分,0
‑
4kHz为低频子带的第三子带特征,4
‑
8kHz为高频子带的第四子带特征。
[0019]在一些实施例中,将第三子带特征输入权利要求1所述方法训练得到的第一机器学习模型,对所述第三特征进行检测,确定最终的语音合成伪造语音检测结果,包括:
[0020]将所述第三子带特征输入权利要求1所述方法训练得到的第一机器学习模型,得到二分类得分;对所述二分类得分计算所述目标语音为语音合成伪造语音的概率,获得最终的语音合成伪造语音检测结果。
[0021]在一些实施例中,对第三子带特征和第四子带特征进行交叉匹配获得第五子带特征,将第五子带特征输入权利要求1所述方法训练得到的第二机器学习模型,对所述第五特征进行检测,确定最终的录音回放伪造语音检测结果,包括:
[0022]对第三子带特征和第四子带特征进行交叉匹配获得第五子带特征,将第五子带特征输入权利要求1所述方法训练得到的第二机器学习模型,得到二分类得分;对所述二分类得分计算目标语音为录音回放伪造语音的概率,获得最终的录音回放伪造语音检测结果。
[0023]相比较现有技术,本专利技术实施例提供的一种基于频带选择的伪造语音检测方法,通过针对不同的伪造语音类型在训练和测试时分别选择不同频带的语谱图特征,提升了神经网络伪造语音检测系统在数据集不匹配等情况下的鲁棒性。针对语音合成伪造语音高频特征容易过拟合的问题,选择低频特征进行训练和测试本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于频带选择的伪造语音检测模型的训练方法,其特征在于,包括:获取目标语音信号,对目标语音信号进行变换,获得语谱图特征;对所述语谱图特征进行频带切分,获得低频子带的第一子带特征和高频子带的第二子带特征;使用第一子带特征对语音合成伪造语音检测模型进行训练,得到训练完成的第一机器学习模型;使用第二子带特征对录音回放伪造语音检测模型进行训练,得到训练完成的第二机器学习模型。2.根据权利要求1所述的伪造语音检测模型的训练方法,其特征在于,所述对目标语音信号进行变换,获得语谱图特征,包括:确定目标语音信号的采样率,如果高于16k Hz,则将目标语音降采样到16kHz;对所述降采样后的目标语音信号进行行预加重、分帧与加窗处理获得语音帧;对所述语音帧进行短时傅里叶变换并求取其对数幅度谱获得所述语谱图特征。3.根据权利要求1所述的伪造语音检测模型的训练方法,其特征在于,所述对语谱图特征进行频带切分,获得低频子带的第一子带特征和高频子带的第二子带特征,包括:对所述语谱图的对数幅度谱特征进行拼接或裁减,得到相同帧数的对数幅度谱特征;对所述相同帧数的对数幅度谱特征按照4k Hz进行等分,0
‑
4k Hz为低频子带的第一子带特征,4
‑
8k Hz为高频子带的第二子带特征。4.根据权利要求1所述的伪造语音检测模型的训练方法,其特征在于,所述使用第一子带特征对语音合成伪造语音检测模型进行训练,得到训练完成的第一机器学习模型,包括:将第一子带特征输入挤压
‑
激励网络的头部卷积层,扩展特征通道数,压缩特征大小,并通过激活函数和批正则化;将处理后的第一子带特征送入挤压
‑
激励网络的卷积层和四组残差模块,并通过自适应池化获得嵌入式特征;将所述嵌入式特征输入二分类线性层,得到分类结果,并确定损失函数;对所述挤压
‑
激励网络和所述线性层进行训练,得到所述第一机器学习模型。5.根据权利要求1所述的伪造语音检测模型的训练方法,其特征在于,所述使用第二子带特征对录音回放伪造语音检测模型进行训练,得到训练完成的第二机器学习模型,包括:将第二子带特征输入挤压
‑
激励网络的头部卷积层,扩展特征通道数,压缩特征大小,并通过激活函数和批正则化;将处理后的第二子带特征输入挤压
‑
激励网络的卷积层四组残差模块,并通过自适应池化提取嵌入式特征;将嵌入式特征输入二分类线性层,得到分类结果,并计算损失函数;对所述挤压
‑
激励网络...
【专利技术属性】
技术研发人员:张震,孙旭东,王立强,杜金浩,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。