一种基于声谱图的声纹识别集成模型的防御方法及防御装置制造方法及图纸

技术编号:24577796 阅读:17 留言:0更新日期:2020-06-21 00:38
本发明专利技术公开了一种基于声谱图的声纹识别集成模型的防御方法,包括:(1)采集音频文件,并对音频文件转化为声谱图,该声谱图作为良性样本;(2)利用良性样本训练多个声纹识别模型,获得训练好的多个声纹识别模型;(3)采用投票机制从训练好的多个声纹识别模型从筛选获得较优的多个声纹识别模型进行集成,形成声纹识别集成模型,利用良性样本重新训练声纹识别集成模型;(4)采集布谷鸟搜索算法分别攻击多个声纹识别模型,生成对抗样本;(5)利用对抗样本和良性样本对步骤(3)获得的声纹识别集成模型进行再训练,获得能够抵抗攻击的声纹识别集成模型;(6)利用步骤(5)获得的声纹识别集成模型对音频文件对应的声谱图进行防御识别。

An integrated model of Voiceprint Recognition Based on Spectrogram

【技术实现步骤摘要】
一种基于声谱图的声纹识别集成模型的防御方法及防御装置
本专利技术属于信息安全研究领域,具体涉及一种基于声谱图的声纹识别集成模型的防御方法及防御装置。
技术介绍
由于每个人的发声器官—舌,牙齿,肺等在尺寸和形态上存在很大差异,因此每个人说话的声音都不同,其声谱图都存在差异,实际上就是每个人的声音都带有独特的身份信息,声纹识别就是利用了声音的这一特性来识别说话人的身份。声纹识别是生物识别技术的一种,分为文本相关和文本无关的声纹识别。文本无关的声纹识别:指声纹识别系统对于语音文本内容是没有任何要求,说话人的说话内容比较自由随意。文本相关的声纹识别:指说话人识别系统,要求用户必须按照事先指定的内容进行发音。文本相关声纹识别模型要求用户按照规定的文本发音,一旦用户的发音有误就会造成身份无法识别的情况,应用面较窄。文本无关的声纹识别模型对用户的发声内容没有要求,识别方便,其应用面较为广泛,但实现难度较高。深度神经网络可以充分利用语音特征之间的关联性,将连续帧的语音特征合并后进行训练,使声纹识别系统的识别率大幅度提高。基于深度神经网络的声纹识别系统在提高识别准确率为人们带来便利的同时,也带来了相应的风险。深度神经网络容易受到对输入数据添加细微扰动形式的对抗攻击,攻击者在获得某一目标说话人的特征后,可以给某个说话人音频添加精心计算的扰动,使得生成的对抗样本被声纹识别模型错误的识别为目标说话人,这给声纹识别系统以及个人的财产安全带来了极大的安全隐患。已有的声纹识别攻击方法主要分为白盒和黑盒攻击。白盒攻击是攻击者在已知模型内部参数的情况下进行的,通过反向传播计算模型关于噪声的梯度,通过迭代不断优化所要添加的噪声,以达到生成对抗样本的目的。黑盒攻击是攻击者在未知模型参数的情况下进行的,可以利用遗传算法、粒子群算法等优化算法优化所需要添加的扰动,从而生成对抗样本。白盒攻击和黑盒攻击都可以对声纹识别系统进行攻击,使声纹识别系统错误的将对抗样本识别为目标说话人。
技术实现思路
针对目前声纹识别系统存在精度不高,鲁棒性差,容易受到对抗样本攻击的安全性问题,本专利技术提供了一种基于声谱图的声纹识别集成模型的防御方法及防御装置,该防御方法及防御装置可以提高声纹识别的精度及鲁棒性,并抵御对抗样本的攻击,提高了声纹势识别的安全性。本专利技术的技术方案为:一种基于声谱图的声纹识别集成模型的防御方法,包括以下步骤:(1)采集音频文件,并将音频文件转化为声谱图,该声谱图作为良性样本;(2)利用良性样本训练多个图像识别模型,使图像识别模型达到声纹识别的效果,从而获得训练好的多个基于图像的声纹识别模型;(3)采用投票机制将步骤(2)中训练好的多个基于图像的声纹识别模型进行集成,形成声纹识别集成模型,利用良性样本重新训练声纹识别集成模型;(4)采集布谷鸟搜索算法分别攻击多个声纹识别模型,生成对抗样本,并将对抗样本转化为声谱图,作为恶性样本;(5)利用恶性样本和良性样本对步骤(3)获得的基于图像的的声纹识别集成模型进行再训练,获得能够抵抗攻击的声纹识别集成模型;(6)利用步骤(5)获得的声纹识别集成模型对音频文件对应的声谱图进行防御识别。优选地,将音频文件转化为声谱图的具体步骤为:对音频进行分帧,并对每帧语音信号加窗处理后进行短时傅里叶变换;计算短时傅里叶变换结果的功率谱,并对功率谱进行归一化处理,获得声谱图,将声谱图与对应的说话者组成一个良性样本。优选地,所述图像识别模型采用VGG16或VGG19。优选地,所述利用良性样本训练多个声纹识别模型的具体过程为:对声谱图进行预处理,将声谱图大小设置为224×224×3,获得声谱图样本;声谱图样本xi经过声纹识别模型输出的置信度为yipre,用交叉熵作损失函数,利用损失函数L(xi)优化声纹识别模型的参数;L(xi)=-[yilogyipre+(1-yi)log(1-yipre)]利用测试集中的声谱图测试训练的声纹识别模型的准确率,在识别精度达不到要求时,重新训练声纹识别模型,直到识别精度达到要求为止。步骤(3)的具体过程为:利用投票机制将多个基于图像的声纹识别模型进行集成,获得声纹识别集成模型;投票前先将各声纹识别模型返回的预测置信度转化为预测类别,即最高置信度对应的类别标记作为该声纹识别模型的预测结果;各个声纹识别模型得到声谱图样本的预测结果后,若某预测类别获得一半以上声纹识别模型投票,则预测类别即为声纹识别集成模型的预测结果;再用良性样本对声纹识别集成模型进行训练,用测试集进行测试,以提高声纹识别集成模型。一种基于声谱图的声纹识别集成模型的防御装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机处理器执行所述计算机程序时实现上述基于声谱图的声纹识别集成模型的防御方法。本专利技术中,基于以上声纹识别系统可能存在的缺陷及已有攻击方法的局限性,研究一种将语音转化为声谱图,利用声谱图训练图像识别模型,使其达到声纹识别的目的。并将多个训练好的图像识别模型集成在一起,在提高模型精度的同时,使该特殊的声纹识别模型能够抵御对抗样本的攻击,并通过对抗训练进一步提高模型的防御能力,实现对白盒或黑盒攻击的防御。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1为实施例提供的基于声谱图的声纹识别集成模型的防御方法的流程图;图2是实施例提供的获得对抗样本的结构示意图;图3是实施例提供的对集成声纹识别模型再训练的示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。参加图1~图3,实施例提供的基于声谱图的声纹识别集成模型的防御方法,包括以下步骤:1)准备用于声纹识别模型训练的数据集,用Librispeech语音数据集中的train-clean-100数据集作为数据集。train-clean-100数据的各个文件存放的是不同说话人的音频,因此一个文件夹对应一个说话人,文件名实际上就是标签;2)将各个文件夹中的音频文件进行预处理,转化为声谱图,保存在相应的文件夹中,文件名就是声谱图对应的类标,也就是说话人的身份。将其按照一定比例划分为训练集和测试集。其具体过程如下:Step1:对于train-claen-100数据集中的各个音频文件x(n),对其进行分帧,每一帧长度为25ms,在该时间段内,语音信号视作稳定状态。对分帧之后的音频信号加窗函数避免高频部分信号泄露本文档来自技高网
...

【技术保护点】
1.一种基于声谱图的声纹识别集成模型的防御方法,其特征在于,包括以下步骤:/n(1)采集音频文件,并将音频文件转化为声谱图,该声谱图作为良性样本;/n(2)利用良性样本训练多个图像识别模型,使图像识别模型达到声纹识别的效果,从而获得多个基于图像的声纹识别模型;/n(3)采用投票机制将步骤(2)中训练好的多个基于图像的声纹识别模型进行集成,形成声纹识别集成模型,利用良性样本重新训练声纹识别集成模型;/n(4)采用布谷鸟搜索算法分别攻击多个声纹识别模型,生成对抗样本,并将对抗样本转化为声谱图,作为恶性样本;/n(5)利用恶性样本和良性样本对步骤(3)获得的基于图像的声纹识别集成模型进行再训练,获得能够抵抗攻击的声纹识别集成模型;/n(6)利用步骤(5)获得的声纹识别集成模型对音频文件对应的声谱图进行防御识别。/n

【技术特征摘要】
1.一种基于声谱图的声纹识别集成模型的防御方法,其特征在于,包括以下步骤:
(1)采集音频文件,并将音频文件转化为声谱图,该声谱图作为良性样本;
(2)利用良性样本训练多个图像识别模型,使图像识别模型达到声纹识别的效果,从而获得多个基于图像的声纹识别模型;
(3)采用投票机制将步骤(2)中训练好的多个基于图像的声纹识别模型进行集成,形成声纹识别集成模型,利用良性样本重新训练声纹识别集成模型;
(4)采用布谷鸟搜索算法分别攻击多个声纹识别模型,生成对抗样本,并将对抗样本转化为声谱图,作为恶性样本;
(5)利用恶性样本和良性样本对步骤(3)获得的基于图像的声纹识别集成模型进行再训练,获得能够抵抗攻击的声纹识别集成模型;
(6)利用步骤(5)获得的声纹识别集成模型对音频文件对应的声谱图进行防御识别。


2.如权利要求1所述的基于声谱图的声纹识别集成模型的防御方法,其特征在于,将音频文件转化为声谱图的具体步骤为:
对音频进行分帧,并对每帧语音信号加窗处理后进行短时傅里叶变换;
计算短时傅里叶变换结果的功率谱,并对功率谱进行归一化处理,获得声谱图,将声谱图与对应的说话者组成一个良性样本。


3.如权利要求1所述的基于声谱图的声纹识别集成模型的防御方法,其特征在于,所述图像识别模型采用VGG16或VGG19。


4.如权利要求3所述的基于声谱图的声纹识别集成模型的防御方法,其特征在于,所述利用良性样本训练多个基于图像的声纹识别模型的具体过程为:
对声谱图进行预处理,将声谱图大小设置为224×224×3,获得声谱图样本;
声谱图样本xi经过声纹识别模型输出的置信度为yipre,用交叉熵作损失函数,利用损失函数L(xi)优化声纹识别模型的参数;
L(xi)=-[yilogyipre+(1-yi)log(1-yipre)]
利用测试集中的声谱图测试训练的声纹识别模型的准确率,在识别精度达不到要求时,重新训练声纹识别模型,直到识别精度达到要求为止。


5.如权利要求1所述的基于声谱图的声纹识别集成模型的防御方法,其特征在于,步骤(3)的具体过程为:
利用投票机制将多个声纹识别模型进行集成,获得声纹识别集成模型;
投票...

【专利技术属性】
技术研发人员:陈晋音叶林辉王雪柯郑喆
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1