本发明专利技术公开了一种基于注意力增强滤波的无声攻击分类提升方法,该方法提出一种能够快速、有效增强无声攻击音频与有声音频之间差异的语音特征处理算法。该方法能够放大这种人耳不可感知语音攻击从而对其进行检测,且可立即在各种类型的现有设备上实现。本发明专利技术使用与设备无关的正常可听音频数据,实现统一模型训练,从而对攻击数据实现检测。本发明专利技术方法可用于后续针对性的对物联网智能语音系统进行防御。本发明专利技术方法降低分类器对于标签样本的需求量,使得无监督的分类算法成为可能,可以有效解决现有攻击检测方法提出的音频特征可能并不存在于每台设备上,故需要为每个要保护的设备定制功能、数据集和型号可能成本高昂的问题。题。题。
【技术实现步骤摘要】
一种基于注意力增强滤波的无声攻击分类提升方法
[0001]本专利技术属于人工智能语音助手安全
,具体涉及一种基于注意力增强滤波的无声攻击分类提升方法。
技术介绍
[0002]物联网时代诸多安全隐患逐渐显现,其中对于智能语音控制系统而言,破坏性、隐蔽性最强的攻击是一种无声攻击,又称海豚音攻击(Dolphin Attack,DA)。这是一种有效针对语音识别系统的攻击方式,其本质在于利用了麦克风硬件的非线性漏洞。语音助手的普及加剧了无声语音攻击的威胁,这种攻击可以在未经用户授权的情况下秘密控制智能设备。例如,攻击者可以向智能音箱发送人耳无法感知的语音命令,并让智能音箱在用户毫无觉察的情况下打开家门。如附图1所示为典型的无声语音攻击的工作原理。
[0003]首先,恶意的语音指令通过振幅调制被调制在一个超声载波上(例如25kHz)。接下来,在麦克风收到调制的超声波后,由于麦克风的非线性效应,高频输入信号将被解调,调制的恶意指令将被麦克风输出至后续的语音识别算法。其中麦克风的非线性传递函数表述如下:
[0004][0005]其中s
in
(t)和s
out
(t)分别表示麦克风的输入和输出。攻击者利用非线性漏洞,麦克风将不可避免地从振幅调制的超声波中恢复出可听的语音指令。最后,低通滤波器将去除高频超声载波,只在音频中留下基带命令,这可以被语音识别并由语音助手执行。由于调制的超声波在20kHz以上,无声语音攻击对人类用户而言是无法感知的。
[0006]值得注意的是,经过专利技术人的大规模实验,发现这种无声攻击针对各个设备时,攻击音频的清晰度、音质等均明显有别于正常音频,而各个设备录制得到的正常声音音质几乎相同。导致如上现象的原因,本质上是不同麦克风对于高频信号的异常响应,由附图2可知,各麦克风厂家主要对麦克风的频率响应在300
‑
3400Hz频段调至PSTN标准,而无声攻击在高频段的频响则是各不相同。此外,超声波作为一种高频机械波振动形式引起麦克风内部共振腔等的异常响应。
[0007]现有方式主要分为基于硬件和软件的防护两大类。其中基于硬件的防护缺点在于无法适配已经面世的存量设备,且改动的成本较大,因此基于软件的防护优势更大,其具体做法为特征工程结合有监督的机器学习分类模型。而由于攻击音频和正常音频的频谱特征接近,导致分类模型存在需要大量标签数据进行训练等问题,而无声攻击由于其复杂的生成过程,获得困难。而采用无监督的深度学习方法依赖于特征层面两类的明显差异,因此亟需一种能够在特征处理阶段有效放大正常音频和攻击音频差异的特征增强算法。
技术实现思路
[0008]针对上述现有技术中存在的缺陷,本专利技术提供一种基于注意力增强滤波的无声攻击分类提升方法,可放大正常音频和攻击音频的频谱特征差异,从而有效降低分类器对于
标签样本的需求量,使得无监督的分类算法成为可能。
[0009]本专利技术采用以下技术方案实现:
[0010]一种基于注意力增强滤波的无声攻击分类提升方法,该方法包括以下步骤:
[0011]步骤1:噪音感知:通过构造最近五个采样音频的噪声队列,对其进行平均以表示环境噪声,并使用定时器线程对其进行更新从而使队列能够实时反映噪声情况;当检测到语音指令时,停止噪声感知;
[0012]步骤2:噪声去除:采用改进谱减法对于语音指令段进行噪声去除;
[0013]步骤3:静音段去除;采用自适应阈值方法消除静音段:首先,使用min
‑
max归一化将音频信号的振幅标准化为[
‑
1,1];其次,最大能量帧被记录为0dB,将能量低于特定阈值的帧视为静音段,所述特定阈值的范围为
‑
45dB到
‑
15dB;
[0014]步骤4:语音长度归一化;将语音长度设计为1.5秒,对于持续时间小于1.5秒的语音命令,采用重复填充法进行填充;
[0015]步骤5:生成语谱图;采用短时傅立叶变换对语音命令进行特征选择,得到音频谱特征;并将汉宁窗口应用于音频谱的每个帧;
[0016]步骤6:长时平均归一化;沿对数STFT谱的时间轴进行平均,从而获得长时平均谱(LTAS):
[0017][0018]其中X(k,l)是信号X(n)的频谱,k是频率指数,l是帧指数,L是总帧数;
[0019]步骤7:注意力统计滤波;
[0020]步骤7.1:针对语音数据集根据说话人、语音内容进行各频率子带显著性统计;具体如下式所示:
[0021][0022]其中,Fratio是一维向量,由各频率子带的显著性权重组成,是说话人i的第j个语音片段,其中i∈[1,...,M],j∈[1,...,N];
[0023][0024]u
i
是说话人i的所有语音片段特征平均,u是所有M个说话人的语音片段特征平均;
[0025]步骤7.2:由步骤7.1中正常语音命令各子带的显著性得到各语音命令的权重系数向量,该向量维度与长时平均谱的形状有关;将所述权重系数向量应用于每个输入长时平均谱的不同子带的加权,使得一些频率子带更显著,而屏蔽其他子带;
[0026]步骤8:梅尔逆滤波器增强;
[0027]根据无声攻击机理分析可知,攻击信号在低于100Hz的低频段和高于5kHz的高频段具有更强的能量;无声攻击与正常音频存在特征区分的频段为人耳不敏感频段,对这些人耳不敏感频段进行增强。
[0028]上述技术方案中,进一步地,所述的步骤2具体为:设置一个语音的下限值β*P
n
(w),实际频谱P
s
(w)与估计的噪声频谱αP
n
(w)相减后得到频谱D(w),频谱D(w)的幅度倘若小于β*P
n
(w),则统一设置为这个固定值,从而减小原始谱减法容易产生的“音乐噪声”的影响;通过调整β值来调整这个宽带的噪声的强度;
[0029]D(w)=P
s
(w)
‑
αP
n
(w)
[0030][0031]其中,α为相减因子,β为频谱下限阈值参数。
[0032]进一步地,所述的步骤3中,将能量低于
‑
35dB的帧视为静音段。
[0033]进一步地,所述的步骤8具体为:对于输入的频谱图的高于5kHz的高频段进行线性插值扩展,100Hz
‑
5kHz中频段压缩,低于100Hz低频段进行线性插值扩展;再将插值扩展后的低频段频谱进行重复。
[0034]本专利技术的有益效果是:
[0035]本专利技术提出一种基于注意力增强滤波的隐蔽音频分类提升方法在语音特征层面实现对输入语音特征差异的明显放大,大大降低了音频数据对于标签的依赖。对于软件式的海豚音防护,常由前端特征处理以及分类算法两部分组成。其中音频前处理得到区分度高的特征向量,由此大大降低了对后端分类算法的限制,可适配于简易且本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于注意力增强滤波的无声攻击分类提升方法,其特征在于,该方法包括以下步骤:步骤1:噪音感知:通过构造最近五个采样音频的噪声队列,对其进行平均以表示环境噪声,并使用定时器线程对其进行更新从而使队列能够实时反映噪声情况;当检测到语音指令时,停止噪声感知;步骤2:噪声去除:采用改进谱减法对于语音指令段进行噪声去除;步骤3:静音段去除;采用自适应阈值方法消除静音段:首先,使用min
‑
max归一化将音频信号的振幅标准化为[
‑
1,1];其次,最大能量帧被记录为0dB,将能量低于特定阈值的帧视为静音段,所述特定阈值的范围为
‑
45dB到
‑
15dB;步骤4:语音长度归一化;将语音长度设计为1.5秒,对于持续时间小于1.5秒的语音命令,采用重复填充法进行填充;步骤5:生成语谱图;采用短时傅立叶变换对语音命令进行特征选择,得到音频谱特征;并将汉宁窗口应用于音频谱的每个帧;步骤6:长时平均归一化;沿对数STFT谱的时间轴进行平均,从而获得长时平均谱(LTAS):其中X(k,l)是信号X(n)的频谱,k是频率指数,l是帧指数,L是总帧数;步骤7:注意力统计滤波;步骤7.1:针对语音数据集根据说话人、语音内容进行各频率子带显著性统计;具体如下式所示:其中,Fratio是一维向量,由各频率子带的显著性权重组成,是说话人i的第j个语音片段,其中i∈[1,...,M],j∈[1,...,N];u
i
是说话人i的所有语音片段特征平均,u是所有M个说话人的语音片段特征平均;步骤7.2:由步骤7.1中正常语音命令各子带的显著性得到各语...
【专利技术属性】
技术研发人员:徐文渊,李鑫锋,冀晓宇,闫琛,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。