一种基于注意力增强滤波的无声攻击分类提升方法技术

技术编号：33913530 阅读：49 留言：0更新日期：2022-06-25 19:51

本发明专利技术公开了一种基于注意力增强滤波的无声攻击分类提升方法，该方法提出一种能够快速、有效增强无声攻击音频与有声音频之间差异的语音特征处理算法。该方法能够放大这种人耳不可感知语音攻击从而对其进行检测，且可立即在各种类型的现有设备上实现。本发明专利技术使用与设备无关的正常可听音频数据，实现统一模型训练，从而对攻击数据实现检测。本发明专利技术方法可用于后续针对性的对物联网智能语音系统进行防御。本发明专利技术方法降低分类器对于标签样本的需求量，使得无监督的分类算法成为可能，可以有效解决现有攻击检测方法提出的音频特征可能并不存在于每台设备上，故需要为每个要保护的设备定制功能、数据集和型号可能成本高昂的问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力增强滤波的无声攻击分类提升方法

[0001]本专利技术属于人工智能语音助手安全
，具体涉及一种基于注意力增强滤波的无声攻击分类提升方法。

技术介绍

[0002]物联网时代诸多安全隐患逐渐显现，其中对于智能语音控制系统而言，破坏性、隐蔽性最强的攻击是一种无声攻击，又称海豚音攻击(Dolphin Attack，DA)。这是一种有效针对语音识别系统的攻击方式，其本质在于利用了麦克风硬件的非线性漏洞。语音助手的普及加剧了无声语音攻击的威胁，这种攻击可以在未经用户授权的情况下秘密控制智能设备。例如，攻击者可以向智能音箱发送人耳无法感知的语音命令，并让智能音箱在用户毫无觉察的情况下打开家门。如附图1所示为典型的无声语音攻击的工作原理。
[0003]首先，恶意的语音指令通过振幅调制被调制在一个超声载波上(例如25kHz)。接下来，在麦克风收到调制的超声波后，由于麦克风的非线性效应，高频输入信号将被解调，调制的恶意指令将被麦克风输出至后续的语音识别算法。其中麦克风的非线性传递函数表述如下：
[0004][0005]其中s
in
(t)和s
out
(t)分别表示麦克风的输入和输出。攻击者利用非线性漏洞，麦克风将不可避免地从振幅调制的超声波中恢复出可听的语音指令。最后，低通滤波器将去除高频超声载波，只在音频中留下基带命令，这可以被语音识别并由语音助手执行。由于调制的超声波在20kHz以上，无声语音攻击对人类用户而言是无法感知的。
[0006]值得注意的是，经过...

【技术保护点】

【技术特征摘要】
1.一种基于注意力增强滤波的无声攻击分类提升方法，其特征在于，该方法包括以下步骤：步骤1：噪音感知：通过构造最近五个采样音频的噪声队列，对其进行平均以表示环境噪声，并使用定时器线程对其进行更新从而使队列能够实时反映噪声情况；当检测到语音指令时，停止噪声感知；步骤2：噪声去除：采用改进谱减法对于语音指令段进行噪声去除；步骤3：静音段去除；采用自适应阈值方法消除静音段：首先，使用min
‑
max归一化将音频信号的振幅标准化为[
‑
1，1]；其次，最大能量帧被记录为0dB，将能量低于特定阈值的帧视为静音段，所述特定阈值的范围为
‑
45dB到
‑
15dB；步骤4：语音长度归一化；将语音长度设计为1.5秒，对于持续时间小于1.5秒的语音命令，采用重复填充法进行填充；步骤5：生成语谱图；采用短时傅立叶变换对语音命令进行特征选择，得到音频谱特征；并将汉宁窗口应用于音频谱的每个帧；步骤6：长时平均归一化；沿对数STFT谱的时间轴进行平均，从而获得长时平均谱(LTAS)：其中X(k，l)是信号X(n)的频谱，k是频率指数，l是帧指数，L是总帧数；步骤7：注意力统计滤波；步骤7.1：针对语音数据集根据说话人、语音内容进行各频率子带显著性统计；具体如下式所示：其中，Fratio是一维向量，由各频率子带的显著性权重组成，是说话人i的第j个语音片段，其中i∈[1，...，M]，j∈[1，...，N]；u
i
是说话人i的所有语音片段特征平均，u是所有M个说话人的语音片段特征平均；步骤7.2：由步骤7.1中正常语音命令各子带的显著性得到各语...

【专利技术属性】
技术研发人员：徐文渊，李鑫锋，冀晓宇，闫琛，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人