【技术实现步骤摘要】
一种利用时频融合补偿异常感知及稳定性的异音检测方法
[0001]本专利技术涉及异音检测方法
,具体为一种利用时频融合补偿异常感知及稳定性的异音检测方法。
技术介绍
[0002]异常声音检测(Anomalous Sound Detection,ASD),目的是自动识别目标(如机器或设备)是否存在异常的声音,出现异常的行为或状态。
[0003]随着深度学习在音频处理方向的应用,现有研究提供了无监督和自监督这两种实现声音异常检测的方法。现有无监督方法是通过最小化重构误差来学习正常声音的特征,并将重构误差作为分数来检测异常。这样的工业声音异常检测方法能够提供一定程度的异常声音检测性能,但其误检率较高,受先验设置的阈值影响大。现有的自监督方法通过将音频数据所附带的元数据(如机器类型)引入建模过程,借助于对音频元数据属性的判断状态(正常/异常)来判定音频数据的状态(正常/异常),并能取得相对无监督方法而言更为可观的平均检测性能。
[0004]在现有的无监督/自监督声音异常检测中,方法所处理的音频特征均为对数梅尔谱(Log
‑
Mel Spectrogram)。Log
‑
Mel谱特征是一种模仿人类主观听觉感知所设计的频率滤波特征,其会过滤掉人类不易察觉的声学频带,从而压缩数据维度,突出人类听觉所敏感的声学频带区间。这种逼近人耳的滤波特征并不完全适用于客观场景的各类声学目标——甚至会将异常音频所包含的代表性特征过滤掉,从而导致无监督/自监督声音异常检测方法无法有效进行声音异常检 ...
【技术保护点】
【技术特征摘要】
1.一种利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:借助从声学目标原始音频信号x∈R
1*L
获取的时域信息和频域信息形成感知互补;时频域融合特征输入深度神经网络,经过网络学习从而获得对于待检测声学目标的状态感知。2.根据权利要求1所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:其声学目标的原始单信道音频经过短时傅里叶变换转变为频谱图功率谱特征,并经过对数化Mel滤波器组滤波为Log
‑
Mel谱频域特征F
s
:F
S
=log(W
M
·
||STFT(x)||2);其中,F
s
∈R
M*N
,M表示Mel滤波的维数,N表示频域特征的时间帧数,W
M
为Mel滤波器组的滤波器矩阵,||STFT(x)||2是由声学目标的原始信号x提取得到的频谱图功率谱特征。3.根据权利要求2所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:其短时傅里叶变换采用重叠时间窗的方式进行采样,时间窗长度为1024个采样点,即16kHz采样频率下的64ms时长,重叠步长为512个采样点,即16kHz采样频率下的32ms时长,Mel滤波器组维数为128维。4.根据权利要求2所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:其声学目标的原始单信道音频经过时域可学习特征网络来计算求得包含时域信息的可学习音频特征F
T
:F
T
=TgramNet(x);其中,对于同一个x,时域可学习音频特征F
T
与频域音频特征F
s
的形状一致,则有F
T
∈R
M*N
;所述时域可学习特征网络包含一个谱图转换器和三层声学建模块。5.根据权利要求4所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:所述谱图转换器借助于一个超大卷积核的1D卷积层实现,卷积核尺度为1024个采样点,步长512个采样点,所述谱图转换器的输出通道数为128维,所述声学建模块包含一层Layer Normalization正则化处理、Leaky ReLU激活函数和3
×
3卷积核且步长为1的卷积层,此外,声学建模块的结构并不局限于上述结构,可替换为注意力机制的深度网络层。6.根据权利要求4所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:所述融合频域音频特征F
s
与时域可学习音频特征F
T
,获得双通道的时频域融合可学习音频特征F
ST
∈R
2*M*N
,补偿Log
‑
Mel谱在感知异常信息能力上的不足,F
ST
可经过注意力筛选,加强对于声学目标异常特征信息的关注,所述双通道的时频域融合可学习音频特征F
ST
,在无监督异音检测和自监督异音检测方法中可有效提高检测过程的稳定性,借助其可学习特性获得对于单个声学目标音频的异常检测适应性。7.根据权利要求6所述的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。