一种利用时频融合补偿异常感知及稳定性的异音检测方法技术

技术编号:32579331 阅读:26 留言:0更新日期:2022-03-09 17:09
本发明专利技术公开的属于异音检测方法技术领域,具体为一种利用时频融合补偿异常感知及稳定性的异音检测方法,借助从声学目标原始音频信号x∈R

【技术实现步骤摘要】
一种利用时频融合补偿异常感知及稳定性的异音检测方法


[0001]本专利技术涉及异音检测方法
,具体为一种利用时频融合补偿异常感知及稳定性的异音检测方法。

技术介绍

[0002]异常声音检测(Anomalous Sound Detection,ASD),目的是自动识别目标(如机器或设备)是否存在异常的声音,出现异常的行为或状态。
[0003]随着深度学习在音频处理方向的应用,现有研究提供了无监督和自监督这两种实现声音异常检测的方法。现有无监督方法是通过最小化重构误差来学习正常声音的特征,并将重构误差作为分数来检测异常。这样的工业声音异常检测方法能够提供一定程度的异常声音检测性能,但其误检率较高,受先验设置的阈值影响大。现有的自监督方法通过将音频数据所附带的元数据(如机器类型)引入建模过程,借助于对音频元数据属性的判断状态(正常/异常)来判定音频数据的状态(正常/异常),并能取得相对无监督方法而言更为可观的平均检测性能。
[0004]在现有的无监督/自监督声音异常检测中,方法所处理的音频特征均为对数梅尔谱(Log

Mel Spectrogram)。Log

Mel谱特征是一种模仿人类主观听觉感知所设计的频率滤波特征,其会过滤掉人类不易察觉的声学频带,从而压缩数据维度,突出人类听觉所敏感的声学频带区间。这种逼近人耳的滤波特征并不完全适用于客观场景的各类声学目标——甚至会将异常音频所包含的代表性特征过滤掉,从而导致无监督/自监督声音异常检测方法无法有效进行声音异常检测工作,限制了现有异音检测系统的精度上限。
[0005]同时,现有的无监督/自监督异音检测方法尽管能够取得相对可观的平均检测精度表现,但其在具体的某一个声学目标的检测表现并不稳定,一组目标的检测结果可能整体平均性能较为可观,但其性能平均的最优表现和最差表现相差甚大,容易导致对于个别目标的误检行为,不利于实际生产维护当中进行部署与产品化。另外,现有方法在面对不同类型的声学目标异常检测任务时,需要针对每个声学目标单独训练模型,增加了部署成本与异音检测系统的复杂程度。

技术实现思路

[0006]本专利技术的目的在于提供一种一种利用时频融合补偿异常感知及稳定性的异音检测方法,以解决上述
技术介绍
中提出的Log

Mel谱特征导致的异音检测性能受限、稳定性不足与现有方法处理不同类型声学目标时的多模型复杂度过高的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种利用时频融合补偿异常感知及稳定性的异音检测方法,借助从声学目标原始音频信号x∈R
1*L
获取的时域信息和频域信息形成感知互补;
[0008]时频域融合特征输入深度神经网络,经过网络学习从而获得对于待检测声学目标的状态感知。
[0009]优选的,其声学目标的原始单信道音频经过短时傅里叶变换转变为频谱图功率谱特征,并经过对数化Mel滤波器组滤波为Log

Mel谱频域特征F
s

[0010]F
S
=log(W
M
·
||STFT(x)||2);
[0011]其中,F
s
∈R
M*N
,M表示Mel滤波的维数,N表示频域特征的时间帧数,W
M
为Mel滤波器组的滤波器矩阵,||STFT(x)||2是由声学目标的原始信号x提取得到的频谱图功率谱特征。
[0012]优选的,其短时傅里叶变换采用重叠时间窗的方式进行采样,时间窗长度为1024个采样点,即16kHz采样频率下的64ms时长,重叠步长为512个采样点,即16kHz采样频率下的32ms时长,Mel滤波器组维数为128维。
[0013]优选的,其声学目标的原始单信道音频经过时域可学习特征网络来计算求得包含时域信息的可学习音频特征F
T

[0014]F
T
=TgramNet(x);
[0015]其中,对于同一个x,时域可学习音频特征F
T
与频域音频特征F
s
的形状一致,则有F
T
∈R
M*N;
[0016]所述时域可学习特征网络包含一个谱图转换器和三层声学建模块。
[0017]优选的,所述谱图转换器借助于一个超大卷积核的1D卷积层实现,卷积核尺度为1024个采样点,步长512个采样点,所述谱图转换器的输出通道数为128维,所述声学建模块包含一层Layer Normalization正则化处理、Leaky ReLU激活函数和3
×
3卷积核且步长为1的卷积层,此外,声学建模块的结构并不局限于上述结构,可替换为注意力机制的深度网络层。
[0018]优选的,所述融合频域音频特征F
s
与时域可学习音频特征F
T
,获得双通道的时频域融合可学习音频特征F
ST
∈R
2*M*N
,补偿Log

Mel谱在感知异常信息能力上的不足,F
ST
可经过注意力筛选,加强对于声学目标异常特征信息的关注,所述双通道的时频域融合可学习音频特征F
ST
,在无监督异音检测和自监督异音检测方法中可有效提高检测过程的稳定性,借助其可学习特性获得对于单个声学目标音频的异常检测适应性。
[0019]优选的,所述自监督异音检测方法用于统合不同声学类型目标,将双通道的时频域融合可学习音频特征F
ST
用于训练无监督异音检测方法和自监督异音检测方法,同时将训练数据集所包含的所有类型的所有声学目标同时用于模型训练。
[0020]优选的,所述无监督异音检测方法通过时频域融合可学习特征F
ST
输入无监督特征重构建模模块,所述无监督特征重构建模模块通过对F
ST
进行重构学习正常数据分布。
[0021]优选的,所述无监督特征重构建模模块基于注意力机制的结构实现,所述无监督特征重构建模模块输出重构特征F
ST
,将F
ST
与重构后的融合特征进行L

范数距离计算,获得误差序列,所述误差序列经过无监督异常分数计算模块得到异常分数序列,并通过阈值判定机制输出检测结果——待检测声学目标的状态预测,所述重构建模过程的损失计算如下所示:
[0022][0023]其中,||
·
||
l
表示L

范数计算,e=[e1,e2,

e
n
]表示对应于F
ST
的时间帧数量维度N的重构误差序列,也可以一次选择多个帧进行,此时e的序列长度将小于N,所述误差序列e经过异常分数计算转变为异常分数,满足阈值判定机制的输入要求;
[0024]对于某一个特定的声学目标k所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:借助从声学目标原始音频信号x∈R
1*L
获取的时域信息和频域信息形成感知互补;时频域融合特征输入深度神经网络,经过网络学习从而获得对于待检测声学目标的状态感知。2.根据权利要求1所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:其声学目标的原始单信道音频经过短时傅里叶变换转变为频谱图功率谱特征,并经过对数化Mel滤波器组滤波为Log

Mel谱频域特征F
s
:F
S
=log(W
M
·
||STFT(x)||2);其中,F
s
∈R
M*N
,M表示Mel滤波的维数,N表示频域特征的时间帧数,W
M
为Mel滤波器组的滤波器矩阵,||STFT(x)||2是由声学目标的原始信号x提取得到的频谱图功率谱特征。3.根据权利要求2所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:其短时傅里叶变换采用重叠时间窗的方式进行采样,时间窗长度为1024个采样点,即16kHz采样频率下的64ms时长,重叠步长为512个采样点,即16kHz采样频率下的32ms时长,Mel滤波器组维数为128维。4.根据权利要求2所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:其声学目标的原始单信道音频经过时域可学习特征网络来计算求得包含时域信息的可学习音频特征F
T
:F
T
=TgramNet(x);其中,对于同一个x,时域可学习音频特征F
T
与频域音频特征F
s
的形状一致,则有F
T
∈R
M*N
;所述时域可学习特征网络包含一个谱图转换器和三层声学建模块。5.根据权利要求4所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:所述谱图转换器借助于一个超大卷积核的1D卷积层实现,卷积核尺度为1024个采样点,步长512个采样点,所述谱图转换器的输出通道数为128维,所述声学建模块包含一层Layer Normalization正则化处理、Leaky ReLU激活函数和3
×
3卷积核且步长为1的卷积层,此外,声学建模块的结构并不局限于上述结构,可替换为注意力机制的深度网络层。6.根据权利要求4所述的利用时频融合补偿异常感知及稳定性的异音检测方法,其特征在于:所述融合频域音频特征F
s
与时域可学习音频特征F
T
,获得双通道的时频域融合可学习音频特征F
ST
∈R
2*M*N
,补偿Log

Mel谱在感知异常信息能力上的不足,F
ST
可经过注意力筛选,加强对于声学目标异常特征信息的关注,所述双通道的时频域融合可学习音频特征F
ST
,在无监督异音检测和自监督异音检测方法中可有效提高检测过程的稳定性,借助其可学习特性获得对于单个声学目标音频的异常检测适应性。7.根据权利要求6所述的...

【专利技术属性】
技术研发人员:关键柳友德肖飞扬
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1