基于时频特征选择性学习的无监督工业异常声音检测方法及系统技术方案

技术编号：44007210 阅读：1 留言：0更新日期：2025-01-10 20:25

本发明专利技术公开一种基于时频特征选择性学习的无监督工业异常声音检测方法及系统，方法如下：步骤1、对训练集声音信号提取log‑Mel谱图特征，执行谱图帧选择策略，得到每个声音样本的谱图帧；步骤2、将步骤1中的谱图帧输入频域特征选择自编码器模型进行训练，损失函数为L<subgt;AEFS</subgt;；步骤3、对采集到的未知声音样本，提取log‑Mel谱图特征，按谱图帧选择策略从log‑Mel谱图中选择若干帧；步骤4、将步骤3中得到的谱图帧输入步骤2中已经训练完成的频域特征选择自编码器模型，以重构损失L<subgt;Rec</subgt;作为异常得分S；步骤5、将步骤4所得异常分数S与阈值A<subgt;θ</subgt;对比，大于阈值A<subgt;θ</subgt;表示输入的声音信号异常，反之表示正常。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于异常声音检测，具体涉及一种基于时频特征选择性学习的无监督工业异常声音检测方法及系统。

技术介绍

1、在工业生产制造中，通过机器设备运行发出的声音来监测其运行状况，及时发现异常情况，对确保设备安全和稳定运行至关重要。随着人工智能和工业大数据技术的快速进步，越来越多的研究人员使用深度学习技术进行工业异常声音检测。考虑到设备通常处于正常运行状态，异常数据相对较少，因此大多数工业异常声音检测倾向于采用自监督或无监督学习方法。自监督学习依赖于声音的元数据来训练模型，但元数据不是在任何情况下都存在的，这就限制了其应用场景。相比之下，无监督深度学习方法不受此类限制。具体而言，无监督深度学习方法通常从机器运行声音中提取特定特征，利用生成模型来学习正常声音的特征模式，并通过比较样本是否符合这些模式来检测异常。这一过程中，模型对声音特征的捕获很大程度上影响着检测效果。

2、受噪声和其他干扰影响，设备声音信号不同时间段和频率的特征对异常检测结果的影响均不相同。异常检测的关键在于捕获有区分性的特征。与学习整个时间和频域维度的特征相比，侧重学习有显著区分性的特征对提升检测性能更有帮助。基于此，本专利技术公开了一种基于时频特征选择性学习的无监督工业异常声音检测方法及系统。

技术实现思路

1、针对现有技术的上述现状，本专利技术提出了一种了基于时频特征选择性学习的无监督工业异常声音检测方法及系统。本专利技术首先提取声音的log-mel谱图特征；通过谱图帧选择(spectrogram fr

2、下面先对于本专利技术中的专业术语进行说明：

3、谱图帧：log-mel频谱图是将声音信号从时间域转换到频域，同时考虑了人类听觉系统的感知特性。通常，log-mel频谱图是通过计算原始声音信号的若干连续时间帧得到的，它提供了关于声音信号频率和时间特性的信息。在log-mel频谱图中，沿时间轴的维度上的每一帧被称为谱图帧。每个谱图帧表示当前时域中不同频率成分的强度或能量分布，由原始音频信号的相应时间帧计算得出。对于一定时长的音频，其log-mel频谱图包含若干谱图帧，分别表示各个时间帧内不同频率成分的强度或能量分布。

4、平稳与非平稳声音信号：并不是所有机械设备在运行的时间段内都是持续发出声音的。通常，其声音信号可大致分为平稳和非平稳两种情况，即：当目标声音事件在机械设备工作的时间段内持续存在的情况下，所有的时间段都包含目标声音的信息，称为平稳声音信号；当目标声音事件在机械设备工作的时间段内很少发生的情况下，信号是稀疏的。此时，只有小部分时间段存在目标声音，多数时间段是非目标声音(环境噪声或其他干扰)，被称为非平稳声音信号。对于平稳声音信号，其主要信息分布在绝大部分时间段中。因此，log-mel谱图中的多数谱图帧能够呈现出目标声音信号的频域特征。对于非平稳声音信号，其主要信息可能分散在极少数时间段中，因此log-mel频谱图中只有极少数谱图帧包含有目标信号的频域特征，大多数谱图帧是噪声或干扰。平稳和非平稳声音信号的频谱图示例见图2。

5、本专利技术解决其技术问题所采用的技术方案，在声音log-mel谱图上执行sfs策略得到的若干谱图帧为输入并结合aefs神经网络模型的方法，其具体如下：

6、基于时频特征选择性学习的无监督工业异常声音检测方法，包括如下步骤：

7、步骤1、对训练集声音信号提取log-mel谱图特征，执行谱图帧选择策略，得到每个声音样本的谱图帧；

8、步骤2、将步骤1中的谱图帧输入频域特征选择自编码器模型进行训练，损失函数为laefs；

9、步骤3、对采集到的声音样本，提取log-mel谱图特征，按谱图帧选择策略从log-mel谱图中选择若干帧；

10、步骤4、将步骤3中选择的若干帧输入步骤2中已经训练完成的频域特征选择自编码器模型，将重构损失lrec作为异常得分s；

11、步骤5、将步骤4所得异常分数s与阈值aθ对比，大于阈值aθ表示输入的声音信号异常，反之表示正常，表示为：

12、

13、优选的，sfs策略，具体如下：

14、将从声音信号提取获得的log-mel频谱图矩阵表示为：

15、x∈rk×d＝[x1,x2,...xk]t

16、其中，xi∈r1×d为第i个谱图帧，k是谱图帧的总数，d是谱图帧的维度，即梅尔滤波器的数量；

17、用ri表示第i个谱图帧与整个谱图的相关性大小，定义为谱图帧xi与所有其它谱图帧之间的协方差之和：

18、

19、其中，cov(xi,xj)是向量xi和xj之间的协方差，进而可以获得相关性大小的集合：

20、r＝[r1,r2,...rk]

21、根据工业机器运行声音的不同特点，设计不同的谱图帧选择策略，具体为，若输入的声音信号为平稳信号，则从log-mel频谱图矩阵x中选择与其它谱图帧最相关的n帧特征(即相关性最大的谱图帧)，该过程可以描述为：

22、imax＝indexmaxn(r,n)

23、xn＝select(x,imax)

24、其中，indexmaxn(r,n)表示从集合r中取出前n个最大值的索引，n指的是需要选择谱图帧的数量，select(x,imax)表示根据索引imax从矩阵x中选择相应的向量xi，而xn是仅包含选定的n个谱图帧的log-mel频谱图矩阵。

25、若输入的声音信号为非平稳信号，则从log-mel频谱图矩阵x中选择与其它谱图帧最不相关的n帧特征(即相关性最小的谱图帧)，该过程可以描述为：

26、imin＝indexminn(r,n)

27、xn＝select(x,imin)

28、其中，indexminn(r,n)表示从集合r中取出前n个最小值的索引。

29、经过频谱帧选择后，可以得到由选择后谱图帧构成的log-mel频谱图矩阵：

30、

31、其中，是xn中的第i个特征向量。

32、优选的，aefs模型，具体如下：

33、aefs模型是在自编码器(autoencoder，ae)后面引入缩放门(scaling gate，sg)构建的，其通过sg的缩放功能来选择频域特征。令s∈r1×d表示sg的权重参数，sg对所有频率维度特征的加权计算可以表示为：

34、

35、其中，x和x′分别表示缩放门的输入和输出，表示向量或矩阵之间的逐元素乘法，e是自然底数，此处用于确保x权重的非负性。

36、频域特征的选本文档来自技高网...

【技术保护点】

1.基于时频特征选择性学习的无监督工业异常声音检测方法，其特征在于具体包括如下步骤：

2.如权利要求1所述基于时频特征选择性学习的无监督工业异常声音检测方法，其特征在于，所述的谱图帧选择策略，具体为：

3.如权利要求2所述的基于时频特征选择性学习的无监督工业异常声音检测方法，其特征在于，所述的频域特征选择自编码器模型，具体为：

4.基于时频特征选择性学习的无监督工业异常声音检测系统，其特征在于具体包括如下模块：

5.如权利要求4所述基于时频特征选择性学习的无监督工业异常声音检测系统，其特征在于，所述的谱图帧选择策略，具体为：

6.如权利要求5所述的基于时频特征选择性学习的无监督工业异常声音检测系统，其特征在于，所述的频域特征选择自编码器模型，具体为：

【技术特征摘要】

1.基于时频特征选择性学习的无监督工业异常声音检测方法，其特征在于具体包括如下步骤：

2.如权利要求1所述基于时频特征选择性学习的无监督工业异常声音检测方法，其特征在于，所述的谱图帧选择策略，具体为：

3.如权利要求2所述的基于时频特征选择性学习的无监督工业异常声音检测方法，其特征在于，所述的频域特征选择自编码器模型，具体为：

...

【专利技术属性】
技术研发人员：王亚威，张巧灵，张义，胡君瑶，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人