一种深度神经网络辅助的机械声源实时分离方法与系统技术方案

技术编号：44525830 阅读：0 留言：0更新日期：2025-03-07 13:17

本发明专利技术公开了一种深度神经网络辅助的机械声源实时分离方法与系统，针对矿山采掘工作面智能感知的应用场景，对传感器采集的复杂混叠声源信号进行分离，区分同时运转的不同设备。本发明专利技术首先基于MLVDR‑TCN网络进行特征提取；其次采用复数理想比值掩码cIRM作为训练标签，并压缩cIRM以优化神经网络训练；接着利用MLVDR‑TCN网络分别对实部分量和虚部分量进行预测，使用均方误差优化网络参数；最后采集机械设备的混叠声源信号，通过训练好的网络得到预测结果并恢复未压缩的掩码后，与混叠声源信号的复数谱相乘，重构各机械设备的原声源信号。本发明专利技术能够在实际应用中实现机械混叠声源信号实时准确有效地分离。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种声源分离技术，尤其涉及一种矿山采掘工作面下深度神经网络辅助的机械声源实时分离方法与系统。

技术介绍

1、第五代移动通信(fifth generation mobile communication,5g)智慧矿山采掘工作面中的复杂混叠声源分离技术是当前矿山行业领域的研究热点之一，为提高采矿作业的效率和安全性提供了重要的技术支持。此外，5g智慧矿山采掘工作面利用5g网络的高速传输和低时延特性，实现了实时数据的传输和远程控制。通过在采矿工作面布置声音传感器和监控设备，能够实时监测设备的运行状态，并将这些数据通过5g网络传输至远程监控中心。采矿技术人员可以通过高清视频和虚拟现实技术对工作面进行实时监测和操作。

2、在采矿作业中，存在着来自多个声源的复杂混叠声音，如机械运行声、爆破声、工人交流声等。这些声音相互叠加在一起，给声音的分离和识别带来了挑战。目前，针对矿山背景下，基于深度学习的复杂混叠声源分离技术仅有少数研究。传统的复杂混叠声源分离方法大多是基于信号处理的相关技术，包括谱减法、维纳滤波法和最小均方误差估计等等，这些方法在对信号建模时，需要满足相应的约束条件，如噪声为加性噪声，噪声是比较平稳的等等。这就导致在无法满足这些假设的实际环境下，分离效果将会大大降低。

3、在实际的矿山背景下，声音传感器部署在多个采煤设备的附近，采集的混叠声源数据如果直接传输到工作面，工作人员无法分辨各设备的声音，从而无法判断各设备的工况是否正常。

技术实现思路

1、

2、技术方案：为实现上述专利技术目的，本专利技术采用如下技术方案：

3、第一方面，本专利技术提供一种深度神经网络辅助的机械声源实时分离方法，包括如下步骤：

4、(1)利用多层可变扩张系数时域卷积网络(multi-layer variable dilationrate temporal convolutional network,mlvdr-tcn)对混叠声源信号的复数谱进行特征提取；所述mlvdr-tcn对时域卷积网络tcn进行改进，首先将采用不同扩张系数的多个空洞卷积块堆叠，再堆叠多次所述多个空洞卷积块，再将tcn隐藏层的神经元置换成堆叠好的空洞卷积块；

5、(2)采用复数理想比值掩码(complex ideal ratio mask,cirm)作为训练标签，并使用双曲正切函数压缩cirm以优化mlvdr-tcn网络训练；

6、(3)利用两个结构相同的mlvdr-tcn网络分别对cirm的实部分量和虚部分量进行预测，使用均方误差优化网络参数；

7、(4)采集机械设备的混叠声源信号，进行短时傅里叶变换得到复数谱，输入到训练好的mlvdr-tcn网络，得到预测压缩的掩码并通过双曲正切逆函数恢复未压缩的掩码后，与混叠声源信号的复数谱相乘，重构各机械设备的原声源信号。

8、进一步地，所述mlvdr-tcn中，空洞卷积块的扩张系数随着层数呈指数型增长，将扩张因子分别为1,2,…,2x-1的空洞卷积块依次排列，其中x为空洞卷积块数量；输入数据依次在每个空洞卷积块中进行运算，并在每个空洞卷积块中运用残差路径和跳过连接路径；一个空洞卷积块的残差路径输出作为下一个空洞卷积块的输入，所有空洞卷积块的跳过连接路径总和经过一次relu函数、一维卷积计算和一次sigmoid函数作为mlvdr-tcn的输出。

9、进一步地，所述cirm的表达式为：

10、

11、其中，mr、mi分别是cirm的实部分量和虚部分量，yr、yi分别是带噪混合声源复数谱的实部分量和虚部分量，sr、si分别是纯净声源复数谱的实部分量和虚部分量，i标记虚部。

12、进一步地，使用双曲正切函数压缩cirm表示为：

13、

14、

15、其中，cirmr和cirmi是压缩后掩码的实部分量和虚部分量，k用于控制掩码值范围，c用于控制陡度。

16、进一步地，所述mlvdr-tcn中，卷积运算采用深度可分离卷积运算。

17、进一步地，训练两个mlvdr-tcn网络的损失函数分别表示：

18、

19、

20、其中，n表示声源数量，mn,r、mn,i分别表示第n个声源经理论计算出的cirm的实部分量和虚部分量，分别表示第n个声源cirm的实部分量和虚部分量的神经网络估计值，lr、li分别表示实部和虚部的损失。

21、进一步地，声源重构过程中，使用以下公式恢复未压缩掩码：

22、

23、

24、其中，ur、ui分别表示mlvdr-tcn输出的压缩的实部分量和虚部分量，分别表示未压缩的cirm的实部分量和虚部分量。

25、第二方面，本专利技术提供一种深度神经网络辅助的机械声源实时分离系统，包括：

26、特征提取模块，用于利用多层可变扩张系数时域卷积网络mlvdr-tcn对混叠声源信号的复数谱进行特征提取；所述mlvdr-tcn对时域卷积网络tcn进行改进，首先将采用不同扩张系数的多个空洞卷积块堆叠，再堆叠多次所述多个空洞卷积块，再将tcn隐藏层的神经元置换成堆叠好的空洞卷积块；

27、网络训练模块，用于采用复数理想比值掩码cirm作为训练标签，并使用双曲正切函数压缩cirm以优化mlvdr-tcn网络训练；利用两个结构相同的mlvdr-tcn网络分别对cirm的实部分量和虚部分量进行预测，使用均方误差优化网络参数；

28、以及声源重构模块，用于采集机械设备的混叠声源信号，进行短时傅里叶变换得到复数谱，输入到训练好的mlvdr-tcn网络，得到预测压缩的掩码并通过双曲正切逆函数恢复未压缩的掩码后，与混叠声源信号的复数谱相乘，重构各机械设备的原声源信号。

29、第三方面，本专利技术提供一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面所述的一种深度神经网络辅助的机械声源实时分离方法的步骤。

30、第四方面，本专利技术提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现第一方面所述的一种深度神经网络辅助的机械声源实时分离方法的步骤。

31、有益效果：本专利技术针对智慧矿山采掘工作面的应用场景，提出一种深度神经网络辅助的机械声源实时分离方法。该方法在传统的时域卷积网络基础上提出一种改进型时域卷积网络mlvdr-tcn，以增强模型对信号时序信息的捕捉能力。首先，利用mlvdr-tcn进行特征提取，通过不同扩张系数的空洞卷积块堆叠，扩大网络的感受野。其次，采用复数理想比值掩码作为神经本文档来自技高网...

【技术保护点】

1.一种深度神经网络辅助的机械声源实时分离方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，所述MLVDR-TCN中，空洞卷积块的扩张系数随着层数呈指数型增长，将扩张因子分别为1,2,…,2X-1的空洞卷积块依次排列，其中X为空洞卷积块数量；输入数据依次在每个空洞卷积块中进行运算，并在每个空洞卷积块中运用残差路径和跳过连接路径；一个空洞卷积块的残差路径输出作为下一个空洞卷积块的输入，所有空洞卷积块的跳过连接路径总和经过一次ReLU函数、一维卷积计算和一次Sigmoid函数作为MLVDR-TCN的输出。

3.根据权利要求1所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，所述cIRM的表达式为：

4.根据权利要求3所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，使用双曲正切函数压缩cIRM表示为：

5.根据权利要求1所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，所述MLVDR-TCN中，卷积运算采用深度可分离卷积运算。

>6.根据权利要求1所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，训练两个MLVDR-TCN网络的损失函数分别表示：

7.根据权利要求1所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，声源重构过程中，使用以下公式恢复未压缩掩码：

8.一种深度神经网络辅助的机械声源实时分离系统，其特征在于，包括：

9.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现根据权利要求1-7任一项所述的一种深度神经网络辅助的机械声源实时分离方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现根据权利要求1-7任一项所述的一种深度神经网络辅助的机械声源实时分离方法的步骤。

...

【技术特征摘要】

1.一种深度神经网络辅助的机械声源实时分离方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，所述mlvdr-tcn中，空洞卷积块的扩张系数随着层数呈指数型增长，将扩张因子分别为1,2,…,2x-1的空洞卷积块依次排列，其中x为空洞卷积块数量；输入数据依次在每个空洞卷积块中进行运算，并在每个空洞卷积块中运用残差路径和跳过连接路径；一个空洞卷积块的残差路径输出作为下一个空洞卷积块的输入，所有空洞卷积块的跳过连接路径总和经过一次relu函数、一维卷积计算和一次sigmoid函数作为mlvdr-tcn的输出。

3.根据权利要求1所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，所述cirm的表达式为：

4.根据权利要求3所述的一种深度神经网络辅助的机械声源实时分离方法，其特征在于，使用双曲正切函数压缩cirm表示为：

5.根据权利要求1所述的一种深度神经网络辅...

【专利技术属性】
技术研发人员：刘晓敏，惠吉峰，康卿飞，陆望东，王艳龙，宋铁成，胡静，
申请(专利权)人：山西天河云计算有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人