一种基于一维卷积神经网络的复杂声音识别方法技术

技术编号：31620033 阅读：27 留言：0更新日期：2021-12-29 18:54

本发明专利技术公开了一种基于一维卷积神经网络的复杂声音识别方法，对复杂声音采用随机补齐算法处理，将原始数据填充至同一长度，用于一维卷积神经网络的输入；并在一维卷积神经网络的基本框架嵌入预加重模块和简化的注意力机制模块，所述预加重模块置于一维卷积神经网络的输入部分，用于对输入数据进行预加重和参与网络模型调优，所述简化的注意力机制模块置于一维卷积神经网络的深层，利用全局平均池化和sigmoid函数得到带有注意力的全局特征。通过本发明专利技术的方法优化网络模型，获得良好的识别效果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于一维卷积神经网络的复杂声音识别方法

[0001]本专利技术属于音频处理
，涉及复杂声音识别技术，特别涉及一种基于一维卷积神经网络的复杂声音识别方法。

技术介绍

[0002]复杂声音指环境中的非语言类声音，声源复杂且多样、信号本身具有非平稳性并且时常伴随极具干扰的背景噪声等，使得不同的声音场景的声音特征不够明显或者特征相似度非常高，复杂声音识别能够自动识别环境中复杂声音的具体种类，如小孩玩耍、汽车鸣笛和街头音乐等。在声音分类领域，诸如语音分类和音乐分类已经达到了非常高的准确率，但是在复杂声音识别领域中由于信号本身的非平稳性，语音或音乐分类方案显然不适合于解决此类问题，因此需要提出一种有效的针对复杂声音的识别模型。
[0003]目前结合神经网路解决复杂声音分类问题上，根据输入数据的不同主要有三种方法：基于原始信号、人工特征和多种输入数据。第一种是直接使用原始信号进行网络训练，这种方法的优点是不需要人工对信号进行特征提取，极大简化操作流程，模型简单方便普及；第二种方法是对原始数据进行处理，人工提取声音信号的某些特征，如频谱图和梅尔频率倒谱系数等，这种方法的优点是针对某些数据集准确率较高，但是泛化能力差，模型很难改变后续的识别结果。第三种是多输入的复杂网络，将原始声音信号和人工提取的特征共同作为网络的输入部分，优点是能够结合信号的原始特征(时序特征)和频域特征，弥补了单一数据特征不足的缺陷，但是该类模型比较复杂，对平台的硬件要求很高，不方便应用。
[0004]基于原始音频信号的深度学习模型被许多...

【技术保护点】

【技术特征摘要】
1.一种基于一维卷积神经网络的复杂声音识别方法，其特征在于，对复杂声音采用随机补齐算法处理，将原始数据填充至同一长度，用于一维卷积神经网络的输入；并在一维卷积神经网络的基本框架嵌入预加重模块和简化的注意力机制模块，所述预加重模块置于一维卷积神经网络的输入部分，用于对输入数据进行预加重和参与网络模型调优，所述简化的注意力机制模块置于一维卷积神经网络的深层，利用全局平均池化和sigmoid函数得到带有注意力的全局特征。2.根据权利要求1所述的基于一维卷积神经网络的复杂声音识别方法，其特征在于，详细步骤如下：一、原始数据处理：采用随机补齐算法对原始数据进行填充，得到裁剪随机补齐后的长度一致的原始音频，将该原始音频作为一维卷积神经网络的输入数据；二、预加重：通过预加重模块对输入数据进行预加重，再经过一层卷积层处理；三、一维卷积神经网络：通过一维卷积神经网络处理，得到特征向量，其中，该一维卷积神经网络结构采用了两个通道数一样的卷积层后跟一层池化层，堆叠三次，共6层卷积结构；四、注意力机制：特征向量输入到简化的注意力机制模块中，得到带有注意力的特征；五、输出分类：最后通过两层全连接结构和softmax分类函数输出最终的识别结果。3.根据权利要求2所述的基于一维卷积神经网络的复杂声音识别方法，其特征在于，所述的随机补齐算法具体步骤如下：(1)...

【专利技术属性】
技术研发人员：殷波，杜泽华，魏志强，董西峰，
申请(专利权)人：中国海洋大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人