一种应用于语音降噪的盲源分离方法技术

技术编号：37778086 阅读：20 留言：0更新日期：2023-06-09 09:08

本发明专利技术公开了盲源分离技术领域的一种应用于语音降噪的盲源分离方法，包括通过对源混合信号中的未知强干扰信号进行第一盲源分离操作，得到未知强干扰信号的参数特征，本发明专利技术包括获取目标声源所处环境的多通道音频数据；基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；将所述单通道音频数据作为目标声源的音频数据。本发明专利技术解决了多个说话人在同一时间段说话的语音重叠问题，能准确的切分出不同说话人在同一时间段说话的语音和内容，其中，多通道音频数据与二维卷积核进行卷积会得到一个二维特征，该二维特征的行为麦克风阵列的阵元数，该二维特征经过编码器的编码后，该三维矩阵可以表示第一音频特征。特征。特征。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于语音降噪的盲源分离方法

[0001]本专利技术涉及盲源分离
，具体为一种应用于语音降噪的盲源分离方法。

技术介绍

[0002]未知强干扰下的弱信号盲源分离是一个比较困难的盲源分离问题，也一直没有比较理想的方法，近年来常用的方法是经验模态分解法。EM D(Em pi ri ca lMod eDecomposition，经验模态分解)方法，由美籍华人Huang在深入研究了瞬时频率概念的基础上，提出了IMF(IntrinsicModeFunction，本征模态函数)的概念，采用EMD能够将任意信号分解为基本模式分量。
[0003]现在的多通道分离技术是通过对波束形成算法利用麦克风之间的相位差对拾音角度外的声音(噪声，人声等)进行抑制。但是，当噪声在拾音角度内且在拾音距离内时，其他说话人的声音或者噪声不会被算法抑制，并且在一定程度上对目标说话人的声音进行干扰，导致语音识别率下降。所以，现有技术在一些场景，如银行营业厅，餐厅，大马路上进行语音交互时，对干扰抑制的不够彻底。原有的盲源分离是基于单通道语音分离的，对于空间信息的利用有限，为此，我们提出一种应用于语音降噪的盲源分离方法。

技术实现思路

[0004]本专利技术的目的在于提供一种应用于语音降噪的盲源分离方法，以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的，本专利技术提供如下技术方案：一种应用于语音降噪的盲源分离方法，包括：通过对源混合信号中的未知强干扰信号进行第一盲源分离操作，得到未知强干扰信号的参数特征；r/>[0006]获取目标声源所处环境的多通道音频数据；
[0007]根据所得到未知强干扰信号的参数特征，对所述未知强干扰信号进行重组处理，得到用于抵消所述源混合信号中未知强干扰信号的强干扰抵消信号；
[0008]基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；
[0009]利用得到的强干扰抵消信号的参数特征和所获取的未知强干扰信号的参数特征，对所述源混合信号中的未知强干扰信号进行抵消操作，得到弱混合目标信号，并通过对所得到的弱混合目标信号进行第二盲源分离操作，得到分离后的弱目标信号；
[0010]将所述单通道音频数据作为目标声源的音频数据。
[0011]优选的，所述第一盲源分离是指对所述源混合信号中对未知强干扰信号的分离处理；所述第二盲源分离是指对弱混合目标信号中各弱目标信号的分离处理。
[0012]优选的，包括获取训练用的音频数据，所述音频数据包括带有噪声的多通道音频数据和不带噪声的单通道音频数据；
[0013]以所述多通道音频数据作为输入、单通道音频数据作为输出进行训练，得到所述分离模型。
[0014]优选的，通过对源混合信号中的未知强干扰信号进行第一盲源分离操作，得到未知强干扰信号的参数特征包括：
[0015]确定用于对所述源混合信号进行分离的第一初始点；利用所确定的第一初始点对源混合信号中的未知强干扰信号进行第一盲源分离操作，得到未知强干扰信号的参数特征；
[0016]其中，所述参数特征包括频率、功率、幅度、相位、以及传输比特率的特征。
[0017]优选的，所述编码模块，用于对所述多通道音频数据进行编码，得到第一音频特征；
[0018]分离模块，用于通过时序空洞卷积网络对所述第一音频特征进行处理，得到掩敝输出；
[0019]并根据所述第一音频特征与所述掩敝输出得到第二音频特征；
[0020]解码模块，用于对所述第二音频特征进行解码，得到目标声源的音频数据。
[0021]优选的，所述获取所述强干扰抵消信号的参数特征；
[0022]其中，所述未知强干扰信号的参数特征与所述强干扰抵消信号的参数特征中频率、功率、幅度以及传输比特率均相同，但相位相反。
[0023]优选的，所述将所述多通道音频数据与一维/二维卷积核进行卷积，得到一个二维特征；
[0024]将所述二维特征进行编码，得到第一音频特征，所述第一音频特征为三维矩阵。
[0025]优选的，所述确定用于对所述弱混合目标信号进行分离的第二初始点；利用所确定的第二初始点对弱混合目标信号中的多个弱目标信号进行第二盲源分离操作，得到分离后的弱目标信号。
[0026]与现有技术相比，本专利技术的有益效果是：本专利技术包括获取目标声源所处环境的多通道音频数据；基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；将所述单通道音频数据作为目标声源的音频数据。本专利技术解决了多个说话人在同一时间段说话的语音重叠问题，能准确的切分出不同说话人在同一时间段说话的语音和内容，其中，多通道音频数据与二维卷积核进行卷积会得到一个二维特征，该二维特征的行为麦克风阵列的阵元数，列为512维。该二维特征经过编码器的编码后，会得到一个三维矩阵，该三维矩阵可以表示第一音频特征，该三维矩阵的长为音频帧数，宽为512，深度为麦克风阵列的阵元数，依次连接的多个激活单元，前一个激活单元的输出作为后一个激活单元的输入，所述激活单元包括依次连接的2维卷积网络、激活层、正则化层；最后一个激活单元的正则化层的输出经两个二维卷积网络，其中一个二维卷积网络的输出作为二维卷积核的其中一个输出，另一个二维卷积网络的输出作为二维卷积核的另一个输出。在一实施例中，分离模块是通过时序空洞卷积网络来对第一音频特征进行处理。当然在其他实施例中，也可采用RNN网络(循环神经网络)，注意力机制，transfomer结构，densenet(DenseConvolutionalNetwork)等对第一音频特征进行处理。其中，transfo mer结构具有独特的自注意力机制，能减缓信息衰减问题。本专利技术不仅能够进行目标声源的精准分离，并且在模型的参数数量也是小的，并且由于卷积神经网络的结构，可以做到实时处理，以及放入到嵌入式环境中，实用的潜力足。
附图说明
[0027]图1为本专利技术结构示意图；
[0028]图2为本专利技术模块连接图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0030]请参阅图1和图2，本专利技术提供如下技术方案：一种应用于语音降噪的盲源分离方法，包括：通过对源混合信号中的未知强干扰信号进行第一盲源分离操作，得到未知强干扰信号的参数特征；
[0031]获取目标声源所处环境的多通道音频数据；
[0032]根据所得到未知强干扰信号的参数特征，对所述未知强干扰信号进行重组处理，得到用于抵消所述源混合信号中未知强干扰信号的强干扰抵消信号；
[0033]基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；
[0034]利用得到的强干扰抵消信号的参数特征本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种应用于语音降噪的盲源分离方法，其特征在于，包括：通过对源混合信号中的未知强干扰信号进行第一盲源分离操作，得到未知强干扰信号的参数特征；获取目标声源所处环境的多通道音频数据；根据所得到未知强干扰信号的参数特征，对所述未知强干扰信号进行重组处理，得到用于抵消所述源混合信号中未知强干扰信号的强干扰抵消信号；基于训练好的分离模型对所述多通道音频数据进行分离，得到单通道音频数据；利用得到的强干扰抵消信号的参数特征和所获取的未知强干扰信号的参数特征，对所述源混合信号中的未知强干扰信号进行抵消操作，得到弱混合目标信号，并通过对所得到的弱混合目标信号进行第二盲源分离操作，得到分离后的弱目标信号；将所述单通道音频数据作为目标声源的音频数据。2.根据权利要求1所述的一种应用于语音降噪的盲源分离方法，其特征在于：所述第一盲源分离是指对所述源混合信号中对未知强干扰信号的分离处理；所述第二盲源分离是指对弱混合目标信号中各弱目标信号的分离处理。3.根据权利要求1所述的一种应用于语音降噪的盲源分离方法，其特征在于：包括获取训练用的音频数据，所述音频数据包括带有噪声的多通道音频数据和不带噪声的单通道音频数据；以所述多通道音频数据作为输入、单通道音频数据作为输出进行训练，得到所述分离模型。4.根据权利要求1所述的一种应用于语音降噪的盲源分离方法，其特征在于：所述通过对源混合信号中的未知强干扰信号进行第一盲源分离操作，得到未知强干扰信号的参数特征包括：确定用于对所述源混合...

【专利技术属性】
技术研发人员：许鹏飞，贾银洁，
申请(专利权)人：宿迁学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人