语音分离方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：30403924 阅读：14 留言：0更新日期：2021-10-20 10:58

本申请是关于一种语音分离方法、装置、计算机设备及存储介质，涉及人工智能技术领域。所述方法包括：通过语音分离模型中的第一分块网络对输入的语音数据进行分块，通过第一转置层对语音数据块进行第一转置处理；通过语音分离模型中的第一块处理网络对语音数据块进行块处理，获得至少两个所述语音数据块的块处理结果数据；通过语音分离模型中的第一重叠相加网络，对第一块处理网络的块处理结果进行重叠相加处理，获得所述语音数据的语音分离结果。通过上述方案，在通过各个第一块处理网络之前，首先对语音数据块进行一次转置操作，从而可以极大的简化语音分离模型中的块处理网络的结构，提高模型的处理速度，进而提高语音分离的效率。离的效率。离的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音分离方法、装置、计算机设备及存储介质

[0001]本申请实施例涉及人工智能
，特别涉及一种语音分离方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展，可以通过构建神经网络模型将目标语音从背景音中分离出来。其中，构建的神经网络模型可以是基于PyTorch训练得到的DPRNN(Dual Path Recurrent Neural Network，双路径递归神经网络)模型。
[0003]在相关技术中，通过该DPRNN模型进行语音分离时，首先将语音数据进行分开处理，然后将分块后的语音数据块通过该DPRNN模型中的至少一个块处理网络进行处理，最后将块处理网络的处理结果进行重叠相加，得到分离后的语音。
[0004]然而，相关技术中的DRPNN模型的模型结构较为复杂，导致模型的处理速度较慢，进而影响语音分离的效率。

技术实现思路

[0005]本申请实施例提供了一种语音分离方法、装置、计算机设备及存储介质，通过各个第一块处理网络之前，首先对语音数据块进行一次转置操作，这样可以减少后续每个第一处理子网络中需要进行转置操作的数量，从而提高模型的处理速度，进而提高语音分离的效率。该技术方案如下。
[0006]一方面，提供了一种语音分离方法，所述方法包括：
[0007]通过语音分离模型中的第一分块网络对输入的语音数据进行分块，获得至少两个语音数据块；
[0008]通过所述语音分离模型中的第一转置层对至少两个所述语音数据块进行第一转置处理，使得...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法，其特征在于，所述方法包括：通过语音分离模型中的第一分块网络对输入的语音数据进行分块，获得至少两个语音数据块；通过所述语音分离模型中的第一转置层对至少两个所述语音数据块进行第一转置处理，使得至少两个所述语音数据块的维度按照时域维度、频域维度、归一化维度的顺序排列；通过所述语音分离模型中的至少一个第一块处理网络对至少两个所述语音数据块进行块处理，获得至少两个所述语音数据块的块处理结果数据；所述第一块处理网络包含串连的两个第一处理子网络；所述第一处理子网络用于依次执行以下操作：对输入的语音数据块的时域维度和频域维度进行第二转置处理、对所述第二转置处理的结果进行循环神经网络处理、对所述循环神经网络处理的结果的归一化维度进行归一化处理、将所述归一化处理的结果与所述第二转置处理的结果进行融合；通过所述语音分离模型中的第一重叠相加网络，对至少一个所述第一块处理网络的块处理结果进行重叠相加处理，获得所述语音数据的语音分离结果。2.根据权利要求1所述的方法，其特征在于，所述第一处理子网络包含依次相连的第二转置层、第一循环神经网络层、第一归一化层、以及第一融合层；所述第二转置层还与所述第一融合层相连；所述第二转置层用于对所述至少两个所述语音数据块的时域维度和频域维度进行第二转置处理；所述第一循环神经网络层用于对所述第二转置处理的结果进行循环神经网络处理以及全连接处理；所述第一归一化层用于对所述第一循环神经网络层的处理结果中的归一化维度进行归一化处理；所述第一融合层用于将所述第一归一化层的处理结果与所述第二转置处理的结果进行融合。3.根据权利要求1所述的方法，其特征在于，所述通过语音分离模型中的第一分块网络对输入的语音数据进行分块，获得至少两个语音数据块，包括：基于循环算子，对所述语音数据进行循环处理，获取至少两个所述语音数据块的分块开始指针以及分块结束指针；基于所述分块开始指针以及所述分块结束指针，获取至少两个所述语音数据块。4.根据权利要求3所述的方法，其特征在于，所述循环算子由图像处理器中的单个处理器内核执行。5.根据权利要求1所述的方法，其特征在于，所述通过语音分离模型中分块网络对输入的语音数据进行分块，获得至少两个语音数据块，包括：基于第一算子，获取所述语音数据块的前段语音数据块；基于第二算子，获取所述语音数据块的后段语音数据块；基于第三算子，将所述语音数据块对应的所述前段语音数据块与所述后段语音数据块进行拼接，生成拼接后的所述语音数据块；基于第四算子，对所述拼接后的语音数据块进行转置处理。
6.根据权利要求5所述的方法，其特征在于，所述第一算子、所述第二算子、所述第三算子以及所述第四算子分别由图像处理器中的一个处理器内核执行。7.根据权利要求1至6任一所述的方法，其特征在于，所述语音分离模型为双路径递归神经网络DPRNN模型。8.根据权利要求7所述的方法，其特征在于，所述语音分离模型是对第一编程语言编写的所述DPRNN模型进行代码翻译获得的。9.根据权利要求8所述的方法，其特征在于，所述第一编程语言编写的DPRNN模型是基于PyTorch训练获得的模型。10.根据权利要求8所述的方法，其特征在于，所述第一编程语言编写的DPRNN模型包括第二分块网络、至少一个第二块处理网络以及第二重叠相加网络；所述第二块处理网络包含串连的两个第二处理子网络；输入所述第二处理子网络的语音数据块...

【专利技术属性】
技术研发人员：杨伟光，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人