语音分离方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:30403924 阅读:14 留言:0更新日期:2021-10-20 10:58
本申请是关于一种语音分离方法、装置、计算机设备及存储介质,涉及人工智能技术领域。所述方法包括:通过语音分离模型中的第一分块网络对输入的语音数据进行分块,通过第一转置层对语音数据块进行第一转置处理;通过语音分离模型中的第一块处理网络对语音数据块进行块处理,获得至少两个所述语音数据块的块处理结果数据;通过语音分离模型中的第一重叠相加网络,对第一块处理网络的块处理结果进行重叠相加处理,获得所述语音数据的语音分离结果。通过上述方案,在通过各个第一块处理网络之前,首先对语音数据块进行一次转置操作,从而可以极大的简化语音分离模型中的块处理网络的结构,提高模型的处理速度,进而提高语音分离的效率。离的效率。离的效率。

【技术实现步骤摘要】
语音分离方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及人工智能
,特别涉及一种语音分离方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着人工智能技术的不断发展,可以通过构建神经网络模型将目标语音从背景音中分离出来。其中,构建的神经网络模型可以是基于PyTorch训练得到的DPRNN(Dual Path Recurrent Neural Network,双路径递归神经网络)模型。
[0003]在相关技术中,通过该DPRNN模型进行语音分离时,首先将语音数据进行分开处理,然后将分块后的语音数据块通过该DPRNN模型中的至少一个块处理网络进行处理,最后将块处理网络的处理结果进行重叠相加,得到分离后的语音。
[0004]然而,相关技术中的DRPNN模型的模型结构较为复杂,导致模型的处理速度较慢,进而影响语音分离的效率。

技术实现思路

[0005]本申请实施例提供了一种语音分离方法、装置、计算机设备及存储介质,通过各个第一块处理网络之前,首先对语音数据块进行一次转置操作,这样可以减少后续每个第一处理子网络中需要进行转置操作的数量,从而提高模型的处理速度,进而提高语音分离的效率。该技术方案如下。
[0006]一方面,提供了一种语音分离方法,所述方法包括:
[0007]通过语音分离模型中的第一分块网络对输入的语音数据进行分块,获得至少两个语音数据块;
[0008]通过所述语音分离模型中的第一转置层对至少两个所述语音数据块进行第一转置处理,使得至少两个所述语音数据块的维度按照时域维度、频域维度、归一化维度的顺序排列;
[0009]通过所述语音分离模型中的至少一个第一块处理网络对至少两个所述语音数据块进行块处理,获得至少两个所述语音数据块的块处理结果数据;所述第一块处理网络包含串连的两个第一处理子网络;所述第一处理子网络用于依次执行以下操作:对输入的语音数据块的时域维度和频域维度进行第二转置处理、对所述第二转置处理的结果进行循环神经网络处理、对所述循环神经网络处理的结果的归一化维度进行归一化处理、将所述归一化处理的结果与所述第二转置处理的结果进行融合;
[0010]通过所述语音分离模型中的第一重叠相加网络,对至少一个所述第一块处理网络的块处理结果进行重叠相加处理,获得所述语音数据的语音分离结果。
[0011]一方面,提供了一种语音分离方法,所述方法包括:
[0012]获取在第一编码语言环境下训练生成的语音分离模型的第一模型源码;所述语音分离模型是用于在时域维度下进行语音分离的神经网络模型;
[0013]基于所述第一模型源码进行编码语言翻译和指定调整,获得第二编码语言编写的第二模型源码;所述指定调整用于实现所述语音分离模型的目标功能的前提下减少所述语音分离模型的运算量;
[0014]在第一引擎中运行所述第二模型源码,以实现所述语音分离模型的所述目标功能;所述第一引擎是支持所述第二编码语言的引擎。
[0015]又一方面,提供了一种语音分离装置,所述装置包括:
[0016]数据块获取模块,用于通过语音分离模型中的第一分块网络对输入的语音数据进行分块,获得至少两个语音数据块;
[0017]第一转置模块,用于通过所述语音分离模型中的第一转置层对至少两个所述语音数据块进行第一转置处理,使得至少两个所述语音数据块的维度按照时域维度、频域维度、归一化维度的顺序排列;
[0018]块处理模块,用于通过所述语音分离模型中的至少一个第一块处理网络对至少两个所述语音数据块进行块处理,获得至少两个所述语音数据块的块处理结果数据;所述第一块处理网络包含串连的两个第一处理子网络;所述第一处理子网络用于依次执行以下操作:对输入的语音数据块的时域维度和频域维度进行第二转置处理、对所述第二转置处理的结果进行循环神经网络处理、对所述循环神经网络处理的结果的归一化维度进行归一化处理、将所述归一化处理的结果与所述第二转置处理的结果进行融合;
[0019]结果获取模块,用于通过所述语音分离模型中的第一重叠相加网络,对至少一个所述第一块处理网络的块处理结果进行重叠相加处理,获得所述语音数据的语音分离结果。
[0020]在一种可能的实现方式中,所述第一处理子网络包含依次相连的第二转置层、第一循环神经网络层、第一归一化层、以及第一融合层;所述第二转置层还与所述第一融合层相连;
[0021]所述第二转置层用于对所述至少两个所述语音数据块的时域维度和频域维度进行第二转置处理;
[0022]所述第一循环神经网络层用于对所述第二转置处理的结果进行循环神经网络处理以及全连接处理;
[0023]所述第一归一化层用于对所述第一循环神经网络层的处理结果中的归一化维度进行归一化处理;
[0024]所述第一融合层用于将所述第一归一化层的处理结果与所述第二转置处理的结果进行融合。
[0025]在一种可能的实现方式中,所述数据块获取模块,包括:
[0026]指针获取子模块,用于基于循环算子,对所述语音数据进行循环处理,获取至少两个所述语音数据块的分块开始指针以及分块结束指针;
[0027]数据块获取子模块,用于基于所述分块开始指针以及所述分块结束指针,获取至少两个所述语音数据块。
[0028]在一种可能的实现方式中,所述循环算子由图像处理器中的单个处理器内核执行。
[0029]在一种可能的实现方式中,所述数据块获取模块,包括:
[0030]第一子模块,用于基于第一算子,获取所述语音数据块的前段语音数据块;
[0031]第二子模块,用于基于第二算子,获取所述语音数据块的后段语音数据块;
[0032]第三子模块,用于基于第三算子,将所述语音数据块对应的所述前段语音数据块与所述后段语音数据块进行拼接,生成拼接后的所述语音数据块;
[0033]第四子模块,用于基于第四算子,对所述拼接后的语音数据块进行转置处理。
[0034]在一种可能的实现方式中,所述第一算子、所述第二算子、所述第三算子以及所述第四算子分别由图像处理器中的一个处理器内核执行。
[0035]在一种可能的实现方式中,所述语音分离模型为双路径递归神经网络DPRNN模型。
[0036]在一种可能的实现方式中,所述语音分离模型是对第一编程语言编写的所述DPRNN模型进行代码翻译获得的。
[0037]在一种可能的实现方式中,所述第一编程语言编写的DPRNN模型是基于PyTorch训练获得的模型。
[0038]在一种可能的实现方式中,所述第一编程语言编写的DPRNN模型包括第二分块网络、至少一个第二块处理网络以及第二重叠相加网络;所述第二块处理网络包含串连的两个第二处理子网络;
[0039]输入所述第二处理子网络的语音数据块的维度按照归一化维度、时域维度、频域维度的顺序排列;
[0040]所述第二处理子网络用于依次执行以下操作:对输入的语音数据块的归一化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音分离方法,其特征在于,所述方法包括:通过语音分离模型中的第一分块网络对输入的语音数据进行分块,获得至少两个语音数据块;通过所述语音分离模型中的第一转置层对至少两个所述语音数据块进行第一转置处理,使得至少两个所述语音数据块的维度按照时域维度、频域维度、归一化维度的顺序排列;通过所述语音分离模型中的至少一个第一块处理网络对至少两个所述语音数据块进行块处理,获得至少两个所述语音数据块的块处理结果数据;所述第一块处理网络包含串连的两个第一处理子网络;所述第一处理子网络用于依次执行以下操作:对输入的语音数据块的时域维度和频域维度进行第二转置处理、对所述第二转置处理的结果进行循环神经网络处理、对所述循环神经网络处理的结果的归一化维度进行归一化处理、将所述归一化处理的结果与所述第二转置处理的结果进行融合;通过所述语音分离模型中的第一重叠相加网络,对至少一个所述第一块处理网络的块处理结果进行重叠相加处理,获得所述语音数据的语音分离结果。2.根据权利要求1所述的方法,其特征在于,所述第一处理子网络包含依次相连的第二转置层、第一循环神经网络层、第一归一化层、以及第一融合层;所述第二转置层还与所述第一融合层相连;所述第二转置层用于对所述至少两个所述语音数据块的时域维度和频域维度进行第二转置处理;所述第一循环神经网络层用于对所述第二转置处理的结果进行循环神经网络处理以及全连接处理;所述第一归一化层用于对所述第一循环神经网络层的处理结果中的归一化维度进行归一化处理;所述第一融合层用于将所述第一归一化层的处理结果与所述第二转置处理的结果进行融合。3.根据权利要求1所述的方法,其特征在于,所述通过语音分离模型中的第一分块网络对输入的语音数据进行分块,获得至少两个语音数据块,包括:基于循环算子,对所述语音数据进行循环处理,获取至少两个所述语音数据块的分块开始指针以及分块结束指针;基于所述分块开始指针以及所述分块结束指针,获取至少两个所述语音数据块。4.根据权利要求3所述的方法,其特征在于,所述循环算子由图像处理器中的单个处理器内核执行。5.根据权利要求1所述的方法,其特征在于,所述通过语音分离模型中分块网络对输入的语音数据进行分块,获得至少两个语音数据块,包括:基于第一算子,获取所述语音数据块的前段语音数据块;基于第二算子,获取所述语音数据块的后段语音数据块;基于第三算子,将所述语音数据块对应的所述前段语音数据块与所述后段语音数据块进行拼接,生成拼接后的所述语音数据块;基于第四算子,对所述拼接后的语音数据块进行转置处理。
6.根据权利要求5所述的方法,其特征在于,所述第一算子、所述第二算子、所述第三算子以及所述第四算子分别由图像处理器中的一个处理器内核执行。7.根据权利要求1至6任一所述的方法,其特征在于,所述语音分离模型为双路径递归神经网络DPRNN模型。8.根据权利要求7所述的方法,其特征在于,所述语音分离模型是对第一编程语言编写的所述DPRNN模型进行代码翻译获得的。9.根据权利要求8所述的方法,其特征在于,所述第一编程语言编写的DPRNN模型是基于PyTorch训练获得的模型。10.根据权利要求8所述的方法,其特征在于,所述第一编程语言编写的DPRNN模型包括第二分块网络、至少一个第二块处理网络以及第二重叠相加网络;所述第二块处理网络包含串连的两个第二处理子网络;输入所述第二处理子网络的语音数据块...

【专利技术属性】
技术研发人员:杨伟光
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1