语音处理方法、装置、设备及存储介质制造方法及图纸

技术编号：42396902 阅读：15 留言：0更新日期：2024-08-16 16:20

本公开提供一种语音处理方法、装置、设备及存储介质，涉及语音处理技术领域。在本公开的一些实施例中，获取原始声音信号；对原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置；对多个声源进行波束分离，得到多个声源的初始声音信号；提取原始声音信号中的目标声源的声纹特征；将原始声音信号、多个声源的位置、初始声音信号和目标声源的声纹特征输入声纹分离网络中，得到多个声源的目标声音信号；本公开基于原始声音信号、多个声源的位置、初始声音信号和目标声源的声纹特征，进行多个声源的声纹分离，利用声纹分离网络可以提高声纹分离的精度，提高泛化性能。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及语音处理，尤其涉及一种语音处理方法、装置、设备及存储介质。

技术介绍

1、声音是人与人、人与机器最自然、最有效、最便捷的通讯方式之一。然而，由于自然环境的复杂多变性，声源信号往往被噪声、非目标声源干扰，严重影响声音质量。如何实现高性能的多声源分离是新一代实时通讯和离线通讯设备所面临的瓶颈难题。

2、声纹分离是一种新兴的语音分离技术，通过提前获得目标语音的声纹特征进行声源分离，但是声纹分离性能不稳定，泛化性能较差，且对于同性或者目标说话人由于感冒等原因发声变音的时候，分离性能较差，甚至出现误分离。

3、因此，目前的声纹分离的方法精度较低，泛化性能较差。

技术实现思路

1、本公开提供一种语音处理方法、装置、设备及存储介质，以至少解决现有声纹分离的方法精度较低，泛化性能较差的问题。

2、本公开的技术方案如下：

3、本公开实施例提供一种语音处理方法，包括：

4、获取原始声音信号；

5、对所述原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置；

6、对多个所述声源进行波束分离，得到多个所述声源的初始声音信号；

7、提取所述原始声音信号中的目标声源的声纹特征；

8、将所述原始声音信号、多个所述声源的位置、所述初始声音信号和所述目标声源的声纹特征输入声纹分离网络中，得到多个所述声源的目标声音信号。

9、可选地，所述对所述原始声音信号进行方位估计，得到原始声

10、采用传统波束形成技术、最小方差无失真响应技术、多重信号分类算法、压缩感知技术中的任意一种方位估计算法，对所述原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置。

11、可选地，所述对多个所述声源进行波束分离，得到多个所述声源的初始声音信号，包括：

12、采用自适应波束形成技术，对每个所述声源进行自适应波束形成，得到多个所述声源的初始声音信号。

13、可选地，所述提取所述原始声音信号中的目标声源的声纹特征，包括：

14、提取多个所述声源的声纹特征；

15、将每个所述声源的声纹特征分别与注册声源的声音特征进行匹配；

16、从所述多个所述声源中选择出与所述注册声源匹配成功的所述目标声源的声纹特征。

17、可选地，所述声纹分离网络包括：卷积神经网络、长短时记忆网络、全连接层和输出层；所述将所述原始声音信号、多个所述声源的位置、所述初始声音信号和所述目标声源的声纹特征输入声纹分离网络中，得到多个所述声源的目标声音信号，包括：

18、将所述原始声音信号、多个所述声源的位置、所述初始声音信号和所述目标声源的声纹特征输入声纹分离网络中；

19、在所述声纹分离网络中，所述卷积神经网络用于提取时频谱图的图像局部特征，将所述图像局部特征输入至所述长短时记忆网络；

20、所述长短时记忆网络用于将所述图像局部特征进行处理，得到语音时序特征，将所述语音时序特征输入至所述全连接层；

21、所述全连接层用于将所述语音时序特征对应的特征空间映射到样本标记空间，得到特征标记值；

22、所述输出层用于将特征标记值转换为时频掩码；

23、根据所述时频掩码和所述原始声音信号的频域数据进行语音分离，得到多个所述声源的目标声音信号。

24、可选地，所述根据所述时频掩码和所述原始声音信号的频域数据进行语音分离，得到多个所述声源的目标声音信号，包括：

25、将所述时频掩码和所述原始声音信号的频域数据进行点乘，得到个所述声源的目标声音信号。

26、本公开实施例还提供一种语音处理装置，包括：

27、获取模块，用于获取原始声音信号；

28、方位估计模块，用于对所述原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置；

29、分离模块，用于对多个所述声源进行波束分离，得到多个所述声源的初始声音信号；

30、提取模块，用于提取所述原始声音信号中的目标声源的声纹特征；

31、神经网络模块，用于将所述原始声音信号、多个所述声源的位置、所述初始声音信号和所述目标声源的声纹特征输入声纹分离网络中，得到多个所述声源的目标声音信号。

32、可选地，所述方位估计模块，在对所述原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置时，用于：

33、采用传统波束形成技术、最小方差无失真响应技术、多重信号分类算法、压缩感知技术中的任意一种方位估计算法，对所述原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置。

34、可选地，所述分离模块在对多个所述声源进行波束分离，得到多个所述声源的初始声音信号时，用于：

35、采用自适应波束形成技术，对每个所述声源进行自适应波束形成，得到多个所述声源的初始声音信号。

36、可选地，所述提取模块在提取所述原始声音信号中的目标声源的声纹特征时，用于：

37、提取多个所述声源的声纹特征；

38、将每个所述声源的声纹特征分别与注册声源的声音特征进行匹配；

39、从所述多个所述声源中选择出与所述注册声源匹配成功的所述目标声源的声纹特征。

40、可选地，所述声纹分离网络包括：卷积神经网络、长短时记忆网络、全连接层和输出层；所述神经网络模块在将所述原始声音信号、多个所述声源的位置、所述初始声音信号和所述目标声源的声纹特征输入声纹分离网络中，得到多个所述声源的目标声音信号时，用于：

41、将所述原始声音信号、多个所述声源的位置、所述初始声音信号和所述目标声源的声纹特征输入声纹分离网络中；

42、在所述声纹分离网络中，所述卷积神经网络用于提取时频谱图的图像局部特征，将所述图像局部特征输入至所述长短时记忆网络；

43、所述长短时记忆网络用于将所述图像局部特征进行处理，得到语音时序特征，将所述语音时序特征输入至所述全连接层；

44、所述全连接层用于将所述语音时序特征对应的特征空间映射到样本标记空间，得到特征标记值；

45、所述输出层用于将特征标记值转换为时频掩码；

46、根据所述时频掩码和所述原始声音信号的频域数据进行语音分离，得到多个所述声源的目标声音信号。

47、可选地，所述神经网络模块在根据所述时频掩码和所述原始声音信号的频域数据进行语音分离，得到多个所述声源的目标声音信号时，用于：

48、将所述时频掩码和所述原始声音信号的频域数据进行点乘，得到个所述声源的目标声音信号。

49、本公开实施例还提供一种电子设备，包括：

50、处理器；

51、用于存储处理器可执行指令的存储器；

52、其中，所述处理器被配置本文档来自技高网...

【技术保护点】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置，包括：

3.根据权利要求1所述的方法，其特征在于，所述对多个所述声源进行波束分离，得到多个所述声源的初始声音信号，包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述原始声音信号中的目标声源的声纹特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述声纹分离网络包括：卷积神经网络、长短时记忆网络、全连接层和输出层；所述将所述原始声音信号、多个所述声源的位置、所述初始声音信号和所述目标声源的声纹特征输入声纹分离网络中，得到多个所述声源的目标声音信号，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述时频掩码和所述原始声音信号的频域数据进行语音分离，得到多个所述声源的目标声音信号，包括：

7.一种语音处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述方位估计模块，在对所述原始声音信号进行方位估

9.根据权利要求7所述的装置，其特征在于，所述分离模块在对多个所述声源进行波束分离，得到多个所述声源的初始声音信号时，用于：

10.根据权利要求7所述的装置，其特征在于，所述提取模块在提取所述原始声音信号中的目标声源的声纹特征时，用于：

11.根据权利要求7所述的装置，其特征在于，所述声纹分离网络包括：卷积神经网络、长短时记忆网络、全连接层和输出层；所述神经网络模块在将所述原始声音信号、多个所述声源的位置、所述初始声音信号和所述目标声源的声纹特征输入声纹分离网络中，得到多个所述声源的目标声音信号时，用于：

12.根据权利要求11所述的装置，其特征在于，所述神经网络模块在根据所述时频掩码和所述原始声音信号的频域数据进行语音分离，得到多个所述声源的目标声音信号时，用于：

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法中的各步骤。

15.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的方法中的各步骤。

...

【技术特征摘要】

1.一种语音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置，包括：

3.根据权利要求1所述的方法，其特征在于，所述对多个所述声源进行波束分离，得到多个所述声源的初始声音信号，包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述原始声音信号中的目标声源的声纹特征，包括：

7.一种语音处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述方位估计模块，在对所述原始声音信号进行方位估计，得到原始声音信号包含的多个声源的位置时，用于：

9.根据...

【专利技术属性】
技术研发人员：宋其岩，
申请(专利权)人：小米汽车科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人