目标说话人语音提取结果纠错方法及相关装置制造方法及图纸

技术编号：43697539 阅读：19 留言：0更新日期：2024-12-18 21:12

本申请实施例提供目标说话人语音提取结果纠错方法及相关装置，涉及语音信号处理技术领域。该方法包括：将注册语音和混合语音输入双分支语音提取模型进行语音提取，得到干扰语音和对象语音。根据注册语音、干扰语音和对象语音的声纹特征计算得到对象相似度和干扰相似度，基于此确定纠错标识。当根据纠错标识进行纠错时，基于干扰语音或对象语音得到纠错语音，将纠错语音作为目标语音。通过对象语音和干扰语音之间的关联获取辅助信息判断是否需要进行纠错，将可能的错误结果显式地纠正为正确的输出，无需大幅改进模型结构、优化训练机制和扩充数据集，相比较于针对正确结果进一步提升精度的学习成本更低、识别准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音信号处理，尤其涉及目标说话人语音提取结果纠错方法及相关装置。

技术介绍

1、目标说话人提取是指采用代表说话人身份的预注册信息，采取语音分离的手段，从混合的语音信号中提取出清晰的目标说话人的语音。相较于传统的语音分离技术，目标说话人提取技术更关注特定发音人，往往更加灵活。

2、在相关技术中用于进行目标说话人语音提取的深度模型的学习过程通常集中于提升模型的直接提取性能，例如通过改进模型结构、优化训练机制和扩充数据集等方法来提高模型的识别精度。然而，当识别精度达到一定水平后，进一步提高模型精度所需的学习成本变高，这就使得识别精度很难突破现有的瓶颈阶段。

技术实现思路

1、本申请实施例的主要目的在于提出目标说话人语音提取结果纠错方法及相关装置，在无需大幅提高学习成本的前提下，提高目标说话人语音提取结果的识别准确率。

2、为实现上述目的，本申请实施例的第一方面提出了一种目标说话人语音提取结果纠错方法，包括：

3、获取混合语音和目标对象的注册语音，所述混合语音至少包含所述目标对象的初始语音；

4、将所述注册语音和所述混合语音输入预先训练好的双分支语音提取模型进行语音提取，得到干扰语音和对象语音；

5、根据所述注册语音、所述干扰语音和所述对象语音的声纹特征计算得到对象相似度和干扰相似度，并基于所述对象相似度和所述干扰相似度确定纠错标识；

6、如果所述纠错标识指示直接输出提取结果，将所述对象语音作为所述初始语音对

7、在一些实施例，所述根据所述注册语音、所述干扰语音和所述对象语音的声纹特征计算得到对象相似度和干扰相似度，包括：

8、获取所述注册语音的注册声纹特征、所述干扰语音的干扰声纹特征和所述对象语音的对象声纹特征；

9、计算所述注册声纹特征和所述干扰声纹特征之间的相似度，得到所述干扰相似度，计算所述注册声纹特征和所述对象声纹特征之间的相似度，得到所述对象相似度。

10、在一些实施例，所述基于所述对象相似度和所述干扰相似度确定纠错标识，包括：

11、当所述对象相似度大于或等于所述干扰相似度，所述纠错标识用于指示直接输出提取结果；

12、当所述对象相似度小于所述干扰相似度，所述纠错标识用于指示对提取结果进行纠错。

13、在一些实施例，所述基于所述干扰语音或所述对象语音得到纠错语音，包括：

14、从所述干扰语音和所述对象语音中选取一个作为新的注册语音，并将所述新的注册语音和所述混合语音输入所述双分支语音提取模型进行语音提取，得到新的对象语音或新的干扰语音，从所述新的对象语音或所述新的干扰语音中选取所述纠错语音；

15、或者，将所述干扰语音作为所述纠错语音。

16、在一些实施例，所述从所述新的对象语音或所述新的干扰语音中选取所述纠错语音，包括：

17、当将所述干扰语音作为新的注册语音时，将所述新的对象语音作为所述纠错语音；

18、当将所述对象语音作为新的注册语音时，将所述新的干扰语音作为所述纠错语音。

19、在一些实施例，所述双分支语音提取模型包括说话人编码器、混合语音编码器、融合模块、目标分支提取模块和干扰分支提取模块；所述将所述注册语音和所述混合语音输入预先训练好的双分支语音提取模型进行语音提取，得到干扰语音和对象语音，包括：

20、将所述注册语音输入所述说话人编码器进行特征提取，得到注册语音特征，以及将所述混合语音输入所述混合语音编码器进行特征提取，得到混合语音特征；

21、将所述注册语音特征和所述混合语音特征输入所述融合模块进行特征融合，得到融合语音特征；

22、将所述融合语音特征和所述混合语音特征输入所述目标分支提取模块进行特征提取，得到所述对象语音，以及将所述融合语音特征和所述混合语音特征输入所述干扰分支提取模块进行特征提取，得到所述干扰语音。

23、在一些实施例，所述目标分支提取模块包括目标主干网络和目标掩码提取模块；所述将所述融合语音特征和所述混合语音特征输入所述目标分支提取模块进行特征提取，得到所述对象语音，包括：

24、将所述融合语音特征输入所述目标主干网络进行特征提取，得到潜在特征；

25、将所述潜在特征输入所述目标掩码提取模块进行特征提取，得到语音掩码；

26、利用所述语音掩码对所述混合语音特征进行掩码计算，得到对象语音特征，对所述对象语音特征进行解码，得到所述对象语音。

27、为实现上述目的，本申请实施例的第二方面提出了一种目标说话人语音提取结果纠错装置，包括：

28、语音获取模块：用于获取混合语音和目标对象的注册语音，所述混合语音至少包含所述目标对象的初始语音；

29、特征提取模块：用于将所述注册语音和所述混合语音输入预先训练好的双分支语音提取模型进行语音提取，得到干扰语音和对象语音；

30、纠错判断模块：用于根据所述注册语音、所述干扰语音和所述对象语音的声纹特征计算得到对象相似度和干扰相似度，并基于所述对象相似度和所述干扰相似度确定纠错标识；

31、语音纠错模块：用于如果所述纠错标识指示直接输出提取结果，将所述对象语音作为所述初始语音对应的目标语音，如果所述纠错标识指示对提取结果进行纠错，基于所述干扰语音或所述对象语音得到纠错语音，将所述纠错语音作为所述初始语音对应的目标语音。

32、为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

33、为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

34、本申请实施例提出的目标说话人语音提取结果纠错方法及相关装置，通过获取混合语音和目标对象的注册语音，其中，混合语音至少包含目标对象的初始语音。将注册语音和混合语音输入预先训练好的双分支语音提取模型进行语音提取，得到干扰语音和对象语音。根据注册语音、干扰语音和对象语音的声纹特征计算得到对象相似度和干扰相似度，并基于对象相似度和干扰相似度确定纠错标识。如果纠错标识指示直接输出提取结果，将对象语音作为初始语音对应的目标语音，如果纠错标识指示对提取结果进行纠错，基于干扰语音或对象语音得到纠错语音，将纠错语音作为初始语音对应的目标语音。本申请实施例通过双分支的语音编码过程进行目标说话人的语音提取，不仅从混合语音中识别对象语音，还同时识别干扰语音，通过对象语音和干扰语音之间的关联获取辅助信息，从而判断是否需要进行结果纠错，当本文档来自技高网...

【技术保护点】

1.一种目标说话人语音提取结果纠错方法，其特征在于，包括：

2.根据权利要求1所述的目标说话人语音提取结果纠错方法，其特征在于，所述根据所述注册语音、所述干扰语音和所述对象语音的声纹特征计算得到对象相似度和干扰相似度，包括：

3.根据权利要求1所述的目标说话人语音提取结果纠错方法，其特征在于，所述基于所述对象相似度和所述干扰相似度确定纠错标识，包括：

4.根据权利要求1所述的目标说话人语音提取结果纠错方法，其特征在于，所述基于所述干扰语音或所述对象语音得到纠错语音，包括：

5.根据权利要求4所述的目标说话人语音提取结果纠错方法，其特征在于，所述从所述新的对象语音或所述新的干扰语音中选取所述纠错语音，包括：

6.根据权利要求1所述的目标说话人语音提取结果纠错方法，其特征在于，所述双分支语音提取模型包括说话人编码器、混合语音编码器、融合模块、目标分支提取模块和干扰分支提取模块；所述将所述注册语音和所述混合语音输入预先训练好的双分支语音提取模型进行语音提取，得到干扰语音和对象语音，包括：

7.根据权利要求6所述的目

8.一种目标说话人语音提取结果纠错装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的目标说话人语音提取结果纠错方法。

10.一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的目标说话人语音提取结果纠错方法。

...

【技术特征摘要】

1.一种目标说话人语音提取结果纠错方法，其特征在于，包括：

3.根据权利要求1所述的目标说话人语音提取结果纠错方法，其特征在于，所述基于所述对象相似度和所述干扰相似度确定纠错标识，包括：

4.根据权利要求1所述的目标说话人语音提取结果纠错方法，其特征在于，所述基于所述干扰语音或所述对象语音得到纠错语音，包括：

5.根据权利要求4所述的目标说话人语音提取结果纠错方法，其特征在于，所述从所述新的对象语音或所述新的干扰语音中选取所述纠错语音，包括：

6.根据权利要求1所述的目标说话人语音提取结果纠错方法，其特征在于，所述双分支语音提取模型包括说话人编码器、混合语音编码器、融合模块、目标分支...

【专利技术属性】
技术研发人员：王帅，王嘉禾，李海洲，
申请(专利权)人：深圳市大数据研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人