System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于语音处理的方法、装置、设备、介质和程序产品制造方法及图纸_技高网

用于语音处理的方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:41976359 阅读:4 留言:0更新日期:2024-07-12 12:09
根据本公开的实施例,提供了用于语音处理的方法、装置、设备、介质和程序产品。该方法包括提取与目标说话人相关的多个参考语音的多个参考声纹特征;基于多个参考声纹特征确定目标说话人的目标声纹特征;提取目标语音的混淆声纹特征;以及基于混淆声纹特征与目标声纹特征的相似度,检测目标语音中属于目标说话人的语音部分。由此,在没有预存目标说话人的声纹特征的情况下,也能够确认目标语音中属于目标说话人的语音部分,应用场景更灵活。

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机领域,特别地涉及用于语音处理的方法、装置、设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、在很多场景中,例如在服务提供场景中,有时需要对现场的录音进行语音处理,以识别其中的说话人。准确的识别目标说话人在不同场景下均有意义。例如,在服务质量追踪场景中,通过从包含多人语音的语音文件中识别出目标说话人的语音,可以有助于快速定位问题、提升服务水平。当然,在其他场景中对特定说话人的识别结果也可以用于其他目的。


技术实现思路

1、在本公开的第一方面,提供了一种语音处理的方法。该方法包括:提取与目标说话人相关的多个参考语音的多个参考声纹特征;基于多个参考声纹特征确定目标说话人的目标声纹特征;提取目标语音的混淆声纹特征;以及基于混淆声纹特征与目标声纹特征的相似度,检测目标语音中属于目标说话人的语音部分。

2、在本公开的第二方面,提供了一种用于语音处理的装置。该装置包括:参考声纹特征提取模块,被配置为提取与目标说话人相关的多个参考语音的多个参考声纹特征;目标声纹特征确定模块,被配置为基于多个参考声纹特征确定目标说话人的目标声纹特征;混淆声纹特征提取模块,被配置为提取目标语音的混淆声纹特征;以及目标说话人语音确定模块,被配置为基于混淆声纹特征与目标声纹特征的相似度,检测目标语音中属于目标说话人的语音部分。

3、在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

4、在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。

5、在本公开的第五方面,提供了一种计算机程序产品。该计算机程序产品包括计算机可执行指令,计算机可执行指令在被处理器执行时实现第一方面的方法。

6、应当理解,本
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种语音处理的方法,包括:

2.根据权利要求1所述的方法,其中提取所述多个参考声纹特征包括:

3.根据权利要求1所述的方法,其中确定所述目标说话人的所述目标声纹特征包括:

4.根据权利要求3所述的方法,其中确定所述多个参考声纹特征各自是否满足所述段内声纹稳定性要求包括:对于所述多个参考声纹特征中的给定参考声纹特征,

5.根据权利要求3所述的方法,其中确定所述多个参考声纹特征各自是否满足所述段间声纹稳定性要求包括:

6.根据权利要求3所述的方法,其中所述多个参考语音包括在多个时间段内分别采集到的多组参考语音,每组参考语音包括所述多个参考语音中的两个或两个以上参考语音,并且所述方法还包括:

7.根据权利要求3所述的方法,其中确定所述目标说话人的所述目标声纹特征还包括:

8.根据权利要求1所述的方法,其中提取所述多个参考语音的所述多个参考声纹特征包括:

9.根据权利要求1所述的方法,其中所述混淆声纹特征包括与所述目标语音中的多个目标语音片段分别对应的多个混淆声纹特征,其中检测所述目标语音中属于所述目标说话人的语音部分包括:

10.根据权利要求1所述的方法,还包括:

11.根据权利要求10所述的方法,其中所述目标说话人包括在驾驶环境中的驾驶员,并且其中所述预定类别的说话人包括在所述驾驶环境中的乘客。

12.一种用于语音处理的装置,包括:

13.一种电子设备,包括:

14.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可由处理器执行以实现根据权利要求1至11中任一项所述的方法。

15.一种计算机程序产品,包括计算机可执行指令,其中所述计算机可执行指令在被处理器执行时实现根据权利要求1至11中任一项所述的方法。

...

【技术特征摘要】

1.一种语音处理的方法,包括:

2.根据权利要求1所述的方法,其中提取所述多个参考声纹特征包括:

3.根据权利要求1所述的方法,其中确定所述目标说话人的所述目标声纹特征包括:

4.根据权利要求3所述的方法,其中确定所述多个参考声纹特征各自是否满足所述段内声纹稳定性要求包括:对于所述多个参考声纹特征中的给定参考声纹特征,

5.根据权利要求3所述的方法,其中确定所述多个参考声纹特征各自是否满足所述段间声纹稳定性要求包括:

6.根据权利要求3所述的方法,其中所述多个参考语音包括在多个时间段内分别采集到的多组参考语音,每组参考语音包括所述多个参考语音中的两个或两个以上参考语音,并且所述方法还包括:

7.根据权利要求3所述的方法,其中确定所述目标说话人的所述目标声纹特征还包括:

8.根据权利要求1所述的方法,其中提取所述...

【专利技术属性】
技术研发人员:喻陈毅龚彩霞高永虎
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1