一种音频处理的方法、装置、可读存储介质和电子设备制造方法及图纸

技术编号:27841508 阅读:20 留言:0更新日期:2021-03-30 12:29
本发明专利技术实施例公开了一种音频处理的方法、装置、可读存储介质和电子设备。本发明专利技术实施例通过获取设定时长的第一音频;将所述第一音频输入到预先训练的音频检测模型,确定所述第一音频中的包括的至少一种语音类型,并确定所述至少一种语音类型中至少一种候选语音类型,其中,所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项;在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流;根据所述至少一个音频流确定第二音频。通过上述方法,可以将目标语音对应的音频流从第一音频中分离出来,消除了非目标语音、干扰语音或背景噪声对目标语音的干扰。对目标语音的干扰。对目标语音的干扰。

【技术实现步骤摘要】
一种音频处理的方法、装置、可读存储介质和电子设备


[0001]本专利技术涉及音频处理领域,具体涉及一种音频处理的方法、装置、可读存储介质和电子设备。

技术介绍

[0002]随着直播行业的兴起,各行各业都采用直播的方式对自身进行介绍,让用户对其有更深入的了解,或者,通过直播的方式进行新闻的即时传播等等,直播越来越深入到人们生活中的方方面面。在直播场景中会存在各种各样的噪声,对主要的说话人(也可以称为主播)的声音进行干扰,影响直播的效果。
[0003]现有技术中,为了消除直播场景中的噪声干扰,可以通过对直播间的声场进行设计,降低噪声,但是对直播间的声场设计花费成本较大,且无法将非目标语音消除;还可以通过麦克风阵列降噪,但麦克风阵列也很难把非目标语音消除,且当声源距离过近时,麦克风阵列很难进行声源分离。
[0004]综上所述,如何较好的消除非目标语音,是目前需要解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种音频处理的方法、装置、可读存储介质和电子设备,消除了非目标语音和干扰语音,降低了非目标语音和干扰语音对目标语音的影响。
[0006]第一方面,本专利技术实施例提供了一种音频处理的方法,该方法包括:获取设定时长的第一音频;将所述第一音频输入到预先训练的音频检测模型,确定所述第一音频中的包括的至少一种语音类型,并确定所述至少一种语音类型中至少一种候选语音类型,其中,所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项;在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流;根据所述至少一个音频流确定第二音频。
[0007]优选地,如权利要求1所述的方法,其特征在于,响应于所述音频流为N个,N为大于或等于2的正整数,所述根据所述至少一个音频流确定第二音频,具体包括:
[0008]根据所述N个音频流进行确定所述第二音频。
[0009]优选地,所述音频检测模型为声纹识别模型、语音活动检测模型以及语音事件检测模型的融合识别模型。
[0010]优选地,所述确定所述至少一种语音类型中至少一种候选语音类型,具体包括:
[0011]根据预先训练的分发模型,在所述至少一种语音类型中确定至少一种候选语音类型。
[0012]优选地,所述确定所述至少一种语音类型中至少一种候选语音类型,具体包括:
[0013]根据预先设定的规则,在所述至少一种语音类型中确定至少一种候选语音类型。
[0014]优选地,响应于所述候选语音类型为目标语音和背景噪音,所述根据所述N个音频流进行确定所述第二音频,具体包括:
[0015]将所述目标语音和背景噪音进行合成,生成所述第二音频。
[0016]优选地,所述音频处理模型为神经网络模型,用于对所述第一音频进行分流。
[0017]优选地,所述在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流,具体包括:
[0018]将所述音频检测模型中通过声纹识别模型生成的目标语音保存到特定说话人模型中,其中,所述特定说话人模型中还预先保存了多种非目标语音和干扰语音;
[0019]将所述特定说话人模型、所述第一音频以及所述候选语音类型输入到音频处理模型中,对第一音频进行分流,确定的所述候选语音类型对应的至少一个音频流。
[0020]优选地,所述目标语音为目标人或目标物体发出的声音,所述非目标语音为非目标人或非目标物体发出的声音,所述干扰语音为动物叫声,所述背景噪声为平稳噪声。
[0021]第二方面,本专利技术实施例提供了一种音频处理的装置,该装置包括:
[0022]获取单元,用于获取设定时长的第一音频;
[0023]确定单元,用于将所述第一音频输入到预先训练的音频检测模型,确定所述第一音频中的包括的至少一种语音类型,并确定所述至少一种语音类型中至少一种候选语音类型,其中,所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项;
[0024]处理单元,用于在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流;
[0025]生成单元,用于根据所述至少一个音频流确定第二音频。
[0026]优选地,所述生成单元具体用于:
[0027]根据所述N个音频流进行确定所述第二音频。
[0028]优选地,所述音频检测模型为声纹识别模型、语音活动检测模型以及语音事件检测模型的融合识别模型。
[0029]所述确定单元具体用于:
[0030]根据预先训练的分发模型,在所述至少一种语音类型中确定至少一种候选语音类型。
[0031]所述确定单元具体还用于:
[0032]根据预先设定的规则,在所述至少一种语音类型中确定至少一种候选语音类型。
[0033]优选地,所述生成单元具体用于:
[0034]将所述目标语音和背景噪音进行合成,生成所述第二音频。
[0035]优选地,所述音频处理模型为神经网络模型,用于对所述第一音频进行分流。
[0036]优选地,所述处理单元具体用于:将所述音频检测模型中通过声纹识别模型生成的目标语音保存到特定说话人模型中,其中,所述特定说话人模型中还预先保存了多种非目标语音和干扰语音;
[0037]将所述特定说话人模型、所述第一音频以及所述候选语音类型输入到音频处理模型中,对第一音频进行分流,确定的所述候选语音类型对应的至少一个音频流。
[0038]优选地,所述目标语音为目标人或目标物体发出的声音,所述非目标语音为非目标人或非目标物体发出的声音,所述干扰语音为动物叫声,所述背景噪声为平稳噪声。
[0039]第三方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任
一项所述的方法。
[0040]第四方面,本专利技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。
[0041]本专利技术实施例通过获取设定时长的第一音频;将所述第一音频输入到预先训练的音频检测模型,确定所述第一音频中的包括的至少一种语音类型,并确定所述至少一种语音类型中至少一种候选语音类型,其中,所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项;在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流;根据所述至少一个音频流确定第二音频。通过上述方法,可以将目标语音对应的音频流从第一音频中分离出来,消除了非目标语音、干扰语音或背景噪声对目标语音的干扰。
附图说明
[0042]通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:
...

【技术保护点】

【技术特征摘要】
1.一种音频处理的方法,其特征在于,该方法包括:获取设定时长的第一音频;将所述第一音频输入到预先训练的音频检测模型,确定所述第一音频中的包括的至少一种语音类型,并确定所述至少一种语音类型中至少一种候选语音类型,其中,所述语音类型包括目标语音、非目标语音、干扰语音或背景噪声中的至少一项;在所述第一音频中通过预先训练的音频处理模型分离所述候选语音类型对应的至少一个音频流;根据所述至少一个音频流确定第二音频。2.如权利要求1所述的方法,其特征在于,响应于所述音频流为N个,N为大于或等于2的正整数,所述根据所述至少一个音频流确定第二音频,具体包括:根据所述N个音频流进行确定所述第二音频。3.如权利要求1所述的方法,其特征在于,所述音频检测模型为声纹识别模型、语音活动检测模型以及语音事件检测模型的融合识别模型。4.如权利要求1所述的方法,其特征在于,所述确定所述至少一种语音类型中至少一种候选语音类型,具体包括:根据预先训练的分发模型,在所述至少一种语音类型中确定至少一种候选语音类型。5.如权利要求1所述的方法,其特征在于,所述确定所述至少一种语音类型中至少一种候选语音类型,具体包括:根据预先设定的规则,在所述至少一种语音类型中确定至少一种候选语音类型。6.如权利要求2所述的方法,其特征在于,响应于所述候选语音类型为目标语音和背景噪音,所述根据所述N个音频流进行确定所述第二音频,具体包括:将所述目标语音和背景噪音进行合成,生成所述第二音频。7.如权利要求1所述的方法,其特征在于,所述音频处理模型为神经网络模型,用于对所述第一音频进行分流。8.如权利要求1所述的方法,其特征在于,所述在所述第一音频中...

【专利技术属性】
技术研发人员:徐培来陈昌儒
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1