本发明专利技术公开了一种语音数据的处理方法、装置及电子设备,该方法包括:对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;根据所述目标时频单元的语音上下文,对所述目标语音数据进行语音补全和语音增强,获得所述语音数据中的原始语音。通过去除噪声主导的目标时频单元之后不仅降低了语音增强的难度,还避免了这部分时频单元对语音增强的副作用,使整个语谱上原始语音占据主导,数据的分布趋于稳定一致,由此进行语音补全和语音增强,大大提高了语音增强的质量。
【技术实现步骤摘要】
一种语音数据的处理方法、装置及电子设备
本专利技术涉及软件
,特别涉及一种语音数据的处理方法、装置及电子设备。
技术介绍
语音增强speechenhancement是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。在语音通信中应用特别广泛,例如在汽车、火车上打电话时,由于环境噪声较多为了提高通话质量通常需要对通话进行语音增强。现有的语音增强对于低信噪比场景下的纯净原始语音提取非常困难。低信噪比意味着有效语音在带噪声的语音中占比较小,甚至语音已经被噪声完全覆盖,想要从中提取纯净原始语音一般的滤波器无法实现,基于深度学习的模型理论上可以实现,但难度非常大。低信噪比的语音增强难度主要体现在数据分布、数据映射空间的改变,这使得神经网络的学习难度加大,所需的网络容量也加大,网络也不易收敛,所以亟需一种新的方法来进行原始语音提取,降低语音增强的难度。
技术实现思路
本专利技术实施例提供一种语音数据的处理方法、装置及电子设备,用于降低语音增强的难度,提高语音增强的质量。第一方面,本专利技术实施例提供一种语音数据的处理方法,包括:对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;根据所述目标时频单元的语音上下文,对所述目标语音数据进行语音补全和语音增强,获得所述语音数据中的原始语音。可选的,对语音数据进行噪音检测并将检测出的目标时频单元置零,包括:<br>通过预先训练好的理想二值掩蔽网络对所述语音数据进行噪音检测并将所述目标时频单元置零,获得所述目标语音数据。可选的,在获得所述目标语音数据之后,所述方法还包括:判断所述目标语音数据中连续为零的时频单元与所述语音数据中总的时频单元之间的比值是否小于设定阈值;若所述连续为零的时频单元与所述总的时频单元之间的比值小于设定阈值,执行所述对所述目标语音数据进行语音补全和语音增强的操作,以获得所述原始语音。可选的,根据所述目标时频单元的语音上下文,对所述目标语音进行语音补全和语音增强,获得所述语音数据中的原始语音,包括:基于深度卷积神经网络的语谱生成模型捕捉所述语音上下文,并根据所述语音上下文对所述目标语音数据频域上的所述目标时频单元进行语音补全;对所述目标语音数据中包含弱平稳噪声的时频单元进行语音增强,获取所述语音补全和所述语音增强后的数据作为所述原始语音,其中,所述弱平稳噪声为能量小于原始语音能量的噪声。第二方面,本专利技术实施例提供一种语音数据的处理装置,包括:检测单元,用于对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;恢复单元,用于根据所述目标时频单元的语音上下文,对所述目标语音数据进行语音补全和语音增强,获得所述语音数据中的原始语音。可选的,所述检测单元用于:通过预先训练好的理想二值掩蔽网络对所述语音数据进行噪音检测并将所述目标时频单元置零,获得所述目标语音数据。可选的,所述装置还包括:判断单元,用于在获得所述目标语音数据之后,判断所述目标语音数据中连续为零的时频单元与所述语音数据中总的时频单元之间的比值是否小于设定阈值;若所述连续为零的时频单元与所述总的时频单元之间的比值小于设定阈值,执行所述对所述目标语音数据进行语音补全和语音增强的操作,以获得所述原始语音。可选的,所述恢复单元用于:基于深度卷积神经网络的语谱生成模型捕捉所述语音上下文,并根据所述语音上下文对所述目标语音数据频域上的所述目标时频单元进行语音补全;对所述目标语音数据中包含弱平稳噪声的时频单元进行语音增强,获取所述语音补全和所述语音增强后的数据作为所述原始语音,其中,所述弱平稳噪声为能量小于原始语音能量的噪声。第三方面,本专利技术实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如第一方面所述方法对应的操作指令。第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,可选的,该程序被处理器执行时实现如第一方面所述方法对应的步骤。本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:本申请实施例提供一种语音数据的处理方法,通过对语音数据进行噪音检测并将语音数据中噪声能量大于原始语音能量的目标时频单元置零,获得目标语音数据;再根据目标时频单元的语音上下文,对目标语音进行语音补全和语音增强,进而获得语音数据中的原始语音。噪声能量大于原始语音能量的目标时频单元可能是低信噪比语音,也可能是突然出现噪声或者是语音增强训练集中不存在的噪声,将目标时频单元置零以去除这部分数据,不仅降低了语音增强的难度,还避免了这部分时频单元对语音增强的副作用,使整个语谱上原始语音占据主导,数据的分布趋于稳定一致,由此进行语音补全和语音增强,大大提高了语音增强的质量。附图说明图1为本申请实施例提供的一种语音数据的处理方法的流程示意图;图2为本申请实施例提供的一种语音数据的处理装置的方框图;图3为本申请实施例提供的一种电子设备的结构示意图。具体实施方式在本申请实施例提供的技术方案中,提供一种语音数据的处理方法,通过先将被噪声完全覆盖的时频单元置零,然后进行语音补全和语音增强,以降低语音增强的难度,提高语音增强的质量。下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。实施例请参考图1,本申请实施例提供一种语音数据的处理方法,该方法包括:S10、对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;S12、根据所述目标时频单元的语音上下文,对所述目标语音进行语音补全和语音增强,获得所述语音数据中的原始语音。其中,目标时频单元的语音上下文是指语音数据中与目标时频单元相邻的非零时频单元,或者与目标视频单元相邻且信噪比大于设定阈值的时频单元。语音上下文中包含的原始语音清楚,可用于预测目标时频单元中的原始语音。在具体实施过程中,待提纯的语音数据通常由噪声和原始语音组成,其时频单元(Time-frequencyunit)中可能包含噪声能量大于原始语音能量的目标时频单元,即频域中被噪声完全覆盖的时频点,直接对该部分进行语音增强非常困难,其语音增强获得的原始语音质量也非常差,本实施例跳出常规思路,对语音数据执行S10对语音数据进行噪音检测并将语音数据中包含的目标时频单元置零,以去除目标时频单元。目标时频单元对于语音增强任务而言起了副作用,它们不仅不能为语音增强提供有用的信息,反而还会影响数据的分布,目标视频单元中的噪声可本文档来自技高网...
【技术保护点】
1.一种语音数据的处理方法,其特征在于,包括:/n对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;/n根据所述目标时频单元的语音上下文,对所述目标语音数据进行语音补全和语音增强,获得所述语音数据中的原始语音。/n
【技术特征摘要】
1.一种语音数据的处理方法,其特征在于,包括:
对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单元上噪声能量大于原始语音能量;
根据所述目标时频单元的语音上下文,对所述目标语音数据进行语音补全和语音增强,获得所述语音数据中的原始语音。
2.如权利要求1所述的方法,其特征在于,对语音数据进行噪音检测并将检测出的目标时频单元置零,包括:
通过预先训练好的理想二值掩蔽网络对所述语音数据进行噪音检测并将所述目标时频单元置零,获得所述目标语音数据。
3.如权利要求2所述的方法,其特征在于,在获得所述目标语音数据之后,所述方法还包括:
判断所述目标语音数据中连续为零的时频单元与所述语音数据中总的时频单元之间的比值是否小于设定阈值;
若所述连续为零的时频单元与所述总的时频单元之间的比值小于设定阈值,执行所述对所述目标语音数据进行语音补全和语音增强的操作,以获得所述原始语音。
4.如权利要求1所述的方法,其特征在于,根据所述目标时频单元的语音上下文,对所述目标语音进行语音补全和语音增强,获得所述语音数据中的原始语音,包括:
基于深度卷积神经网络的语谱生成模型捕捉所述语音上下文,并根据所述语音上下文对所述目标语音数据频域上的所述目标时频单元进行语音补全;
对所述目标语音数据中包含弱平稳噪声的时频单元进行语音增强,获取所述语音补全和所述语音增强后的数据作为所述原始语音,其中,所述弱平稳噪声为能量小于原始语音能量的噪声。
5.一种语音数据的处理装置,其特征在于,包括:
检测单元,用于对语音数据进行噪音检测并将检测出的目标时频单元置零,获得目标语音数据,所述目标时频单...
【专利技术属性】
技术研发人员:文仕学,郝翔,潘逸倩,
申请(专利权)人:北京搜狗科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。