一种语音数据的处理方法、装置及电子设备制造方法及图纸

技术编号：29159934 阅读：37 留言：0更新日期：2021-07-06 23:00

本发明专利技术公开了一种语音数据的处理方法、装置及电子设备，该方法包括：对语音数据进行噪音检测并将检测出的目标时频单元置零，获得目标语音数据，所述目标时频单元上噪声能量大于原始语音能量；根据所述目标时频单元的语音上下文，对所述目标语音数据进行语音补全和语音增强，获得所述语音数据中的原始语音。通过去除噪声主导的目标时频单元之后不仅降低了语音增强的难度，还避免了这部分时频单元对语音增强的副作用，使整个语谱上原始语音占据主导，数据的分布趋于稳定一致，由此进行语音补全和语音增强，大大提高了语音增强的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音数据的处理方法、装置及电子设备
本专利技术涉及软件
，特别涉及一种语音数据的处理方法、装置及电子设备。
技术介绍
语音增强speechenhancement是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。在语音通信中应用特别广泛，例如在汽车、火车上打电话时，由于环境噪声较多为了提高通话质量通常需要对通话进行语音增强。现有的语音增强对于低信噪比场景下的纯净原始语音提取非常困难。低信噪比意味着有效语音在带噪声的语音中占比较小，甚至语音已经被噪声完全覆盖，想要从中提取纯净原始语音一般的滤波器无法实现，基于深度学习的模型理论上可以实现，但难度非常大。低信噪比的语音增强难度主要体现在数据分布、数据映射空间的改变，这使得神经网络的学习难度加大，所需的网络容量也加大，网络也不易收敛，所以亟需一种新的方法来进行原始语音提取，降低语音增强的难度。
技术实现思路
本专利技术实施例提供一种语音数据的处理方法、装置及电子设备，用于降低语音增强的难度，提高语音增强的质量。第一方面，本专利技术实施例提供一种语音数据的处理方法，包括：对语音数据进行噪音检测并将检测出的目标时频单元置零，获得目标语音数据，所述目标时频单元上噪声能量大于原始语音能量；根据所述目标时频单元的语音上下文，对所述目标语音数据进行语音补全和语音增强，获得所述语音数据中的原始语音。可选的，对语音数据进行噪音检测并将检测出的目标时频单元置零，包括：<...

【技术保护点】
1.一种语音数据的处理方法，其特征在于，包括：/n对语音数据进行噪音检测并将检测出的目标时频单元置零，获得目标语音数据，所述目标时频单元上噪声能量大于原始语音能量；/n根据所述目标时频单元的语音上下文，对所述目标语音数据进行语音补全和语音增强，获得所述语音数据中的原始语音。/n

【技术特征摘要】
1.一种语音数据的处理方法，其特征在于，包括：
对语音数据进行噪音检测并将检测出的目标时频单元置零，获得目标语音数据，所述目标时频单元上噪声能量大于原始语音能量；
根据所述目标时频单元的语音上下文，对所述目标语音数据进行语音补全和语音增强，获得所述语音数据中的原始语音。

2.如权利要求1所述的方法，其特征在于，对语音数据进行噪音检测并将检测出的目标时频单元置零，包括：
通过预先训练好的理想二值掩蔽网络对所述语音数据进行噪音检测并将所述目标时频单元置零，获得所述目标语音数据。

3.如权利要求2所述的方法，其特征在于，在获得所述目标语音数据之后，所述方法还包括：
判断所述目标语音数据中连续为零的时频单元与所述语音数据中总的时频单元之间的比值是否小于设定阈值；
若所述连续为零的时频单元与所述总的时频单元之间的比值小于设定阈值，执行所述对所述目标语音数据进行语音补全和语音增强的操作，以获得所述原始语音。

4.如权利要求1所述的方法，其特征在于，根据所述目标时频单元的语音上下文，对所述目标语音进行语音补全和语音增强，获得所述语音数据中的原始语音，包括：
基于深度卷积神经网络的语谱生成模型捕捉所述语音上下文，并根据所述语音上下文对所述目标语音数据频域上的所述目标时频单元进行语音补全；
对所述目标语音数据中包含弱平稳噪声的时频单元进行语音增强，获取所述语音补全和所述语音增强后的数据作为所述原始语音，其中，所述弱平稳噪声为能量小于原始语音能量的噪声。

5.一种语音数据的处理装置，其特征在于，包括：
检测单元，用于对语音数据进行噪音检测并将检测出的目标时频单元置零，获得目标语音数据，所述目标时频单...

【专利技术属性】
技术研发人员：文仕学，郝翔，潘逸倩，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人