一种语音数据处理方法及装置制造方法及图纸

技术编号：24712289 阅读：29 留言：0更新日期：2020-07-01 00:36

本申请提供一种语音数据处理方法及装置，获取监控区域在第一时间段的第一语音数据和第一时间段的第一视频数据，若第一视频数据指示监控区域没有处于讲话状态的目标对象，至少根据第一语音数据，得到监控区域中辅助降噪处理的声音数据，获取监控区域在第二时间段的第二语音数据和第二时间段的第二视频数据，若第二视频数据指示监控区域有处于讲话状态的目标对象，根据声音数据对第二语音数据进行降噪处理。因为声音数据是根据监控区域没有处于讲话状态的目标对象时的第一语音数据得到，所以通过声音数据能够体现监控区域的噪声水平，提高噪声水平估计的准确度，通过该声音数据对第二语音数据进行降噪处理时可提高降噪效果以及语音数据的识别结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音数据处理方法及装置
本申请属于数据处理
，尤其涉及一种语音数据处理方法及装置。
技术介绍
自动语音识别技术(ASR，AutomaticSpeechRecognition)是一种将人的语音数据转换为文本的技术，但是在采集语音数据过程中会同时采集到其他声音数据(其他声音数据被称为噪声数据)，使得采集到的语音数据中掺杂有其他声音数据，因此在进行自动语音识别过程中需要对采集到的语音数据进行降噪处理，降噪处理中噪声估计的准确性会直接影响语音数据的降噪效果，进而影响ASR的识别结果。
技术实现思路
有鉴于此，本申请的目的在于提供一种语音数据处理方法及装置，用于提高降噪效果以及提高语音数据的识别结果。一方面，本申请提供一种语音数据处理方法，所述方法包括：获取监控区域在第一时间段的第一语音数据和所述监控区域在所述第一时间段的第一视频数据；若所述第一视频数据指示所述监控区域没有处于讲话状态的目标对象，至少根据所述第一语音数据，得到所述监控区域中辅助降噪处理的声音数据；获取所述监控区域在第二时间段的第二语音数据和所述监控区域在所述第二时间段的第二视频数据；若所述第二视频数据指示所述监控区域有处于讲话状态的目标对象，根据所述声音数据，对所述第二语音数据进行降噪处理。可选的，所述至少根据所述第一语音数据，得到所述监控区域中辅助降噪处理的声音数据包括：获取所述第一语音数据对应的频率数据，所述频率数据包括所述第一语音数据中不同时间点的语音数据对应的频率；<...

【技术保护点】
1.一种语音数据处理方法，所述方法包括：/n获取监控区域在第一时间段的第一语音数据和所述监控区域在所述第一时间段的第一视频数据；/n若所述第一视频数据指示所述监控区域没有处于讲话状态的目标对象，至少根据所述第一语音数据，得到所述监控区域中辅助降噪处理的声音数据；/n获取所述监控区域在第二时间段的第二语音数据和所述监控区域在所述第二时间段的第二视频数据；/n若所述第二视频数据指示所述监控区域有处于讲话状态的目标对象，根据所述声音数据，对所述第二语音数据进行降噪处理。/n

【技术特征摘要】
1.一种语音数据处理方法，所述方法包括：
获取监控区域在第一时间段的第一语音数据和所述监控区域在所述第一时间段的第一视频数据；
若所述第一视频数据指示所述监控区域没有处于讲话状态的目标对象，至少根据所述第一语音数据，得到所述监控区域中辅助降噪处理的声音数据；
获取所述监控区域在第二时间段的第二语音数据和所述监控区域在所述第二时间段的第二视频数据；
若所述第二视频数据指示所述监控区域有处于讲话状态的目标对象，根据所述声音数据，对所述第二语音数据进行降噪处理。

2.根据权利要求1所述的方法，所述至少根据所述第一语音数据，得到所述监控区域中辅助降噪处理的声音数据包括：
获取所述第一语音数据对应的频率数据，所述频率数据包括所述第一语音数据中不同时间点的语音数据对应的频率；
若所述频率数据指示所述不同时间点的语音数据对应的频率之间的差值小于或等于预设频率，确定所述监控区域的声音类型为平稳声音类型；
若所述频率数据指示所述不同时间点的语音数据对应的频率之间的差值大于所述预设频率，确定所述监控区域的声音类型为非平稳声音类型。

3.根据权利要求1所述的方法，所述至少根据所述第一语音数据，得到所述监控区域中辅助降噪处理的声音数据包括：
根据所述第一语音数据和所述第一视频数据，得到所述监控区域中辅助降噪处理的声音数据。

4.根据权利要求3所述的方法，所述根据所述第一语音数据和所述第一视频数据，得到所述监控区域中辅助降噪处理的声音数据包括：
获取所述第一语音数据对应的频率数据，所述频率数据包括所述第一语音数据中不同时间点的语音数据对应的频率；
获取所述第一视频数据中不同时间点的图像数据；
若所述频率数据指示所述不同时间点的语音数据对应的频率之间的差值小于或等于预设频率，且所述不同时间点的图像数据指示不同时间点的图像相接近，确定所述监控区域的声音类型为平稳声音类型；
若所述频率数据指示所述不同时间点的语音数据对应的频率之间的差值大于所述预设频率或者不同时间点的图像数据指示不同时间点的图像不接近，确定所述监控区域的声音类型为非平稳声音类型；
若所述监控区域的声音类型为非平稳声音类型，根据所述第一视频数据，获取所述监控区域中的声源位置；
获取所述声源位置处的语音数据，根据所述声源位置处的语音数据，得到所述监控区域的声音参数。

5.根据权利要求1所述的方法，所述根据所述声音数据，对所述第二语音数据进行降噪处理包括：
若所述第一语音数据指示所述监控区域中的声音平稳，利用第一降噪算法和所述声音数据对所述第二语音数据进行降噪处理；
若所述第一语音数据指示所述监控区域中的声音不平稳，根据所述第二视频数据，从所述第二语音数据中获取所述目标对象的语音数据；
利用第二降噪算法和所述声音数据对所述目标对象的语音数据进行降噪处理，所述第一降噪算法的复杂度小于所述第二降噪算法的复杂度。

6.根据权利要求1所述的方法，所述方法还包括：若所述第二视频数据指示所述监控区域没有处于讲话状态的目标对象，且所述第二时间段晚于所述第一时间段，至少根据所述第二语音数据，得到所述监控区域中辅助降噪处理的声音数据，以替换根据所述第一语音数据得到的声音数据。

7.一种语音...

【专利技术属性】
技术研发人员：张银平，汪俊杰，杨琳，徐培来，王旭阳，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人