语音端点检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号：29926671 阅读：19 留言：0更新日期：2021-09-04 18:48

本公开公开了语音端点检测方法、装置、电子设备及存储介质，涉及深度学习以及智能语音等人工智能领域，其中的方法可包括：获取时间对齐的语音数据及视频数据；利用训练得到的语音检测模型，对语音数据进行语音起点和语音尾点的第一检测；对视频数据进行唇动起点和唇动尾点的第二检测；利用第二检测结果对第一检测结果进行修正，将修正后的结果作为语音端点检测结果。应用本公开所述方案，可提升语音端点检测结果的准确性等。检测结果的准确性等。检测结果的准确性等。

全部详细技术资料下载

【技术实现步骤摘要】
语音端点检测方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能
，特别涉及深度学习以及智能语音等领域的语音端点检测方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来，人机交互类产品的应用越来越普及，比如，在银行大厅、百货商场以及医院等场合，经常能够看到人机交互类产品。
[0003]为进行准确的语音交互，通常需要对采集的语音数据进行语音端点检测(VAD，Voice Activity Detection)，语音端点检测结果的准确性会直接影响到人机交互的成功率等。
[0004]目前，通常采用训练得到的语音检测模型来对语音数据进行语音端点检测，即进行语音起点和语音尾点的检测。但这种方式在复杂噪音环境下，尤其是当噪音为周围人声(背景人声)的情况下，检测效果通常较差，即检测结果的准确性不高。

技术实现思路

[0005]本公开提供了语音端点检测方法、装置、电子设备及存储介质。
[0006]一种语音端点检测方法，包括：
[0007]获取时间对齐的语音数据及视频数据；
[0008]利用训练得到的语音检测模型，对所述语音数据进行语音起点和语音尾点的第一检测；
[0009]对所述视频数据进行唇动起点和唇动尾点的第二检测；
[0010]利用第二检测结果对第一检测结果进行修正，将修正后的结果作为语音端点检测结果。
[0011]一种语音端点检测装置，包括：获取模块、第一检测模块、第二检测模块以及修正模块；
[0012]所述获取模...

【技术保护点】

【技术特征摘要】
1.一种语音端点检测方法，包括：获取时间对齐的语音数据及视频数据；利用训练得到的语音检测模型，对所述语音数据进行语音起点和语音尾点的第一检测；对所述视频数据进行唇动起点和唇动尾点的第二检测；利用第二检测结果对第一检测结果进行修正，将修正后的结果作为语音端点检测结果。2.根据权利要求1所述的方法，其中，所述对所述视频数据进行唇动起点和唇动尾点的第二检测包括：利用训练得到的唇动检测模型，对所述视频数据进行所述第二检测，得到视频中的人脸的唇动起点和唇动尾点。3.根据权利要求1所述的方法，其中，所述利用第二检测结果对第一检测结果进行修正包括：当语音检测状态为有语音状态且唇动检测状态为无唇动状态时，若检测到唇动起点，且符合预定的时间要求，则将检测到的唇动起点作为确定出的语音尾点以及新的语音起点；其中，所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态，所述无唇动状态为有唇动状态之外的时间所处的状态，所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。4.根据权利要求3所述的方法，其中，所述符合预定的时间要求包括：检测到唇动起点的时间与最近一次检测到语音起点的时间之间的差值大于预定阈值。5.根据权利要求1所述的方法，其中，所述利用第二检测结果对第一检测结果进行修正包括：当语音检测状态为有语音状态且唇动检测状态为有唇动状态时，若检测到唇动尾点，则将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点；其中，所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态，所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。6.根据权利要求1～5中任一项所述的方法，还包括：若确定视频中的人脸的唇部未被遮挡，则对所述视频数据进行所述第二检测。7.一种语音端点检测装置，包括：获取模块、第一检测模块、第二检测模块以及修正模块；所述获取模块，用于获取时间对齐的语音数据及视频数据；所述第一检测模块，用于利用训练得到的语音检测模型，对所述语音数据进行语音起点和语音尾点的第一检测；所述第二检测模块，用于对所述视频数据进行唇动起点和唇动尾点的第二检测；所述修正模块，用于...

【专利技术属性】
技术研发人员：郭启行，徐仁新，戴宁，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人