语音端点检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29926671 阅读:19 留言:0更新日期:2021-09-04 18:48
本公开公开了语音端点检测方法、装置、电子设备及存储介质,涉及深度学习以及智能语音等人工智能领域,其中的方法可包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测;对视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。应用本公开所述方案,可提升语音端点检测结果的准确性等。检测结果的准确性等。检测结果的准确性等。

【技术实现步骤摘要】
语音端点检测方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,特别涉及深度学习以及智能语音等领域的语音端点检测方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,人机交互类产品的应用越来越普及,比如,在银行大厅、百货商场以及医院等场合,经常能够看到人机交互类产品。
[0003]为进行准确的语音交互,通常需要对采集的语音数据进行语音端点检测(VAD,Voice Activity Detection),语音端点检测结果的准确性会直接影响到人机交互的成功率等。
[0004]目前,通常采用训练得到的语音检测模型来对语音数据进行语音端点检测,即进行语音起点和语音尾点的检测。但这种方式在复杂噪音环境下,尤其是当噪音为周围人声(背景人声)的情况下,检测效果通常较差,即检测结果的准确性不高。

技术实现思路

[0005]本公开提供了语音端点检测方法、装置、电子设备及存储介质。
[0006]一种语音端点检测方法,包括:
[0007]获取时间对齐的语音数据及视频数据;
[0008]利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;
[0009]对所述视频数据进行唇动起点和唇动尾点的第二检测;
[0010]利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
[0011]一种语音端点检测装置,包括:获取模块、第一检测模块、第二检测模块以及修正模块;
[0012]所述获取模块,用于获取时间对齐的语音数据及视频数据;
[0013]所述第一检测模块,用于利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;
[0014]所述第二检测模块,用于对所述视频数据进行唇动起点和唇动尾点的第二检测;
[0015]所述修正模块,用于利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
[0016]一种电子设备,包括:
[0017]至少一个处理器;以及
[0018]与所述至少一个处理器通信连接的存储器;其中,
[0019]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
[0020]一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
[0021]一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
[0022]上述公开中的一个实施例具有如下优点或有益效果:结合了语音检测模型以及唇动检测技术,利用唇动检测结果来对语音检测模型检测到的语音起点和语音尾点进行修正,从而提升了语音端点检测结果的准确性等。
[0023]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0024]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0025]图1为本公开所述语音端点检测方法实施例的流程图;
[0026]图2为本公开所述第一检测对应的各关键点的位置示意图;
[0027]图3为对应于图2所示各关键点的位置示意图;
[0028]图4为本公开所述有语音状态和无语音状态的转换方式示意图;
[0029]图5为本公开所述有唇动状态和无唇动状态的转换方式示意图;
[0030]图6为本公开所述语音端点检测方法的整体实现过程示意图;
[0031]图7为本公开所述语音端点检测装置实施例700的组成结构示意图;
[0032]图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。
具体实施方式
[0033]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0034]另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0035]图1为本公开所述语音端点检测方法实施例的流程图。如图1所示,包括以下具体实现方式。
[0036]在步骤101中,获取时间对齐的语音数据及视频数据。
[0037]在步骤102中,利用训练得到的语音检测模型,对语音数据进行语音起点(vad_begin)和语音尾点(vad_end)的第一检测。
[0038]在步骤103中,对视频数据进行唇动起点(lip_begin)和唇动尾点(lip_end)的第二检测。
[0039]在步骤104中,利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。
[0040]可以看出,上述方法实施例所述方案中,结合了语音检测模型以及唇动检测技术,
利用唇动检测结果来对语音检测模型检测到的语音起点和语音尾点进行修正,从而提升了语音端点检测结果的准确性等。
[0041]在实际应用中,可利用带有摄像装置(如摄像头)的人机交互产品,针对相同场景分别采集语音数据和视频数据,比如,用户a在与人机交互产品进行语音对话时,可分别采集用户a的语音数据以及视频数据。
[0042]对于采集到的语音数据和视频数据,可从时间上将其对齐。并且,针对语音数据和视频数据,可分别进行不同的处理,其中,可利用训练得到的语音检测模型,对语音数据进行语音起点和语音尾点的第一检测,对视频数据进行唇动起点和唇动尾点的第二检测。
[0043]如何进行第一检测为现有技术。图2为本公开所述第一检测对应的各关键点的位置示意图。
[0044]如图2所示,其中的21表示语音起点,22表示真正的语音起点(speech_begin),23表示真正的语音尾点(speech_end),24表示语音尾点,25表示检测到语音起点的时间/时刻(T_vad_begin_detected),26表示检测到语音尾点的时间(T_vad_end_detected),语音起点和语音尾点表示利用语音检测模型检测到的语音起点和语音尾点,相比于真正的语音起点,检测到的语音起点通常会早300~500ms,若大于该值,引入的无效语音就会越多,从而使得交互延迟变大等,相比于真正的语音尾点,检测到的语音尾点通常会晚600~800ms,若小于该值,会容易导致误判,造成提前截断,若大于该值,会造成无效语音增多,使得交互延迟变大等。
[0045]如图2所示,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音端点检测方法,包括:获取时间对齐的语音数据及视频数据;利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;对所述视频数据进行唇动起点和唇动尾点的第二检测;利用第二检测结果对第一检测结果进行修正,将修正后的结果作为语音端点检测结果。2.根据权利要求1所述的方法,其中,所述对所述视频数据进行唇动起点和唇动尾点的第二检测包括:利用训练得到的唇动检测模型,对所述视频数据进行所述第二检测,得到视频中的人脸的唇动起点和唇动尾点。3.根据权利要求1所述的方法,其中,所述利用第二检测结果对第一检测结果进行修正包括:当语音检测状态为有语音状态且唇动检测状态为无唇动状态时,若检测到唇动起点,且符合预定的时间要求,则将检测到的唇动起点作为确定出的语音尾点以及新的语音起点;其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述无唇动状态为有唇动状态之外的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。4.根据权利要求3所述的方法,其中,所述符合预定的时间要求包括:检测到唇动起点的时间与最近一次检测到语音起点的时间之间的差值大于预定阈值。5.根据权利要求1所述的方法,其中,所述利用第二检测结果对第一检测结果进行修正包括:当语音检测状态为有语音状态且唇动检测状态为有唇动状态时,若检测到唇动尾点,则将检测到的唇动尾点作为确定出的语音尾点以及新的语音起点;其中,所述有语音状态为检测到语音起点之后到检测到对应的语音尾点之前的时间所处的状态,所述有唇动状态为检测到唇动起点之后到检测到对应的唇动尾点之前的时间所处的状态。6.根据权利要求1~5中任一项所述的方法,还包括:若确定视频中的人脸的唇部未被遮挡,则对所述视频数据进行所述第二检测。7.一种语音端点检测装置,包括:获取模块、第一检测模块、第二检测模块以及修正模块;所述获取模块,用于获取时间对齐的语音数据及视频数据;所述第一检测模块,用于利用训练得到的语音检测模型,对所述语音数据进行语音起点和语音尾点的第一检测;所述第二检测模块,用于对所述视频数据进行唇动起点和唇动尾点的第二检测;所述修正模块,用于...

【专利技术属性】
技术研发人员:郭启行徐仁新戴宁
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1