语音活性检测方法、装置、设备及存储介质制造方法及图纸

技术编号:37717731 阅读:7 留言:0更新日期:2023-06-02 00:14
本申请公开了一种语音活性检测方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:基于采集的第一用户第一语音数据,获取第一用户的声学特征模板以及第一用户的对话意图;响应于第一用户的对话意图指示发生语音打断事件,基于当前的语音检测状态,调整语音检测模型的语音检测参数;其中,语音打断事件是指用户讲话被打断;将第一用户的声学特征模板和调整后的语音检测参数存储至数据库;在应用时,基于采集的第二用户的第二语音数据和数据库,确认与第二用户匹配的语音检测模型的语音检测参数;基于获取到的语音检测参数,通过语音检测模型对第二用户的后续语音数据进行语音活性检测。本申请能够降低设备打断用户讲话的发生概率。户讲话的发生概率。户讲话的发生概率。

【技术实现步骤摘要】
语音活性检测方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,特别涉及一种语音活性检测方法、装置、设备及存储介质。

技术介绍

[0002]语音活性检测(Voice Activity Detection,VAD),也称语音活动检测,是人工智能发展过程中的一项重要技术,常被用于人机对话场景,用于检测语音信号是否存在。
[0003]相关技术中,由于部分用户说话节奏较慢,比如一句话中间有多次短暂停顿,因此在进行语音活性检测时,很容易出现用户说话被设备打断的问题。即,话还没讲完,但语音交互设备的VAD模型却错误判断用户讲话已结束,继而做出响应。
[0004]这无疑会严重影响人机对话过程中的对话质量,人机交互效果差。

技术实现思路

[0005]本申请实施例提供了一种语音活性检测方法、装置、设备及存储介质,能够提高人机对话过程中的对话质量,人机交互效果佳。所述技术方案如下:
[0006]一方面,提供了一种语音活性检测方法,所述方法包括:
[0007]基于采集的第一用户的第一语音数据,获取所述第一用户的声学特征模板以及所述第一用户的对话意图;
[0008]响应于所述第一用户的对话意图指示发生语音打断事件,基于当前的语音检测状态,调整语音检测模型的语音检测参数;所述语音打断事件是指用户讲话被打断;所述语音检测状态包括语音起点检测状态和语音终点检测状态;
[0009]将所述第一用户的声学特征模板和调整后的语音检测参数存储至数据库;
[0010]基于采集的第二用户的第二语音数据和所述数据库,确认与所述第二用户匹配的语音检测模型的语音检测参数;
[0011]基于与所述第二用户匹配的语音检测模型的语音检测参数,通过所述语音检测模型对所述第二用户的后续语音数据进行语音活性检测。
[0012]在一种可能的实现方式中,所述基于当前的语音检测状态,调整语音检测模型的语音检测参数,包括:
[0013]响应于当前还未进入所述语音起点检测状态,增大第一语音检测参数的取值;其中,所述第一语音检测参数用于指示前端静音检测超时时间;
[0014]响应于当前已进入所述语音终点检测状态,增大第二语音检测参数的取值;其中,所述第二语音检测参数用于指示后端停顿时间。
[0015]在一种可能的实现方式中,所述方法还包括:
[0016]获取所述第一语音数据的信号能量;
[0017]响应于获取到的信号能量开始大于第一阈值,确定当前已进入所述语音起点检测状态;
[0018]响应于获取到的信号能量小于第二阈值且持续时长已超过预设时长,确定当前已进入所述语音终点检测状态。
[0019]在一种可能的实现方式中,所述基于当前的语音检测状态,调整语音检测模型的语音检测参数,包括:
[0020]基于当前的语音检测状态和目标约束条件,调整所述语音检测模型的语音检测参数;
[0021]其中,所述目标约束条件包括:最大可调整幅度、单次调整的调整步长。
[0022]在一种可能的实现方式中,所述基于采集的第一用户的第一语音数据,获取所述第一用户的声学特征模板,包括:
[0023]对所述第一语音数据进行声学特征提取;
[0024]对所述第一语音数据进行用户年龄分析,得到所述第一用户的年龄特征;
[0025]对所述第一语音数据进行用户性别分析,得到所述第一用户的性别特征;
[0026]对所述第一语音数据进行用户情绪分析,得到所述第一用户的情绪特征;
[0027]对提取到的声学特征、所述年龄特征、所述性别特征和所述情绪特征进行特征融合,得到所述第一用户的声学特征;
[0028]将所述第一用户的声学特征输入声纹识别模型,得到所述第一用户的声学特征模板。
[0029]在一种可能的实现方式中,所述基于采集的第一用户的第一语音数据,获取所述第一用户的对话意图,包括:
[0030]确定当前拾音环境的环境类型,基于与所述环境类型匹配的语音识别模型,对所述第一语音数据进行语音识别,得到语音识别结果;
[0031]对所述语音识别结果进行意图识别,得到所述第一用户的对话意图;
[0032]其中,所述环境类型包括安静环境和噪音环境;
[0033]所述语音识别模型是基于样本集对预训练模型进行再训练得到的,所述样本集中包括在相应环境下采集的语音数据。
[0034]在一种可能的实现方式中,所述基于与所述环境类型匹配的语音识别模型,对所述第一语音数据进行语音识别,包括:
[0035]响应于当前拾音环境为安静环境,基于与所述安静环境匹配的第一语音识别模型,对所述第一语音数据进行语音识别;
[0036]响应于当前拾音环境为噪音环境,基于与所述噪音环境匹配的第二语音识别模型,对所述第一语音数据进行语音识别;
[0037]其中,所述第一语音识别模型是基于第一样本集对预训练模型进行再训练得到的,所述第一样本集中包括在所述安静环境下采集的语音数据;
[0038]所述第二语音识别模型是基于第二样本集对预模型进行再训练得到的,所述第二样本集中包括在所述噪音环境下采集的语音数据。
[0039]在一种可能的实现方式中,所述确定当前拾音环境的环境类型,包括:
[0040]确定当前拾音环境所属的场所类型、周边基础设施信息以及当前拾音时间;
[0041]根据所述场所类型、所述周边基础设施信息以及当前拾音时间,确定当前拾音环境的环境类型。
[0042]在一种可能的实现方式中,所述基于采集的第二用户的第二语音数据和所述数据库,确认与所述第二用户匹配的语音检测模型的语音检测参数,包括:
[0043]对所述第二语音数据进行声学特征提取;
[0044]将所述第二用户的声学特征输入声纹识别模型,得到所述第二用户的声学特征模板;
[0045]将所述第二用户的声学特征模板与所述数据库中存储的声学特征模板进行比对;
[0046]响应于所述第二用户的声学特征模板与所述数据库中的目标声学特征模板的匹配度大于第三阈值,将所述目标声学特征模板对应的语音检测参数,作为与所述第二用户匹配的语音检测模型的语音检测参数。
[0047]另一方面,提供了一种语音活性检测装置,所述装置包括:
[0048]第一获取模块,被配置为基于采集的第一用户的第一语音数据,获取所述第一用户的声学特征模板以及所述第一用户的对话意图;
[0049]参数调整模块,被配置为响应于所述第一用户的对话意图指示发生语音打断事件,基于当前的语音检测状态,调整语音检测模型的语音检测参数;所述语音打断事件是指用户讲话被打断;所述语音检测状态包括语音起点检测状态和语音终点检测状态;
[0050]存储模块,被配置为将所述第一用户的声学特征模板和调整后的语音检测参数存储至数据库;
[0051]第二获取模块,被配置为基于采集的第二用户的第二语音数据和所述数据库本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音活性检测方法,其特征在于,所述方法包括:基于采集的第一用户的第一语音数据,获取所述第一用户的声学特征模板以及所述第一用户的对话意图;响应于所述第一用户的对话意图指示发生语音打断事件,基于当前的语音检测状态,调整语音检测模型的语音检测参数;所述语音打断事件是指用户讲话被打断;所述语音检测状态包括语音起点检测状态和语音终点检测状态;将所述第一用户的声学特征模板和调整后的语音检测参数存储至数据库;基于采集的第二用户的第二语音数据和所述数据库,确认与所述第二用户匹配的语音检测模型的语音检测参数;基于与所述第二用户匹配的语音检测模型的语音检测参数,通过所述语音检测模型对所述第二用户的后续语音数据进行语音活性检测。2.根据权利要求1所述的方法,其特征在于,所述基于当前的语音检测状态,调整语音检测模型的语音检测参数,包括:响应于当前还未进入所述语音起点检测状态,增大第一语音检测参数的取值;其中,所述第一语音检测参数用于指示前端静音检测超时时间;响应于当前已进入所述语音终点检测状态,增大第二语音检测参数的取值;其中,所述第二语音检测参数用于指示后端停顿时间。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:获取所述第一语音数据的信号能量;响应于获取到的信号能量开始大于第一阈值,确定当前已进入所述语音起点检测状态;响应于获取到的信号能量小于第二阈值且持续时长已超过预设时长,确定当前已进入所述语音终点检测状态。4.根据权利要求1所述的方法,其特征在于,所述基于当前的语音检测状态,调整语音检测模型的语音检测参数,包括:基于当前的语音检测状态和目标约束条件,调整所述语音检测模型的语音检测参数;其中,所述目标约束条件包括:最大可调整幅度、单次调整的调整步长。5.根据权利要求1所述的方法,其特征在于,所述基于采集的第一用户的第一语音数据,获取所述第一用户的声学特征模板,包括:对所述第一语音数据进行声学特征提取;对所述第一语音数据进行用户年龄分析,得到所述第一用户的年龄特征;对所述第一语音数据进行用户性别分析,得到所述第一用户的性别特征;对所述第一语音数据进行用户情绪分析,得到所述第一用户的情绪特征;对提取到的声学特征、所述年龄特征、所述性别特征和所述情绪特征进行特征融合,得到所述第一用户的声学特征;将所述第一用户的声学特征输入声纹识别模型,得到所述第一用户的声学特征模板。6.根据权利要求1所述的方法,其特征在于,所述基于采集的第一用户的第一语音数据,获取所述第一用户的对话意图,包括:确定当前拾音环境的环境类型,基于与所述环境类型匹配的语音识别模型,对所述第
一语音数据进行语音识别,得到语音识别结果;对所述语音识别结果进行意图识别,得到所述第一用户的对话意图;其中,所述环境类型包括安静环境和噪音环境;所述语音识别模型是基于样本集对预训练模型进行再训练得到的,所述样本集中包括在相应环境下采集的语音数据。...

【专利技术属性】
技术研发人员:曾亮涂贤玲
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1