语音端点检测模型构建方法、装置、计算机设备制造方法及图纸

技术编号:37067301 阅读:19 留言:0更新日期:2023-03-29 19:45
本申请涉及一种语音端点检测模型构建方法、装置、计算机设备和存储介质。所述方法包括:获取带噪声的训练语音信号的幅度谱、对应的先验信噪比参考值,根据幅度谱与对应的先验信噪比参考值确定第一子模型对应的第一损失,根据第一损失调整第一子模型的模型参数确定目标第一子模型,根据带噪声的训练语音信号的频率特征信息和对应的语音段参考值以及非语音段参考值得到第二子模型对应的第二损失,基于第二损失调整第二子模型的模型参数,得到目标第二子模型,基于目标第一子模型和目标第二子模型融合得到目标语音端点检测模型。采用本方法所构建的语音端点检测模型能够提高语音端点检测的准确性。端点检测的准确性。端点检测的准确性。

【技术实现步骤摘要】
语音端点检测模型构建方法、装置、计算机设备


[0001]本申请涉及计算机
,特别是涉及一种语音端点检测模型构建方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着计算机技术的发展,信号处理技术、语音增强技术被广泛地运用到了各个领域,其中,语音端点检测技术是信号处理技术、语音增强技术中的一个重要分支,在带噪声的语音信号中能否准确识别出语音帧信号的端点对于信号处理及语音增强技术具有重要意义。
[0003]传统技术中,大多是基于短时能量、过零率、倒谱以及谐波等特征设计语音端点检测算法,但其性能会随着信噪比的下降而明显降低,语音端点检测的准确性差。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种语音端点检测模型构建方法、装置、计算机设备和计算机可读存储介质,能够提高语音端点检测的准确性。
[0005]一种语音端点检测模型构建方法,包括:
[0006]获取带噪声的训练语音信号的幅度谱和对应的先验信噪比参考值;
[0007]将幅度谱输入至第一子模型,得到训练语音信号的先验信噪比估计值;
[0008]基于先验信噪比估计值和先验信噪比参考值计算得到第一子模型对应的第一损失;
[0009]基于第一损失调整第一子模型的模型参数,直到达到第一目标条件,得到目标第一子模型;
[0010]获取训练语音信号的频率特征信息和对应的语音段参考值以及非语音段参考值;
[0011]将频率特征信息输入至第二子模型,得到训练语音信号的语音段估计值与非语音段估计值;
[0012]基于语音段估计值与非语音段估计值和语音段参考值以及非语音段参考值计算得到第二子模型对应的第二损失;
[0013]基于第二损失调整第二子模型的模型参数,直到达到第二目标条件,得到目标第二子模型;
[0014]基于目标第一子模型和目标第二子模型融合得到目标语音端点检测模型。
[0015]在一个实施例中,获取带噪声的训练语音信号的幅度谱和对应的先验信噪比参考值之前,还包括:
[0016]获取目标信噪比与预设步长;
[0017]构建以目标信噪比为均值的正态分布函数;
[0018]将正态分布函数按照预设步长进行取样得到目标信噪比样本集合;
[0019]根据目标信噪比样本集合中各个信噪比来构造得到带噪声的训练语音信号。
[0020]在一个实施例中,基于语音段估计值与非语音段估计值和语音段参考值以及非语音段参考值计算得到第二子模型对应的第二损失,包括:
[0021]对语音段估计值与语音段参考值进行差异计算得到语音段残差均值;
[0022]对非语音段估计值与非语音段参考值进行差异值得到非语音段残差均值;
[0023]将语音段残差均值与非语音段残差均值加权融合得到训练语音信号对应的融合残差;
[0024]基于融合残差得到第二子模型对应的第二损失。
[0025]在一个实施例中,将语音段残差均值与非语音段残差均值加权融合得到训练语音信号对应的融合残差,包括:
[0026]将语音段残差均值与非语音段残差均值进行融合得到残差因子;
[0027]基于残差因子与语音段残差均值的比例计算得到第一权重;
[0028]基于残差因子与非语音段残差均值的比例计算得到第二权重;
[0029]将语音段残差均值、非语音段残差均值、第一权重、第二权重进行融合得到训练语音信号对应的融合残差。
[0030]一种语音端点检测方法,包括:
[0031]获取带噪声的目标语音信号;
[0032]将目标语音信号输入至语音端点检测模型,得到目标语音信号的语音段与非语音段的端点信息,语音端点检测模型是通过获取带噪声的训练语音信号的幅度谱和对应的先验信噪比参考值,将幅度谱输入至第一子模型,得到训练语音信号的先验信噪比估计值,基于先验信噪比估计值和先验信噪比参考值计算得到第一子模型对应的第一损失,基于第一损失调整第一子模型的模型参数,直到达到第一目标条件,得到目标第一子模型,获取训练语音信号的频率特征信息和对应的语音段参考值以及非语音段参考值,将频率特征信息输入至第二子模型,得到训练语音信号的语音段估计值与非语音段估计值,基于语音段估计值与非语音段估计值和语音段参考值以及非语音段参考值计算得到第二子模型对应的第二损失,基于第二损失调整第二子模型的模型参数,直到达到第二目标条件,得到目标第二子模型,基于目标第一子模型和目标第二子模型融合得到;
[0033]根据语音段与非语音段的端点信息确定目标语音信号中的目标语音。
[0034]在一个实施例中,将目标语音信号输入至语音端点检测模型,得到目标语音信号的语音段与非语音段的端点信息,包括:
[0035]将目标语音信号输入至语音端点检测模型的第一子模型,得到目标语音信号中各帧信号的先验信噪比,并根据各帧信号的先验信噪比计算得到各帧的先验信噪比均值;
[0036]获取各帧信号中的目标帧信号;
[0037]当目标帧信号的先验信噪比均值大于第一预设阈值时,将目标帧信号确定为语音帧信号;
[0038]当目标帧信号的先验信噪比均值小于第二预设阈值时,将目标帧信号确定为非语音帧信号;
[0039]当目标帧信号的先验信噪比均值大于或等于第二预设阈值且小于或等于第一预设阈值时,将目标帧信号输入至语音端点检测模型的第二子模型确定目标帧信号的信号类型,信号类型包括语音帧信号与非语音帧信号;
[0040]根据语音帧信号与非语音帧信号确定目标语音信号的语音段与非语音段的端点信息。
[0041]一种语音端点检测模型构建装置,包括:
[0042]数据获取模块,用于获取带噪声的训练语音信号的幅度谱和对应的先验信噪比参考值;
[0043]目标第一子模型生成模块,用于将幅度谱输入至第一子模型,得到训练语音信号的先验信噪比估计值;基于先验信噪比估计值和先验信噪比参考值计算得到第一子模型对应的第一损失;基于第一损失调整第一子模型的模型参数,直到达到第一目标条件,得到目标第一子模型;
[0044]目标第二子模型生成模块,用于获取训练语音信号的频率特征信息和对应的语音段参考值以及非语音段参考值;将频率特征信息输入至第二子模型,得到训练语音信号的语音段估计值与非语音段估计值;基于语音段估计值与非语音段估计值和语音段参考值以及非语音段参考值计算得到第二子模型对应的第二损失;基于第二损失调整第二子模型的模型参数,直到达到第二目标条件,得到目标第二子模型;
[0045]目标语音端点检测模型生成模块,用于基于目标第一子模型和目标第二子模型融合得到目标语音端点检测模型。
[0046]一种语音端点检测装置,包括:
[0047]信号获取模块,用于获取带噪声的目标语音信号;
[0048]端点信息确定模块,用于将目标语音信号输入至语音端点检测模型,得到目标语音信号的语音段与非语音段的端点信息,语音端点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音端点检测模型构建方法,其特征在于,所述方法包括:获取带噪声的训练语音信号的幅度谱和对应的先验信噪比参考值;将所述幅度谱输入至第一子模型,得到所述训练语音信号的先验信噪比估计值;基于所述先验信噪比估计值和所述先验信噪比参考值计算得到所述第一子模型对应的第一损失;基于所述第一损失调整所述第一子模型的模型参数,直到达到第一目标条件,得到目标第一子模型;获取所述训练语音信号的频率特征信息和对应的语音段参考值以及非语音段参考值;将所述频率特征信息输入至第二子模型,得到所述训练语音信号的语音段估计值与非语音段估计值;基于所述语音段估计值与非语音段估计值和所述语音段参考值以及非语音段参考值计算得到所述第二子模型对应的第二损失;基于所述第二损失调整所述第二子模型的模型参数,直到达到第二目标条件,得到目标第二子模型;基于所述目标第一子模型和所述目标第二子模型融合得到目标语音端点检测模型。2.根据权利要求1所述的方法,其特征在于,所述获取带噪声的训练语音信号的幅度谱和对应的先验信噪比参考值之前,还包括:获取目标信噪比与预设步长;构建以所述目标信噪比为均值的正态分布函数;将所述正态分布函数按照预设步长进行取样得到目标信噪比样本集合;根据所述目标信噪比样本集合中各个信噪比来构造得到带噪声的训练语音信号。3.根据权利要求1所述的方法,其特征在于,所述基于所述语音段估计值与非语音段估计值和所述语音段参考值以及非语音段参考值计算得到所述第二子模型对应的第二损失,包括:对所述语音段估计值与所述语音段参考值进行差异计算得到语音段残差均值;对所述非语音段估计值与所述非语音段参考值进行差异值得到非语音段残差均值;将所述语音段残差均值与所述非语音段残差均值加权融合得到所述训练语音信号对应的融合残差;基于所述融合残差得到所述第二子模型对应的第二损失。4.根据权利要求3所述的方法,其特征在于,所述将所述语音段残差均值与所述非语音段残差均值加权融合得到所述训练语音信号对应的融合残差,包括:将所述语音段残差均值与所述非语音段残差均值进行融合得到残差因子;基于所述残差因子与所述语音段残差均值的比例计算得到第一权重;基于所述残差因子与所述非语音段残差均值的比例计算得到第二权重;将所述语音段残差均值、所述非语音段残差均值、所述第一权重、所述第二权重进行融合得到所述训练语音信号对应的融合残差。5.一种语音端点检测方法,其特征在于,所述方法包括:获取带噪声的目标语音信号;将所述目标语音信号输入至语音端点检测模型,得到所述目标语音信号的语音段与非
语音段的端点信息,所述语音端点检测模型是通过获取带噪声的训练语音信号的幅度谱和对应的先验信噪比参考值,将所述幅度谱输入至第一子模型,得到所述训练语音信号的先验信噪比估计值,基于所述先验信噪比估计值和所述先验信噪比参考值计算得到所述第一子模型对应的第一损失,基于所述第一损失调整所述第一子模型的模型参数,直到达到第一目标条件,得到目标第一子模型,获取所述训练语音信号的频率特征信息和对应的语音段参考值以及非语音段参考值,将所述频率特征信息输入至第二子模型,得到所述训练语音信号的语音段估计值与非语音段估计值,基于所述语音段估计值与非语音段估计值和所述语音段参考值以及非语音段参考值计算得到所述第二子模型对应的第二损失,基于所述第二损失调整所述第二子模型的模型参数,直到达到第二目标条件,得到目标第二子模型,基于所述目标第一子模型和所述目标第二子模型融合得到;根据所述语音段与非语音段的端点信息确定所述目标语音信号中的目标语音。6.根据权利要求5所述的方法...

【专利技术属性】
技术研发人员:巴莉芳王启腾徐伟林昊张文锋林华春
申请(专利权)人:招联消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1