本申请涉及一种基于帧分类的语音端点检测方法及装置,该方法包括,获取待检测的第一语音数据;对第一语音数据进行分帧处理,得到多个第一语音数据帧,每个第一语音数据帧的时间长度相同;对多个第一语音数据帧进行特征提取,得到每个第一语音数据帧的第一特征;将第一特征输入预先训练好的分类模型中,得到每个第一语音数据帧对应的第一标签;分类模型用于对第一语音数据帧进行分类,第一标签用来表示第一语音数据帧中是否包含有效语音;根据第一语音数据帧及对应的第一标签,确定第一语音数据的语音端点。通过本申请,解决了现有技术中的VAD检测不准确的问题,提高了VAD检测的准确率。率。率。
【技术实现步骤摘要】
一种基于帧分类的语音端点检测方法及装置
[0001]本申请涉及语音检测领域,特别是涉及一种基于帧分类的语音端点检测方法及装置。
技术介绍
[0002]VAD(Voice Activity Detection,语音端点检测)的目的是从语音信号中识别和消除静音。VAD作为ASR(Automatic Speech Recognition,自动语音识别)的前处理手段,一方面负责检测静音,只有检测到人声时才将语音信号送到ASR系统进行识别,节省计算资源;另一方面,通过VAD可以将长音频切分为多个短音频,可以为ASR结果实现断句,方便在后处理工作中添加标点。
[0003]VAD的难点在于语音信号往往不是纯净的人声和静音,麦克风在采音过程中,会将人声和说话人所处环境的噪声同时采集,这在很大程度上影响了VAD的准确性。通常定义静音和纯噪声为无效语音,人声和带噪人声为有效语音。
[0004]现有的基于阈值的VAD,通过提取时域(短时能量、短期过零率等)或频域(MFCC、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的。
[0005]现有的基于阈值的VAD,会产生VAD误检和漏检。VAD误检,指将无效语音识别为有效语音,会导致ASR计算资源的浪费。VAD漏检,指将有效语音识别为无效语音,会导致ASR结果的缺失。VAD的准确率将直接影响到ASR的性能和准确率。
[0006]针对相关技术中存在VAD检测不准确的情况,目前还没有提出有效的解决方案。
技术实现思路
[0007]在本实施例中提供了一种基于帧分类的语音端点检测方法及装置,以解决相关技术中VAD检测不准确的问题。
[0008]第一个方面,在本实施例中提供了一种基于帧分类的语音端点检测方法,所述方法包括,
[0009]获取待检测的第一语音数据;
[0010]对所述第一语音数据进行分帧处理,得到多个第一语音数据帧,每个第一语音数据帧的时间长度相同;
[0011]对所述多个第一语音数据帧进行特征提取,得到每个第一语音数据帧的第一特征;
[0012]将所述第一特征输入预先训练好的分类模型中,得到每个第一语音数据帧对应的第一标签;所述分类模型用于对所述第一语音数据帧进行分类,所述第一标签用来表示所述第一语音数据帧中是否包含有效语音;
[0013]根据所述第一语音数据帧及对应的第一标签,确定所述第一语音数据的语音端点。
[0014]在其中的一些实施例中,所述根据所述第一语音数据帧及对应的第一标签,确定
所述第一语音数据的语音端点,包括,
[0015]若连续M个第一语音数据帧中包含有效语音信息,则确定第一个包含有效语音信息的第一语音数据帧为所述第一语音数据的一段语音开始帧;其中,M为大于或等于5的自然数;
[0016]若连续N个第一语音数据帧中不包含有效语音信息,则确定第一个不包含有效语音信息的第一语音数据帧为所述第一语音数据的一段语音结束帧;其中,N为大于或等于5的自然数;
[0017]所述语音开始帧和所述语音结束帧为所述第一语音数据的语音端点。
[0018]在其中的一些实施例中,所述获取待检测的第一语音数据之前,包括,构建用于所述分类模型训练的第二语音数据帧;
[0019]对所述第二语音数据帧进行特征提取,得到第二特征;
[0020]构建所述分类模型,所述分类模型包括2个门控循环单元层和3个全连接层,所述分类模型用于对所述第二语音数据帧进行分类;
[0021]根据所述第二特征对所述分类模型进行训练。
[0022]在其中的一些实施例中,所述构建用于所述分类模型训练的第二语音数据帧,包括,
[0023]获取语音数据集,所述语音数据集中包括多个第三语音数据,所述多个第三语音数据中包括有效语音和无效语音;
[0024]对所述第三语音数据进行纯语音提取,得到纯语音数据集,所述纯语音数据集中包括多个纯语音数据;
[0025]对所述多个纯语音数据进行分帧处理,得到每个纯语音数据对应的多个纯语音数据帧,每个所述纯语音数据帧的时间长度相同;
[0026]根据所述多个纯语音数据帧构建所述第二语音数据帧。
[0027]在其中的一些实施例中,所述根据所述多个纯语音数据帧构建所述第二语音数据帧,包括,
[0028]将所述多个纯语音数据进行拼接,在相邻的两个纯语音数据之间插入K个静音数据帧,得到所述第二语音数据帧;所述第二语音数据帧由所述纯语音数据帧和所述静音数据帧构成;其中,K为10~50的自然数;
[0029]所述静音数据帧的时间长度与所述第二语音数据帧的时间长度相同。
[0030]在其中的一些实施例中,所述根据所述多个纯语音数据帧构建所述第二语音数据帧之后,包括,
[0031]对所述第二语音数据帧进行标记,得到第二标签,所述第二标签用于对所述分类模型进行验证。
[0032]在其中的一些实施例中,所述对所述第二语音数据帧进行特征提取,得到第二特征,包括,
[0033]对当前第二语音数据帧及所述当前第二语音数据帧的前L个第二语音数据帧进行特征提取,将提取的特征作为所述当前第二语音数据帧的第二特征;其中,L为大于或等于5的自然数。
[0034]在其中的一些实施例中,所述根据所述第二特征对所述分类模型进行训练,包括,
[0035]在训练所述分类模型的每次迭代前,在所述第二语音数据帧中加入噪声。
[0036]在其中的一些实施例中,所述在训练所述分类模型的每次迭代前,在所述第二语音数据帧中加入噪声,包括,
[0037]在训练所述分类模型的每次迭代前,所述分类模型产生一个随机数n,n为0到1的随机数;若所述随机数n大于预设值,则在所述第二语音数据帧中加入
‑
3db~3db的噪声。
[0038]第二个方面,在本实施例中提供了一种基于帧分类的语音端点检测装置,其特征在于,所述装置包括,
[0039]获取单元,用于获取待检测的第一语音数据;
[0040]分帧处理单元,用于对所述第一语音数据进行分帧处理,得到多个第一语音数据帧,每个第一语音数据帧的时间长度相同;
[0041]特征提取单元,用于对所述多个第一语音数据帧进行特征提取,得到每个第一语音数据帧的第一特征;
[0042]帧分类单元,用于将所述第一特征输入预先训练好的分类模型中,得到每个第一语音数据帧对应的第一标签;所述分类模型用于对所述第一语音数据帧进行分类,所述第一标签用来表示所述第一语音数据帧中是否包含有效语音;
[0043]端点确定单元,用于根据所述第一语音数据帧及对应的第一标签,确定所述第一语音数据的语音端点。
[0044]第三个方面,在本实施例中提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一个方面中任一项所述的基于帧分类的语音端点检测方法。
...
【技术保护点】
【技术特征摘要】
1.一种基于帧分类的语音端点检测方法,其特征在于,所述方法包括,获取待检测的第一语音数据;对所述第一语音数据进行分帧处理,得到多个第一语音数据帧,每个第一语音数据帧的时间长度相同;对所述多个第一语音数据帧进行特征提取,得到每个第一语音数据帧的第一特征;将所述第一特征输入预先训练好的分类模型中,得到每个第一语音数据帧对应的第一标签;所述分类模型用于对所述第一语音数据帧进行分类,所述第一标签用来表示所述第一语音数据帧中是否包含有效语音;根据所述第一语音数据帧及对应的第一标签,确定所述第一语音数据的语音端点。2.根据权利要求1所述的基于帧分类的语音端点检测方法,其特征在于,所述根据所述第一语音数据帧及对应的第一标签,确定所述第一语音数据的语音端点,包括,若连续M个第一语音数据帧中包含有效语音信息,则确定第一个包含有效语音信息的第一语音数据帧为所述第一语音数据的一段语音开始帧;其中,M为大于或等于5的自然数;若连续N个第一语音数据帧中不包含有效语音信息,则确定第一个不包含有效语音信息的第一语音数据帧为所述第一语音数据的一段语音结束帧;其中,N为大于或等于5的自然数;所述语音开始帧和所述语音结束帧为所述第一语音数据的语音端点。3.根据权利要求1所述的基于帧分类的语音端点检测方法,其特征在于,所述获取待检测的第一语音数据之前,包括,构建用于所述分类模型训练的第二语音数据帧;对所述第二语音数据帧进行特征提取,得到第二特征;构建所述分类模型,所述分类模型包括2个门控循环单元层和3个全连接层,所述分类模型用于对所述第二语音数据帧进行分类;根据所述第二特征对所述分类模型进行训练。4.根据权利要求3所述的基于帧分类的语音端点检测方法,其特征在于,所述构建用于所述分类模型训练的第二语音数据帧,包括,获取语音数据集,所述语音数据集中包括多个第三语音数据,所述多个第三语音数据中包括有效语音和无效语音;对所述第三语音数据进行纯语音提取,得到纯语音数据集,所述纯语音数据集中包括多个纯语音数据;对所述多个纯语音数据进行分帧处理,得到每个纯语音数据对应的多个纯语音数据帧,每个所述纯语音数据帧的时间长度相同;根据所述多个纯语音数据帧构建所述第二语音数据帧。5.根据权利要求4所述的基于帧分类的语音端点检测方法,其特征在于,所述根据所述多个纯语音数据帧构建所述第二语音数据帧,包括,将所述多个纯语音数据进行拼接,在相邻的两个纯语音数据之间插入K个静音数据帧,得到所述第二语音数据帧;所述第二语音数据帧由所...
【专利技术属性】
技术研发人员:王亚东,
申请(专利权)人:浙江大搜车软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。