一种语音关键词的识别方法及系统技术方案

技术编号:31083521 阅读:27 留言:0更新日期:2021-12-01 12:32
本发明专利技术公开了一种语音关键词的识别方法及系统,所述方法可以获取预设的语音数据集,从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征,然后采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型,接着再采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型,最后通过所述训练模型进行语音识别。本发明专利技术可以充分利用开源的数据集进行网络预训练,既可以避免因数据集中包含大量垃圾词而降低正确识别率的问题,又可以避免因原有训练模型的框架过大而导致关键词调整难的问题,从而有效提高识别准确率和效率,增加识别的灵活性和实用性。的灵活性和实用性。的灵活性和实用性。

【技术实现步骤摘要】
一种语音关键词的识别方法及系统


[0001]本专利技术涉及语音识别的
,尤其涉及一种语音关键词的识别方法及系统。

技术介绍

[0002]随着物联网的快速发展,物联网设备的越发普及,为了提高用户使用物联网设备与用户的交互效率,通常会在设备中加入语音识别模型,通过语音识别模型识别用户的意图并执行相应的操作。
[0003]目前常用的语音识别模型的语音识别方法可以细分为大词汇量的asr识别、小词汇量识别以及关键词识别。具体是采用用户输入的训练数据集,对数据集信息上述识别方法进行神经网络训练,从而生成对应语音识别模型进行语音识别。
[0004]但目前常用的语音识别模型有如下技术问题:识别训练所需的数据集要求很高,若数据集的关键词数量小,数据集内会包含大量无关紧要的词汇,降低识别的准确率,若数据集包含大量特定关键词进行训练,则用户需要在前期花费大量时间进行词语采集,既增加训练难度,也降低训练效率;而且由于训练后的语音识别模型是采用单一数据集训练,使得语音识别模型难调整,进一步降低模型的灵活性和实用性。

技术实现思路

[0005]本专利技术提出一种语音关键词的识别方法及系统,所述方法可以降低训练难度,增加训练效率,提高识别准确率。
[0006]本专利技术实施例的第一方面提供了一种语音关键词的识别方法,所述方法包括:
[0007]获取预设的语音数据集;
[0008]从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征;
[0009]采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型;
[0010]获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型;
[0011]采用所述训练模型进行语音识别。
[0012]在第一方面的一种可能的实现方式中,所述从所述预设的语音数据集中提取fbank特征,包括:
[0013]获取所述语音数据集的语音波形;
[0014]对所述语音波形分别进行预操作得到预操作波形,其中所述预操作包括:预加重、分帧和加窗操作;
[0015]对所述预操作波形进行快速傅立叶变换得到波形绝对值;
[0016]采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。
[0017]在第一方面的一种可能的实现方式中,所述对所述fbank特征进行归一化处理得
到归一化特征,包括:
[0018]采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征;
[0019]对所述低通滤波特征进行自动增益控制和非线性压缩,得到归一化特征。
[0020]在第一方面的一种可能的实现方式中,所述采用预设的seq2seq+attention模型对所述fbank特征进行不定长序列的模型训练,得到语音识别模型,包括:
[0021]将所述归一化特征转换生成特征序列;
[0022]将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练,得到语音识别模型。
[0023]在第一方面的一种可能的实现方式中,所述预设的asr模型具体为用户预先训练且包含关于音素级别的声学特征的模型。
[0024]在第一方面的一种可能的实现方式中,所述预设的语音数据集为开源的数据集,具体包括:若干数量的asr语音数据集和若干数量的关键词数据集。
[0025]本专利技术实施例的第二方面提供了一种语音关键词的识别系统,所述系统包括:
[0026]获取模块,用于获取预设的语音数据集;
[0027]归一化模块,用于从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征;
[0028]训练模块,用于采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型;
[0029]调整模块,用于获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型;
[0030]识别模块,用于采用所述训练模型进行语音识别。
[0031]在第二方面的一种可能的实现方式中,所述归一化模块还用于:
[0032]获取所述语音数据集的语音波形;
[0033]对所述语音波形分别进行预操作,预操作波形,其中所述预操作包括:预加重、分帧和加窗操作;
[0034]对所述预操作波形进行快速傅立叶变换得到波形绝对值;
[0035]采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。
[0036]在第二方面的一种可能的实现方式中,所述归一化模块还用于:
[0037]采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征;
[0038]对所述低通滤波特征进行自动增益控制和非线性压缩,得到归一化特征。
[0039]在第二方面的一种可能的实现方式中,所述训练模块还用于:
[0040]将所述归一化特征转换生成特征序列;
[0041]将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练,得到语音识别模型。
[0042]在第二方面的一种可能的实现方式中,所述预设的asr模型具体为用户预先训练且包含关于音素级别的声学特征的模型。
[0043]在第二方面的一种可能的实现方式中,所述预设的语音数据集为开源的数据集,具体包括:若干数量的asr语音数据集和若干数量的关键词数据集。
[0044]相比于现有技术,本专利技术实施例提供的语音关键词的识别方法及系统,其有益效
果在于:本专利技术可以充分利用开源的数据集进行网络预训练,并通过模型训练对识别的关键词进行微调,以确保了识别率同时也可以降低误识别,从而避免了因分类思想的训练方法要设计大量垃圾词汇而导致的误识别的问题,大大提高了识别的准确率,并且本申请使用端对端的训练方式,可以大大缩小训练模型的体积,减少模型的占用空间,进一步提高识别的灵活性和实用性。
附图说明
[0045]图1是本专利技术一实施例提供的一种语音关键词的识别方法的流程示意图;
[0046]图2是本专利技术一实施例提供的一种语音关键词的识别系统的结构示意图。
具体实施方式
[0047]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0048]目前常用的语音识别模型有如下技术问题:识别训练所需的数据集要求很高,若数据集的关键词数量小,数据集内会包含大量无关紧要的词汇,降低识别的准确率,若数据集包含大量特定关键词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音关键词的识别方法,其特征在于,所述方法包括:获取预设的语音数据集;从所述预设的语音数据集中提取fbank特征,并对所述fbank特征进行归一化处理得到归一化特征;采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练,得到语音识别模型;获取预设的asr模型,并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型;采用所述训练模型进行语音识别。2.根据权利要求1所述的语音关键词的识别方法,其特征在于,所述从所述预设的语音数据集中提取fbank特征,包括:获取所述语音数据集的语音波形;对所述语音波形分别进行预操作得到预操作波形,其中所述预操作包括:预加重、分帧和加窗操作;对所述预操作波形进行快速傅立叶变换得到波形绝对值;采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。3.根据权利要求1或2所述的语音关键词的识别方法,其特征在于,所述对所述fbank特征进行归一化处理得到归一化特征,包括:采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征;对所述低通滤波特征进行自动增益控制和非线性压缩,得到归一化特征。4.根据权利要求1所述的语音关键词的识别方法,其特征在于,所述采用预设的seq2seq+attention模型对所述fbank特征进行不定长序列的模型训练,得到语音识别模型,包括:将所述归一化特征转换生成特征序列;将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练,得到语音识别模型。5.根据权利要求1所述的语音关键词的识别方法,其特征在于,所述预设的asr模型具体...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:广州佰锐网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1