一种语音关键词的识别方法及系统技术方案

技术编号：31083521 阅读：27 留言：0更新日期：2021-12-01 12:32

本发明专利技术公开了一种语音关键词的识别方法及系统，所述方法可以获取预设的语音数据集，从所述预设的语音数据集中提取fbank特征，并对所述fbank特征进行归一化处理得到归一化特征，然后采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练，得到语音识别模型，接着再采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型，最后通过所述训练模型进行语音识别。本发明专利技术可以充分利用开源的数据集进行网络预训练，既可以避免因数据集中包含大量垃圾词而降低正确识别率的问题，又可以避免因原有训练模型的框架过大而导致关键词调整难的问题，从而有效提高识别准确率和效率，增加识别的灵活性和实用性。的灵活性和实用性。的灵活性和实用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音关键词的识别方法及系统

[0001]本专利技术涉及语音识别的
，尤其涉及一种语音关键词的识别方法及系统。

技术介绍

[0002]随着物联网的快速发展，物联网设备的越发普及，为了提高用户使用物联网设备与用户的交互效率，通常会在设备中加入语音识别模型，通过语音识别模型识别用户的意图并执行相应的操作。
[0003]目前常用的语音识别模型的语音识别方法可以细分为大词汇量的asr识别、小词汇量识别以及关键词识别。具体是采用用户输入的训练数据集，对数据集信息上述识别方法进行神经网络训练，从而生成对应语音识别模型进行语音识别。
[0004]但目前常用的语音识别模型有如下技术问题：识别训练所需的数据集要求很高，若数据集的关键词数量小，数据集内会包含大量无关紧要的词汇，降低识别的准确率，若数据集包含大量特定关键词进行训练，则用户需要在前期花费大量时间进行词语采集，既增加训练难度，也降低训练效率；而且由于训练后的语音识别模型是采用单一数据集训练，使得语音识别模型难调整，进一步降低模型的灵活性和实用性。

技术实现思路

[0005]本专利技术提出一种语音关键词的识别方法及系统，所述方法可以降低训练难度，增加训练效率，提高识别准确率。
[0006]本专利技术实施例的第一方面提供了一种语音关键词的识别方法，所述方法包括：
[0007]获取预设的语音数据集；
[0008]从所述预设的语音数据集中提取fbank特征，并对所述fbank特征进行归一化处理得到归一化特征；
[...

【技术保护点】

【技术特征摘要】
1.一种语音关键词的识别方法，其特征在于，所述方法包括：获取预设的语音数据集；从所述预设的语音数据集中提取fbank特征，并对所述fbank特征进行归一化处理得到归一化特征；采用预设的seq2seq+attention对所述归一化特征进行不定长序列的模型训练，得到语音识别模型；获取预设的asr模型，并采用所述预设的asr模型对所述语音识别模型进行端对端的模型训练调整得到训练模型；采用所述训练模型进行语音识别。2.根据权利要求1所述的语音关键词的识别方法，其特征在于，所述从所述预设的语音数据集中提取fbank特征，包括：获取所述语音数据集的语音波形；对所述语音波形分别进行预操作得到预操作波形，其中所述预操作包括：预加重、分帧和加窗操作；对所述预操作波形进行快速傅立叶变换得到波形绝对值；采用预设的梅尔滤波器组过滤所述波形绝对值得到fbank特征。3.根据权利要求1或2所述的语音关键词的识别方法，其特征在于，所述对所述fbank特征进行归一化处理得到归一化特征，包括：采用预设的IIR低通滤波器对所述fbank特征进行低通滤波得到低通滤波特征；对所述低通滤波特征进行自动增益控制和非线性压缩，得到归一化特征。4.根据权利要求1所述的语音关键词的识别方法，其特征在于，所述采用预设的seq2seq+attention模型对所述fbank特征进行不定长序列的模型训练，得到语音识别模型，包括：将所述归一化特征转换生成特征序列；将所述特征序列输入至所述预设的seq2seq+attention模型进行不定长序列的模型训练，得到语音识别模型。5.根据权利要求1所述的语音关键词的识别方法，其特征在于，所述预设的asr模型具体...

【专利技术属性】
技术研发人员：ꢀ七四专利代理机构，
申请(专利权)人：广州佰锐网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人