一种语音识别的方法和装置制造方法及图纸

技术编号:39040299 阅读:13 留言:0更新日期:2023-10-10 11:53
本发明专利技术公开了一种语音识别的方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:针对语音识别场景接收到的语音数据划分成多个语音数据块,为每一个语音数据块增加多个填充语音帧,基于填充过的语音数据块执行提取包含设定数量语音帧的语音帧组,并利用预设语音识别模型处理输入的语音帧组中的语音帧以得到识别结果;其中预设语音识别模型包含的卷积核的数量与设定数量一致;本发明专利技术的实施例克服了现有技术中由于未考虑一个语音数据块中当前帧与当前帧之后的语音帧的语音信息的关联性而导致的语音识别准确率偏低的问题,提高了语音识别的效果。提高了语音识别的效果。提高了语音识别的效果。

【技术实现步骤摘要】
一种语音识别的方法和装置


[0001]本专利技术涉及人工智能
,尤其涉及一种语音识别的方法和装置。

技术介绍

[0002]近年来随着人工智能深度学习的技术发展,基于神经网络的语音识别系统获得了很大的提升。语音识别是一种将语音序列转换为对应文本序列的技术;其中,流式语音识别可以更好地用于需要实时获取识别结果的场景(例如直播实时字幕、会议实时记录、语音输入、语音唤醒等场景)。
[0003]目前的流式语音识别模型使用因果卷积的方式,在计算一个语音识数据块包含的语音帧时,仅利用当前语音帧及其时序之前的语音帧,而无法利用该语音数据块中当前语音帧之后的语音帧;因此基于现有的因果卷积的方式的语音识别,由于未考虑一个语音数据块中当前帧与当前帧之后的语音帧的语音信息的关联性,导致识别效果较差,识别准确率偏低的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种语音识别的方法和装置,能够针对语音识别场景接收到的语音数据划分成多个语音数据块,为每一个语音数据块增加多个填充语音帧,基于填充过的语音数据块执行提取包含设定数量语音帧的语音帧组,并利用预设语音识别模型处理输入的语音帧组中的语音帧以得到识别结果;其中预设语音识别模型包含的卷积核的数量与设定数量一致;本专利技术的实施例克服了现有技术中未考虑一个语音数据块中当前帧与当前帧之后的语音帧的语音信息的关联性而导致的语音识别准确率偏低的问题,提高了语音识别的效果。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种语音识别的方法,其特征在于,包括:响应于触发语音识别,接收待识别的语音数据,将所述语音数据划分成多个语音数据块,其中,所述语音数据块包含有多个时间序列连续的初始语音帧;针对每一个所述语音数据块,依次执行:为所述语音数据块增加多个填充语音帧;从所述语音数据块中,按照设定步长提取多组语音帧组,其中,每一组所述语音帧组包含的初始语音帧和填充语音帧的总数为设定数量,所述设定步长指示每相邻两组语音帧组提取位置之间的位置差;按照时间序列,针对每一组所述语音帧组,将所述语音帧组包含的初始语音帧和填充语音帧输入预设语音识别模型,得到所述语音帧组的语音识别结果;其中,所述预设语音识别模型包含的卷积核的数量为所述设定数量;根据每一组所述语音帧组对应的语音识别结果,得到针对所述语音数据块的识别结果;根据识别出的各个所述语音数据块的识别结果,确定出所述语音数据的目标识别结果并发送所述目标识别结果。
[0006]可选地,所述为所述语音数据块增加多个填充语音帧,包括:获取所述语音数据块包含的多个初始语音帧的时间序列;将第一语音帧作为多个所述初始语音帧中的时间序列最先者;第二语音帧作为多个所述初始语音帧中的时间序列最后者;在所述语音数据块包
含的多个时间序列连续的初始语音帧之前和之后分别添加多个填充语音帧。
[0007]可选地,所述语音识别的方法,进一步包括:根据所述语音数据块包含的初始语音帧的数量以及填充语音帧的数量,确定所述设定步长,以使所述语音数据块包含的初始语音帧的数量与所述语音帧组的组数一致。
[0008]可选地,所述语音识别的方法,包括:每一组所述语音帧组包含全部所述初始语音帧;并且每一组所述语音帧组中设定位置上的目标语音帧为所述预设语音识别模型的主要影响因子,设定位置之外的其他语音帧为所述预设语音识别模型的关联影响因子。
[0009]可选地,所述语音识别的方法,还包括:通过所述语音识别模型识别所述语音帧组中设定位置上的目标语音帧,并将所述语音帧组的语音识别结果作为所述目标语音帧的语音识别结果。
[0010]可选地,所述预设语音识别模型包括:预设编码器;其中,所述预设编码器包括所述设定数量的卷积核;所述将所述语音帧组包含的初始语音帧和填充语音帧输入预设语音识别模型,包括:将所述语音帧组包含的初始语音帧和填充语音帧输入所述预设编码器,利用所述预设编码器中包含的所述设定数量的卷积核,执行对所述语音帧组包含的初始语音帧和填充语音帧的卷积运算,根据卷积运算的结果输出所述语音帧组的特征。
[0011]可选地,所述预设语音识别模型还包括:时序分类模型、注意力解码器;所述将所述语音帧组包含的初始语音帧和填充语音帧输入预设语音识别模型,得到所述语音帧组的语音识别结果,包括:将所述语音帧组的特征输入所述时序分类模型,并获取所述时序分类模型输出的对应于所述语音帧组的第一文本特征;将所述语音帧组的特征以及所述语音帧组的第一文本特征,输入所述注意力解码器,得到所述语音帧组的语音识别结果。
[0012]可选地,所述将所述时序分类模型的目标函数、所述注意力解码器的目标函数叠加,得到所述预设语音识别模型的模型目标函数;训练所述预设语音识别模型;利用所述模型目标函数评估预设语音识别模型的训练结果,并根据所述训练结果调整所述时序分类模型和/或注意力解码器,以及调整所述时序分类模型的目标函数或所述注意力解码器的目标函数在所述模型目标函数中的权重。
[0013]为实现上述目的,根据本专利技术实施例的第二方面,提供了一种语音识别的装置,其特征在于,包括:处理语音数据模块、识别语音数据模块和发送识别结果模块;其中,
[0014]所述处理语音数据模块,用于响应于触发语音识别,接收待识别的语音数据,将所述语音数据划分成多个语音数据块,其中,所述语音数据块包含有多个时间序列连续的初始语音帧;
[0015]所述识别语音数据模块,用于针对每一个所述语音数据块,依次执行:为所述语音数据块增加多个填充语音帧;从所述语音数据块中,按照设定步长提取多组语音帧组,其中,每一组所述语音帧组包含的初始语音帧和填充语音帧的总数为设定数量,所述设定步长指示每相邻两组语音帧组提取位置之间的位置差;按照时间序列,针对每一组所述语音帧组,将所述语音帧组包含的初始语音帧和填充语音帧输入预设语音识别模型,得到所述语音帧组的语音识别结果;其中,所述预设语音识别模型包含的卷积核的数量为所述设定数量;
[0016]所述发送识别结果模块,用于根据每一组所述语音帧组对应的语音识别结果,得到针对所述语音数据块的识别结果;根据识别出的各个所述语音数据块的识别结果,确定
出所述语音数据的目标识别结果并发送所述目标识别结果。
[0017]可选地,所述语音识别的装置,用于为所述语音数据块增加多个填充语音帧,包括:获取所述语音数据块包含的多个初始语音帧的时间序列;将第一语音帧作为多个所述初始语音帧中的时间序列最先者;第二语音帧作为多个所述初始语音帧中的时间序列最后者;在所述语音数据块包含的多个时间序列连续的初始语音帧之前和之后分别添加多个填充语音帧。
[0018]可选地,所述语音识别的装置,进一步用于根据所述语音数据块包含的初始语音帧的数量以及填充语音帧的数量,确定所述设定步长,以使所述语音数据块包含的初始语音帧的数量与所述语音帧组的组数一致。
[0019]可选地,所述语音识别的装置,包括的每一组所述语音帧组包含全部所述初始语音帧;并且每一组所述语音帧组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别的方法,其特征在于,包括:响应于触发语音识别,接收待识别的语音数据,将所述语音数据划分成多个语音数据块,其中,所述语音数据块包含有多个时间序列连续的初始语音帧;针对每一个所述语音数据块,依次执行:为所述语音数据块增加多个填充语音帧;从所述语音数据块中,按照设定步长提取多组语音帧组,其中,每一组所述语音帧组包含的初始语音帧和填充语音帧的总数为设定数量,所述设定步长指示每相邻两组语音帧组提取位置之间的位置差;按照时间序列,针对每一组所述语音帧组,将所述语音帧组包含的初始语音帧和填充语音帧输入预设语音识别模型,得到所述语音帧组的语音识别结果;其中,所述预设语音识别模型包含的卷积核的数量为所述设定数量;根据每一组所述语音帧组对应的语音识别结果,得到针对所述语音数据块的识别结果;根据识别出的各个所述语音数据块的识别结果,确定出所述语音数据的目标识别结果并发送所述目标识别结果。2.根据权利要求1所述的方法,其特征在于,所述为所述语音数据块增加多个填充语音帧,包括:获取所述语音数据块包含的多个初始语音帧的时间序列;将第一语音帧作为多个所述初始语音帧中的时间序列最先者;第二语音帧作为多个所述初始语音帧中的时间序列最后者;在所述语音数据块包含的多个时间序列连续的初始语音帧之前和之后分别添加多个填充语音帧。3.根据权利要求1所述的方法,其特征在于,进一步包括:根据所述语音数据块包含的初始语音帧的数量以及填充语音帧的数量,确定所述设定步长,以使所述语音数据块包含的初始语音帧的数量与所述语音帧组的组数一致。4.根据权利要求1所述的方法,其特征在于,每一组所述语音帧组包含全部所述初始语音帧;并且每一组所述语音帧组中设定位置上的目标语音帧为所述预设语音识别模型的主要影响因子,设定位置之外的其他语音帧为所述预设语音识别模型的关联影响因子。5.根据权利要求4所述的方法,其特征在于,还包括:通过所述语音识别模型识别所述语音帧组中设定位置上的目标语音帧,并将所述语音帧组的语音识别结果作为所述目标语音帧的语音识别结果。6.根据权利要求1所述的方法,其特征在于,所述预设语音识别模型包括:预设编码器;其中,所述预设编码器包括所述设定数量的卷积核;所述将所述语音帧组包含的初始语音帧和填充语音帧输入预设语音识别模型,包括:将所述语音帧组包含的初始语音帧和填充语音帧输入所述预设编码器,利用所述预设编码器中包含的所述设定数量的卷积核,执行对所述语音帧组包含的初始语音帧和填充语音帧的卷积运算,根据卷积运算的结果输出所述语音帧组的...

【专利技术属性】
技术研发人员:李思琪付立
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1