分类器训练方法、语音识别方法、装置、设备和存储介质制造方法及图纸

技术编号:32885792 阅读:16 留言:0更新日期:2022-04-02 12:20
本发明专利技术提供了一种分类器训练方法、语音识别方法、装置、设备和存储介质。上述语音识别方法包括:获取待识别音频;对待识别音频进行预处理,得到待识别音频对应的音频样本;将音频样本输入至目标分类器中,得到待识别音频对应的分类结果;在分类结果用于表征待识别音频为目标音频的情况下,对待识别音频进行解码处理,生成语音识别结果。本发明专利技术中,通过目标分类器对待识别音频进行分类,确定待识别音频是否为儿童音,以此提高儿童音的识别效果;进一步的,在待识别音频为儿童音的情况下,进行解码处理生成语音识别结果,进而提高语音识别的准确率。确率。确率。

【技术实现步骤摘要】
分类器训练方法、语音识别方法、装置、设备和存储介质


[0001]本专利技术涉及音频处理
,特别是涉及一种分类器训练方法、语音识别方法、装置、设备和存储介质。

技术介绍

[0002]随着语音交互技术的广泛应用,越来越多的电子设备支持语音识别功能。目前的语音交互技术中,通常将易于采集的成人语料作为音频数据。
[0003]然而,与成年人的音频相比,儿童音频有着声道长度短、发音速度变化大以及无意义语气词较多等特点,且儿童音频的音色与成年人的音频的音色不同,导致现有的语音识别方法对儿童音的识别效果不佳,进而降低了语音识别的准确率。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种分类器训练方法、语音识别方法、装置、设备和存储介质,解决儿童音的识别效果不佳,进而降低了语音识别的准确率的技术问题。具体技术方案如下:
[0005]在本专利技术实施例的第一方面,首先提供了一种分类器训练方法包括:
[0006]根据训练音频对应的第一矩阵和预设标注结果,对所述训练音频中的每个音频帧进行分类,得到分类结果;
[0007]基于所述预设标注结果和所述分类结果,对所述待训练分类器进行迭代训练;
[0008]所述待训练分类器在进行第L次迭代时,若所述待训练分类器对应的第一损失值和第二损失值之间的差值处于预设范围,则将当前训练的待训练分类器确定为目标分类器,L为正整数;
[0009]其中,所述第一损失值基于所述待训练分类器在进行第L次迭代时,所述待训练分类器的分类结果和预设标注结果确定;所述第二损失值基于待训练分类器在进行第L

1次迭代时,所述待训练分类器的分类结果和预设标注结果确定。
[0010]在本专利技术实施例的第二方面,还提供了一种语音识别方法,包括:
[0011]获取待识别音频;
[0012]对所述待识别音频进行预处理,得到所述待识别音频对应的音频样本;
[0013]将所述音频样本输入至目标分类器中,得到所述待识别音频对应的分类结果;
[0014]在所述分类结果用于表征所述待识别音频为目标音频的情况下,对所述待识别音频进行解码处理,生成语音识别结果。
[0015]在本专利技术实施例的第三方面,还提供了一种分类器训练装置,包括:
[0016]分类模块,用于根据训练音频对应的第一矩阵和预设标注结果,对所述训练音频中的每个音频帧进行分类,得到分类结果;
[0017]训练模块,用于基于所述预设标注结果和所述分类结果,对所述待训练分类器进行迭代训练;
[0018]确定模块,用于所述待训练分类器在进行第L次迭代时,若所述待训练分类器对应的第一损失值和第二损失值之间的差值处于预设范围,则将当前训练的待训练分类器确定为目标分类器,L为正整数;
[0019]其中,所述第一损失值基于所述待训练分类器在进行第L次迭代时,所述待训练分类器的分类结果和预设标注结果确定;所述第二损失值基于待训练分类器在进行第L

1次迭代时,所述待训练分类器的分类结果和预设标注结果确定。
[0020]在本专利技术实施例的第四方面,还提供了一种语音识别装置,所述语音识别装置包括:
[0021]获取模块,用于获取待识别音频;
[0022]处理模块,用于对所述待识别音频进行预处理,得到所述待识别音频对应的音频样本;
[0023]分类模块,用于将所述音频样本输入至目标分类器中,得到所述待识别音频对应的分类结果;
[0024]解码模块,用于在所述分类结果用于表征所述待识别音频为目标音频的情况下,对所述待识别音频进行解码处理,生成语音识别结果。
[0025]本专利技术提供的语音识别方法中,获取待识别音频;对待识别音频进行预处理,得到待识别音频对应的音频样本;将音频样本输入至目标分类器中,得到待识别音频对应的分类结果;在分类结果用于表征待识别音频为目标音频的情况下,对待识别音频进行解码处理,生成语音识别结果。本专利技术实施例中,通过目标分类器对待识别音频进行分类,确定待识别音频是否为儿童音,以此提高儿童音的识别效果;进一步的,在待识别音频为儿童音的情况下,进行解码处理生成语音识别结果,进而提高语音识别的准确率。
附图说明
[0026]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0027]图1为本专利技术实施例中待训练分类器的网络层示意图;
[0028]图2为本专利技术实施例中分类器训练方法的流程示意图;
[0029]图3为本专利技术实施例中特征层的应用场景示意图;
[0030]图4为本专利技术实施例中语音识别方法的流程示意图;
[0031]图5为本专利技术实施例中分类器训练装置的结构示意图;
[0032]图6为本专利技术实施例中语音识别装置的结构示意图;
[0033]图7为本专利技术实施例中一种电子设备的结构示意图。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。
[0035]请参阅图1,图1为本专利技术实施例中待训练分类器的网络层示意图。本专利技术实施例提供的分类器训练方法应用于图1示出的分类器。
[0036]如图1所示,分类器可以是一个基于深度神经网络(Deep Neural Networks,DNN)的分类器。该分类器包括1个输入层、3个隐藏层、1个特征层和1个输出层,其中,输入层用于
存储训练样本的音频特征数据;输出层用于输出分类结果;隐藏层用于对训练样本的音频特征进行多维度的扩展;特征层用于基于注意力机制对音频特征进行处理,以提高分类结果的准确率。
[0037]在图1示出的分类器中,设定一个训练样本由100个音频帧构成,且训练样本包括每个音频帧对应的83个音频特征,这样,输入层存储的数据为一个83*100的矩阵。在图1示出的分类器中,设定每个隐藏层的单元数为1024,这样,输入到特征层的数据为100*1024的矩阵。应理解,在其他实施例中,训练样本的音频帧也可以为其他数量,音频帧对应的音频特征数量也可以为其他数量,隐藏层的单元数也可以为其他数量,在此不做具体限定。
[0038]请参阅图2,图1为本专利技术实施例中分类器训练方法的流程示意图。本专利技术实施例提供的分类器训练方法包括:
[0039]S101,根据训练音频对应的第一矩阵和预设标注结果,对所述训练音频中的每个音频帧进行分类,得到分类结果。
[0040]上述第一矩阵表征训练音频中每个音频帧对应的音频特征。
[0041]上述预设标注结果为预先设置的训练音频的标注结果。可选地,若训练音频为儿童音频,则可以将预设标注结果设置为1;若训练音频为非儿童音频,例如成人音频,则可以将预设标注结果设置为0。
[0042]本步骤中,基于上述第一矩阵和预设标注结果对训练音频中的每个音频帧进行分类,得到分类结果。例如,一个训练样本包括100本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分类器训练方法,其特征在于,包括:根据训练音频对应的第一矩阵和预设标注结果,对所述训练音频中的每个音频帧进行分类,得到分类结果;基于所述预设标注结果和所述分类结果,对所述待训练分类器进行迭代训练;所述待训练分类器在进行第L次迭代时,若所述待训练分类器对应的第一损失值和第二损失值之间的差值处于预设范围,则将当前训练的待训练分类器确定为目标分类器,L为大于1正整数;其中,所述第一损失值基于所述待训练分类器在进行第L次迭代时,所述待训练分类器的分类结果和预设标注结果确定;所述第二损失值基于待训练分类器在进行第L

1次迭代时,所述待训练分类器的分类结果和预设标注结果确定。2.根据权利要求1所述的方法,其特征在于,所述根据训练音频对应的第一矩阵和预设标注结果,对所述训练音频中的每个音频帧进行分类,得到分类结果包括:基于点积注意力机制,对所述第一矩阵进行矩阵转换处理,得到第二矩阵;基于点积注意力机制,对所述第二矩阵和第一特征向量进行矩阵转换处理,得到第二特征向量;所述第一特征向量基于所述预设标注结果确定;对所述第二特征向量进行归一化处理,得到所述分类结果。3.根据权利要求1所述的的方法,其特征在于,所述根据训练音频对应的第一矩阵和预设标注结果,对所述训练音频中的每个音频帧进行分类,得到分类结果之前,所述方法还包括:获取训练音频;所述训练音频包括目标音频;对所述训练音频对应的训练样本进行非线性变换处理,得到所述训练音频对应的第一矩阵。4.根据权利要求3所述的方法,其特征在于,所述对所述训练音频对应的训练样本进行非线性变换处理,得到所述训练音频对应的第一矩阵包括:对所述训练音频进行分帧处理,得到所述训练音频对应的第一音频帧;对所述第一音频帧进行特征提取,得到所述训练音频对应的第一音频特征;对所述训练音频对应的第一音频帧和第一音频特征进行矩阵转换处理,得到所述训练音频对应的训练样本。5.一种语音识别方法,其特征在于,包括:获取待识别音频;对所述待识别音频进行预处理,得到所述待识别音频对应的音频样本;将所述音频样本输入至目标分类器中,得到所述待识别音频对应的分类结果;在所述分类结果用于表征所述待识别音频为目标音频的情况下,对所述待识别音频进行解码处理,生成语音识别结果。6.根据权利要求5所述的方法...

【专利技术属性】
技术研发人员:陈孝良李良斌
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1