本申请提供了音频识别方法、模型的训练方法、装置、设备及存储介质,具体实现方案为:在第一音频数据集中确定低频三音素;基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;基于低频文本训练音频识别模型。根据本申请的技术方案,能够有效提升训练数据中的低频数据内容的多样性和准确性。低频数据内容的多样性和准确性。低频数据内容的多样性和准确性。
【技术实现步骤摘要】
音频识别方法、模型的训练方法、装置、设备及存储介质
[0001]本申请涉及深度学习
,尤其涉及语音识别
技术介绍
[0002]近年来,随着语音识别技术的飞速发展,语音增强,语音识别,语音问答,信息提取等相关任务受到了越来越多的关注,但语音识别技术在较大程度上依赖于训练数据,而低频词在收集的训练数据中所占权重较小。因此,训练数据的数量是影响低频词识别的关键因素。
技术实现思路
[0003]根据本申请实施例的第一方面,提供了一种音频识别模型的训练方法,包括:
[0004]在第一音频数据集中确定低频三音素;
[0005]基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;
[0006]基于低频文本训练音频识别模型。
[0007]根据本申请实施例的第二方面,提供了一种音频识别方法,包括:
[0008]利用音频识别模型对待处理音频数据进行识别,得到待处理音频数据中的识别结果;其中,音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的。
[0009]根据本申请实施例的第三方面,提供了一种音频识别模型的训练装置,包括:
[0010]确定模块,用于在第一音频数据集确定低频三音素;
[0011]查找模块,用于基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;
[0012]训练模块,用于基于低频文本训练音频识别模型。
[0013]根据本申请实施例的第四方面,提供了一种音频识别装置,包括:
[0014]音频处理模块,用于利用音频识别模型对待处理音频数据进行识别,得到待处理音频数据中的识别结果;其中,音频识别模型是基于包含低频三音素的文本合成的音频数据训练得到的。
[0015]根据本申请实施例的第五方面,提供了一种电子设备,包括:
[0016]至少一个处理器;以及
[0017]与至少一个处理器通信连接的存储器;其中,
[0018]存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本申请实施例中任意一种音频识别模型的训练方法或音频识别方法。
[0019]根据本申请实施例的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本申请实施例中任意一种音频识别模型的训练方法或音频识别方法。
[0020]上述申请中的一个实施例具有如下优点或有益效果:利用在第一音频数据集中确
定低频三音素,从预设语料库中确定包含低频三音素的低频文本,增加了训练数据的多样性,同时由于三音素考虑了协同发音,这样采用低频三音素确定低频文本,就可以提升训练数据中的低频音频数据的准确性。基于低频文本训练音频识别模型,提高了音频识别模型的训练效果,使得音频识别模型能够有效识别低频词。
附图说明
[0021]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0022]图1是根据本申请一实施例的音频识别模型的训练方法的流程示意图;
[0023]图2是根据本申请另一实施例的音频识别模型的训练方法的流程示意图;
[0024]图3是根据本申请另一实施例的音频识别模型的训练方法中步骤S130的具体流程示意图;
[0025]图4是根据本申请另一实施例的音频识别模型的训练方法的具体流程示意图;
[0026]图5是根据本申请另一实施例的音频识别方法的示意图;
[0027]图6是根据本申请一实施例的音频识别模型的训练装置的框图;
[0028]图7是根据本申请一实施例的音频识别装置的框图;
[0029]图8是用来实现本申请实施例的音频识别模型的训练方法和音频识别方法的电子设备的框图。
具体实施方式
[0030]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]示例性方法
[0032]图1是根据本申请一实施例的音频识别模型的训练方法的流程图。如图1所示,在一示例性实施例中,该方法可以包括:
[0033]S110、在第一音频数据集中确定低频三音素;
[0034]S120、基于低频三音素,从预设语料库中确定包含低频三音素的低频文本;
[0035]S130、基于低频文本训练音频识别模型。
[0036]在步骤S110中,示例性地,第一音频数据集是用于对音频识别模型进行训练的音频数据构成的集合。第一音频数据集中的音频数据可以是预先在任意场景下采集的,其可以包括真实场景下的语音数据,还可以包括各个AI语音平台合成的语音数据,在此不作限定。其中,语音数据可以是来源于业内开放的通用语音训练集,还可以是来源于特定用户录制的语音等。
[0037]可选地,语音数据可以通过单音素表示,也可以通过三音素表示。而单音素没有考虑协同发音,也就是上下文音素会对当前的中心音素发音有影响,产生协同变化,因此采用
三音素使得音频数据的表示更加准确。
[0038]可选地,低频三音素用于表征出现频次低于预设阈值的三音素,预设阈值设置为10,还可以根据实际情况进行设置。具体地,可以通过三音素表示第一音频数据集中音频数据,再对三音素的出现频次进行筛选,确定出低频三音素。
[0039]在步骤S120中,示例性地,预设语料库是按照一定的语言学原则,收集自然出现的连续的语言文本或语音片段而建成的电子文库。可以理解的是,预设语料库可以是任意领域、任意方式得到的语料库。可选地,预设语料库可以包括语音数据,还可以包括文本数据。可选地,当语料库中包括语音数据时,可以是将语料库中的语音数据转换为文本数据,对文本数据进行分词得到整词,再将整词转换为三音素,得到三音素序列。可选地,当语料库中包括文本数据时,可以是直接将文本数据进行分词处理得到整词,再将整词转换为三音素,得到三音素序列。
[0040]可选地,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。因此,整词转换为三音素的方法可以包括:先利用单音素表示整词,得到单音素序列,再将单音素复制为三音素,以使单音素序列转换为三音素序列。例如,单音素表示为如t,o,ng,而三音素表示为如t
‑
o+ng。
[0041]又例如,中文为:好好学习天天向上;
[0042]拼音表示为:hao3 hao3 xue2 xi2 tian1 tian1 xiang4 shang4;
[0043本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种音频识别模型的训练方法,其特征在于,包括:在第一音频数据集中确定低频三音素;基于所述低频三音素,从预设语料库中确定包含所述低频三音素的低频文本;基于所述低频文本训练音频识别模型。2.根据权利要求1所述的方法,其特征在于,在所述基于所述低频文本训练音频识别模型之前,还包括:在所述低频文本中确定所述低频三音素对应的低频词;基于所述低频词的种类,调整所述低频词对应的低频文本的数量。3.根据权利要求1所述的方法,其特征在于,所述基于所述低频文本训练音频识别模型,包括:基于所述低频文本合成音频训练数据;基于所述音频训练数据和所述第一音频数据集,确定第二音频数据集;基于所述第二音频数据集训练所述音频识别模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述第二音频数据集训练所述音频识别模型,包括:基于正确的序列标注和所述音频识别模型对所述第二音频数据集中音频数据进行识别得到的观测序列,生成第一损失函数;基于所述音频识别模型对所述第二音频数据集中的音频数据进行识别的交叉熵损失函数和所述第一损失函数,生成目标损失函数;利用所述目标损失函数训练所述音频识别模型。5.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述在第一音频数据集中确定低频三音素,包括:利用三音素确定第一音频数据集对应的第一音素集;基于所述第一音素集中三音素的频次,确定所述第一音素集中的低频三音素。6.一种音频识别方法,其特征在于,包括:利用音频识别模...
【专利技术属性】
技术研发人员:郑哲,孔常青,万根顺,潘嘉,熊世富,高建清,刘聪,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。