一种声学模型训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33402703 阅读:14 留言:0更新日期:2022-05-11 23:24
本申请涉及一种声学模型训练方法、装置、电子设备和存储介质,该方法包括:获取多个语音以及多个语音对应的文本;训练多个语音以及多个语音对应的文本得到基础模型;根据基础模型确定目标语音对应的正向训练集和反向训练集;训练正向训练集和反向训练集得到声学模型。本申请通过基础模型在多个语音中搜索得到目标语音,在多个语音中搜索得到与目标语音发音相近的语音,目标语音组成了正向训练集,与目标语音发音相近的语音组成了反向训练集,训练正向训练集和反向训练集得到声学模型,声学模型不仅识别目标语音,而且能识别与目标语音混淆发音的语音,降低误唤醒的概率。降低误唤醒的概率。降低误唤醒的概率。

【技术实现步骤摘要】
一种声学模型训练方法、装置、电子设备和存储介质


[0001]本申请涉及模型训练
,特别是涉及一种声学模型训练方法、装置、电子设备和存储介质。

技术介绍

[0002]在边缘侧设备做语音唤醒或者命令词识别,受资源限制,其声学模型体积比较小,性能比较弱。一般解决方法是,先使用大量带标注的语音训练一个基础模型,然后录制一些目标词的录音,然后使用这些录音对基础模型做自适应训练,以使模型更偏向于对目标词的准确识别。
[0003]为了优化识别率,一般需要找至少上百人录制目标词的声音,这使得模型优化过程无法快速自动复制,影响了项目实施的速度。不同产品往往使用个性化的唤醒词和命令词,因此积累的录音也无法完全满足新产品的需求。而且,录音也需要资金投入,增加成本。

技术实现思路

[0004]基于上述问题,本申请提供一种声学模型训练方法、装置、电子设备和存储介质。
[0005]第一方面,本申请实施例提供一种声学模型训练方法,包括:
[0006]获取多个语音以及多个语音对应的文本,训练多个语音以及多个语音对应的文本得到基础模型;
[0007]根据基础模型确定目标语音对应的正向训练集和反向训练集;
[0008]训练正向训练集和反向训练集得到声学模型。
[0009]进一步地,上述一种声学模型训练方法中,根据基础模型确定目标语音对应的正向训练集,包括:
[0010]基础模型在多个语音中搜索得到目标语音;
[0011]根据目标语音和所述目标语音对应的文本确定每个字的语音边界信息;
[0012]根据每个字的语音边界信息确定目标语音中每个字的语音从而得到目标文本对应的正向训练集。
[0013]进一步地,上述一种声学模型训练方法中,根据基础模型确定目标语音对应的反向训练集,包括:
[0014]基础模型在所述多个语音中搜索得到与目标语音发音相近的语音;
[0015]根据目标语音发音相近的语音和目标语音发音相近的语音对应的文本确定每个字的语音边界信息;
[0016]根据每个字的语音边界信息确定目标语音中每个字的语音从而得到目标语音对应的反向训练集。
[0017]进一步地,上述一种声学模型训练方法中,目标语音对应的文本和目标文本是相同的文本。
[0018]进一步地,上述一种声学模型训练方法中,目标语音发音相近的语音对应的文本
和目标文本是不同的文本。
[0019]进一步地,上述一种声学模型训练方法中,根据目标语音和目标语音对应的文本确定每个字的语音边界信息是通过对齐所述目标语音和所述目标语音对应的文本确定的。
[0020]进一步地,上述一种声学模型训练方法中,根据目标语音发音相近的语音和目标语音发音相近的语音对应的文本确定每个字的语音边界信息是通过对齐目标语音发音相近的语音和目标语音发音相近的语音对应的文本对应的语音确定的。
[0021]第二方面,本申请实施例还提供一种声学模型训练装置,包括:
[0022]获取模块:用于获取多个语音以及多个语音对应的文本;
[0023]第一训练模块:用于训练多个语音以及多个语音对应的文本得到基础模型;
[0024]确定模块:用于根据基础模型确定目标语音对应的正向训练集和反向训练集;
[0025]第二训练模块:用于训练正向训练集和反向训练集得到声学模型。
[0026]第三方面,本申请实施例还提供一种电子设备,包括:处理器和存储器;
[0027]处理器通过调用所述存储器存储的程序或指令,用于执行上述任一项一种声学模型训练方法。
[0028]第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行上述任一项一种声学模型训练方法。
[0029]本申请实施例的优点在于:本申请涉及一种声学模型训练方法、装置、电子设备和存储介质,该方法包括:获取多个语音以及多个语音对应的文本;训练多个语音以及多个语音对应的文本得到基础模型;根据基础模型确定目标语音对应的正向训练集和反向训练集;训练正向训练集和反向训练集得到声学模型。本申请通过基础模型在多个语音中搜索得到目标语音,在多个语音中搜索得到与目标语音发音相近的语音,目标语音组成了正向训练集,与目标语音发音相近的语音组成了反向训练集,训练正向训练集、反向训练集得到声学模型,声学模型不仅识别目标语音,而且能识别与目标语音混淆发音的语音,降低误唤醒的概率。
附图说明
[0030]为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]图1为本申请实施例提供的一种声学模型训练方法示意图一;
[0032]图2为本申请实施例提供的一种声学模型训练方法示意图二;
[0033]图3为本申请实施例提供的一种声学模型训练方法示意图三;
[0034]图4为本申请实施例提供的一种声学模型训练装置示意图;
[0035]图5是本申请实施例提供的一种电子设备的示意性框图。
具体实施方式
[0036]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申
请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵时做类似改进,因此本申请不受下面公开的具体实施的限制。
[0037]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0038]图1为本申请实施例提供的一种声学模型训练方法示意图一。
[0039]第一方面,本申请实施例提供一种声学模型训练方法,结合图1,包括S101至S103三个步骤:
[0040]S101:获取多个语音以及多个语音对应的文本,训练多个语音以及多个语音对应的文本得到基础模型;
[0041]具体的,本申请实施例中,多个语音以及多个语音对应的文本可以是大量的不同的人的语音,语音对应的文本可以有相同的文本,如有100个人的语音,语音对应的文本是“小迪,小迪”,还包括不同的人讲的不同的语音以及对应的文本,训练多个语音以及多个语音对应的文本得到基础模型。
[0042]S102:根据基础模型确定目标语音对应的正向训练集和反向训练集。
[0043]具体的,本申请实施例中,通过基础模型在多个语音中搜索得到目标语音,在多个语音中搜索得到与目标语音发音相近的语音,目标语音组成了正向训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声学模型训练方法,其特征在于,包括:获取多个语音以及多个语音对应的文本,训练所述多个语音以及多个语音对应的文本得到基础模型;根据所述基础模型确定目标语音对应的正向训练集和反向训练集;训练所述正向训练集和所述反向训练集得到声学模型。2.根据权利要求1所述的一种声学模型训练方法,其特征在于,所述根据所述基础模型确定目标语音对应的正向训练集,包括:所述基础模型在所述多个语音中搜索得到目标语音;根据所述目标语音和所述目标语音对应的文本确定每个字的语音边界信息;根据所述每个字的语音边界信息确定目标语音中每个字的语音从而得到目标文本对应的正向训练集。3.根据权利要求1所述的一种声学模型训练方法,其特征在于,所述根据所述基础模型确定目标语音对应的反向训练集,包括:所述基础模型在所述多个语音中搜索得到与目标语音发音相近的语音;根据所述目标语音发音相近的语音和所述目标语音发音相近的语音对应的文本确定每个字的语音边界信息;根据所述每个字的语音边界信息确定目标语音中每个字的语音从而得到目标语音对应的反向训练集。4.根据权利要求2所述的一种声学模型训练方法,其特征在于,所述目标语音对应的文本和目标文本是相同的文本。5.根据权利要求3所述的一种声学模型训练方法,其特征在于,所述目标语音发音...

【专利技术属性】
技术研发人员:李鹏许东星梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1