通用语音、目标语音合成模型的训练方法及相关装置制造方法及图纸

技术编号:29926910 阅读:34 留言:0更新日期:2021-09-04 18:48
本发明专利技术提供一种通用语音、目标语音合成模型的训练方法及相关装置,其中通用语音合成模型的训练方法包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。价以及困难度。价以及困难度。

【技术实现步骤摘要】
通用语音、目标语音合成模型的训练方法及相关装置


[0001]本专利技术涉及语音信号处理
,尤其是涉及一种通用语音、目标语音合成模型的训练方法及相关装置。

技术介绍

[0002]端到端的语音合成模型已经能够合成接近人类的语音,但是训练这种基于神经网络的端到端的语音合成模型需要大量标注有文本信息的语音样本,而获取标注有文本信息的语音样本代价昂贵。对于标注有文本信息的语音样本稀缺的语种,构建高自然度的语音合成模型是比较困难的。

技术实现思路

[0003]本专利技术提供一种通用语音、目标语音合成模型的训练方法及相关装置,其能够降低语音合成模型的代价。
[0004]为解决上述技术问题,本专利技术提供的第一个技术方案为:提供一种通用语音合成模型的训练方法,包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,语音样本数据为非标注文本信息的样本数据;利用语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。
[0005]其中,利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型的步骤,包括:对语音样本数据进行处理,进而得到语音样本数据对应的上下文表征向量以及第二语音建模数据;利用上下文表征向量以及第二语音建模数据对初始语音建模模型进行训练,进而得到语音建模模型。
[0006]其中,对语音样本数据进行处理,进而得到语音样本数据对应的上下文表征向量以及第二语音建模数据的步骤,包括:对语音样本数据进行特征提取,进而得到第一表征向量;利用上下文表征算法对第一表征向量进行处理,进而得到上下文表征向量;利用乘积量化的方法对第一表征向量进行处理,进而得到第二语音建模数据。
[0007]其中,利用上下文表征向量以及第二语音建模数据对初始语音建模模型进行训练,进而得到语音建模模型的步骤,包括:利用上下文表征向量以及第二语音建模数据构建目标函数,进而得到第一语音建模模型;利用乘积量化的方法基于交叉熵函数得到辅助语音建模模型;利用第一语音建模模型以及辅助语音建模模型得到语音建模模型。
[0008]其中,对语音样本数据进行特征提取,进而得到第一表征向量的步骤,包括:对语音样本数据进行归一化处理,得到归一化数据;对归一化数据进行特征提取,进而得到第一表征向量。
[0009]其中,利用上下文表征算法对第一表征向量进行处理,进而得到上下文表征向量的步骤,包括:利用自注意力算法以及前馈网络算法对第一表征向量进行处理,进而得到上下文表征向量。
[0010]其中,利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型的步骤,包括:利用第一语音建模数据对ticotron模型进行训练,进而得到通用语音合成模型,其中,第一语音建模数据包含频谱数据。
[0011]其中,语音样本数据包括至少一种语种。
[0012]为解决上述技术问你,本专利技术提供的第二个技术方案为:提供一种目标语音合成模型的训练方法,包括:获取目标语种语音数据,其中,目标语种语音数据标注有文本信息;利用目标语种语音数据对通用语音合成模型进行训练,进而得到目标语音合成模型;其中,通用语音合成模型通过上述任一项的方法训练所得。
[0013]其中,利用目标语种语音数据对通用语音合成模型进行训练,进而得到目标语音合成模型的步骤,包括:对目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据;利用处理后的目标语种语音数据通用语音合成模型进行训练,进而得到目标语音合成模型。
[0014]其中,对目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据的步骤,包括:利用第一预设范围的混响数据、第二预设范围的余响数据以及第三预设范围的阻尼控制系数对目标语种语音数据进行数据增广处理,进而得到处理后的目标语种语音数据。
[0015]为解决上述技术问题,本专利技术提供的第三个技术方案为:提供一种电子设备,包括:存储器和处理器,其中,存储器存储有程序指令,处理器从存储器调取程序指令以执行上述任一项的通用语音合成模型的训练方法;和/或处理器从存储器调取程序指令以执行上述任一项的目标语音合成模型的训练方法。
[0016]为解决上述技术问题,本专利技术提供的第四个技术方案为:提供一种存储介质,存储有程序文件,程序文件能够被执行以实现上述任一项的通用语音合成模型的训练方法;和/或程序文件能够被执行以实现上述任一项的目标语音合成模型的训练方法。
[0017]本专利技术的有益效果,区别于现有技术的情况,本专利技术利用未标注文本信息的语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,利用语音建模模型对语音测试数据进行处理,得到第一语音建模数据,利用第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。本申请的方法采用未标注文本信息的语音样本数据即可训练得到语音合成模型,其能够降低训练语音合成模型的代价以及困难度。
附图说明
[0018]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
[0019]图1为本专利技术通用语音合成模型的训练方法的第一实施例的流程示意图;
[0020]图2为图1中步骤S11的一实施例的流程示意图;
[0021]图3为图2中步骤S22的一实施例的流程示意图;
[0022]图4为本专利技术目标语音合成模型的训练方法的第一实施例的流程示意图;
[0023]图5为本专利技术电子设备的一实施例的结构示意图;
[0024]图6为本专利技术计算机可读存储介质的一实施例的结构示意图。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0026]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0027]本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
[0028]本专利技术中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个特征。本专利技术的描述中,“多个”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用语音合成模型的训练方法,其特征在于,包括:利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型,其中,所述语音样本数据为非标注文本信息的样本数据;利用所述语音建模模型对语音测试数据进行处理,进而得到第一语音建模数据;利用所述第一语音建模数据对初始通用语音合成模型进行训练,进而得到通用语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述利用语音样本数据对初始语音建模模型进行训练,进而得到语音建模模型的步骤,包括:对所述语音样本数据进行处理,进而得到所述语音样本数据对应的上下文表征向量以及第二语音建模数据;利用所述上下文表征向量以及所述第二语音建模数据对所述初始语音建模模型进行训练,进而得到所述语音建模模型。3.根据权利要求2所述的方法,其特征在于,所述对所述语音样本数据进行处理,进而得到所述语音样本数据对应的上下文表征向量以及第二语音建模数据的步骤,包括:对所述语音样本数据进行特征提取,进而得到第一表征向量;利用上下文表征算法对所述第一表征向量进行处理,进而得到所述上下文表征向量;利用乘积量化的方法对所述第一表征向量进行处理,进而得到所述第二语音建模数据。4.根据权利要求3所述的方法,其特征在于,所述利用所述上下文表征向量以及所述第二语音建模数据对所述初始语音建模模型进行训练,进而得到所述语音建模模型的步骤,包括:利用所述上下文表征向量以及所述第二语音建模数据构建目标函数,进而得到第一语音建模模型;利用乘积量化的方法基于交叉熵函数得到辅助语音建模模型;利用所述第一语音建模模型以及所述辅助语音建模模型得到所述语音建模模型。5.根据权利要求3所述的方法,其特征在于,所述对所述语音样本数据进行特征提取,进而得到第一表征向量的步骤,包括:对所述语音样本数据进行归一化处理,得到归一化数据;对所述归一化数据进行特征提取,进而得到所述第一表征向量。6.根据权利要求3所述的方法,其特征在于,所述利用上下文表征算法对所述第一表征向量进行处理,进而得到所述上下文表征向量的步骤,包括:利用自注意力算法以及前馈网络算法对所述第一表征向量进行处理,进而得到所述上下文表征向量。7.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:陈梦楠高丽祖漪清江源
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1