语音合成模型的训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号:31707634 阅读:8 留言:0更新日期:2022-01-01 11:10
本申请涉及人工智能技术领域,公开了一种自定义语音合成模型的训练方法,包括:加载待训练语音合成模型,并获取进行训练的初始数据,其中,所述初始数据包括文本信息以及标准音频信息;根据所述文本信息,得到所述初始数据对应的音素隐性特征向量和音素差异向量;根据所述标准音频信息、音素隐性特征向量以及音素差异向量,对所述待训练语音合成模型进行训练,得到基础模型;接收模型微调数据,并基于所述模型微调数据对所述基础模型进行微调,得到训练好的语音合成模型。本申请还提供一种装置、计算机设备和存储介质。实现了定制化的模型微调,降低模型微调的工作量,提高模型训练效率,也提高了语音合成的质量。也提高了语音合成的质量。也提高了语音合成的质量。

【技术实现步骤摘要】
语音合成模型的训练方法、装置、设备及可读存储介质


[0001]本申请涉及人工智能
,尤其涉及一种自定义语音合成模型的训练方法、自定义语音合成模型的训练装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]自定义语音是商业语音平台中一种特殊的文本转语音服务,旨在利用少量目标说话人语音数据微调源语音合成模型,实现合成目标说话人语音的目的。但是,少量目标说话人语音数据对合成目标说话人语音的自然度和相似性提出了挑战。
[0003]以往关于自定义语音的研究充分考虑了微调参数量设置这一问题,但并没有完全克服上述挑战。具体地,对整个源模型微调或者只微调源模型中解码器部分参数,虽能取得优良的合成语音质量,但是需微调的参数随着用户的增加而大量增加,这限制了其在实际商业服务中的应用。一些工作,仅微调说话人向量参数,可实现高效和轻量化的自定义语音,但合成语音质量较差。
[0004]因此,现在亟需一种提高模型训练效率以及语音合成的质量的自定义语音合成模型的训练方法。

技术实现思路

[0005]本申请提供了一种自定义语音合成模型的训练方法、装置、计算机设备及存储介质,以降低模型微调的工作量,提高模型训练效率,也提高了语音合成的质量。
[0006]第一方面,本申请提供了一种自定义语音合成模型的训练方法,所述方法包括:
[0007]加载待训练语音合成模型,并获取进行训练的初始数据,其中,所述初始数据包括文本信息以及标准音频信息,且所述文本信息与所述标准音频信息一一对应;
[0008]根据所述文本信息,得到所述初始数据对应的音素隐性特征向量和音素差异向量;
[0009]根据所述标准音频信息、音素隐性特征向量以及音素差异向量,对所述待训练语音合成模型进行训练,得到基础模型;
[0010]接收模型微调数据,并基于所述模型微调数据对所述基础模型进行微调,得到训练好的语音合成模型。
[0011]第二方面,本申请还提供了一种自定义语音合成模型的训练装置,所述装置包括:
[0012]数据加载模块,用于加载待训练语音合成模型,并获取进行训练的初始数据,其中,所述初始数据包括文本信息以及标准音频信息,且所述文本信息与所述标准音频信息一一对应;
[0013]特征提取模块,用于根据所述文本信息,得到所述初始数据对应的音素隐性特征向量和音素差异向量;
[0014]基础训练模块,用于根据所述标准音频信息、音素隐性特征向量以及音素差异向量,对所述待训练语音合成模型进行训练,得到基础模型;
[0015]微调处理模块,用于接收模型微调数据,并基于所述模型微调数据对所述基础模型进行微调,得到训练好的语音合成模型。
[0016]第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的自定义语音合成模型的训练方法。
[0017]第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的自定义语音合成模型的训练方法。
[0018]本申请公开了一种自定义语音合成模型的训练方法、装置、计算机设备及存储介质,在进行自定义的定制化的语音合成模型的训练时,首先利用大量常规的训练样本(文本信息和音频信息)对模型进行预训练,其中预训练所得到的模型也可以直接用于语音合成,在完成预训练得到基础模型之后,在需要进行自定义的微调时,接收模型微调数据,包括有目标人的标识信息以及训练样本,然后根据所得到的模型微调数据对语音合成模型的梅尔谱解码器进行层归一化处理,以实现对模型参数的调节,并在完成调节时得到满足实际使用需求的自定义的语音合成模型。实现了定制化的模型微调,降低模型微调的工作量,也提高了语音合成的质量。
附图说明
[0019]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本申请一个实施例提供的一种自定义语音合成模型的训练方法的流程示意图;
[0021]图2为本申请一个实施例提供的语音合成模型的框架示意图;
[0022]图3为本申请一个实施例提供的对初始数据进行处理的步骤的流程示意图;
[0023]图4为本申请一个实施例提供的得到基础模型的步骤的流程示意图;
[0024]图5为本申请一个实施例提供的对待训练语音合成模型进行训练的步骤的流程示意图;
[0025]图6为本申请一个实施例提供的确定模型是否训练完成的步骤的流程示意图;
[0026]图7为本申请一个实施例提供的得到训练好的语音合成模型的步骤的流程示意图;
[0027]图8为本申请一个实施例提供的语音合成模型中FFT结构的框架示意图;
[0028]图9为本申请一个实施例提供的一种自定义语音合成模型的训练装置的示意性框图;
[0029]图10为本申请一个实施例提供的计算机设备的结构示意性框图。
具体实施方式
[0030]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申
请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0032]应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0033]还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0034]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0035]请参阅图1,图1为本申请一个实施例提供的一种自定义语音合成模型的训练方法的流程示意图。
[0036]如图1所示,该训练方法包括步骤S101至步骤S104。
[0037]步骤S101、加载待训练语音合成模型,并获取进行训练的初始数据,其中,所述初始数据包括文本信息以及标准音频信息,且所述文本信息与所述标准音频信息一一对应。
[0038]在对语音合成模型进行训练时,首先加载需本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自定义语音合成模型的训练方法,其特征在于,所述方法包括:加载待训练语音合成模型,并获取进行训练的初始数据,其中,所述初始数据包括文本信息以及标准音频信息,且所述文本信息与所述标准音频信息一一对应;根据所述文本信息,得到所述初始数据对应的音素隐性特征向量和音素差异向量;根据所述标准音频信息、音素隐性特征向量以及音素差异向量,对所述待训练语音合成模型进行训练,得到基础模型;接收模型微调数据,并基于所述模型微调数据对所述基础模型进行微调,得到训练好的语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述待训练语音合成模型包括音素编码器以及差异适配器,所述根据所述文本信息,得到所述初始数据对应的音素隐性特征向量和音素差异向量,包括:获取所述初始数据包含的文本信息,并对所述文本信息进行音素提取,得到每一文本信息对应的音素序列;将所述音素序列输入至所述音素编码器中,得到音素隐性特征向量;将所述音素隐性特征向量输入至所述差异适配器中,得到音素差异向量。3.根据权利要求1所述的方法,其特征在于,所述根据所述标准音频信息、音素隐性特征向量以及音素差异向量,对所述待训练语音合成模型进行训练,得到基础模型,包括:以文本信息为一组别,将所述因素隐性特征向量与所述音素差异向量进行拼接,得到每一文本信息对应的特征向量;根据所述特征向量以及所述标准音频信息,对所述待训练语音合成模型进行训练,并确定训练后的所述待训练语音合成模型是否收敛;当确定所述待训练语音合成模型收敛时,得到基础模型。4.根据权利要求3所述的方法,其特征在于,所述待训练语音合成模型还包括梅尔谱解码器以及声码器,所述根据所述特征向量以及所述初始数据包含的标准音频信息,对所述待训练语音合成模型进行训练,并确定训练后的所述待训练语音合成模型是否收敛,包括:将所述特征向量输入至所述梅尔谱解码器中,得到每一特征向量对应的梅尔谱序列;利用所述声码器对所述梅尔谱序列进行处理,得到每一梅尔谱序列对应的音频信息;根据所述音频信息以及所述初始数据包含的每一文本对应的标准音频信息,确定所述待训练语音合成模型是否训练完成。5.根据权利要求4所述的方法,其特征在于,所述确定所述待训练语音合成模型是否训练完成,包括:根据所述音频信息以及所述标准音频信息,确定所述待训练语音合成模型的损失函...

【专利技术属性】
技术研发人员:郭洋王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1