语音合成模型的训练方法、装置、存储介质以及电子设备制造方法及图纸

技术编号:27243453 阅读:19 留言:0更新日期:2021-02-04 12:16
本申请实施例公开了一种语音合成模型的训练方法,所述方法包括:获取目标用户的第一语音数据,基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据,基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。本申请针对语音合成模型对新的目标用户进行训练时,通过在已有的语音数据集合中找到与目标用户说话风格最相似的语音数据对初始语音合成模型进行训练,得到目标语音合成模型,初始语音合成模型是多人语音合成模型,提升了多人语音合成模型的训练效率。合成模型的训练效率。合成模型的训练效率。

【技术实现步骤摘要】
语音合成模型的训练方法、装置、存储介质以及电子设备


[0001]本专利技术涉及语音处理
,尤其涉及一种语音合成模型的训练方法、装置、存储介质以及电子设备。

技术介绍

[0002]随着人工智能技术的发展,语音合成技术越来越受到人们的重视,合成语音被应用在各种场合中,比如:公共交通上的语音播报,在线教学课程中代替老师点名、读题目等,天气播报、新闻播报等与语音合成的相关场合中。相关技术中,语音合成模型不仅可以用在单个说话人的应用场景下,还有可以用在多个说话人的应用场景,但是多人语音合成模型的训练过程较为繁琐,特别是在新增模拟对象时,由于数据不足等原因,影响了训练效率和模型的准确率。

技术实现思路

[0003]本申请实施例提供了一种语音合成模型的训练方法、装置、计算机存储介质以及电子终端,旨在提升相关技术中多人语音合成模型的训练效率的技术问题。所述技术方案如下:
[0004]第一方面,本申请实施例提供了一种语音合成模型的训练方法,所述方法包括:
[0005]获取目标用户的第一语音数据;
[0006]基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据;
[0007]基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。
[0008]可选地,所述基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最高的第二语音数据,包括:
[0009]基于所述说话人分类网络将所述第一语音数据进行处理得到多个第一特征向量,确定所述多个第一特征向量的特征向量均值;
[0010]基于所述说话人分类网络计算所述语音数据集合包括的多种不同说话风格的语音数据各自对应的第二特征向量均值;
[0011]在多个第二特征向量均值中确定与所述特征向量均值相似度最大的第二特征向量均值;
[0012]将所述最大相似度值的第二特征向量均值对应的语音数据作为第二语音数据。
[0013]可选地,所述初始语音合成模型预先经过训练,其训练过程包括:
[0014]创建样本文本数据集合和样本语音数据集合;
[0015]对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱;
[0016]计算所述各个样本用户的样本文本数据对应的梅尔频谱与所述各个样本用户的样本语音数据对应的梅尔频谱的损失值;
[0017]在所述损失值小于或等于预设阈值时生成所述初始语音合成模型。
[0018]可选地,所述对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱,包括:
[0019]对所述多个样本用户的样本文本数据进行编码处理得到音素特征向量;
[0020]确定所述各个样本用户的语音数据对应的音色特征向量和情绪特征向量;
[0021]基于所述音素特征向量、音色特征向量和情绪特征向量,得到所述各个样本用户的样本文本数据对应的梅尔频谱。
[0022]可选地,所述确定所述各个样本用户的语音数据对应的情绪特征向量,包括:
[0023]对所述样本用户的语音数据进行情绪识别得到所述情绪特征向量;或
[0024]基于所述样本文本数据中的情绪标识确定所述目标情绪特征。
[0025]可选地,所述方法还包括:
[0026]获取目标用户的真人语音数据,基于所述目标语音合成模型对所述真人语音数据进行语音合成处理,得到所述目标用户的合成语音。
[0027]可选地,所述方法还包括:
[0028]基于语音信号参数对所述合成语音进行调整;其中,所述语音信号参数包括音量、语速以及背景噪声中的一种或多种。
[0029]第二方面,本申请实施例提供了一种语音合成模型的训练装置,所述装置包括:
[0030]第一语音获取模块,用于获取目标用户的第一语音数据;
[0031]第二语音获取模块,用于基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据;
[0032]语音合成模块,用于基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。
[0033]第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
[0034]第四方面,本申请实施例提供了一种电子设备,可包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述存储器加载并执行上述的方法步骤。
[0035]本申请实施例提供的技术方案带来的有益效果至少包括:
[0036]本申请实施例的方案在执行时,获取目标用户的第一语音数据,基于说话人分类网络在语音数据集合中确定与第一语音数据相似度最大的第二语音数据,基于第二语音数据对初始语音合成模型进行调整得到目标语音合成模型。本申请针对语音合成模型对新的目标用户的进行训练时,通过在已有的语音数据集合中找到与目标用户说话风格最相似的语音数据对初始语音合成模型进行训练,得到目标语音合成模型,初始语音合成模型是多人语音合成模型,提升了多人语音合成模型的训练效率。
附图说明
[0037]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他的附图。
[0038]图1是本申请语音合成模型的训练方法的系统架构示意图;
[0039]图2是本申请实施例提供的一种语音合成模型的训练方法的流程示意图;
[0040]图3是本申请实施例提供的一种语音合成模型的训练方法的流程示意图;
[0041]图4是本申请实施例提供的一种语音合成模型的训练装置的结构示意图;
[0042]图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0043]为使得本申请实施例的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044]下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0045]在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,所述方法包括:获取目标用户的第一语音数据;基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据;基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最高的第二语音数据,包括:基于所述说话人分类网络将所述第一语音数据进行处理得到多个第一特征向量,确定所述多个第一特征向量的特征向量均值;基于所述说话人分类网络计算所述语音数据集合包括的多种不同说话风格的语音数据各自对应的第二特征向量均值;在多个第二特征向量均值中确定与所述特征向量均值相似度最大的第二特征向量均值;将所述最大相似度值的第二特征向量均值对应的语音数据作为第二语音数据。3.根据权利要求1所述的方法,其特征在于,所述初始语音合成模型预先经过训练,其训练过程包括:创建样本文本数据集合和样本语音数据集合;对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱;计算所述各个样本用户的样本文本数据对应的梅尔频谱与所述各个样本用户的样本语音数据对应的梅尔频谱的损失值;在所述损失值小于或等于预设阈值时生成所述初始语音合成模型。4.根据权利要求3所述的方法,其特征在于,所述对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱,包括:对所述多个样本用户的样本文本数据进行...

【专利技术属性】
技术研发人员:吴雨璇舒景辰梁光周鼎皓杨惠
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1