语音合成模型的训练方法、装置、存储介质以及电子设备制造方法及图纸

技术编号：27243453 阅读：19 留言：0更新日期：2021-02-04 12:16

本申请实施例公开了一种语音合成模型的训练方法，所述方法包括：获取目标用户的第一语音数据，基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据，基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。本申请针对语音合成模型对新的目标用户进行训练时，通过在已有的语音数据集合中找到与目标用户说话风格最相似的语音数据对初始语音合成模型进行训练，得到目标语音合成模型，初始语音合成模型是多人语音合成模型，提升了多人语音合成模型的训练效率。合成模型的训练效率。合成模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型的训练方法、装置、存储介质以及电子设备

[0001]本专利技术涉及语音处理
，尤其涉及一种语音合成模型的训练方法、装置、存储介质以及电子设备。

技术介绍

[0002]随着人工智能技术的发展，语音合成技术越来越受到人们的重视，合成语音被应用在各种场合中，比如：公共交通上的语音播报，在线教学课程中代替老师点名、读题目等，天气播报、新闻播报等与语音合成的相关场合中。相关技术中，语音合成模型不仅可以用在单个说话人的应用场景下，还有可以用在多个说话人的应用场景，但是多人语音合成模型的训练过程较为繁琐，特别是在新增模拟对象时，由于数据不足等原因，影响了训练效率和模型的准确率。

技术实现思路

[0003]本申请实施例提供了一种语音合成模型的训练方法、装置、计算机存储介质以及电子终端，旨在提升相关技术中多人语音合成模型的训练效率的技术问题。所述技术方案如下：
[0004]第一方面，本申请实施例提供了一种语音合成模型的训练方法，所述方法包括：
[0005]获取目标用户的第一语音数据；
[0006]基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据；
[0007]基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。
[0008]可选地，所述基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最高的第二语音数据，包括：
[0009]基于所述说话人分类网络将所述第一语音数据进行处理得到多个第一特征向量，确...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法，其特征在于，所述方法包括：获取目标用户的第一语音数据；基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据；基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。2.根据权利要求1所述的方法，其特征在于，所述基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最高的第二语音数据，包括：基于所述说话人分类网络将所述第一语音数据进行处理得到多个第一特征向量，确定所述多个第一特征向量的特征向量均值；基于所述说话人分类网络计算所述语音数据集合包括的多种不同说话风格的语音数据各自对应的第二特征向量均值；在多个第二特征向量均值中确定与所述特征向量均值相似度最大的第二特征向量均值；将所述最大相似度值的第二特征向量均值对应的语音数据作为第二语音数据。3.根据权利要求1所述的方法，其特征在于，所述初始语音合成模型预先经过训练，其训练过程包括：创建样本文本数据集合和样本语音数据集合；对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱；计算所述各个样本用户的样本文本数据对应的梅尔频谱与所述各个样本用户的样本语音数据对应的梅尔频谱的损失值；在所述损失值小于或等于预设阈值时生成所述初始语音合成模型。4.根据权利要求3所述的方法，其特征在于，所述对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱，包括：对所述多个样本用户的样本文本数据进行...

【专利技术属性】
技术研发人员：吴雨璇，舒景辰，梁光，周鼎皓，杨惠，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人