基于语音合成模型的预训练方法、装置和电子设备制造方法及图纸

技术编号：34530421 阅读：17 留言：0更新日期：2022-08-13 21:22

本公开公开了一种基于语音合成模型的预训练方法、装置和电子设备，尤其涉及自然语言处理、深度学习、语音技术等人工智能技术领域。其中，方案为：获取语音样本数据及语音样本数据对应的文本样本数据；对语音样本数据进行特征提取，以生成样本语音特征；根据样本语音特征和跨语言音素表，生成语音矩阵特征；根据语音矩阵特征和文本样本数据进行联合掩码学习，以对语音合成模型进行预训练。由此，通过语音矩阵特征和文本样本数据的联合掩码学习，对语音合成模型进行预训练，也即在对语音合成模型进行预训练的过程中，充分考虑到了语音特征和文本特征的联合训练，从而可使得生成的语音合成模型更为准确可靠，进而为提高语音合成质量提供了条件。提供了条件。提供了条件。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音合成模型的预训练方法、装置和电子设备

[0001]本公开涉及计算机
，具体涉及自然语言处理、深度学习、语音技术等人工智能
，尤其涉及一种基于语音合成模型的预训练方法、装置和电子设备。

技术介绍

[0002]随着计算机技术的发展，语音作为人们获取信息的重要载体，已经被广泛应用于日常生活和工作中。现有的主流语音模型在许多语音理解相关方向任务效果上提升显著，如语音识别、语音分类和语音文本翻译等。但对于语音合成，生成高质量语音仍然具有挑战性。
[0003]相关技术中，语音合成模型通常只能处理单一语言或者单一类型的语音合成任务，并且跨语言语音合成通常需要引入先验知识，从而可能使得语音合成质量不高的问题。由此，如何对语音合成模型进行预训练，以提高语音合成质量，显得至关重要。

技术实现思路

[0004]本公开提供了一种基于语音合成模型的预训练方法、装置、电子设备和存储介质。
[0005]本公开一方面，提供了一种基于语音合成模型的预训练方法，包括：
[0006]获取语音样本数据，以及所述语音样本数据对应的文本样本数据；
[0007]对所述语音样本数据进行特征提取，以生成样本语音特征；
[0008]根据所述样本语音特征和跨语言音素表，生成语音矩阵特征；
[0009]根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习，以对语音合成模型进行预训练。
[0010]本公开的另一方面，提供了一种基于语音合成模型的预训练装置，包括：
[0011...

【技术保护点】

【技术特征摘要】
1.一种基于语音合成模型的预训练方法，其中，包括：获取语音样本数据，以及所述语音样本数据对应的文本样本数据；对所述语音样本数据进行特征提取，以生成样本语音特征；根据所述样本语音特征和跨语言音素表，生成语音矩阵特征；根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习，以对语音合成模型进行预训练。2.如权利要求1所述的方法，其中，在所述根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习，以对语音合成模型进行预训练之前，还包括：对所述语音矩阵特征进行语音编码以使所述语音矩阵特征和所述文本样本数据的特征维度相同。3.如权利要求1所述的方法，其中，所述根据所述语音矩阵特征和所述文本样本数据进行联合掩码学习，以对语音合成模型进行预训练，包括：对所述语音矩阵特征之中的音频矩阵采用第一掩码方式进行掩码，对所述文本样本数据之中的文本特征采用第二掩码方式进行掩码。4.如权利要求3所述的方法，其中，所述第一掩码方式为连续区间级别的掩码方式，所述第二掩码方式为离散掩码方式。5.如权利要求3所述的方法，其中，所述第一掩码方式的掩码位置与所述第二掩码方式的掩码位置不同。6.如权利要求3所述的方法，其中，还包括：针对所述语音矩阵特征采用残差损失函数进行预训练，并针对所述文本样本数据采用交叉熵损失函数进行预训练。7.如权利要求1所述的方法，其中，所述跨语言音素表通过以下步骤获得：获取第一语言音素和第二语言音素；通过映射学习模型，学习所述第一语言音素和所述第二语言音素之间的映射关系，以形成所述跨语言音素表。8.一种基于语音合成模型的预训练装置，其中，包括：获取模块，用于获取语音样本数据，以及所述语音样本数据对应的文本样本数据；提取模块，用于对所述语音样本数据进行特征提取，以生成样本语音特征；第一生成模块，用于根据所述样本语音特征和跨语言音素表，生成语音矩阵特征；处理...

【专利技术属性】
技术研发人员：樊晓然，郑人杰，陈俊坤，朱鹏飞，庞超，王硕寰，原湉，李昕同，孙宇，黄亮，陈泽裕，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人