语音合成方法、语音合成系统、电子设备及存储介质技术方案

技术编号:38718204 阅读:13 留言:0更新日期:2023-09-08 15:00
本申请实施例提供了一种语音合成方法、语音合成系统、电子设备及存储介质,属于金融科技技术领域。该方法包括:获取样本语音文本的样本音素序列;通过文本编码模块对样本音素序列进行编码得到音素编码特征;根据全局识别模块得到样本音素序列的全局情感特征;根据句级识别模块得到样本初始语音的情感变换特征;根据音素编码特征、全局情感特征和情感变换特征确定目标样本特征;通过语音合成模块对目标样本特征进行语音合成得到预测合成语音;根据样本初始语音和预测合成语音对模型的参数进行调整得到情感语音合成模型;将目标语音文本输入至情感语音合成模型合成得到目标合成语音。本申请实施例能够生成情感表现更丰富的高质量合成语音。量合成语音。量合成语音。

【技术实现步骤摘要】
语音合成方法、语音合成系统、电子设备及存储介质


[0001]本申请涉及金融科技
,尤其涉及一种语音合成方法、语音合成系统、电子设备及存储介质。

技术介绍

[0002]语音合成是一种能够将指定文本转换为目标说话人合成语音的技术。随着智能语音技术在金融科技的语音交互、信息播报、有声朗读、智能销售等任务场景中的广泛使用,目标对象对于语音合成的效果要求越来越高。随着深度学习技术的迅猛发展,语音合成的自然度和音质有了很大的提升。然而,人类语音是富含表现力和情感的,如何让合成语音能够更好地模拟人类语音的情感表达,且具备更加自然流畅、拟真度高等特点,对于提升语音合成技术的应用至关重要。目前,相关技术的语音合成方法通常利用显式的情感类别标签作为条件,以将原始文本生成包含情感的合成语音。然而,这种方法得到的合成语音仅学习到一个平均的情感表达,而无法传递语音中对于情感的细微风格变化,从而无法生成情感表现更丰富的高质量合成语音。因此,如何提供一种能够深度挖掘文本包含的细微情感信息,以生成情感表现更丰富的高质量合成语音,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出了一种语音合成方法、语音合成系统、电子设备及存储介质,能够深度挖掘文本包含的细微情感信息,以生成情感表现更丰富的高质量合成语音。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种语音合成方法,所述方法包括:
[0005]获取样本数据,所述样本数据包括样本语音文本和所述样本语音文本的样本初始语音
[0006]对所述样本语音文本进行文本转换,得到样本音素序列;
[0007]将所述样本数据输入至预设的初始语音合成模型,其中,所述初始语音合成模型包括文本编码模块、全局识别模块、句级识别模块和语音合成模块;
[0008]通过所述文本编码模块对所述样本音素序列进行编码处理,得到音素编码特征;
[0009]通过所述全局识别模块对所述样本音素序列进行情感识别处理,得到全局情感特征;
[0010]通过所述句级识别模块对所述样本初始语音进行情感特征提取,得到情感变换特征;
[0011]对所述音素编码特征、所述全局情感特征和所述情感变换特征进行特征拼接,得到目标样本特征;
[0012]通过所述语音合成模块对所述目标样本特征进行语音合成处理,得到预测合成语音;
[0013]根据所述样本初始语音和所述预测合成语音对所述初始语音合成模型进行参数调整,得到情感语音合成模型;
[0014]将待处理的目标语音文本输入至所述情感语音合成模型进行语音合成处理,得到目标合成语音。
[0015]在一些实施例中,所述通过所述全局识别模块对所述样本音素序列进行情感识别处理,得到全局情感特征,包括:
[0016]根据所述全局识别模块对所述样本音素序列进行情感识别处理,得到情感类别标签和所述情感类别标签的分类预测值;
[0017]根据所述情感类别标签从预设的情感向量查找表进行搜索,得到所述情感类别标签的情感嵌入向量;
[0018]根据所述分类预测值和所述情感嵌入向量进行加权计算,得到所述全局情感特征。
[0019]在一些实施例中,所述全局识别模块包括预训练模型和情感分类器,所述根据所述全局识别模块对所述样本音素序列进行情感识别处理,得到情感类别标签和所述情感类别标签的分类预测值,包括:
[0020]根据所述预训练模型对所述样本音素序列进行情感特征提取,得到样本预测特征;
[0021]根据所述情感分类器对所述样本预测特征进行情感分类预测,得到分类预测特征;
[0022]根据预设的激活函数对所述分类预测特征进行去线性化处理,得到所述情感类别标签和所述情感类别标签的所述分类预测值。
[0023]在一些实施例中,所述情感分类器包括多头注意力单元和全局卷积单元,所述根据所述情感分类器对所述样本预测特征进行情感分类预测,得到分类预测特征,包括:
[0024]根据所述多头注意力单元对所述样本预测特征进行自注意力处理,得到注意力特征;
[0025]对所述样本预测特征和所述注意力特征进行特征融合,得到注意力融合特征;
[0026]对所述注意力融合特征进行归一化处理,得到第一预测特征;
[0027]根据所述全局卷积单元对所述第一预测特征进行全局特征提取,得到全局卷积特征;
[0028]对所述第一预测特征和所述全局卷积特征进行特征融合,得到第二预测特征;
[0029]对所述第二预测特征进行归一化处理,得到所述分类预测特征。
[0030]在一些实施例中,所述句级识别模块包括句级编码器,所述通过所述句级识别模块对所述样本初始语音进行情感特征提取,得到情感变换特征,包括:
[0031]对所述样本初始语音进行音频转换,得到样本梅尔频谱;
[0032]通过所述句级编码器对所述样本梅尔频谱进行情感特征提取,得到句级隐藏特征;
[0033]对所述句级隐藏特征进行特征转换,得到情感变换特征。
[0034]在一些实施例中,所述句级识别模块还包括句级卷积单元、修正单元和特征映射单元,所述方法还包括:训练所述句级编码器,具体包括:
[0035]根据所述句级卷积单元对所述音素编码特征进行句级特征提取,得到句级卷积特征;
[0036]根据所述修正单元对所述句级卷积特征进行修正处理,得到修正特征;
[0037]根据所述特征映射单元对所述修正特征进行特征映射处理,得到句级预测特征;
[0038]根据预设损失函数对所述情感变换特征和所述句级预测特征进行损失计算,得到句级预测损失值;
[0039]根据所述句级预测损失值对预设的初始编码器进行参数调整,得到所述句级编码器。
[0040]在一些实施例中,所述语音合成模块包括先验编码器、后验编码器、时长预测器和解码器,所述通过所述语音合成模块对所述目标样本特征进行语音转换处理,得到预测合成语音,包括:
[0041]根据所述先验编码器对所述目标样本特征进行特征编码处理,得到先验编码特征;
[0042]对所述样本初始语音进行短时傅里叶变换,得到样本线性频谱;
[0043]根据所述后验编码器对所述样本线性频谱进行隐变量提取,得到样本隐变量特征;
[0044]根据所述时长预测器对所述目标样本特征进行音素时长提取,得到样本音素时长;
[0045]根据所述样本音素时长对所述样本隐变量特征和所述目标样本特征进行单调对齐搜索,确定目标对齐矩阵;
[0046]根据所述目标对齐矩阵和所述解码器对所述目标样本特征进行解码处理,得到所述预测合成语音。
[0047]为实现上述目的,本申请实施例的第二方面提出了一种语音合成系统,所述系统包括:
[0048]语音样本获取模块,用于获取样本数据,所述样本数据包括样本语音文本和所述样本语音文本的样本初始语音;
[0049]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取样本数据,所述样本数据包括样本语音文本和所述样本语音文本的样本初始语音;对所述样本语音文本进行文本转换,得到样本音素序列;将所述样本数据输入至预设的初始语音合成模型,其中,所述初始语音合成模型包括文本编码模块、全局识别模块、句级识别模块和语音合成模块;通过所述文本编码模块对所述样本音素序列进行编码处理,得到音素编码特征;通过所述全局识别模块对所述样本音素序列进行情感识别处理,得到全局情感特征;通过所述句级识别模块对所述样本初始语音进行情感特征提取,得到情感变换特征;对所述音素编码特征、所述全局情感特征和所述情感变换特征进行特征拼接,得到目标样本特征;通过所述语音合成模块对所述目标样本特征进行语音合成处理,得到预测合成语音;根据所述样本初始语音和所述预测合成语音对所述初始语音合成模型进行参数调整,得到情感语音合成模型;将待处理的目标语音文本输入至所述情感语音合成模型进行语音合成处理,得到目标合成语音。2.根据权利要求1所述的方法,其特征在于,所述通过所述全局识别模块对所述样本音素序列进行情感识别处理,得到全局情感特征,包括:根据所述全局识别模块对所述样本音素序列进行情感识别处理,得到情感类别标签和所述情感类别标签的分类预测值;根据所述情感类别标签从预设的情感向量查找表进行搜索,得到所述情感类别标签的情感嵌入向量;根据所述分类预测值和所述情感嵌入向量进行加权计算,得到所述全局情感特征。3.根据权利要求2所述的方法,其特征在于,所述全局识别模块包括预训练模型和情感分类器,所述根据所述全局识别模块对所述样本音素序列进行情感识别处理,得到情感类别标签和所述情感类别标签的分类预测值,包括:根据所述预训练模型对所述样本音素序列进行情感特征提取,得到样本预测特征;根据所述情感分类器对所述样本预测特征进行情感分类预测,得到分类预测特征;根据预设的激活函数对所述分类预测特征进行去线性化处理,得到所述情感类别标签和所述情感类别标签的所述分类预测值。4.根据权利要求3所述的方法,其特征在于,所述情感分类器包括多头注意力单元和全局卷积单元,所述根据所述情感分类器对所述样本预测特征进行情感分类预测,得到分类预测特征,包括:根据所述多头注意力单元对所述样本预测特征进行自注意力处理,得到注意力特征;对所述样本预测特征和所述注意力特征进行特征融合,得到注意力融合特征;对所述注意力融合特征进行归一化处理,得到第一预测特征;根据所述全局卷积单元对所述第一预测特征进行全局特征提取,得到全局卷积特征;对所述第一预测特征和所述全局卷积特征进行特征融合,得到第二预测特征;对所述第二预测特征进行归一化处理,得到所述分类预测特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述句级识别模块包括句级编码器,所述通过所述句级识别模块对所述样本初始语音进行情感特征提取,得到情感变换特征,包括:对所述样本初始语音进行音频转换,得到样本梅尔频谱;通过所述句级编码器对所述样本梅尔频谱进行情感特征提取,得到句级隐藏特征;对所述句级隐...

【专利技术属性】
技术研发人员:郭洋王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1