System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及金融科技,尤其涉及一种语音合成方法、语音合成装置、电子设备及存储介质。
技术介绍
1、语音合成是指根据给定的输入数据创建出符合要求的自然语言语音的过程。目前,智能语音技术通常应用在金融科技的智能电话客服、智能销售等任务场景中。然而,人类的语音中不仅包含了语言信息,还有一些非语言信息,比如哭、笑、停顿、咳嗽等,这些非语言信息可以用来传达说话人不同的感受以及交流的意图。因此,在合成语音的过程中加入一些非语言信息,可以使得合成的语音更加自然生动,更加接近现实生活中的语音。
2、基于此,相关技术通常是将语音信息和非语言信息采取一定方式拼接起来,从而合成一段包含非语言信息的语音。然而,这种方法并未深入理解语言信息和非语言信息之间的关联,使得合成的语音中语音信息与非语言信息的衔接不够自然,从而降低了合成语音的情感表达不够准确。因此,如何生成情感表达更准确的合成语音,成为了亟待解决的技术问题。
技术实现思路
1、本申请实施例的主要目的在于提出了一种语音合成方法、语音合成装置、电子设备及存储介质,能够生成情感表达更准确的合成语音。
2、为实现上述目的,本申请实施例的第一方面提出了一种语音合成方法,所述方法包括:
3、获取样本数据,所述样本数据包括样本文本、样本情感信息和样本原始梅尔频谱,所述样本情感信息具有样本非语言情感特征,所述样本原始梅尔频谱具有样本对象的样本语音表达特征;
4、将所述样本文本、所述样本情感信息和所述样本原始梅尔频谱输入
5、基于所述样本情感信息对所述样本原始梅尔频谱进行掩码处理,得到掩码梅尔频谱和样本掩码后梅尔频谱,所述掩码梅尔频谱用于表征所述样本原始梅尔频谱中掩码区域对应的梅尔频谱,所述样本掩码后梅尔频谱用于表征将所述样本原始梅尔频谱中所述掩码区域的梅尔频谱值掩码后得到的梅尔频谱;
6、基于所述情感检测子模型对所述样本情感信息和所述样本原始梅尔频谱进行情感特征检测,得到所述样本掩码后梅尔频谱的样本目标情感特征;
7、基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本文本进行频谱生成,得到所述样本对象的预测梅尔频谱;
8、基于所述掩码梅尔频谱、所述预测梅尔频谱和所述样本目标情感特征对所述初始合成模型进行参数调整,得到语音合成模型;
9、基于所述语音合成模型对目标文本、具有目标语音表达特征的目标对象语音和具有目标非语言情感特征的目标情感信息进行语音合成处理,得到具有所述目标语音表达特征和所述目标情感特征的目标合成语音。
10、在一些实施例中,所述基于所述情感检测子模型对所述样本情感信息和所述样本原始梅尔频谱进行情感检测,得到所述样本掩码后梅尔频谱的样本目标情感特征,包括:
11、对所述样本情感信息进行情感检测,得到所述样本非语言情感特征,所述样本非语言情感特征用于指示所述掩码梅尔频谱的情感特征;
12、对所述样本原始梅尔频谱进行情感检测,得到样本语言情感特征;
13、对所述样本非语言情感特征和所述样本语言情感特征进行特征拼接,得到所述样本掩码后梅尔频谱的所述样本目标情感特征。
14、在一些实施例中,所述初始合成模型还包括音素检测子模型,所述基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本文本进行频谱生成,得到所述样本对象的预测梅尔频谱,包括:
15、基于所述音素检测子模型对所述样本原始梅尔频谱和所述样本文本进行音素检测,得到样本音素序列;
16、基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱。
17、在一些实施例中,所述基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到预测梅尔频谱,包括:
18、基于所述样本音素序列对所述样本掩码后梅尔频谱进行时间维度对齐,得到样本对齐后梅尔频谱;
19、基于所述频谱生成子模型对所述样本对齐后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱。
20、在一些实施例中,所述基于所述频谱生成子模型对所述样本对齐后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱,包括:
21、基于所述样本音素序列对所述样本目标情感特征进行时间维度对齐,得到样本对齐后情感特征;
22、基于所述频谱生成子模型对所述样本对齐后梅尔频谱、所述样本对齐后情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱。
23、在一些实施例中,所述初始合成模型还包括声码器,所述基于所述掩码梅尔频谱、所述预测梅尔频谱和所述样本目标情感特征对所述初始合成模型进行参数调整,得到语音合成模型,包括:
24、基于所述掩码梅尔频谱和所述预测梅尔频谱进行频谱损失计算,得到频谱损失值,所述掩码梅尔频谱具有所述样本语音表达特征,所述预测梅尔频谱具有预测语音表达特征,所述频谱损失值用于表征所述样本语音表达特征和所述预测语音表达特征之间的差异程度;
25、基于所述声码器对所述预测梅尔频谱进行频谱转化,得到预测语音;
26、对所述预测语音进行情感特征提取,得到预测情感特征;
27、基于所述预测情感特征和所述样本目标情感特征进行情感特征损失计算,得到情感特征损失值;
28、基于所述频谱损失值和所述情感特征损失值确定模型损失值,并基于所述模型损失值对所述初始合成模型进行参数调整,得到所述语音合成模型。
29、在一些实施例中,所述基于所述频谱损失值和所述情感特征损失值确定模型损失值,包括:
30、对所述掩码梅尔频谱进行频谱特征提取,得到掩码频谱特征;
31、基于所述样本原始梅尔频谱对所述掩码频谱特征进行特征检测,得到掩码特征评分,所述掩码特征评分用于表征所述掩码频谱特征在所述样本原始梅尔频谱中的重要程度;
32、基于所述掩码特征评分确定所述频谱损失值的第一损失权重和所述情感特征损失值的第二损失权重;
33、基于所述频谱损失值、所述第一损失权重、所述情感特征损失值和所述第二损失权重进行加权计算,得到所述模型损失值。
34、为实现上述目的,本申请实施例的第二方面提出了一种语音合成装置,所述装置包括:
35、获取模块,用于获取样本数据,所述样本数据包括样本文本、样本情感信息和样本原始梅尔频谱,所述样本情感信息具有样本非语言情感特征,所述样本原始梅尔频谱具有样本对象的样本语音表达特征;
36、输入模块,用于将所述样本文本、所述样本情感信息和所述样本原始梅尔频谱输入初始合成模型,所述初始合成模型包括情感本文档来自技高网...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述情感检测子模型对所述样本情感信息和所述样本原始梅尔频谱进行情感检测,得到所述样本掩码后梅尔频谱的样本目标情感特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述初始合成模型还包括音素检测子模型,所述基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本文本进行频谱生成,得到所述样本对象的预测梅尔频谱,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到预测梅尔频谱,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述频谱生成子模型对所述样本对齐后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱,包括:
6.根据权利要求1至5任一项所述的方法,其特征在于,所述初始合成模型还包括声码器,所述基于所述掩码梅尔频谱、所述预测梅尔频谱和所述样本目标情
7.根据权利要求6所述的方法,其特征在于,所述基于所述频谱损失值和所述情感特征损失值确定模型损失值,包括:
8.一种语音合成装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
...【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述情感检测子模型对所述样本情感信息和所述样本原始梅尔频谱进行情感检测,得到所述样本掩码后梅尔频谱的样本目标情感特征,包括:
3.根据权利要求1所述的方法,其特征在于,所述初始合成模型还包括音素检测子模型,所述基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本文本进行频谱生成,得到所述样本对象的预测梅尔频谱,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到预测梅尔频谱,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述频谱生成子模型对所述样本对齐后梅尔频谱、所述样本目标情感特征和所述样...
【专利技术属性】
技术研发人员:石岩,陈闽川,王少军,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。