System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种跨说话人情感语音合成方法、系统及存储介质技术方案_技高网

一种跨说话人情感语音合成方法、系统及存储介质技术方案

技术编号:42163932 阅读:14 留言:0更新日期:2024-07-27 00:12
本发明专利技术提供了一种跨说话人情感语音合成方法、系统及存储介质,包括步骤1,数据采集及预处理步骤;步骤2,训练声学模型及多粒度情感信息提取模块步骤;步骤3,训练细粒度情感信息预测模块步骤;步骤4,跨说话人情感语音合成步骤。本发明专利技术的有益效果是:本发明专利技术能够提高生成语音质量,并且在提高情感表现力的同时保证其稳定性。

【技术实现步骤摘要】

本专利技术涉及语音合成,尤其涉及跨说话人情感语音合成方法、系统及存储介质


技术介绍

1、已知的语音合成技术通常中性的无情感的语音数据进行模型训练,而在真实的应用场景,如有声小说阅读中,需要产生更富有表现力的语音。

2、常见的情感语音合成方法通过指定情感类别标签或将参考情感语音建模为情感信息表示,指导模型生成特定情感或风格的语音。但是,由于情感语音数据采集困难,还需要进行跨说话人的情感迁移,即基于其他情感数据和目标说话人的无情感数据,合成目标说话人的情感语音。前述的方法在情感数据上训练后应用到无情感说话人时,难以到达符合预期的情感表现力或是参考语音中的音色等信息干扰了合成语音的质量。针对这类问题,部分跨说话人情感迁移方法对参考情感语音中的情感和音色信息进行解耦,通过梯度反转的分类任务指导参考语音编码器仅提取其中的情感信息。

3、然而,上述的方法仅将情感信息建模为全局的单一表示,合成的语音在整体上表现出较平均的情感,导致韵律不自然,情感表现在文本内容上不符合人类直觉。


技术实现思路

1、本专利技术提供了一种跨说话人情感语音合成方法,包括如下步骤:

2、步骤1,数据采集及预处理步骤:获取训练所需的数据,并对数据进行预处理;

3、步骤2,训练声学模型及多粒度情感信息提取模块步骤:多粒度情感信息提取模块以目标梅尔谱图和时长信息为输入,输出细粒度情感信息;声学模型将音素文本数据转化为梅尔谱图数据,并再次通过预训练声码器转化为语音数据,细粒度情感信息与声学模型的中间音素表示融合;

4、步骤3,训练细粒度情感信息预测模块步骤:细粒度情感信息预测模块以音素特征表示、情感嵌入表示和说话人嵌入表示为输入,预测细粒度情感信息表示,并与提取的细粒度情感表示进行拟合;

5、步骤4,跨说话人情感语音合成步骤:合成目标说话人的情感语音。

6、作为本专利技术的进一步改进,在所述步骤1中,数据包括情感语音数据、无情感语音数据及语音对应自然文本内容,情感语音数据由若干不同情感类别的语音数据构成,并提供相应情感类别标签;无情感语音数据与情感语音数据采集自不同说话人,同时,提供无情感语音数据的说话人标签;

7、在所述步骤1中,预处理包括如下步骤:

8、步骤11:对自然文本数据进行规范化和音素化,获得音素数据;

9、步骤12:对语音数据和音素数据进行对齐,获得音素时长信息;

10、步骤13:将语音数据转化为梅尔谱图并针对梅尔谱图提取时长信息和音高信息。

11、作为本专利技术的进一步改进,所述步骤2包括:

12、步骤21:将音素文本、情感类别标签和说话人类别标签分别输入到对应嵌入层获得音素嵌入表示、情感嵌入表示和说话人嵌入表示;

13、步骤22:处理步骤,处理步骤包括第一处理步骤和第二处理步骤;

14、第一处理步骤:将步骤21获得的说话人嵌入表示沿时间维度方向复制到与音素嵌入表示相同长度,与音素嵌入表示沿特征维度方向拼接并输入音素编码器获得音素特征表示;

15、第二处理步骤:将真实梅尔谱图与真实音素时长信息输入到多粒度情感信息提取模块,根据时长信息将梅尔谱图分割为若干谱图片段,将梅尔谱图和谱图片段沿特征维度方向与经过长度复制的步骤21获得的说话人嵌入表示及情感嵌入表示拼接,再各自输入到参考编码器;每个拼接片段经过参考编码器被转化为单一向量表示,并分别计算情感分类损失和说话人分类损失;经由若干谱图片段提取的特征称之为细粒度情感信息特征,对应的梅尔谱图提取的特征为全局情感信息特征;

16、步骤23:将第一处理步骤获得的音素特征表示与第二处理步骤获得的细粒度情感信息特征沿特征维度方向拼接,获得情感音素表示;

17、步骤24:将步骤23获得的情感音素表示输入变分适配器,依次经过音高预测器、音高信息嵌入、音素时长预测和音素长度复制,在音素长度复制中,根据时长信息将每个音素表示沿时间维度方向复制,最终将音素序列长度拓展到谱图序列长度;

18、步骤25:将步骤24获得的特征表示输入到谱图解码器获得梅尔谱图,最小化梅尔谱图与真实谱图之间的距离;

19、步骤26:将谱图解码器生成的梅尔谱图输入后处理网络,二次解码获得新的梅尔谱图,最小化新的梅尔谱图与真实谱图之间的距离;

20、判别步骤:将步骤26获得的梅尔谱图与真实谱图输入次频判别器,在不同频段分别执行判别任务,进行对抗训练;

21、提取步骤:将步骤26获得的梅尔谱图与步骤24获得的预测时长信息输入另一个多粒度情感信息提取模块,提取细粒度情感信息并进行相同分类任务,最小化提取步骤获得的细粒度情感信息与第二处理步骤获得的细粒度情感信息之间的距离。

22、作为本专利技术的进一步改进,所述步骤3包括:

23、步骤31:获取步骤21的音素嵌入表示、情感嵌入表示和说话人嵌入表示,获取第一处理步骤的音素特征表示,获取第二处理步骤的细粒度情感信息特征;

24、步骤32:将步骤31获取的音素特征表示、音素嵌入表示、情感嵌入表示和说话人嵌入表示输入到细粒度情感预测模块,预测获得的细粒度情感信息;

25、步骤33:最小化步骤32预测获得的细粒度情感信息与步骤31获得的细粒度情感信息特征之间的距离。

26、作为本专利技术的进一步改进,所述步骤4包括:

27、步骤41:将音素嵌入表示和说话人嵌入表示输入到音素编码器获得音素表示;

28、步骤42:将音素表示和情感嵌入表示输入到细粒度情感预测模块获得细粒度情感信息表示,细粒度情感信息表示沿特征维度方向与音素表示拼接,获得情感音素表示;

29、步骤43:将步骤42获得的情感音素表示输入到变分适配器,依次进行音高预测、音高嵌入、时长预测和时长复制,获得特征表示,其中音高嵌入和时长复制采用预测获得的音高和时长信息;

30、步骤44:将步骤43获得的特征表示输入到谱图解码器获得梅尔谱图;

31、步骤45:将步骤44获得的梅尔谱图输入到后处理网络获得新的梅尔谱图;

32、步骤46:将步骤45获得的新的梅尔谱图输入到预训练的声码器获得语音数据。

33、作为本专利技术的进一步改进,在所述步骤12中,通过montreal forced aligner工具对语音数据和音素数据进行对齐。

34、作为本专利技术的进一步改进,在所述第一处理步骤中,音素编码器由3层conformerblock组成,说话人条件归一化层以说话人嵌入表示为输入,采用两个线性层分别转化为增益和偏置,对中间特征表示进行微调;

35、在所述第二处理步骤中,参考编码器由5层卷积层和gru组成,说话人分类损失通过梯度反转以训练参考编码器尽量少地提取音色特征,细粒度情感信息特征通过均方误差损失最小化与全局情感信息特征的距离;

36、在所述步骤24中,本文档来自技高网...

【技术保护点】

1.一种跨说话人情感语音合成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的跨说话人情感语音合成方法,其特征在于,在所述步骤1中,数据包括情感语音数据、无情感语音数据及语音对应自然文本内容,情感语音数据由若干不同情感类别的语音数据构成,并提供相应情感类别标签;无情感语音数据与情感语音数据采集自不同说话人,同时,提供无情感语音数据的说话人标签;

3.根据权利要求2所述的跨说话人情感语音合成方法,其特征在于,所述步骤2包括:

4.根据权利要求3所述的跨说话人情感语音合成方法,其特征在于,所述步骤3包括:

5.根据权利要求3所述的跨说话人情感语音合成方法,其特征在于,所述步骤4包括:

6.根据权利要求2所述的跨说话人情感语音合成方法,其特征在于:在所述步骤12中,通过MontrealForced Aligner工具对语音数据和音素数据进行对齐。

7.根据权利要求3所述的跨说话人情感语音合成方法,其特征在于:

8.根据权利要求4所述的跨说话人情感语音合成方法,其特征在于:在步骤32中,细粒度情感预测模块由2层Conformer Block组成,其中,Conformer Block的说话人条件归一化层的输入替换为情感嵌入为其添加情感信息;

9.一种跨说话人情感语音合成系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述跨说话人情感语音合成方法的步骤。

10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的跨说话人情感语音合成方法的步骤。

...

【技术特征摘要】

1.一种跨说话人情感语音合成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的跨说话人情感语音合成方法,其特征在于,在所述步骤1中,数据包括情感语音数据、无情感语音数据及语音对应自然文本内容,情感语音数据由若干不同情感类别的语音数据构成,并提供相应情感类别标签;无情感语音数据与情感语音数据采集自不同说话人,同时,提供无情感语音数据的说话人标签;

3.根据权利要求2所述的跨说话人情感语音合成方法,其特征在于,所述步骤2包括:

4.根据权利要求3所述的跨说话人情感语音合成方法,其特征在于,所述步骤3包括:

5.根据权利要求3所述的跨说话人情感语音合成方法,其特征在于,所述步骤4包括:

6.根据权利要求2所述的跨说话人情感语音合成方法,其特征在于:在所述步骤12中,通过montrealforced al...

【专利技术属性】
技术研发人员:汤步洲杨鑫
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1