文本到语音的生成方法、装置及电子设备制造方法及图纸

技术编号：42730143 阅读：3 留言：0更新日期：2024-09-13 12:15

本申请涉及计算机技术领域，公开了一种文本到语音的生成方法、装置及电子设备，该方法包括：获取待处理文本和目标参考语音；对待处理文本进行预处理，得到待处理文本对应的目标编码；基于目标编码、目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量；基于目标风格向量、待处理文本，以及目标语音生成模型中的生成单元，生成待处理文本和目标参考语音对应的目标合成语音。本申请实施例提供的文本到语音的生成方法所生成的目标合成语音具有待处理文本的韵律特征和目标参考语音的韵律特征，提高了合成语音的真实性和丰富性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其是涉及一种文本到语音的生成方法、装置及电子设备。

技术介绍

1、通常，在文本到语音的合成过程中更加侧重于对说话人的声音的复刻，即保证合成的语音尽可能的贴合说话人的声音特性（如音调、音色等）。但是，对于合成语音而言，其呈现效果不仅由说话人的声音特性决定，还取决于该语音对应的文本信息。例如，当文本信息为惊悚小说时，所合成的语音在呈现效果上更具有快速、深沉的韵律特性。而相关技术在文本到语音的合成过程中，并未考虑文本信息所对应的韵律特征，从而导致合成的语音的韵律不能完全与文本信息贴合，从而降低了合成语音的丰富性和真实感。

技术实现思路

1、为了解决上述问题，本申请实施例提供了一种文本到语音的生成方法、装置及电子设备，能够在文本到语音的合成过程中考虑文本信息所对应的韵律特征，以提高合成语音的真实感和丰富性。具体地，本申请实施例公开了以下技术方案：

2、本申请实施例第一方面提供一种文本到语音的生成方法，该方法包括：首先，获取待处理文本和目标参考语音。其次，对待处理文本进行预处理，得到待处理文本对应的目标编码。然后，基于目标编码、目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量；其中，目标风格向量用于表征待处理文本对应的第一韵律信息和目标参考语音对应的第二韵律信息。最后，基于目标风格向量、待处理文本，以及目标语音生成模型中的生成单元，生成待处理文本和目标参考语音对应的目标合成语音；其中，目标合成语音具有待处理文本对应的第一韵律特征和目标参考语音对应的第二韵律特征。

3、在一些实施例中，风格向量单元包括风格扩散采样器和特征提取器。基于目标编码、目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量，包括：基于目标编码和风格向量单元中的风格扩散采样器，生成待处理文本对应的第一韵律向量；其中，第一韵律向量用于表征第一韵律信息。基于目标参考语音和风格向量单元中的特征提取器，生成参考语音对应的第二韵律向量；其中，第二韵律向量用于表征第二韵律信息。基于第一韵律向量和第二韵律向量，生成目标风格向量。

4、在一些实施例中，特征提取器包括x-vector特征提取器，x-vector特征提取器包括多个时延网络层和多个全连接网络层。基于目标参考语音和风格向量单元中的特征提取器，生成参考语音对应的第二韵律向量，包括：基于目标参考语音，生成目标参考语音对应的参考音频特征；其中，参考音频特征包括梅尔频率倒谱系数特征。将参考音频特征依次通过多个时延网络层和多个全连接网络层，生成梅尔频率倒谱系数特征对应的x向量；其中，第二韵律向量包括x向量。

5、在一些实施例中，基于第一韵律向量和第二韵律向量，生成目标风格向量，包括：对第一韵律向量和第二韵律向量进行求和运算，得到初始风格向量；对初始风格向量进行时序平均池化处理，确定目标风格向量。

6、在一些实施例中，生成单元包括音素编码器、方差适配器、梅尔谱编码器和声码器。基于目标风格向量、待处理文本，以及目标语音生成模型中的生成单元，生成待处理文本和目标参考语音对应的目标合成语音，包括：基于待处理文本、目标风格向量和音素编码器，生成待处理文本对应的音素状态序列；基于音素状态序列和方差适配器，对音素状态序列添加的预设方差信息，得到调整后的音素状态序列；其中，预设方差信息包括时长信息、音调信息和能量信息中的至少一项。基于调整后的音素状态序列、目标风格向量和梅尔谱编码器，将调整后的音素状态序列转化为梅尔谱图序列。基于梅尔谱图序列和声码器，生成目标合成语音。

7、在一些实施例中，该方法还包括：基于待处理文本，确定待处理文本对应的初始音素向量和音素位置编码；其中，待处理文本对应多个音素，音素位置编码用于表征多个音素中各音素在待处理文本中的位置信息。

8、在一些实施例中，音素编码器包括至少一个风格自适应归一化层。基于待处理文本、目标风格向量和音素编码器，生成待处理文本对应的音素状态序列，包括：基于待处理文本对应的所述初始音素向量和所述音素编码器中的第一卷积层和第一全连接层，生成第一中间序列。基于第一中间序列、音素位置编码、音素编码器中的多个第一转换模块以及第二全连接层，生成音素状态序列；其中，第一转换模块包括第一注意力机制层、至少一个风格自适应归一化层和第二卷积层。

9、在一些实施例中，梅尔谱编码器包括至少一个风格自适应归一化层。基于调整后的音素状态序列、目标风格向量和梅尔谱编码器，将调整后的音素状态序列转化为梅尔谱图序列，包括：基于调整后的音素状态序列和所述梅尔谱编码器中的第三全连接层，生成第二中间序列；基于第二中间序列、目标风格向量，以及梅尔谱编码器中的多个第二转换模块和第四全连接层，生成梅尔谱图序列；其中，第二转换模块包括第二注意力机制层、至少一个风格自适应归一化层和第三卷积层。

10、在一些实施例中，目标编码包括目标字级编码，目标语音生成模型还包括目标句法构建网络和目标编码网络。对待处理文本进行预处理，得到待处理文本对应的目标编码，包括：根据待处理文本，确定待处理文本对应的文本信息和音素信息；其中，文本信息包括文本内容和边界信息。基于文本信息和目标语音生成模型中的所述目标句法构建网络，生成待处理文本对应的目标句法图；其中，文本内容包括多个字符，目标句法图用于表征多个字符中各字符之间的句法关系。基于音素信息、边界信息、目标句法图，以及目标语音生成模型中的目标编码网络，生成待处理文本对应的目标字级编码。

11、在一些实施例中，该方法还包括：获取样本文本数据和样本参考语音数据；基于样本文本数据、样本参考语音数据和待训练语音生成模型，生成样本文本数据和样本参考语音数据对应的预测合成语音；获取样本合成语音数据；以预测合成语音为待训练语音生成模型的初始训练输出信息，样本合成语音数据作为监督信息，迭代待训练语音生成模型，得到目标语音生成模型。

12、本申请实施例第二方面提供一种文本到语音的生成装置，包括获取模块、预处理模块、第一生成模块和第二生成模块。其中，获取模块被配置为获取待处理文本和目标参考语音。预处理模块被配置为对待处理文本进行预处理，得到待处理文本对应的目标编码。第一生成模块被配置为基于目标编码、目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量；其中，目标风格向量用于表征待处理文本对应的第一韵律信息和目标参考语音对应的第二韵律信息。第二生成模块被配置为基于目标风格向量、待处理文本，以及目标语音生成模型中的生成单元，生成待处理文本和目标参考语音对应的目标合成语音；其中，目标合成语音具有待处理文本对应的第一韵律特征和目标参考语音对应的第二韵律特征。

13、本申请实施例第三方面提供了一种电子设备，包括：处理器和存储器，所述存储器，用于存储计算机可执行指令；所述处理器，用于从所述存储器中读取所述指令，并执行所述指令以实现前述第一方面所述的文本到语音的生成方法。

14、本申请实施例第四方面提供了一种计算机可本文档来自技高网...

【技术保护点】

1.一种文本到语音的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述风格向量单元包括风格扩散采样器和特征提取器；所述基于所述目标编码、所述目标参考语音，以及目标语音生成模型中的风格向量单元，生成目标风格向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述特征提取器包括X-vector特征提取器，所述X-vector特征提取器包括多个时延网络层和多个全连接网络层；所述基于所述目标参考语音和所述风格向量单元中的所述特征提取器，生成所述参考语音对应的第二韵律向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一韵律向量和所述第二韵律向量，生成所述目标风格向量，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述生成单元包括音素编码器、方差适配器、梅尔谱编码器和声码器；所述基于所述目标风格向量、所述待处理文本，以及所述目标语音生成模型中的生成单元，生成所述待处理文本和所述目标参考语音对应的目标合成语音，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述音素编码器包括至少一个风格自适应归一化层；所述基于所述待处理文本、所述目标风格向量和所述音素编码器，生成所述待处理文本对应的音素状态序列，包括：

8.根据权利要求7所述的方法，其特征在于，所述梅尔谱编码器包括至少一个风格自适应归一化层；所述基于调整后的所述音素状态序列、所述目标风格向量和所述梅尔谱编码器，将调整后的所述音素状态序列转化为梅尔谱图序列，包括：

9.根据权利要求1-4中任一项所述的方法，其特征在于，所述目标编码包括目标字级编码；所述目标语音生成模型还包括目标句法构建网络和目标编码网络；所述对所述待处理文本进行预处理，得到所述待处理文本对应的目标编码，包括：

10.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

11.一种文本到语音的生成装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现根据权利要求1-10中任一项所述的文本到语音的生成方法。

...

【技术特征摘要】

1.一种文本到语音的生成方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述特征提取器包括x-vector特征提取器，所述x-vector特征提取器包括多个时延网络层和多个全连接网络层；所述基于所述目标参考语音和所述风格向量单元中的所述特征提取器，生成所述参考语音对应的第二韵律向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一韵律向量和所述第二韵律向量，生成所述目标风格向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

【专利技术属性】
技术研发人员：司马华鹏，蒋达，汤毅平，
申请(专利权)人：南京硅基智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人