一种语音合成方法、装置、设备和存储介质制造方法及图纸

技术编号：42061107 阅读：24 留言：0更新日期：2024-07-19 16:46

本申请实施例提供了一种语音合成方法、装置、设备和存储介质，对待进行语音合成的语句的音素编码序列、位置编码以及全局风格嵌入信息进行拼接，得到第一拼接信息，将第一拼接信息输入编码器，输出第一输出信息；对第一输出信息、位置编码、目标语音风格对应的说话人编码信息以及局部风格嵌入信息进行拼接，得到第二拼接信息，将第二拼接信息输入解码器，输出语音频谱；根据语音频谱生成语句的语音。本申请实施例设计了两阶段的语音合成模型结构，在编码器输入全局风格嵌入信息，在解码器输入局部风格嵌入信息，实现对于合成语音的音色和风格特征的高表现力和高拟人度还原。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音合成，特别是涉及一种语音合成方法和装置、一种电子设备和一种存储介质。

技术介绍

1、tts(语音合成，text-to-speech)是从文本输入到相应音频输出的过程。传统tts是目标说话人在专业录音棚中使用专业录音设备，保持稳定的嗓音状态，按照设计后的文本进行录制,并对录制后的数据进行人工标注，这些标注后的数据会被用来进行音库的训练和制作。随着语音合成需求的日益丰富，普罗大众也想要制作一个自己音色的音库，然而相比于专业的播音员而言，素人的风格多样又随意，当前的技术难以通过素人随意录制的音频模拟出说话人的音色和说话风格。因此，通过随意录制的音频也能模拟出目标说话人的音色和说话风格是亟需解决的问题。

技术实现思路

1、本申请实施例提供了一种语音合成方法，以解决更准确地模拟出目标说话人的音色和说话风格的问题。

2、相应的，本申请实施例还提供了一种语音合成装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。

3、为了解决上述问题，本申请实施例公开了一种语音合成方法，应用于语音合成模型，所述语音合成模型包括编码器与解码器，所述方法包括：

4、对待进行语音合成的语句的音素编码序列、位置编码以及全局风格嵌入信息进行拼接，得到第一拼接信息，所述位置编码表征音素在所述语句中的位置，所述全局风格嵌入信息表征所述语句在句子层级的风格特征；

5、将所述第一拼接信息输入所述编码器，输出第一输出信息；

6、对所述第一输出信

7、将所述第二拼接信息输入所述解码器，输出语音频谱；

8、根据所述语音频谱生成所述语句的语音。

9、可选地，在所述对待进行语音合成的语句的音素编码序列、位置编码以及全局风格嵌入信息进行拼接之前，所述方法还包括：

10、获得所述语句对应的句法信息与频谱信息；

11、将所述句法信息与所述频谱信息进行拼接，得到所述全局风格嵌入信息。

12、可选地，在所述对所述第一输出信息、所述位置编码、目标语音风格对应的说话人编码信息以及局部风格嵌入信息进行拼接之前，所述方法还包括：

13、获得所述说话人对应的音高信息、声音强度信息以及停顿信息；

14、将所述音高信息、所述声音强度信息以及所述停顿信息进行拼接，或，将所述音高信息、所述声音强度信息以及所述停顿信息进行相加，得到所述局部风格嵌入信息。

15、可选地，所述语音合成模型由对应的语音数据库训练得到，所述语音数据库内存储多个说话人的音频样本，所述方法包括：

16、若所述语音数据库内新增目标说话人的音频样本，则使用所述目标说话人的音频样本与所述多个说话人的音频样本对所述语音合成模型进行第一增量训练；

17、所述第一增量训练完成后，使用所述目标说话人的音频样本对所述语音合成模型进行第二增量训练，得到训练好的所述语音合成模型。

18、可选地，所述语音合成模型由对应的语音数据库训练得到，所述语音数据库内存储多个说话人的音频样本，所述方法包括：

19、若所述语音数据库内新增目标说话人的音频样本，则冻结所述编码器；

20、使用所述目标说话人的音频样本对所述解码器进行训练，得到训练好的所述语音合成模型。

21、可选地，所述语音合成模型还包括时长调节器，所述时长调节器用于调节所述音素的长度，在所述输出第一输出信息之后，所述方法还包括：

22、将所述第一输出信息输入所述时长调节器，输出第二输出信息；

23、对所述第二输出信息、所述位置编码、说话人编码信息以及局部风格嵌入信息进行拼接，得到第三拼接信息；

24、将所述第三拼接信息输入所述解码器，输出音素时长经过调整的所述语音频谱；

25、根据所述语音频谱生成所述语句的语音。

26、可选地，所述对所述第一输出信息、所述位置编码、目标语音风格对应的说话人编码信息以及局部风格嵌入信息进行拼接，包括：

27、以词语为单位，调整局部风格嵌入信息的颗粒度；

28、对所述第一输出信息、所述位置编码、目标语音风格对应的说话人编码信息以及调整后的局部风格嵌入信息进行拼接。

29、本申请实施例还公开了一种语音合成装置，应用于语音合成模型，所述语音合成模型包括编码器与解码器，所述装置包括：

30、第一拼接信息获取模块，用于对待进行语音合成的语句的音素编码序列、位置编码以及全局风格嵌入信息进行拼接，得到第一拼接信息，所述位置编码表征音素在所述语句中的位置，所述全局风格嵌入信息表征所述语句在句子层级的风格特征；

31、第一输出信息输出模块，用于将所述第一拼接信息输入所述编码器，输出第一输出信息；

32、第二拼接信息获取模块，用于对所述第一输出信息、所述位置编码、目标语音风格对应的说话人编码信息以及局部风格嵌入信息进行拼接，得到第二拼接信息，所述局部风格嵌入信息表征所述语句在词语层级的风格特征；

33、语音频谱合成模块，用于将所述第二拼接信息输入所述解码器，输出语音频谱；

34、语音生成模块，用于根据所述语音频谱生成所述语句的语音。

35、本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中一个或多个所述的语音合成方法。

36、本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中一个或多个所述的语音合成方法。

37、与现有技术相比，本申请实施例包括以下优点：

38、在本申请实施例中，对待进行语音合成的语句的音素编码序列、位置编码以及全局风格嵌入信息进行拼接，得到第一拼接信息；将第一拼接信息输入编码器，输出第一输出信息；对第一输出信息、位置编码、目标语音风格对应的说话人编码信息以及局部风格嵌入信息进行拼接，得到第二拼接信息；将第二拼接信息输入解码器，输出语音频谱；根据语音频谱生成语句的语音。本申请实施例设计了两阶段的语音合成模型结构，在编码器输入全局风格嵌入信息，在解码器输入局部风格嵌入信息，实现对于合成语音的音色和风格特征的高表现力和高拟人度还原。

本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，应用于语音合成模型，所述语音合成模型包括编码器与解码器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述对待进行语音合成的语句的音素编码序列、位置编码以及全局风格嵌入信息进行拼接之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在所述对所述第一输出信息、所述位置编码、目标语音风格对应的说话人编码信息以及局部风格嵌入信息进行拼接之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述语音合成模型由对应的语音数据库训练得到，所述语音数据库内存储多个说话人的音频样本，所述方法包括：

5.根据权利要求1所述的方法，其特征在于，所述语音合成模型由对应的语音数据库训练得到，所述语音数据库内存储多个说话人的音频样本，所述方法包括：

6.根据权利要求1所述的方法，其特征在于，所述语音合成模型还包括时长调节器，所述时长调节器用于调节所述音素的长度，在所述输出第一输出信息之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述第一

8.一种语音合成装置，其特征在于，应用于语音合成模型，所述语音合成模型包括编码器与解码器，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器；和

10.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-7中一个或多个所述的语音合成方法。

...

【技术特征摘要】

1.一种语音合成方法，其特征在于，应用于语音合成模型，所述语音合成模型包括编码器与解码器，所述方法包括：

5.根据权利要求1所述的方法，其特征在于，所述语音合成模型由对应的语音数据库训练得到，所述语音数据库...

【专利技术属性】
技术研发人员：李睿端，陈明，李健，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人