一种语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号：44696157 阅读：5 留言：0更新日期：2025-03-19 20:45

本申请实施例涉及数据处理技术领域，具体而言，涉及一种语音合成方法、装置、设备及存储介质，旨在提升语音合成的表现力。所述方法包括：接收目标文本；从所述目标文本中获取对应的文本特征，所述文本特征中包含有音素信息、词边界信息以及句子信息；将所述文本特征输入预训练的语义模型中，得到所述文本特征对应的音素级别的语义特征；对所述语义特征进行多层级表征融合，得到多层级语义特征；对所述多层级语义特征进行单词与持续时间的对齐，以及，通过多头注意力机制对所述多层级语义特征进行音素与持续时间的对齐，得到对齐处理后的所述多层级语义特征；根据对齐处理后的所述多层级语义特征，得到所述目标文本对应的语音。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及数据处理，具体而言，涉及一种语音合成方法、装置、设备及存储介质。

技术介绍

1、语音合成（text-to-speech，tts）是一种将文本转换为语音的技术，语音合成在人际交互时具有重要的作用，是当前热门研究的技术。现有的语音合成技术中，主要通过提取输入句子的信息，将句子的文本特征转化为语音表征，再将语音表征转换为声学表征，进而得到对应的声学波形，完成语音的合成。

2、现有技术中的语音合成系统往往忽视了文本以及上下文的丰富表征，语音合成的表现力不足。

技术实现思路

1、本申请实施例提供一种语音合成方法、装置、设备及存储介质，旨在提升语音合成的表现力。

2、本申请实施例第一方面提供一种语音合成方法，所述方法包括：

3、接收目标文本；

4、从所述目标文本中获取对应的文本特征，所述文本特征中包含有音素信息、词边界信息以及句子信息；

5、将所述文本特征输入预训练的语义模型中，得到所述文本特征对应的音素级别的语义特征；

6、对所述语义特征进行多层级表征融合，得到多层级语义特征；

7、对所述多层级语义特征进行单词与持续时间的对齐，以及，通过多头注意力机制对所述多层级语义特征进行音素与持续时间的对齐，得到对齐处理后的所述多层级语义特征；

8、根据对齐处理后的所述多层级语义特征，得到所述目标文本对应的语音。

9、可选地，所述从所述目标文本中获取对应的文本特征，所述文本特征中包

10、对所述目标文本中的每个词语的音素进行识别，得到所述音素信息；

11、对所述目标文本中的每个词语包括的音素数量进行识别，得到所述词边界信息；

12、对所目标文本中包含的每个句子进行识别，得到所述句子信息。

13、可选地，所述语义模型的训练步骤包括：

14、收集训练数据，所述训练数据中包括至少一个领域中的文本数据；

15、按照句子的长度，对所述训练数据进行分类，得到分类后的训练数据；

16、对所述分类后的训练数据进行掩码处理，得到处理后的训练数据；

17、为所述训练数据中设计对应的符号id；

18、通过所述处理后的训练数据以及所述符号id对所述语义模型进行训练，得到所述语义模型。

19、可选地，所述对所述语义特征进行多层级表征融合，得到多层级语义特征，包括：

20、从所述语义特征中提取出对应的句子特征；

21、将所述句子特征与所述语义特征中包括的音素特征以及词特征进行融合，得到所述多层级语义特征。

22、可选地，所述从所述语义特征中提取出对应的句子特征，包括：

23、将所述语义特征按照句子序列，将相邻的句子作为一个句子对，得到至少一个句子对；

24、通过预训练的交叉编码模型对所述句子对对应的语义特征进行特征提取，得到对应的句子特征；

25、使用多头注意力机制对所述句子特征进行处理，得到处理后的句子特征。

26、可选地，所述对所述多层级语义特征进行单词与持续时间的对齐，以及，通过多头注意力机制对所述多层级语义特征进行音素与持续时间的对齐，得到对齐处理后的所述多层级语义特征，包括：

27、对所述多层级语义特征中的单词与持续时间进行硬对齐；

28、通过多头注意力机制，对所述多层级语义特征中的音素与持续时间进行软对齐；

29、在所述单词以及所述音素与持续时间对齐完毕的情况下，得到所述语音特征。

30、可选地，所述根据对齐处理后的所述多层级语义特征，得到所述目标文本对应的语音，包括：

31、将对齐后的所述多层级语义特征输入解码器中；

32、通过所述解码器对所述多层级语义特征进行处理，得到对应的语音特征；

33、将所述语音特征输入声码器中，得到所述语音。

34、本申请实施例第二方面提供一种语音合成装置，所述装置包括：

35、文本接收模块，用于接收目标文本；

36、文本特征提取模块，用于从所述目标文本中获取对应的文本特征，所述文本特征中包含有音素信息、词边界信息以及句子信息；

37、语义特征提取模块，用于将所述文本特征输入预训练的语义模型中，得到所述文本特征对应的音素级别的语义特征；

38、多层级语义特征获取模块，用于对所述语义特征进行多层级表征融合，得到多层级语义特征；

39、语音特征获取模块，用于对所述多层级语义特征进行单词与持续时间的对齐，以及，通过多头注意力机制对所述多层级语义特征进行音素与持续时间的对齐，得到对齐处理后的所述多层级语义特征；

40、语音获取模块，用于根据对齐处理后的所述多层级语义特征，得到所述目标文本对应的语音。

41、可选地，所述文本特征提取模块包括：

42、音素信息获取子模块，用于对所述目标文本中的每个词语的音素进行识别，得到所述音素信息；

43、词边界信息获取子模块，用于对所述目标文本中的每个词语包括的音素数量进行识别，得到所述词边界信息；

44、句子识别子模块，用于对所目标文本中包含的每个句子进行识别，得到所述句子信息。

45、可选地，所述语义模型的训练步骤包括：

46、收集训练数据，所述训练数据中包括至少一个领域中的文本数据；

47、按照句子的长度，对所述训练数据进行分类，得到分类后的训练数据；

48、对所述分类后的训练数据进行掩码处理，得到处理后的训练数据；

49、为所述训练数据中设计对应的符号id；

50、通过所述处理后的训练数据以及所述符号id对所述语义模型进行训练，得到所述语义模型。

51、可选地，所述多层级语义特征获取模块包括：

52、句子特征获取子模块，用于从所述语义特征中提取出对应的句子特征；

53、特征融合子模块，用于将所述句子特征与所述语义特征中包括的音素特征以及词特征进行融合，得到所述多层级语义特征。

54、可选地，所述句子特征获取子模块包括：

55、句子对获取子模块，用于将所述语义特征按照句子序列，将相邻的句子作为一个句子对，得到至少一个句子对；

56、句子特征提取子模块，用于通过预训练的交叉编码模型对所述句子对对应的语义特征进行特征提取，得到对应的句子特征；

57、句子特征处理子模块，用于使用多头注意力机制对所述句子特征进行处理，得到处理后的句子特征。

58、可选地，所述语音特征获取模块包括：

59、应对齐子模块，用于对所述多层级语义特征中的单词与持续时间进行硬对齐；

60、软对齐子模块，用于通过多头注意力机制，对所述多层级语义特征中的音素本文档来自技高网...

【技术保护点】

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音合成方法，其特征在于，所述从所述目标文本中获取对应的文本特征，所述文本特征中包含有音素信息、词边界信息以及句子信息，包括：

3.根据权利要求1所述的语音合成方法，其特征在于，所述语义模型的训练步骤包括：

4.根据权利要求1所述的语音合成方法，其特征在于，所述对所述语义特征进行多层级表征融合，得到多层级语义特征，包括：

5.根据权利要求4所述的语音合成方法，其特征在于，所述从所述语义特征中提取出对应的句子特征，包括：

6.根据权利要求1所述的语音合成方法，其特征在于，所述对所述多层级语义特征进行单词与持续时间的对齐，以及，通过多头注意力机制对所述多层级语义特征进行音素与持续时间的对齐，得到对齐处理后的所述多层级语义特征，包括：

7.根据权利要求1所述的语音合成方法，其特征在于，所述根据对齐处理后的所述多层级语义特征，得到所述目标文本对应的语音，包括：

8.一种语音合成装置，其特征在于，所述装置包括：

9.一种计

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至7任一所述的方法的步骤。

...

【技术特征摘要】

1.一种语音合成方法，其特征在于，所述方法包括：

3.根据权利要求1所述的语音合成方法，其特征在于，所述语义模型的训练步骤包括：

4.根据权利要求1所述的语音合成方法，其特征在于，所述对所述语义特征进行多层级表征融合，得到多层级语义特征，包括：

5.根据权利要求4所述的语音合成方法，其特征在于，所述从所述语义特征中提取出对应的句子特征，包括：

6.根据权利要求1所述的语音合成方法，其特征在于，所述对所述多层级语义特征进行单词与持续时间的...

【专利技术属性】
技术研发人员：何佳旭，廉洁，李杰，
申请(专利权)人：中电信人工智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人