基于ByT5的语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号：44340573 阅读：2 留言：0更新日期：2025-02-18 20:52

本申请属于语音合成技术领域，公开了一种基于ByT5的语音合成方法、装置、设备及存储介质，方法包括步骤：获取输入文本的比特序列，利用ByT5模型将比特序列转换成文本特征向量；获取词性嵌入向量、句法结构嵌入向量；将文本特征向量、词性嵌入向量、句法结构嵌入向量求和后依次输入到生成对抗网络语音模型的全连接层、激活函数进行特征融合，获取文本融合特征；利用生成对抗网络语音模型的解码器、声码器依次获取目标语种Me l谱、目标语种波形。解决了token‑based模型受词典限制的问题，能够直接将原始文本转换到多语种统一的比特表征上，利用ByT5模型框架强大的通用处理能力的基础上融合了句法和结构的信息，能够有效提升合成语音质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音合成，特别涉及一种基于byt5的语音合成方法、装置、设备及存储介质。

技术介绍

1、跨语种的语音合成任务涉及将一种语言的语音文本转换为另一种语言的自然流利的语音文本。这种任务在多语种社会和国际化应用中具有重要的应用前景，可以改善语音交互系统的用户体验，同时提供更广泛的服务范围。例如，远程会诊：在远程医疗会诊中，医生之间需要交流患者的病情和诊断意见。语音合成技术可以将医生输入的文字信息转化为语音，方便医生之间的沟通。例如，专家在远程会诊时，可以通过语音合成技术将自己的诊断意见和治疗建议传达给其他医生，提高会诊的效率和准确性。远程监护：对于一些慢性病患者或居家康复的患者，远程监护系统可以通过语音合成技术，定期向患者发送语音提醒，如提醒患者按时服药、测量血压、血糖等，同时将患者的监测数据反馈给医生，方便医生及时了解患者的病情变化。目前大多数的文本转语音(text-to-speech，tts)系统在文本处理阶段都需要基于token来开展工作，这种技术方案存在的缺陷是：该语音合成模型只能识别和处理词表范围内(也就是在词表中存在对应的token)的字符，对于存在未知字词的情况，模型往往无法进行处理。并且现有的跨语种语音合成方法合成的语音效果往往不好，存在着语义缺失等问题。

技术实现思路

1、本申请实施例的目的在于提出一种基于byt5的语音合成方法、装置、设备及存储介质，以解决现有基于token的语音合成方案中token-based模型受词典限制、语音效果差、语义缺失的问题。</p>

2、为了解决上述技术问题，本申请实施例提供一种基于byt5的语音合成方法，采用了如下所述的技术方案，包括：

3、获取输入文本的比特序列，利用byt5模型将所述比特序列转换成文本特征向量；

4、获取所述输入文本的词性信息和句法结构信息，对所述词性信息和句法结构信息进行信息嵌入编码，获取词性嵌入向量、句法结构嵌入向量；

5、将所述文本特征向量、词性嵌入向量、句法结构嵌入向量求和后输入到生成对抗网络语音模型的全连接层进行线性运算，得到文本输出向量，将所述文本输出向量输入激活函数通过非线性运算进行特征融合，获取文本融合特征；

6、将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本mel谱，将所述目标文本mel谱输入到声码器进行语音合成，获取目标语音波形。

7、进一步的，在获取文本融合特征之后，所述将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本mel谱之前,所述方法还包括：

8、将所述文本融合特征输入所述生成对抗网络语音模型的自注意力机制模块；

9、利用所述自注意力机制模块获取所述文本融合特征中目标文本的文本增强特征，所述文本增强特征包括语义特征及文本结构的位置信息；

10、所述将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本mel谱，包括：

11、将所述文本融合特征及所述文本增强特征输入到所述生成对抗网络语音模型的解码器，得到所述目标文本mel谱。

12、进一步的，在将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本mel谱，将所述目标文本mel谱输入到声码器进行语音合成，获取目标语音波形，之后，所述方法还包括：

13、将获取的目标语种mel谱与真实的目标语种mel谱输入判别器，计算所述生成对抗网络语音模型的对抗损失信息；

14、利用所述对抗损失信息更新所述判别器及所述解码器的参数。

15、进一步的，所述获取输入文本的比特序列，包括：

16、获取输入文本，对所述输入文本进行字符编码，获取所述输入文本中每个字符对应的数字编码值；

17、将所述每个字符对应的数字编码值转换为二进制数；

18、将所述二进制数按顺序连接起来，得到所述输入文本的比特序列。

19、进一步的，所述利用byt5模型将所述比特序列转换成文本特征向量，包括：

20、将所述输入文本的比特序列输入到所述byt5模型的输入层进行预处理，得到规范文本比特序列；

21、将所述规范文本比特序列输入所述byt5模型的嵌入层，通过所述嵌入层将所述规范文本比特序列映射为文本特征向量。

22、进一步的，所述获取所述输入文本的词性信息和句法结构信息，包括：

23、获取hanlp词性标注工具；

24、利用所述hanlp词性标注工具创建词性标注器和句法分析器；

25、利用所述词性标注器获取所述输入文本每个词的词性信息，利用所述句法分析器获取所述输入文本句法结构信息。

26、进一步的，所述利用所述hanlp词性标注工具创建词性标注器和句法分析器，包括：

27、将所述词性标注器、句法分析器对应的类导入所述hanlp词性标注工具；

28、所述hanlp词性标注工具调用所述词性标注器对应的类创建词性标注器，利用所述词性标注器输出每个词及对应的词性，所述hanlp词性标注工具调用所述句法分析器对应的类创建句法分析器，利用所述句法分析器输出句法分析结果。

29、为了解决上述问题，还提供给一种基于byt5的语音合成装置，采用所述的基于byt5的语音合成方法，其特征在于，包括：

30、转换模块，用于获取输入文本的比特序列，利用byt5模型将所述比特序列转换成文本特征向量；

31、信息嵌入模块，用于获取所述输入文本的词性信息和句法结构信息，对所述词性信息和句法结构信息进行信息嵌入编码，获取词性嵌入向量、句法结构嵌入向量；

32、特征融合模块，用于将所述文本特征向量、词性嵌入向量、句法结构嵌入向量求和后输入到生成对抗网络语音模型的全连接层进行线性运算，得到文本输出向量，将所述文本输出向量输入激活函数通过非线性运算进行特征融合，获取文本融合特征；

33、合成模块，用于将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本mel谱，将所述目标文本mel谱输入到声码器进行语音合成，获取目标语音波形。

34、为了解决上述问题，本申请实施例还提出了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现一种基于byt5的语音合成方法的步骤。

35、为了解决上述问题，本申请实施例还提出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现一种基于byt5的语音合成方法的步骤。

36、与现有技术相比，通过获取输入文本的比特序列，利用byt5模型将所述比特序列转换成文本特征向量，将文本特征向量、词性嵌入向量、句法结构嵌入向量求和后依次输入到生成对抗网络语音模型进行特征融合及解码，解决了token-based模型受词典限制的问题本文档来自技高网...

【技术保护点】

1.一种基于ByT5的语音合成方法，特征在于，包括：

2.根据权利要求1所述的基于ByT5的语音合成方法，其特征在于，在获取文本融合特征之后，所述将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本MEL谱之前,所述方法还包括：

3.根据权利要求2所述的基于ByT5的语音合成方法，其特征在于，在将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本MEL谱，将所述目标文本MEL谱输入到声码器进行语音合成，获取目标语音波形，之后，所述方法还包括：

4.根据权利要求1所述的基于ByT5的语音合成方法，其特征在于，所述获取输入文本的比特序列，包括：

5.根据权利要求4所述的基于ByT5的语音合成方法，其特征在于，所述利用ByT5模型将所述比特序列转换成文本特征向量，包括：

6.根据权利要求1所述的基于ByT5的语音合成方法，其特征在于，所述获取所述输入文本的词性信息和句法结构信息，包括：

7.根据权利要求6所述的基于ByT5的语音合成方法，其特征在于，所述利用所述HanLP词性标注

8.一种基于ByT5的语音合成装置，采用权利要求1-7任一项所述的基于ByT5的语音合成方法，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行如权利要求1至7中任一项所述的基于ByT5的语音合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于ByT5的语音合成方法的步骤。

...

【技术特征摘要】

1.一种基于byt5的语音合成方法，特征在于，包括：

2.根据权利要求1所述的基于byt5的语音合成方法，其特征在于，在获取文本融合特征之后，所述将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本mel谱之前,所述方法还包括：

3.根据权利要求2所述的基于byt5的语音合成方法，其特征在于，在将所述文本融合特征输入到所述生成对抗网络语音模型的解码器，得到目标文本mel谱，将所述目标文本mel谱输入到声码器进行语音合成，获取目标语音波形，之后，所述方法还包括：

4.根据权利要求1所述的基于byt5的语音合成方法，其特征在于，所述获取输入文本的比特序列，包括：

5.根据权利要求4所述的基于byt5的语音合成方法，其特征在于，所述利用byt5模型将所述比特序列转换成文本特征向量，包括：

...

【专利技术属性】
技术研发人员：李俊杰，刘航驿，王少军，黄天来，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人