训练文本转语音模型、文本转语音的方法、装置及设备制造方法及图纸

技术编号：43424319 阅读：19 留言：0更新日期：2024-11-27 12:36

本说明书实施例公开了一种训练文本转语音模型、文本转语音的方法、装置及设备。重新定义了文本转语音模型的输入数据的构成，输入数据不仅包括已插入韵律符号的文本对应的音素序列，也包括能够表示文本在至少一个粒度层级上的结构划分的结构标注信息，从而使得文本转语音模型在进行语音特征预测的过程中，不仅可以参考文本在音素层面的韵律，而且还可以参考文本在单字词、短语、语句等粒度层面上的韵律，这样可以使得预测出的语音特征所得到的语音韵律具有文本结构上发音的连贯性，韵律更加自然。需要说明，本公开属于人工智能领域的技术方案，在方案实现时，所使用的隐私数据已经得到所有方授权。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息，尤其涉及一种训练文本转语音模型、文本转语音的方法、装置及设备。

技术介绍

1、文本转语音(text-to-speech，tts)技术广泛应用于各种领域，如语音助手、电子书、导航系统、自动客服等。tts技术关注的重点在于，由文本得到的语音的韵律要尽可能自然(接近人类发音的韵律)。其中，韵律至少包括语音的发音节奏。

2、目前的方案是，利用韵律模型在文本中插入韵律符号，以提示文本序列中哪个位置需要进行多长时间的发音停顿。然后，利用文本转语音模型，将已插入韵律符号的文本，转换成具有一定韵律的语音。

3、基于此，提供一种效果更加的技术方案，使由文本转换的语音的韵律更加自然。

技术实现思路

1、本说明书实施例提供一种训练文本转语音模型的方法，包括：

2、获取文本样本，以及所述文本样本的结构划分信息；其中，所述结构划分信息表示至少一个粒度层级上的结构划分；

3、利用韵律模型对所述文本样本插入韵律符号，并将已插入韵律符号的所述文本样本转换成音素序列；

4、根据所述音素序列与所述结构划分信息，得到至少一个粒度层级的结构标注信息；其中，针对任一粒度层级，该粒度层级的结构标注信息表示：在该粒度层级上，所述音素序列中的每个音素属于的粒度单元；

5、将所述音素序列与所述至少一个粒度层级的结构标注信息作为文本转语音模型的输入，训练所述文本转语音模型。

6、本说明书实施例提供一种文本转语音的方法，包括：>

7、获取待处理的目标文本，以及所述目标文本的目标结构划分信息；其中，所述结构划分信息表示至少一个粒度层级上的结构划分；

8、利用韵律模型对所述目标文本插入韵律符号，并将已插入韵律符号的所述目标文本转换成目标音素序列；

9、根据所述目标音素序列与所述目标结构划分信息，得到至少一个粒度层级的目标结构标注信息；其中，针对任一粒度层级，该粒度层级的目标结构标注信息表示：在该粒度层级上，所述目标音素序列中的每个音素属于的粒度单元；

10、将所述目标音素序列与所述至少一个粒度层级的目标结构标注信息输入文本转语音模型，输出预测语音特征。

11、本说明书实施例提供一种训练文本转语音模型的装置，包括：

12、获取模块，获取文本样本，以及所述文本样本的结构划分信息；其中，所述结构划分信息表示至少一个粒度层级上的结构划分；

13、转换模块，利用韵律模型对所述文本样本插入韵律符号，并将已插入韵律符号的所述文本样本转换成音素序列；

14、处理模块，根据所述音素序列与所述结构划分信息，得到至少一个粒度层级的结构标注信息；其中，针对任一粒度层级，该粒度层级的结构标注信息表示：在该粒度层级上，所述音素序列中的每个音素属于的粒度单元；

15、训练模块，将所述音素序列与所述至少一个粒度层级的结构标注信息作为文本转语音模型的输入，训练所述文本转语音模型。

16、本说明书实施例提供一种文本转语音的装置，包括：

17、获取模块，获取待处理的目标文本，以及所述目标文本的目标结构划分信息；其中，所述结构划分信息表示至少一个粒度层级上的结构划分；

18、转换模块，利用韵律模型对所述目标文本插入韵律符号，并将已插入韵律符号的所述目标文本转换成目标音素序列；

19、处理模块，根据所述目标音素序列与所述目标结构划分信息，得到至少一个粒度层级的目标结构标注信息；其中，针对任一粒度层级，该粒度层级的目标结构标注信息表示：在该粒度层级上，所述目标音素序列中的每个音素属于的粒度单元；

20、预测模块，将所述目标音素序列与所述至少一个粒度层级的目标结构标注信息输入文本转语音模型，输出预测语音特征。

21、本说明书实施例还提供一种计算机程序产品，所述计算机程序产品存储有至少一条指令，所述至少一条指令适于由处理器加载并执行上述的方法步骤。

22、本说明书实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行上述的方法的步骤。

23、本说明书实施例还提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。

24、在本说明书的技术方案中，重新定义了文本转语音模型的输入数据的构成，输入数据不仅包括已插入韵律符号的文本对应的音素序列，也包括能够表示文本在至少一个粒度层级上的结构划分的结构标注信息，从而使得文本转语音模型在进行语音特征预测的过程中，不仅可以参考文本在音素层面的韵律，而且还可以参考文本在单字词、短语、语句等粒度层面上的韵律，这样可以使得预测出的语音特征所得到的语音韵律具有文本结构上发音的连贯性，韵律更加自然。

25、需要说明，本公开属于人工智能领域的技术方案，在方案实现时，所使用的隐私数据已经得到所有方授权。

本文档来自技高网...

【技术保护点】

1.一种训练文本转语音模型的方法，包括：

2.如权利要求1所述方法，其中，粒度层级包括单字粒度层级、短语粒度层级、语句粒度层级。

3.如权利要求2所述方法，其中，所述短语粒度层级，具体包括：韵律短语粒度层级；

4.如权利要求3所述方法，其中，所述韵律模型使用的韵律符号包括：第一韵律符号、第二韵律符号、第三韵律符号，第四韵律符号；

5.如权利要求1所述方法，其中，针对任一粒度层级，该粒度层级的结构标注信息为该粒度层级的结构标注序列；

6.如权利要求1-5中任一项所述方法，所述文本转语音模型的算法框架，为非自回归算法框架。

7.如权利要求6所述方法，所述文本转语音模型的算法框架，具体包括FastSpeech2。

8.如权利要求7所述方法，将所述音素序列与所述至少一个粒度层级的结构标注信息作为文本转语音模型的输入，训练所述文本转语音模型，包括：

9.一种文本转语音的方法，包括：

10.一种训练文本转语音模型的装置，包括：

11.一种文本转语音的装置，包括：

>12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～9中任意一项所述方法的步骤。

13.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～9中任意一项所述方法的步骤。

14.一种计算机程序产品，其上存储有至少一条指令，其特征在于，所述至少一条指令被处理器执行时实现权利要求1～9中任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种训练文本转语音模型的方法，包括：

2.如权利要求1所述方法，其中，粒度层级包括单字粒度层级、短语粒度层级、语句粒度层级。

3.如权利要求2所述方法，其中，所述短语粒度层级，具体包括：韵律短语粒度层级；

4.如权利要求3所述方法，其中，所述韵律模型使用的韵律符号包括：第一韵律符号、第二韵律符号、第三韵律符号，第四韵律符号；

5.如权利要求1所述方法，其中，针对任一粒度层级，该粒度层级的结构标注信息为该粒度层级的结构标注序列；

6.如权利要求1-5中任一项所述方法，所述文本转语音模型的算法框架，为非自回归算法框架。

7.如权利要求6所述方法，所述文本转语音模型的算法框架，具体包括fastspeech2。

8.如权利要求7所述方法，将...

【专利技术属性】
技术研发人员：王涛，王志铭，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人