语音合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：44784993 阅读：9 留言：0更新日期：2025-03-28 19:41

本申请涉及一种语音合成方法、装置、计算机设备和存储介质。该方法包括：获取待合成说话人语音数据，从待合成说话人语音数据中提取说话人特征；获取文本数据，将文本数据转换为音素序列，并在音素序列中插入位置编码，得到已排序音素序列；将文本数据与已排序音素序列输入图编码器，得到图编码器输出的文本编码特征；将说话人特征与文本编码特征进行拼接，得到拼接特征，将拼接特征输入变分适配器进行时长预测，得到预测特征；在预测特征中插入位置编码，得到已排序预测特征，将已排序预测特征输入解码器，得到解码器输出的待合成梅尔频谱图，将待合成梅尔频谱图转化为说话人合成音频。采用本方法能够提高语音合成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音处理，特别是涉及一种语音合成方法、装置、计算机设备和存储介质。

技术介绍

1、随着语音处理技术的发展，出现了文本转语音(text to speech，tts)技术，也可以称为语音合成技术，这个技术作为智能问答系统的重要组成部分，在过去二十年中取得了巨大的发展。近几年，神经网络方法和序列到序列模型使tts的发展达到了一定的水平，尽管基于神经网络的tts已经显示出有竞争力的性能，但在语音合成准确度方面仍然有待提高。传统的说话人语音合成或克隆方法中，使用说话人编码器提取说话人嵌入向量，可能会面临提取说话人嵌入向量不准确的问题，从而导致语音合成的准确度低、效果差。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高语音合成准确度的语音合成方法、装置、计算机设备和存储介质。

2、本申请的第一方面，提供一种语音合成方法，该方法包括：获取待合成说话人语音数据，从待合成说话人语音数据中提取说话人特征；获取文本数据，将文本数据转换为音素序列，并在音素序列中插入位置编码，得到已排序音素序列；将文本数据与已排序音素序列输入图编码器，得到图编码器输出的文本编码特征；其中，图编码器基于文本数据的语法图对文本数据进行语法关系编码，并结合图注意力机制对已排序音素序列进行文本编码；将说话人特征与文本编码特征进行拼接，得到拼接特征，将拼接特征输入变分适配器进行时长预测，得到预测特征；在预测特征中插入位置编码，得到已排序预测特征，将已排序预测特征输入解码器，得到解码器输出的待

3、在一些实施例中，从待合成说话人语音数据中提取说话人特征，包括：利用说话人嵌入提取网络从待合成说话人语音数据中提取说话人嵌入向量；基于说话人嵌入向量以及说话人嵌入提取网络的训练样本的样本嵌入向量构建亲和图；其中，亲和图中以嵌入向量为节点以通过余弦相似度确定出的与各嵌入向量最近邻的至少一个近邻嵌入向量为边；基于图卷积网络对亲和图中的节点进行聚类处理，生成待合成说话人聚类。

4、在一些实施例中，基于图卷积网络对亲和图中的节点进行聚类处理，生成待合成说话人聚类，包括：对亲和图中的节点进行聚类，生成多个待合成说话人聚类提案；基于图卷积网络的聚类检测单元提取各个待合成说话人聚类提案的聚类特征，根据聚类特征从生成的多个待合成说话人聚类提案中识别候选待合成说话人聚类提案；基于图卷积的聚类分割单元对候选待合成说话人聚类提案中的各节点的概率值进行预测，将概率值小于预设阈值的节点作为异常节点从候选待合成说话人聚类提案的节点中移除；根据候选待合成说话人聚类提案中的各节点的概率值的大小对各节点进行排序，选取概率值大于预设阈值的至少一个节点生成待合成说话人聚类提案。

5、在一些实施例中，对亲和图中的节点进行聚类，生成多个待合成说话人聚类提案，包括：通过设置亲和图中节点与节点之间的边权重以得到多个超节点；基于各超节点进行聚类操作，以各超节点的质心为节点以质心与质心的关系为边，生成多个待合成说话人聚类提案。

6、在一些实施例中，该方法还包括：为待合成说话人聚类分配伪标签；通过降噪损失函数对说话人嵌入提取网络进行网络参数优化，以对聚类处理过程中产生的伪标签进行降噪，将降噪后的伪标签重新输入说话人嵌入提取网络以进行迭代训练。

7、在一些实施例中，将文本数据与已排序音素序列输入图编码器，得到图编码器输出的文本编码特征，包括：根据文本数据生成文本数据对应的语法树；对语法树中的字词之间的语法关系进行解析，以音素作为节点，音素与音素之间的语法关系作为边，生成语法图；基于双向gru网络，对两个音素之间的语法关系进行双向编码，得到关系编码向量；其中，关系编码向量包括前向关系编码向量和后向关系编码向量；基于图编码器的图注意力机制和关系编码向量计算注意力分数；根据注意力分数对已排序音素序列进行编码，得到图编码器输出的文本编码特征。

8、在一些实施例中，基于图编码器的图注意力机制和关系编码向量计算注意力分数，包括：基于图编码器的图注意力机制捕获关系编码中的基于基本语法内容的寻址关系；根据前向关系编码向量计算音素之间的前向关系偏差；根据后向关系编码向量控制音素之间的后向关系偏差；基于前向关系编码向量和后向关系编码向量计算综合偏差；根据寻址关系、前向关系偏差、后向关系偏差以及综合偏差得到注意力分数。

9、在一些实施例中，基于双向gru网络，对两个音素之间的语法关系进行双向编码，得到关系编码向量，包括：在两个音素属于同一个词语时，基于双向gru网络并使用自循环边缘编码算法对两个音素之间的语法关系进行双向编码；在两个音素属于不同词语时，基于双向gru网络对两个音素分别所属的词之间的语法关系进行双向编码。

10、本申请的第二方面，提供一种语音合成装置，该装置包括：

11、图说话人编码模块，用于获取待合成说话人语音数据，从待合成说话人语音数据中提取说话人特征；

12、前端处理模块，用于获取文本数据，将文本数据转换为音素序列，并在音素序列中插入位置编码，得到已排序音素序列；

13、图编码模块，用于将文本数据与已排序音素序列输入图编码器，得到图编码器输出的文本编码特征；

14、变分适配模块，用于将说话人特征与文本编码特征进行拼接，得到拼接特征，将拼接特征输入变分适配器进行时长预测，得到预测特征；

15、解码合成模块，用于在预测特征中插入位置编码，得到已排序拼接特征，将已排序拼接特征输入解码器，得到解码器输出的待合成梅尔频谱图，将待合成梅尔频谱图转化为说话人合成音频。

16、本申请的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的第一方面的任一实施例的语音合成方法的步骤。

17、一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述的第一方面的任一实施例的语音合成方法的步骤。

18、上述语音合成方法、装置、计算机设备和存储介质，采用图编码器，基于文本数据的语法图对文本数据进行语法关系编码，并结合图注意力机制对文本数据对应的已排序音素序列进行文本编码以得到文本编码特征，并将基于图编码器处理后的文本编码特征与说话人特征进行拼接，从而进行特征预测和梅尔频谱图的预测，从而实现说话人合成音频的合成或克隆。采用本方法，引入图编码器，采用基于语法图的语法关系编码结合自注意力机制进行文本编码，能提高文本编码的准确性，从而提高语音合成的准确性。

本文档来自技高网...

【技术保护点】

1.一种语音合成方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述待合成说话人语音数据中提取说话人特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于图卷积网络对所述亲和图中的节点进行聚类处理，生成待合成说话人聚类，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述亲和图中的节点进行聚类，生成多个待合成说话人聚类提案，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述文本数据与所述已排序音素序列输入图编码器，得到所述图编码器输出的文本编码特征，包括：

7.根据权利要求6所述的方法，其特征在于，基于所述图编码器的图注意力机制和所述关系编码向量计算注意力分数，包括：

8.根据权利要求6所述的方法，其特征在于，所述基于双向GRU网络，对两个音素之间的语法关系进行双向编码，得到关系编码向量，包括：

9.一种语音合成装置，其特征在于，所述装置包括：

10.一种计算机设备

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种语音合成方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述待合成说话人语音数据中提取说话人特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于图卷积网络对所述亲和图中的节点进行聚类处理，生成待合成说话人聚类，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述亲和图中的节点进行聚类，生成多个待合成说话人聚类提案，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述文本数据与所述已排序音素序列输入图编码器，得到所述图编码器输出的文本编码特征，包括：

7....

【专利技术属性】
技术研发人员：智鹏鹏，丁雪枫，张人杰，
申请(专利权)人：大众问问北京信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人