一种声谱图生成方法及装置制造方法及图纸

技术编号：37704579 阅读：8 留言：0更新日期：2023-06-01 23:52

本发明专利技术提供一种声谱图生成方法及装置，可以获取与目标文本的音素序列对应的帧级别音素特征序列；帧级别音素特征序列包括至少一个帧级别音素特征数据；将帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配，获得各帧级别音素特征数据的发音权重分配数据；其中，任一帧级别音素特征数据的发音权重分配数据均包括各帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；基于各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列，生成目标声谱图。本发明专利技术可以有效保障声谱图生成质量。可以有效保障声谱图生成质量。可以有效保障声谱图生成质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种声谱图生成方法及装置

[0001]本专利技术涉及语音合成
，尤其涉及一种声谱图生成方法及装置。

技术介绍

[0002]随着科学技术的发展，语音合成技术不断提高。
[0003]现有技术在进行语音合成时，可以先行基于目标文本生成相应的声谱图，之后再基于声谱图来合成相应的音频。其中，现有技术可以通过声学模型来生成与目标文本对应的声谱图。
[0004]当前，主要存在有两种模型结构的声谱模型，一种为自回归结构的声谱模型，另一种为非自回归结构的声谱模型。相比于自回归结构的声谱模型，非自回归结构的声谱模型采用的是并行生成的模式，即同步地一次性生成声谱图的所有帧，可以极大地加快模型的训练以及生成速度。
[0005]但是，非自回归结构的声谱模型在生成声谱图的过程中，未考虑到音素与音素之间的发音相关性（比如，在生成汉字“我”相关的声谱图帧时，是分别独立生成“w”和“o”这两个音素对应的声谱图帧，未考虑音素“o”对于“w”发音的影响），可能导致声谱图的生成质量较低。

技术实现思路

[0006]本专利技术提供一种声谱图生成方法及装置，用以解决现有技术中未考虑到音素与音素之间的发音相关性，可能导致声谱图的生成质量较低的缺陷，有效保障声谱图的生成质量。
[0007]本专利技术提供一种声谱图生成方法，包括：获取与目标文本的音素序列对应的帧级别音素特征序列；所述帧级别音素特征序列包括至少一个帧级别音素特征数据；将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配，获得各所述...

【技术保护点】

【技术特征摘要】
1.一种声谱图生成方法，其特征在于，包括：获取与目标文本的音素序列对应的帧级别音素特征序列；所述帧级别音素特征序列包括至少一个帧级别音素特征数据；将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配，获得各所述帧级别音素特征数据的发音权重分配数据；其中，任一所述帧级别音素特征数据的发音权重分配数据均包括各所述帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重；基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列，生成目标声谱图；其中，所述发音权重分配模型是基于第一训练数据对第一预训练模型进行训练得到的；所述第一训练数据包括第一样本帧级别音素特征序列和相应的第一样本发音权重分配数据。2.根据权利要求1所述的声谱图生成方法，其特征在于，所述基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列，生成目标声谱图，包括：将各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列输入至训练好的迭代式声谱解码器，获得所述迭代式声谱解码器通过预设次数的迭代优化生成的所述目标声谱图；其中，在每一次的迭代优化中，所述迭代式声谱解码器的输入均包括所述帧级别音素特征序列、各所述帧级别音素特征数据的发音权重分配数据和上一次迭代优化所生成的声谱图，所述迭代式声谱解码器的输出均为本次迭代优化所生成的声谱图；其中，所述迭代式声谱解码器是基于第二训练数据和渐进式训练策略对第二预训练模型进行训练得到的；所述第二训练数据包括第二样本帧级别音素特征序列、第二样本发音权重分配数据和样本声谱图。3.根据权利要求1所述的声谱图生成方法，其特征在于，所述获取与目标文本的音素序列对应的帧级别音素特征序列，包括：获取与目标文本的音素序列对应的音素特征序列；所述音素特征序列包括至少一个音素特征数据；将所述音素特征序列输入至训练好的时长预测器进行时长预测，获得各所述音素特征数据的预测时长；基于各所述音素特征数据的预测时长，生成所述帧级别音素特征序列；其中，所述时长预测器是基于第三训练数据对第三预训练模型进行训练得到的；所述第三训练数据包括样本音素特征序列和所述样本音素特征序列中各样本音素特征数据的标注时长。4.根据权利要求3所述的声谱图生成方法，其特征在于，所述基于各所述音素特征数据的预测时长，生成所述帧级别音素特征序列，包括：分别将各所述音素特征数据的预测时长与预设帧时长的比值，确定为各所述音素特征数据的复制次数；分别基于各所述音素特征数据的复制次数，对相应的所述音素特征数据进行复制，得到所述帧级别音素特征序列。
5.根据权利要求1所述的声谱图生成方法，其特征在于，基于第一样本帧级别音素特征序列和所述第一样本发音权重分配数据对第一预训练模型进行训练的过程包括以下步骤：获取所述第一样本帧级别音素特征序列和所述第一样本发音权重分配数据；所述第一样本帧级别音素特征序列包括至少一个样本帧级别音素特征数据；将所述第一样本帧级别音素特征序列输入至当前的第一预训练模型进行发音权重分配，获得各所述样本帧级别音素特征数据的发音权重分配数据，并作为所述第一样本帧级别音素特征序列的预测发音权重分配数据；基于...

【专利技术属性】
技术研发人员：周志洋，刘诗慧，姚麒，
申请(专利权)人：北京红棉小冰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人