一种声谱图生成方法及装置制造方法及图纸

技术编号:37704579 阅读:8 留言:0更新日期:2023-06-01 23:52
本发明专利技术提供一种声谱图生成方法及装置,可以获取与目标文本的音素序列对应的帧级别音素特征序列;帧级别音素特征序列包括至少一个帧级别音素特征数据;将帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配,获得各帧级别音素特征数据的发音权重分配数据;其中,任一帧级别音素特征数据的发音权重分配数据均包括各帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重;基于各帧级别音素特征数据的发音权重分配数据和帧级别音素特征序列,生成目标声谱图。本发明专利技术可以有效保障声谱图生成质量。可以有效保障声谱图生成质量。可以有效保障声谱图生成质量。

【技术实现步骤摘要】
一种声谱图生成方法及装置


[0001]本专利技术涉及语音合成
,尤其涉及一种声谱图生成方法及装置。

技术介绍

[0002]随着科学技术的发展,语音合成技术不断提高。
[0003]现有技术在进行语音合成时,可以先行基于目标文本生成相应的声谱图,之后再基于声谱图来合成相应的音频。其中,现有技术可以通过声学模型来生成与目标文本对应的声谱图。
[0004]当前,主要存在有两种模型结构的声谱模型,一种为自回归结构的声谱模型,另一种为非自回归结构的声谱模型。相比于自回归结构的声谱模型,非自回归结构的声谱模型采用的是并行生成的模式,即同步地一次性生成声谱图的所有帧,可以极大地加快模型的训练以及生成速度。
[0005]但是,非自回归结构的声谱模型在生成声谱图的过程中,未考虑到音素与音素之间的发音相关性(比如,在生成汉字“我”相关的声谱图帧时,是分别独立生成“w”和“o”这两个音素对应的声谱图帧,未考虑音素“o”对于“w”发音的影响),可能导致声谱图的生成质量较低。

技术实现思路

[0006]本专利技术提供一种声谱图生成方法及装置,用以解决现有技术中未考虑到音素与音素之间的发音相关性,可能导致声谱图的生成质量较低的缺陷,有效保障声谱图的生成质量。
[0007]本专利技术提供一种声谱图生成方法,包括:获取与目标文本的音素序列对应的帧级别音素特征序列;所述帧级别音素特征序列包括至少一个帧级别音素特征数据;将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配,获得各所述帧级别音素特征数据的发音权重分配数据;其中,任一所述帧级别音素特征数据的发音权重分配数据均包括各所述帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重;基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列,生成目标声谱图;其中,所述发音权重分配模型是基于第一训练数据对第一预训练模型进行训练得到的;所述第一训练数据包括第一样本帧级别音素特征序列和相应的第一样本发音权重分配数据。
[0008]可选的,所述基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列,生成目标声谱图,包括:将各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列
输入至训练好的迭代式声谱解码器,获得所述迭代式声谱解码器通过预设次数的迭代优化生成的所述目标声谱图;其中,在每一次的迭代优化中,所述迭代式声谱解码器的输入均包括所述帧级别音素特征序列、各所述帧级别音素特征数据的发音权重分配数据和上一次迭代优化所生成的声谱图,所述迭代式声谱解码器的输出均为本次迭代优化所生成的声谱图;其中,所述迭代式声谱解码器是基于第二训练数据和渐进式训练策略对第二预训练模型进行训练得到的;所述第二训练数据包括第二样本帧级别音素特征序列、第二样本发音权重分配数据和样本声谱图。
[0009]可选的,所述获取与目标文本的音素序列对应的帧级别音素特征序列,包括:获取与目标文本的音素序列对应的音素特征序列;所述音素特征序列包括至少一个音素特征数据;将所述音素特征序列输入至训练好的时长预测器进行时长预测,获得各所述音素特征数据的预测时长;基于各所述音素特征数据的预测时长,生成所述帧级别音素特征序列;其中,所述时长预测器是基于第三训练数据对第三预训练模型进行训练得到的;所述第三训练数据包括样本音素特征序列和所述样本音素特征序列中各样本音素特征数据的标注时长。
[0010]可选的,所述基于各所述音素特征数据的预测时长,生成所述帧级别音素特征序列,包括:分别将各所述音素特征数据的预测时长与预设帧时长的比值,确定为各所述音素特征数据的复制次数;分别基于各所述音素特征数据的复制次数,对相应的所述音素特征数据进行复制,得到所述帧级别音素特征序列。
[0011]可选的,基于第一样本帧级别音素特征序列和所述第一样本发音权重分配数据对第一预训练模型进行训练的过程包括以下步骤:获取所述第一样本帧级别音素特征序列和所述第一样本发音权重分配数据;所述第一样本帧级别音素特征序列包括至少一个样本帧级别音素特征数据;将所述第一样本帧级别音素特征序列输入至当前的第一预训练模型进行发音权重分配,获得各所述样本帧级别音素特征数据的发音权重分配数据,并作为所述第一样本帧级别音素特征序列的预测发音权重分配数据;基于所述预测发音权重分配数据与所述第一样本发音权重分配数据的差异,更新当前的第一预训练模型的模型参数。
[0012]可选的,所述获取所述第一样本帧级别音素特征序列和所述第一样本发音权重分配数据,包括:获取相对应的样本文本和样本声谱图;基于所述样本文本,生成所述第一样本帧级别音素特征序列;基于所述样本声谱图,生成所述第一样本发音权重分配数据。
[0013]可选的,所述基于所述样本声谱图,生成所述第一样本发音权重分配数据,包括:分别生成所述样本声谱图中各帧数据的归一化特征相似度序列;其中,任一帧数
据的归一化特征相似度序列包括相应帧数据分别与各帧数据的归一化特征相似度;分别将各帧数据的归一化特征相似度序列确定为相应的所述样本帧级别音素特征数据的发音权重分配数据;将各所述样本帧级别音素特征数据的发音权重分配数据确定为所述第一样本发音权重分配数据。
[0014]可选的,所述分别生成所述样本声谱图中各帧数据的归一化特征相似度序列,包括:分别生成所述样本声谱图中各帧数据的特征相似度序列;其中,任一帧数据的特征相似度序列均包括相应帧数据分别与各帧数据的特征相似度;针对任一帧数据的特征相似度序列:在所述帧数据的特征相似度序列中对各特征相似度进行归一化处理,得到所述帧数据的归一化特征相似度序列。
[0015]可选的,基于所述第二训练数据和所述渐进式训练策略对第二预训练模型进行训练,得到所述迭代式声谱解码器的过程包括以下步骤:从所述样本声谱图中获取帧数占比为第一百分比的帧数据;其中,所述第一百分比小于1;基于所述第二训练数据和所述帧数占比为第一百分比的帧数据,对当前的第二预训练模型进行训练,获得在百分比为所述第一百分比的情况下训练好的第二预训练模型;确定小于所述第一百分比的第二百分比,将所述第二百分比作为当前的第一百分比,返回执行所述从所述样本声谱图中获取帧数占比为第一百分比的帧数据的步骤,直至获得在当前的第一百分比为0的情况下训练好的第二预训练模型;将在当前的第一百分比为0的情况下训练好的第二预训练模型确定为所述迭代式声谱解码器。
[0016]本专利技术还提供一种声谱图生成装置,包括:第一获取单元、第一输入单元、第一获得单元和第一生成单元;所述第一获取单元,用于获取与目标文本的音素序列对应的帧级别音素特征序列;所述帧级别音素特征序列包括至少一个帧级别音素特征数据;所述第一输入单元,用于将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配;所述第一获得单元,用于获得各所述帧级别音素特征数据的发音权重分配数据;其中,任一所述帧级别音素特征数据的发音权重分配数据均包括各所述帧级别音素特征数据对相应帧级别音素特征数据的发音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声谱图生成方法,其特征在于,包括:获取与目标文本的音素序列对应的帧级别音素特征序列;所述帧级别音素特征序列包括至少一个帧级别音素特征数据;将所述帧级别音素特征序列输入至训练好的发音权重分配模型进行发音权重分配,获得各所述帧级别音素特征数据的发音权重分配数据;其中,任一所述帧级别音素特征数据的发音权重分配数据均包括各所述帧级别音素特征数据对相应帧级别音素特征数据的发音影响权重;基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列,生成目标声谱图;其中,所述发音权重分配模型是基于第一训练数据对第一预训练模型进行训练得到的;所述第一训练数据包括第一样本帧级别音素特征序列和相应的第一样本发音权重分配数据。2.根据权利要求1所述的声谱图生成方法,其特征在于,所述基于各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列,生成目标声谱图,包括:将各所述帧级别音素特征数据的发音权重分配数据和所述帧级别音素特征序列输入至训练好的迭代式声谱解码器,获得所述迭代式声谱解码器通过预设次数的迭代优化生成的所述目标声谱图;其中,在每一次的迭代优化中,所述迭代式声谱解码器的输入均包括所述帧级别音素特征序列、各所述帧级别音素特征数据的发音权重分配数据和上一次迭代优化所生成的声谱图,所述迭代式声谱解码器的输出均为本次迭代优化所生成的声谱图;其中,所述迭代式声谱解码器是基于第二训练数据和渐进式训练策略对第二预训练模型进行训练得到的;所述第二训练数据包括第二样本帧级别音素特征序列、第二样本发音权重分配数据和样本声谱图。3.根据权利要求1所述的声谱图生成方法,其特征在于,所述获取与目标文本的音素序列对应的帧级别音素特征序列,包括:获取与目标文本的音素序列对应的音素特征序列;所述音素特征序列包括至少一个音素特征数据;将所述音素特征序列输入至训练好的时长预测器进行时长预测,获得各所述音素特征数据的预测时长;基于各所述音素特征数据的预测时长,生成所述帧级别音素特征序列;其中,所述时长预测器是基于第三训练数据对第三预训练模型进行训练得到的;所述第三训练数据包括样本音素特征序列和所述样本音素特征序列中各样本音素特征数据的标注时长。4.根据权利要求3所述的声谱图生成方法,其特征在于,所述基于各所述音素特征数据的预测时长,生成所述帧级别音素特征序列,包括:分别将各所述音素特征数据的预测时长与预设帧时长的比值,确定为各所述音素特征数据的复制次数;分别基于各所述音素特征数据的复制次数,对相应的所述音素特征数据进行复制,得到所述帧级别音素特征序列。
5.根据权利要求1所述的声谱图生成方法,其特征在于,基于第一样本帧级别音素特征序列和所述第一样本发音权重分配数据对第一预训练模型进行训练的过程包括以下步骤:获取所述第一样本帧级别音素特征序列和所述第一样本发音权重分配数据;所述第一样本帧级别音素特征序列包括至少一个样本帧级别音素特征数据;将所述第一样本帧级别音素特征序列输入至当前的第一预训练模型进行发音权重分配,获得各所述样本帧级别音素特征数据的发音权重分配数据,并作为所述第一样本帧级别音素特征序列的预测发音权重分配数据;基于...

【专利技术属性】
技术研发人员:周志洋刘诗慧姚麒
申请(专利权)人:北京红棉小冰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1