System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于时间感知位置编码的语音合成方法及其模型训练方法技术_技高网

基于时间感知位置编码的语音合成方法及其模型训练方法技术

技术编号:41524326 阅读:7 留言:0更新日期:2024-06-03 22:58
本发明专利技术提供基于时间感知位置编码的语音合成方法及其模型训练方法,涉及语音合成技术领域。合成方法包含获取提示语音及其文本和待合成文本。将文本转为音素编码。将音频转为多个码本的音频编码。获取文本中字的时间并结合音素编码,获取时间感知位置编码,并转为音频位置编码。拼接音素编码和第一个码本的音频编码,并和位置编码对齐,然后输入自回归模型,获取第一个码本的音频预测编码。拼接音素编码、所有码本的音频编码和音频预测编码,并和位置编码对齐,然后输入非自回归模型,获取待合成语音的其它码本的音频预测编码。拼接所有码本的音频预测编码并解码,获取合成音频。本发明专利技术的方法训练速度更快,生成的音频质量更高。

【技术实现步骤摘要】

本专利技术涉及语音合成,具体而言,涉及基于时间感知位置编码的语音合成方法及其模型训练方法


技术介绍

1、目前的零样本语音合成方案主要分为以建模梅尔频谱作为中间表示的非自回归模型和以建模音频编码为基础的自回归模型。其中基于梅尔频谱的非自回归模型输出的声音较为稳定,但是缺少对说话人的风格捕捉,声音较为平坦。而基于音频编码为基础的自回归模型虽然可以有效的捕获说话人的感情,但是训练效率低下,且模型无法很好捕捉每个字的发音时长。

2、其存在以下缺陷:1、风格捕捉不足:非自回归模型在生成个性化语音方面表现有限,无法充分模拟说话人的风格和情感。2、训练效率低下:自回归模型的训练过程耗时且资源密集,这限制了模型的可扩展性和实用性。3、发音时长捕捉不准确:自回归模型在模拟每个字的发音时长时存在困难,这影响了语音的自然流畅度。

3、有鉴于此,申请人在研究了现有的技术后特提出本申请。


技术实现思路

1、本专利技术提供了一种基于时间感知位置编码的语音合成方法及其模型训练方法,以改善上述技术问题中的至少一个。

2、第一方面、本专利技术提供了一种基于时间感知位置编码的语音合成方法,其包含步骤s1至步骤s8。

3、s1、获取提示语音、提示语音文本和待合成语音文本。

4、s2、将提示语音文本和待合成语音文本分别转为音素编码。

5、s3、通过音频编解码器将提示语音编码为多个码本的音频编码。

6、s4、根据所述提示语音和所述提示语音文本,获取各个字的时间戳信息,然后结合提示语音文本的音素编码,获取音素的时间感知位置编码。

7、s5、根据所述时间感知位置编码,获取文本中各个字在音频对应位置处的音频位置编码。

8、s6、拼接所述提示语音的第一个码本的音频编码、提示语音文本的音素编码和待合成语音文本的音素编码,并将时间感知位置编码和音频位置编码与拼接后的编码对齐,然后一起输入到自回归模型,获取待合成语音的第一个码本的音频预测编码。

9、s7、拼接所述提示语音的所有码本的音频编码、提示语音文本的音素编码、待合成语音文本的音素编码,以及所述第一个码本的音频预测编码,并将时间感知位置编码和音频位置编码与拼接后的编码对齐,然后一起输入到非自回归模型,获取待合成语音的其它码本的音频预测编码。

10、s8、拼接第一个码本的音频预测编码和其它码本的音频预测编码,然后通过音频编解码器解码,获取合成音频。

11、在一个可选的实施例中,步骤s2具体包括步骤s21至步骤s23。

12、s21、通过分词工具分别对所述提示语音文本和所述待合成语音文本进行分词。

13、s22、通过音素转化模型分别将提示语音文本和所述待合成语音文本的分词转化为音素。

14、s23、通过映射词典分别将提示语音文本和所述待合成语音文本的音素转化为音素编码。其中,映射词典包含音素对应的离散编码。

15、在一个可选的实施例中,步骤s4中获取文本中各个字的时间戳信息,具体包括步骤s41。s41、获取文本中各个字在语音音频中的时间戳范围。其中,所述时间戳范围包括各个字在音频中的起始时间戳和结束时间戳。

16、在一个可选的实施例中,步骤s4中获取文本中每个字的时间感知位置编码,具体包括步骤s42至步骤s44。

17、s42、根据文本中各个字的音素编码,通过等差数列为音素编码中的各个音素进行编号,获取各个字的音素编号范围。其中,,为第个音素的编号、为文字的音素总数。

18、s43、根据时间戳范围和音素编号范围,分别计算各个字的音素位置编码。其中,音素位置编码的计算模型为:式中,为音素位置编码、为第个音素的位置编码、为文字的音素的总数、为第个音素的位置编码、为第个音素的编号、为归一化后等差数列的差值、为第个字的结束时间戳、为第个字的起始时间戳。

19、s44、将文本中各个字的音素位置编码进行拼接,然后将拼接后的音素位置编码的编码尺度和音频编解码器的编码尺度统一,获取音素的时间感知位置编码。

20、在一个可选的实施例中,步骤s5具体包括步骤s51。s51、根据所述文本中各个字的时间感知位置编码向下取整,获取文本中各个字的音频位置编码。

21、在一个可选的实施例中,自回归模型为:式中,表示概率、表示待合成语音的第一个码本的音频预测编码、表示音素编码、表示提示语音的第一个码本的音频编码、表示自回归模型的参数、为音频编码位置、为音频编码位置的数量、为待合成语音的第一个码本的第个位置的音频编码、为待合成语音的第一个码本的小于第个位置的音频编码。

22、在一个可选的实施例中,非自回归模型为:式中,表示概率、表示待合成语音的第2到8个码本的音频预测编码、表示音素编码、表示提示语音的音频编码、表示非自回归模型的参数、为码本的序号、表示待合成语音的第个码本的音频预测编码、表示待合成语音的小于第个码本的音频预测编码。

23、第二方面、本专利技术提供了一种基于时间感知位置编码的语音合成模型的训练方法,其包含步骤m1至步骤m10。

24、m1、获取提示语音、提示语音文本、待合成语音和待合成语音文本。

25、m2、将所述提示语音文本和所述待合成语音文本分别转为音素编码。

26、m3、通过音频编解码器将所述提示语音和所述待合成语音分别编码为多个码本的音频编码。

27、m4、根据语音和文本内容上的对应关系,分别获取提示语音文本和待合成语音文本中每个字的时间戳信息,然后结合音素编码,获取音素的时间感知位置编码。

28、m5、根据所述时间感知位置编码,获取文本中各个字在音频对应位置处的音频位置编码。

29、m6、拼接所述提示语音的第一个码本的音频编码、提示语音文本的音素编码和待合成语音文本的音素编码,并将对应的时间感知位置编码和音频位置编码与拼接后的编码对齐,然后一起输入到自回归模型,获取待合成语音的第一个码本的音频预测编码。

30、m7、获取待合成语音的第一个码本的真实音频编码,然后和所述第一个码本的音频预测编码计算自回归损失以训练所述自回归模型。

31、m8、拼接提示语音的所有码本的音频编码、提示语音文本的音素编码、待合成语音的第j个码本的音频编码,以及待合成语音文本的音素编码,并将对应的时间感知位置编码和音频位置编码与拼接后的编码对齐,然后一起输入到非自回归模型,获取待合成语音的第j+1个码本的音频预测编码,直至生成除第一个码本外的其它码本的音频预测编码。

32、m9、获取待合成语音的第j+1个码本的真实音频编码,然后和所述第j+1个码本的音频预测编码计算非自回归损失以训练所述非自回归模型。

33、m10、自回归模型和非自回归模型训练好后得到基于时间感知位置编码的语音合成模型。

34、第三方面、本专利技术提供了一种基于时间感知位置编码的语音合成装本文档来自技高网...

【技术保护点】

1.一种基于时间感知位置编码的语音合成方法,其特征在于,包含:

2.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,将提示语音文本和待合成语音文本分别转为音素编码,具体包括:

3.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,获取文本中各个字的时间戳信息,包括以下步骤:

4.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,根据所述时间感知位置编码,获取文本中各个字在音频对应位置处的音频位置编码,具体包括:

5.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,自回归模型为:式中,表示概率、表示待合成语音的第一个码本的音频预测编码、表示音素编码、表示提示语音的第一个码本的音频编码、表示自回归模型的参数、为音频编码位置、为音频编码位置的数量、为待合成语音的第一个码本的第个位置的音频编码、为待合成语音的第一个码本的小于第个位置的音频编码。

6.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,非自回归模型为:式中,表示概率、表示待合成语音的第2到8个码本的音频预测编码、表示音素编码、表示提示语音的音频编码、表示非自回归模型的参数、为码本的序号、表示待合成语音的第个码本的音频预测编码、表示待合成语音的小于第个码本的音频预测编码。

7.一种基于时间感知位置编码的语音合成模型的训练方法,其特征在于,包含:

8.一种基于时间感知位置编码的语音合成装置,其特征在于,包含:

9.一种基于时间感知位置编码的语音合成模型的训练装置,其特征在于,包含:

...

【技术特征摘要】

1.一种基于时间感知位置编码的语音合成方法,其特征在于,包含:

2.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,将提示语音文本和待合成语音文本分别转为音素编码,具体包括:

3.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,获取文本中各个字的时间戳信息,包括以下步骤:

4.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,根据所述时间感知位置编码,获取文本中各个字在音频对应位置处的音频位置编码,具体包括:

5.根据权利要求1所述的一种基于时间感知位置编码的语音合成方法,其特征在于,自回归模型为:式中,表示概率、表示待合成语音的第一个码本的音频预测编码、表示音素编码、表示提示语音的第一个码本的音频编码、表...

【专利技术属性】
技术研发人员:潘启正陈毅松杨洪进
申请(专利权)人:厦门蝉羽网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1