System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种语音合成的系统和方法技术方案_技高网

一种语音合成的系统和方法技术方案

技术编号:41980792 阅读:5 留言:0更新日期:2024-07-12 12:11
本发明专利技术公开了一种语音合成的系统和方法,涉及计算机技术领域。该方法的一具体实施方式包括:包括:文本编码模块,用于根据待合成音频的原始文本,生成文本向量;风格编码模块,用于根据待合成音频的参考音频,生成风格向量;风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征;差异适配器,用于根据编码输出特征,由所述风格自适应层归一化模块生成梅尔频谱;声码器,根据所述梅尔频谱,输出合成语音。该实施方式解决了现有技术存在小数据量的情况下,现有技术存在进行对齐的准确性不够,且使用成本昂贵的问题、在合成的语音没有韵律起伏的技术缺陷,进而达到提高数据对齐的准确性,更好的拟合数据的技术效果。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种语音合成的系统和方法


技术介绍

1、近年来,语音合成随着ai技术的进步,语音合成技术也得到了长足发展,从文本到语音模型(tts模型)旨在对给定文本合成高质量语音。现在的tts模型能够很好处理大规模的语音数据,无论是单一说话人还是多说话人情况,只要每个说话人的数据足够、录音质量高,都能合成出很自然的语音。但在很多商业用途上,更多的是在低资源数据情况的语音定制,即仅根据用户少量的录音数据来使模型适配出需要的说话方式。近年来基于低资源数据的个性化语音合成的需求在逐步提升。

2、在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:

3、1、在小数据量的情况下,现有技术存在进行对齐的准确性不够,且使用成本昂贵的问题;

4、2、在小数据量的情况下,现有技术存在合成的语音较为韵律被平均,没有韵律起伏的技术缺陷。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种语音合成的系统和方法,能够解决小数据量下音频对齐不准确的问提。同时可以通过使用风格编码模块、音高预测模块、能量预测模块,更好的解决拟合语音合成中的音色和自然度问题。

2、为实现上述目的,根据本专利技术实施例的一个方面,提供了一种语音合成的系统,包括:文本编码模块、风格编码模块、风格自适应层归一化模块、差异适配器、解码模块、声码器;

3、所述文本编码模块,用于根据待合成音频的原始文本,生成文本向量;

4、所述风格编码模块,用于根据待合成音频的参考音频,生成风格向量;

5、所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征;

6、所述差异适配器,用于根据所述编码输出特征,生成解码输入特征;

7、所述解码模块,用于根据所述解码输入特征,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱;

8、所述声码器,根据所述梅尔频谱,输出合成语音。

9、可选地,所述风格编码模块包括:光谱处理模块、时间处理模块、多头注意模块;

10、所述光谱处理模块,用于将所述参考音频对应的梅尔频谱,通过全连接层转换成帧级隐状态序列;

11、所述时间处理模块,用于根据gated cnn和残差连接,捕获语音中的时序信息;

12、所述多头注意模块,用于根据多头自注意机制和所述残差连接,生成全局信息;

13、根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量。

14、可选地,根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量,包括:

15、根据所述帧级隐状态序列、所述时序信息和所述全局信息,提取风格特征,

16、对所述风格特征在输出时间上取平均值,得到所述风格特征。

17、可选地,所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征,包括:

18、接收所述文本向量和所述风格向量;

19、预测所述风格向量的增益和偏差;

20、根据所述文本向量和所述风格向量的增益和偏差进行标准化处理,生成所述编码输出特征。

21、可选地,生成所述编码输出特征的计算公式包括:

22、

23、其中

24、saln(h,ω)=g(ω)·y+b(ω) (2)

25、其中h表示为所述文本向量,y为h的正则化表示,上述公式(1)表示对所述文本向量进行正则化处理;公式(2)中,w为风格特征,g(ω),b(ω)为对风格特征进行线性变换得到的表示;saln(h,ω)即表示所述文本向量和所述风格向量进行融合后的所述编码输出特征。

26、可选地,所述差异适配器,用于根据所述编码输出特征,生成解码输入特征,包括:

27、根据所述编码输出特征,生成特征集合;

28、将所述特征集合中的每一特征分别与所述编码输出特征加和,生成解码输入特征。

29、可选地,所述差异适配器,包括:非监督对齐模块、音高预测模块、能量预测模块;

30、根据所述编码输出特征,生成特征集合,包括:

31、将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征;

32、将所述编码输出特征输入到所述音高预测模块,生成音高特征;

33、将所述编码输出特征输入到所述能量预测模块,生成能量特征;

34、将所述对齐时长特征、所述音高特征、所述能量特征所组成的集合,确定为特征集合。

35、可选地,将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征,包括:

36、利用卷积对原始文本和梅尔频谱进行编码,并利用激活函数将文本与梅尔频谱对齐;

37、使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合;

38、使用维特比算法,从所述对齐集合中选择所述原始文本与所述梅尔频谱的对齐方式;

39、根据所述对齐方式,生成所述对齐时长特征。

40、可选地,所述对齐集合的计算公式为:

41、

42、其中s表示梅尔频谱和文本之间的特定对齐,s(φ)表示所有可能有效的单调对齐的集合,p(st|xt;θ)是特定文本在时间t时刻与对应时刻的梅尔频谱对齐的可能性。

43、可选地,使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合,包括:

44、使用隐马尔可夫模型中的前向传播算法,限制为单调对齐,将ctc损失降至最低;

45、筛选所述梅尔频谱的概率最大化对应的对齐集合。

46、根据本专利技术实施例的另一个方面,提供了一种语音合成的方法,包括:根据待合成音频的原始文本,生成文本向量;

47、根据待合成音频的参考音频,生成风格向量;

48、对所述文本向量和所述风格向量进行风格自适应层归一化处理,生成编码输出特征;

49、根据所述编码输出特征进行差异适配,生成解码输入特征;

50、根据所述解码输入特征进行解码,生成解码模块输出特征;所述解码模块输出特征用于作为所述风格自适应层归一化模块的输入,由所述风格自适应层归一化模块生成梅尔频谱;

51、所述梅尔频谱,合成语音。

52、根据本专利技术实施例的另一个方面,提供了一种语音合成的电子设备,包括:

53、一个或多个处理器;

54、存储装置,用于存储一个或多个程序,

55、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术提供的语音合成的方法。

56、根据本专利技术实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,本文档来自技高网...

【技术保护点】

1.一种语音合成的系统,其特征在于,包括:文本编码模块、风格编码模块、风格自适应层归一化模块、差异适配器、解码模块、声码器;

2.根据权利要求1所述的系统,其特征在于,所述风格编码模块包括:光谱处理模块、时间处理模块、多头注意模块;

3.根据权利要求1所述的系统,其特征在于,根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量,包括:

4.根据权利要求1所述的系统,其特征在于,所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征,包括:

5.根据权利要求4所述的系统,其特征在于,生成所述编码输出特征的计算公式包括:

6.根据权利要求1所述的系统,其特征在于,所述差异适配器,用于根据所述编码输出特征,生成解码输入特征,包括:

7.根据权利要求6所述的系统,其特征在于,所述差异适配器,包括:非监督对齐模块、音高预测模块、能量预测模块;

8.根据权利要求7所述的系统,其特征在于,将所述编码输出特征输入到所述非监督对齐模块,生成对齐时长特征,包括:

9.根据权利要求8所述的系统,其特征在于,所述对齐集合的计算公式为:

10.根据权利要求8所述的系统,其特征在于,使用隐马尔可夫模型中的前向传播算法,筛选所述梅尔频谱的概率最大化对应的对齐集合,包括:

11.一种语音合成的方法,其特征在于,包括:

12.一种语音合成的电子设备,其特征在于,包括:

13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求11所述的方法。

...

【技术特征摘要】

1.一种语音合成的系统,其特征在于,包括:文本编码模块、风格编码模块、风格自适应层归一化模块、差异适配器、解码模块、声码器;

2.根据权利要求1所述的系统,其特征在于,所述风格编码模块包括:光谱处理模块、时间处理模块、多头注意模块;

3.根据权利要求1所述的系统,其特征在于,根据所述帧级隐状态序列、所述时序信息和所述全局信息,生成风格向量,包括:

4.根据权利要求1所述的系统,其特征在于,所述风格自适应层归一化模块,用于根据所述文本向量和所述风格向量,生成编码输出特征,包括:

5.根据权利要求4所述的系统,其特征在于,生成所述编码输出特征的计算公式包括:

6.根据权利要求1所述的系统,其特征在于,所述差异适配器,用于根据所述编码输出特征,生成解码输入特征,...

【专利技术属性】
技术研发人员:司马华鹏徐冉毛志强
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1