多风格音频合成方法、装置、设备及存储介质制造方法及图纸

技术编号:27834495 阅读:55 留言:0更新日期:2021-03-30 11:53
本发明专利技术涉及人工智能领域,公开了一种多风格音频合成方法、装置、设备及存储介质。该方法包括:获取待处理的文本数据和单风格的第一梅尔谱;将所述第一梅尔谱输入预置风格提取网络进行特征提取,得到第一风格特征;将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接,得到第一融合特征;将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换,得到第二梅尔谱;将所述第二梅尔谱输入预置声码器进行音频生成,得到多风格音频。本发明专利技术利用风格特征作为声码器的条件特征,能够生成多风格的音频。能够生成多风格的音频。能够生成多风格的音频。

【技术实现步骤摘要】
多风格音频合成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种多风格音频合成方法、装置、设备及存储介质。

技术介绍

[0002]随着语音合成技术的高速发展,语音合成在情感计算、信号处理领域具有重要的研究意义。语音合成领域产生了越来越多基于深度学习的声学建模方法。深度学习技术极大地推进了音频合成领域的发展,音频合成技术也大大地提升了人机交互的体验。音频合成技术赋予了计算机像人一样的说话能力,可以从声学特征中捕捉到发音特点,合成流畅度较好、韵律较好的音频。
[0003]目前虽然有很多音频合成方法可以合成高质量逼真的音频,但这些音频往往只具有单一的风格,比如只是单一说话人,合成出的语音只含有一种情感,或者合成的风格往往是播报风格、客服风格、朗诵风格等其中的一种风格,如何使合成的音频具有多种风格仍是音频合成领域的一个重要问题。

技术实现思路

[0004]本专利技术的主要目的在于解决现有合成音频存在风格单一而无法满足用户需求的技术问题。
[0005]本专利技术第一方面提供了一种多风格音频合成方法,所述多风格音频合成包括:
[0006]获取待处理的文本数据和单风格的第一梅尔谱;
[0007]将所述第一梅尔谱输入预置风格提取网络进行特征提取,得到第一风格特征;
[0008]将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接,得到第一融合特征;
[0009]将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换,得到第二梅尔谱;
[0010]将所述第二梅尔谱输入预置声码器进行音频生成,得到多风格音频。
[0011]可选的,在本专利技术第一方面的第一种实现方式中,所述风格提取网络采用的第一训练模型包括:三层CNN网络、VIB网络、GRU网络、线性层和归一化层,在所述获取待处理的文本数据和单风格的第一梅尔谱之前,还包括:
[0012]获取多种单风格的梅尔谱样本;
[0013]将所述梅尔谱样本输入所述三层CNN网络进行特征提取,得到第一特征向量;
[0014]将所述第一特征向量输入所述VIB网络进行特征分解,得到第一分解向量;
[0015]将所述第一分解向量输入所述GRU网络进行风格提取,得到第一风格特征向量;
[0016]将所述第一风格特征向量输入所述线性层进行线性运算,得到第一风格输出向量;
[0017]将所述第一风格输出向量输入所述归一化层进行归一化处理,得到第二风格特
征;
[0018]根据所述第二风格特征,调用预置损失函数对所述第一训练模型进行优化,直至所述第一训练模型收敛,得到所述风格提取网络。
[0019]可选的,在本专利技术第一方面的第二种实现方式中,所述梅尔谱生成网络采用的第二训练模型包括:编码器和解码器,其中,所述编码器依次由嵌入层、卷积神经网络和LTSM网络构成,所述解码器依次由Pre

net网络、RNN网络和两层残差GRU网络构成,在所述获取待处理的文本数据和单风格的第一梅尔谱之前,还包括:
[0020]获取多个文本数据样本和多种风格特征样本;
[0021]将所述文本数据样本输入所述嵌入层进行向量转换,得到第一文本初始向量;
[0022]将所述第一文本初始向量输入所述卷积神经网络进行特征提取,得到第一文本特征向量;
[0023]将所述第一文本特征向量输入所述LTSM网络进行文本转换,得到第二文本特征;
[0024]拼接所述第二文本特征和所述风格特征样本,得到第二融合特征;
[0025]将所述第二融合特征输入所述Pre

net网络进行非线性变换,得到第一融合序列;
[0026]将所述第一融合序列输入所述RNN网络进行函数运算,得到第一声谱图;
[0027]将所述第一声谱图输入所述两层残差GRU网络进行残差运算,得到第三梅尔谱;
[0028]根据所述第三梅尔谱,调用预置优化函数对所述第二训练模型进行参数优化,直至所述第二训练模型收敛,得到所述梅尔谱生成网络。
[0029]可选的,在本专利技术第一方面的第三种实现方式中,所述将所述第一梅尔谱输入预置风格提取网络进行特征提取,得到第一风格特征包括:
[0030]将所述第一梅尔谱输入所述三层CNN网络进行特征提取,得到第二特征向量;
[0031]将所述第二特征向量输入所述VIB网络进行特征分解,得到第二分解向量;
[0032]将所述第二分解向量输入所述GRU网络进行风格提取,得到第二风格特征向量;
[0033]将所述第二风格特征向量输入所述线性层进行线性运算,得到第二风格输出向量;
[0034]将所述第二风格输出向量输入所述归一化层进行归一化处理,得到所述第一风格特征。
[0035]可选的,在本专利技术第一方面的第四种实现方式中,所述梅尔谱生成网络中的编码器依次由嵌入层、卷积神经网络和LTSM网络构成,所述将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取,得到第一文本特征包括:
[0036]将所述文本数据输入所述嵌入层进行向量转换,得到第二文本初始向量;
[0037]将所述第二文本初始向量输入所述卷积神经网络进行特征提取,得到第二文本特征向量;
[0038]将所述第二文本特征向量输入所述LTSM网络进行文本转换,得到第一文本特征。
[0039]可选的,在本专利技术第一方面的第五种实现方式中,所述将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接,得到第一融合特征包括:
[0040]将所述文本数据输入所述嵌入层进行向量转换,得到第二文本初始向量;
[0041]将所述第二文本初始向量输入所述卷积神经网络进行特征提取,得到第二文本特
征向量;
[0042]将所述第二文本特征向量输入所述LTSM网络进行文本转换,得到第一文本特征;
[0043]拼接所述第一风格特征与所述第一文本特征,得到所述第一融合特征。
[0044]可选的,在本专利技术第一方面的第六种实现方式中,所述声码器包括:生成器和判别器,所述将所述第二梅尔谱输入预置声码器进行音频生成,得到多风格音频包括:
[0045]将所述第二梅尔谱输入所述生成器进行音频生成,得到所述第二梅尔谱对应的音频;
[0046]将所述第二梅尔谱对应的音频输入所述判别器进行特征匹配,得到所述第二梅尔谱对应的音频的特征匹配度;
[0047]判断所述特征匹配度是否超过预置特征匹配度阈值;
[0048]若是,则将所述第二梅尔谱对应的音频作为所述声码器的输出音频,得到所述多风格音频。
[0049]本专利技术第二方面提供了一种多风格音频合成装置,所述多风格音频合成装置包括:
[0050]获取模块,用于获取待处理的文本数据和单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多风格音频合成方法,其特征在于,所述多风格音频合成方法包括:获取待处理的文本数据和单风格的第一梅尔谱;将所述第一梅尔谱输入预置风格提取网络进行特征提取,得到第一风格特征;将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接,得到第一融合特征;将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换,得到第二梅尔谱;将所述第二梅尔谱输入预置声码器进行音频生成,得到多风格音频。2.根据权利要求1所述的多风格音频合成方法,其特征在于,所述风格提取网络采用的第一训练模型包括:三层CNN网络、VIB网络、GRU网络、线性层和归一化层,在所述获取待处理的文本数据和单风格的第一梅尔谱之前,还包括:获取多种单风格的梅尔谱样本;将所述梅尔谱样本输入所述三层CNN网络进行特征提取,得到第一特征向量;将所述第一特征向量输入所述VIB网络进行特征分解,得到第一分解向量;将所述第一分解向量输入所述GRU网络进行风格提取,得到第一风格特征向量;将所述第一风格特征向量输入所述线性层进行线性运算,得到第一风格输出向量;将所述第一风格输出向量输入所述归一化层进行归一化处理,得到第二风格特征;根据所述第二风格特征,调用预置损失函数对所述第一训练模型进行优化,直至所述第一训练模型收敛,得到所述风格提取网络。3.根据权利要求1所述的多风格音频合成方法,其特征在于,所述梅尔谱生成网络采用的第二训练模型包括:编码器和解码器,其中,所述编码器依次由嵌入层、卷积神经网络和LTSM网络构成,所述解码器依次由Pre

net网络、RNN网络和两层残差GRU网络构成,在所述获取待处理的文本数据和单风格的第一梅尔谱之前,还包括:获取多个文本数据样本和多种风格特征样本;将所述文本数据样本输入所述嵌入层进行向量转换,得到第一文本初始向量;将所述第一文本初始向量输入所述卷积神经网络进行特征提取,得到第一文本特征向量;将所述第一文本特征向量输入所述LTSM网络进行文本转换,得到第二文本特征;拼接所述第二文本特征和所述风格特征样本,得到第二融合特征;将所述第二融合特征输入所述Pre

net网络进行非线性变换,得到第一融合序列;将所述第一融合序列输入所述RNN网络进行函数运算,得到第一声谱图;将所述第一声谱图输入所述两层残差GRU网络进行残差运算,得到第三梅尔谱;根据所述第三梅尔谱,调用预置优化函数对所述第二训练模型进行参数优化,直至所述第二训练模型收敛,得到所述梅尔谱生成网络。4.根据权利要求2所述的多风格音频合成方法,其特征在于,所述将所述第一梅尔谱输入预置风格提取网络进行特征提取,得到第一风格特征包括:将所述第一梅尔谱输入所述三层CNN网络进行特征提取,得到第二特征向量;将所述第二特征向量输入所述VIB网络进行特征分解,得到第二分解向量;将所述第二分解向量输入所述GRU网络进行风格提取,得到第二风格特征向量;

【专利技术属性】
技术研发人员:梁爽陈闽川马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1