基于变分自动编码的情感语音合成方法技术

技术编号:39513869 阅读:6 留言:0更新日期:2023-11-25 18:50
基于变分自动编码的情感语音合成方法

【技术实现步骤摘要】
基于变分自动编码的情感语音合成方法、系统、设备及介质


[0001]本专利技术涉及情感语音合成
,特别涉及基于变分自动编码的情感语音合成方法

系统

设备及介质


技术介绍

[0002]随着人工智能和机器学习技术的快速发展,情感语音合成已经逐渐成为人工智能生成领域的一个重要研究方向

情感语音合成可以应用于诸多领域,例如,扩展人机交互方式,实现智能语音助手

智能家居系统等,使用户与设备之间的交流更具情感和亲和力;丰富人工智能情绪价值,赋予虚拟助手和聊天机器人更加逼真的人类交流能力,使其能够表达情感

理解用户情绪并做出相应回应,提供更加个性化和情感化的服务;提高游戏用户体验,用于游戏角色的对话和情感表达,使游戏变得更加生动有趣

[0003]在虚拟现实领域,情感语音合成还可以用于创造更加沉浸式的虚拟体验

然而,现有情感语音合成技术仍存在着诸多挑战,首先,如何提高生成文本的准确性和情感表达的逼真度,在合成语言中实现贴近人类情感语音细腻度的情感细节;其次,情感合成还面临着训练数据需求量大

模型鲁棒性不足等问题;最后,随着情感语音合成应用场景的多元化,对算法的轻量化和可移植性也提出了更高的要求

[0004]公开号为
CN115410550A
的专利申请,公开了一种细粒度韵律可控的情感语音合成方法

系统及存储介质,该方法的具体步骤为:首先,将输入音频和文本序列转化为包含隐藏信息的向量序列;然后,将计算出的向量序列相加输入到由循环神经网络组成的生成模型,得到待合成的当前帧的声学特征序列;最后,将其输入到声码器,得到预测的当前帧的语音波形,输出最终的语音数据

[0005]公开号为
CN116129864A
的专利申请,公开了一种多情感语音合成方法

装置

电子设备及存储介质,该方法中情感语音合成的步骤主要包括:首先,将语音数据的声学特征输入至情感分类器来生成情感特征;然后,根据语音合成前端文本信息生成音素特征序列;最后,将音素特征序列和情感特征输入预设的基于
Transformer
模型搭建的声学模型得到目标声学特征,通过声码器合成多情感语音

[0006]但是,现有情感语音合成技术存在以下问题:
[0007](1)
现有技术合成语音的情感准确性不足,情感语音合成模型在表达不同情感方面的准确性有限,现有模型大多通过情感编码器完成对情感语音整体的风格建模,难以从细粒度层面对情感种类

情感强度进行调节,无法准确捕捉到人类语音中微妙的情感细微差异,导致合成出的语音表达不够自然真实;
[0008](2)
现有技术合成情感语音的内容准确性不足,情感语音合成模型的编码器模块提取到的信息过于庞杂,不仅包含情感风格信息,还包含语音序列的上下文信息,当前情感语音合成模型无法很好的对二者进行兼顾,在实现情感风格的同时对合成语音的内容清晰度有所损失,导致合成出的语言内容准确度较差;
[0009](3)
现有技术合成情感语音的实时性不足,由于情感风格学习模型和端到端语音
合成模型结构复杂,导致模型过于臃肿,模型的训练所需时长较大,难以满足当前个性化定制的语音合成应用场景的实时性需求


技术实现思路

[0010]为了克服上述现有技术的缺点,本专利技术的目的在于提供基于变分自动编码的情感语音合成方法

系统

设备及介质,通过基于变分自动编码的风格生成模型从输入音频中学习情感风格,并利用变分自动编码器的特性微调融合情感风格特征,将情感风格特征

声学特征和文本序列输入注意力机制改进的端到端语音合成模型,提升了模型整体的情感细节建模能力和上下文信息学习能力,提高了合成语音的情感表现力和内容准确度

[0011]为了实现上述目的,本专利技术采取的技术方案如下:
[0012]基于变分自动编码的情感语音合成方法,包括如下步骤:
[0013]步骤1,数据预处理:获取情感语音,对情感语音进行预处理,利用预处理后的数据构建完备数据集,并将完备数据集划分为训练集

测试集和验证集,所述完备数据集包括情感语音的文本信息

情感语音的音频信息和情感语音的情感类别信息;
[0014]步骤2,模型构建:构建基于变分自动编码的情感语音合成模型,所述基于变分自动编码的情感语音合成模型包括基于变分自动编码的风格生成模型和基于
Tacotron2
的端到端语音合成模型;
[0015]步骤3,模型训练及优化:将步骤1训练集中情感语音的文本信息与情感语音的音频信息通过输入处理,转化为音素序列和音频梅尔频谱,将情感语音的文本信息和音频梅尔频谱输入步骤2构建的基于变分自动编码的情感语音合成模型,训练并优化基于变分自动编码的风格生成模型和基于
Tacotron2
的端到端语音合成模型,得到目标语音的梅尔频谱和对齐信息;
[0016]步骤4,语音还原:设置
WaveGlow
声码器,并利用
WaveGlow
声码器处理步骤3得到的梅尔频谱,将特征序列还原为情感语音

[0017]所述步骤1的具体过程为:
[0018]步骤
1.1
:获取情感语音,对情感语音的音频进行采样率校验,将所有输入音频的采样率强制转换为目标采样率;
[0019]步骤
1.2
:对步骤
1.1
中采样率转换后的音频进行降噪和能量归一化处理,并对音频内容和情感种类进行标注,得到完备数据集,所述完备数据集包括情感语音的文本信息

情感语音的音频信息和情感语音的情感类别信息;
[0020]步骤
1.3
:将步骤
1.2
处理后的完备数据集划分为训练集

测试集和验证集

[0021]所述步骤2中基于变分自动编码的风格生成模型为一个情感风格编码器,包括情感嵌入获取模块和情感嵌入微调模块;
[0022]所述情感嵌入获取模块包括风格编码器模块

全连接层模块和数据还原模块

[0023]所述步骤2中基于
Tacotron2
的端到端语音合成模型以
Tacotron2
算法为基础,包括编码器模块

多头注意力机制模块和解码器模块

[0024]所述步骤3的具体过程为:
[0025]步骤
3.1
:将步骤1训练集中的情感语音的文本信息输入文本嵌入层,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于变分自动编码的情感语音合成方法,其特征在于,包括如下步骤:步骤1,数据预处理:获取情感语音,对情感语音进行预处理,利用预处理后的数据构建完备数据集,并将完备数据集划分为训练集

测试集和验证集,所述完备数据集包括情感语音的文本信息

情感语音的音频信息和情感语音的情感类别信息;步骤2,模型构建:构建基于变分自动编码的情感语音合成模型,所述基于变分自动编码的情感语音合成模型包括基于变分自动编码的风格生成模型和基于
Tacotron2
的端到端语音合成模型;步骤3,模型训练及优化:将步骤1训练集中情感语音的文本信息与情感语音的音频信息通过输入处理,转化为音素序列和音频梅尔频谱,将情感语音的文本信息和音频梅尔频谱输入步骤2构建的基于变分自动编码的情感语音合成模型,训练并优化基于变分自动编码的风格生成模型和基于
Tacotron2
的端到端语音合成模型,得到目标语音的梅尔频谱和对齐信息;步骤4,语音还原:设置
WaveGlow
声码器,并利用
WaveGlow
声码器处理步骤3得到的梅尔频谱,将特征序列还原为情感语音
。2.
根据权利要求1所述的基于变分自动编码的情感语音合成方法,其特征在于,所述步骤1的具体过程为:步骤
1.1
:获取情感语音,对情感语音的音频进行采样率校验,将所有输入音频的采样率强制转换为目标采样率;步骤
1.2
:对步骤
1.1
中采样率转换后的音频进行降噪和能量归一化处理,并对音频内容和情感种类进行标注,得到完备数据集,所述完备数据集包括情感语音的文本信息

情感语音的音频信息和情感语音的情感类别信息;步骤
1.3
:将步骤
1.2
处理后的完备数据集划分为训练集

测试集和验证集
。3.
根据权利要求1所述的基于变分自动编码的情感语音合成方法,其特征在于,所述步骤2中基于变分自动编码的风格生成模型为一个情感风格编码器,包括情感嵌入获取模块和情感嵌入微调模块;所述情感嵌入获取模块包括风格编码器模块

全连接层模块和数据还原模块
。4.
根据权利要求1所述的基于变分自动编码的情感语音合成方法,其特征在于,所述步骤2中基于
Tacotron2
的端到端语音合成模型以
Tacotron2
算法为基础,包括编码器模块

多头注意力机制模块和解码器模块
。5.
根据权利要求1所述的基于变分自动编码的情感语音合成方法,其特征在于,所述步骤3的具体过程为:步骤
3.1
:将步骤1训练集中的情感语音的文本信息输入文本嵌入层,得到文本嵌入向量,并进行维度转置,将维度转置后的文本嵌入向量输入步骤2基于
Tacotron2
的端到端语音合成模型中的编码器模块,接收语音嵌入信息并提取特征,得到编码的文本特征;步骤
3.2
:利用步骤1训练集中的情感语音的音频信息计算情感语音的梅尔频谱,将得到的梅尔频谱输入步骤2的基于变分自动编码的风格生成模型,对目标语音进行编码,得到情感风格特征;步骤
3.3
:将步骤
3.1
获得的文本特征和步骤
3.2
获得的情感风格特征输入步骤2基于
Tacotron2
的端到端语音合成模型中的解码器模块,利用损失函数对模型进行训练优化,得
到目标语音的梅尔频谱和对齐信息
。6.
根据权利要求5所述的基于变分自动编码的情感语音合成方法,其特征在于,所述步骤
3.3
训练优化过程中的损失函数为重构损失
Loss
rec

KL
散度损失的叠加,具体为:
Loss

f
KL

anneal
*KL[q
φ
(z|x...

【专利技术属性】
技术研发人员:姬红兵张雅琼刘龙张梦璇张文博常雅琪李浩生谢家强林鹏逸
申请(专利权)人:陕西汇智易知信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1