基于变分自动编码的情感语音合成方法技术

技术编号：39513869 阅读：6 留言：0更新日期：2023-11-25 18:50

基于变分自动编码的情感语音合成方法

全部详细技术资料下载

【技术实现步骤摘要】
基于变分自动编码的情感语音合成方法、系统、设备及介质

[0001]本专利技术涉及情感语音合成
，特别涉及基于变分自动编码的情感语音合成方法
、
系统
、
设备及介质
。

技术介绍

[0002]随着人工智能和机器学习技术的快速发展，情感语音合成已经逐渐成为人工智能生成领域的一个重要研究方向
。
情感语音合成可以应用于诸多领域，例如，扩展人机交互方式，实现智能语音助手
、
智能家居系统等，使用户与设备之间的交流更具情感和亲和力；丰富人工智能情绪价值，赋予虚拟助手和聊天机器人更加逼真的人类交流能力，使其能够表达情感
、
理解用户情绪并做出相应回应，提供更加个性化和情感化的服务；提高游戏用户体验，用于游戏角色的对话和情感表达，使游戏变得更加生动有趣
。
[0003]在虚拟现实领域，情感语音合成还可以用于创造更加沉浸式的虚拟体验
。
然而，现有情感语音合成技术仍存在着诸多挑战，首先，如何提高生成文本的准确性和情感表达的逼真度，在合成语言中实现贴近人类情感语音细腻度的情感细节；其次，情感合成还面临着训练数据需求量大
、
模型鲁棒性不足等问题；最后，随着情感语音合成应用场景的多元化，对算法的轻量化和可移植性也提出了更高的要求
。
[0004]公开号为
CN115410550A
的专利申请，公开了一种细粒度韵律可控的情感语音合成方法
、
系统及存...

【技术保护点】

【技术特征摘要】
1.
基于变分自动编码的情感语音合成方法，其特征在于，包括如下步骤：步骤1，数据预处理：获取情感语音，对情感语音进行预处理，利用预处理后的数据构建完备数据集，并将完备数据集划分为训练集
、
测试集和验证集，所述完备数据集包括情感语音的文本信息
、
情感语音的音频信息和情感语音的情感类别信息；步骤2，模型构建：构建基于变分自动编码的情感语音合成模型，所述基于变分自动编码的情感语音合成模型包括基于变分自动编码的风格生成模型和基于
Tacotron2
的端到端语音合成模型；步骤3，模型训练及优化：将步骤1训练集中情感语音的文本信息与情感语音的音频信息通过输入处理，转化为音素序列和音频梅尔频谱，将情感语音的文本信息和音频梅尔频谱输入步骤2构建的基于变分自动编码的情感语音合成模型，训练并优化基于变分自动编码的风格生成模型和基于
Tacotron2
的端到端语音合成模型，得到目标语音的梅尔频谱和对齐信息；步骤4，语音还原：设置
WaveGlow
声码器，并利用
WaveGlow
声码器处理步骤3得到的梅尔频谱，将特征序列还原为情感语音
。2.
根据权利要求1所述的基于变分自动编码的情感语音合成方法，其特征在于，所述步骤1的具体过程为：步骤
1.1
：获取情感语音，对情感语音的音频进行采样率校验，将所有输入音频的采样率强制转换为目标采样率；步骤
1.2
：对步骤
1.1
中采样率转换后的音频进行降噪和能量归一化处理，并对音频内容和情感种类进行标注，得到完备数据集，所述完备数据集包括情感语音的文本信息
、
情感语音的音频信息和情感语音的情感类别信息；步骤
1.3
：将步骤
1.2
处理后的完备数据集划分为训练集
、
测试集和验证集
。3.
根据权利要求1所述的基于变分自动编码的情感语音合成方法，其特征在于，所述步骤2中基于变分自动编码的风格生成模型为一个情感风格编码器，包括情感嵌入获取模块和情感嵌入微调模块；所述情感嵌入获取模块包括风格编码器模块
、
全连接层模块和数据还原模块
。4.
根据权利要求1所述的基于变分自动编码的情感语音合成方法，其特征在于，所述步骤2中基于
Tacotron2
的端到端语音合成模型以
Tacotron2
算法为基础，包括编码器模块
、
多头注意力机制模块和解码器模块
。5.
根据权利要求1所述的基于变分自动编码的情感语音合成方法，其特征在于，所述步骤3的具体过程为：步骤
3.1
：将步骤1训练集中的情感语音的文本信息输入文本嵌入层，得到文本嵌入向量，并进行维度转置，将维度转置后的文本嵌入向量输入步骤2基于
Tacotron2
的端到端语音合成模型中的编码器模块，接收语音嵌入信息并提取特征，得到编码的文本特征；步骤
3.2
：利用步骤1训练集中的情感语音的音频信息计算情感语音的梅尔频谱，将得到的梅尔频谱输入步骤2的基于变分自动编码的风格生成模型，对目标语音进行编码，得到情感风格特征；步骤
3.3
：将步骤
3.1
获得的文本特征和步骤
3.2
获得的情感风格特征输入步骤2基于
Tacotron2
的端到端语音合成模型中的解码器模块，利用损失函数对模型进行训练优化，得
到目标语音的梅尔频谱和对齐信息
。6.
根据权利要求5所述的基于变分自动编码的情感语音合成方法，其特征在于，所述步骤
3.3
训练优化过程中的损失函数为重构损失
Loss
rec
与
KL
散度损失的叠加，具体为：
Loss
＝
f
KL
‑
anneal
*KL[q
φ
(z|x...

【专利技术属性】
技术研发人员：姬红兵，张雅琼，刘龙，张梦璇，张文博，常雅琪，李浩生，谢家强，林鹏逸，
申请(专利权)人：陕西汇智易知信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人