基于wavenet的情感语音转换方法技术

技术编号：24858721 阅读：61 留言：0更新日期：2020-07-10 19:10

本发明专利技术公开了一种基于wavenet的情感语音转换方法，包括获取语音文件构成语料库；将语音数据分为中性语音文件和情感语音文件且内容相同的语音分为同一组；提取语音文件的声学特征基音频率；对语音文件进行预处理得到每一组语音文件的梅尔谱特征；针对每一组语音文件的梅尔谱特征进行动态规划特征点对齐；构建情感梅尔谱转换模型；构建wavenet语音合成模型；采用情感梅尔谱转换模型作为前向网络输入，利用wavenet语音合成模型作为后向网络，输出最终的情感语音文件。本发明专利技术方法的可靠性高、精确度好且效率较高。

全部详细技术资料下载

【技术实现步骤摘要】
基于wavenet的情感语音转换方法
本专利技术属于语音数据处理领域，具体涉及一种基于wavenet的情感语音转换方法。
技术介绍
随着经济技术的发展和人工智能技术的发展，人们的娱乐生活也日益丰富。大众的生活离不开视音频技术，如何让机器同人类一样具备情感感知能力与表达能力是实现人机交互和谐的关键。近些年，语音处理技术有了显著的提升，但目前计算机只具备逻辑推理能力，若赋予计算机情感表达能力，能实现和谐的人机交互，省去了键盘、鼠标等与计算机沟通的间接工具。未来机器与人的交流不再局限于中性语音，而是可以利用语音声情并茂地和计算机交流。另外在影视艺术领域，若是能转换人物语音的情感也能大大增加作品水平，例如配音。所以对于语音情感的转换来说，不论对象是机器或是人都有很深刻的研究意义。现有的情感语音转换技术，一般采用如下几种方法：1.纯人工转换：根据中性语音，由专业配音演员带有情感地对原语音进行模仿再现；但是，其准确性也取决于人员的专业程度，还需要花费大量时间，效率较低；2.基于机器学习模型的回归算法进行平行训练的方法：通过对于的中性语音与情感语音的每一个语音声学特征进行平行训练达到转换的效果；该方法虽然精度高，但是训练效率极低；并且对于训练语料库的要求较高，需要大量的训练数据；此外，该方法通常采用维度较高的声学特征以保留原始语音的声学信息，维度越高训练时间越大；3.基于机器学习模型的回归算法进行非平行训练的方法：本方法在方法二的基础上，采取中性语音与情感语音可以在说话内容不相同的情况下作为训练样本...

【技术保护点】
1.一种基于wavenet的情感语音转换方法，包括如下步骤：/nS1.获取语音文件，构成语料库；/nS2.将步骤S1获取的语料库中的语音数据，分为中性语音文件和情感语音文件，且内容相同的语音分为同一组；/nS3.提取步骤S2分组后的语音文件中的声学特征基音频率；/nS4.对步骤S2分组后的语音文件进行预处理，从而得到每一组语音文件的梅尔谱特征；/nS5.针对步骤S4得到的每一组语音文件的梅尔谱特征，进行动态规划特征点对齐，从而使得每一组语音文件中对应的最短路径的两点进行映射，并作为训练对；/nS6.构建情感梅尔谱转换模型；/nS7.构建wavenet语音合成模型；/nS8.采用步骤S6得到的情感梅尔谱转换模型作为前向网络输入，利用步骤S7构建的wavenet语音合成模型作为后向网络，输出最终的情感语音文件。/n

【技术特征摘要】
1.一种基于wavenet的情感语音转换方法，包括如下步骤：
S1.获取语音文件，构成语料库；
S2.将步骤S1获取的语料库中的语音数据，分为中性语音文件和情感语音文件，且内容相同的语音分为同一组；
S3.提取步骤S2分组后的语音文件中的声学特征基音频率；
S4.对步骤S2分组后的语音文件进行预处理，从而得到每一组语音文件的梅尔谱特征；
S5.针对步骤S4得到的每一组语音文件的梅尔谱特征，进行动态规划特征点对齐，从而使得每一组语音文件中对应的最短路径的两点进行映射，并作为训练对；
S6.构建情感梅尔谱转换模型；
S7.构建wavenet语音合成模型；
S8.采用步骤S6得到的情感梅尔谱转换模型作为前向网络输入，利用步骤S7构建的wavenet语音合成模型作为后向网络，输出最终的情感语音文件。

2.根据权利要求1所述的基于wavenet的情感语音转换方法，其特征在于步骤S2所述的将步骤S1获取的语料库中的语音数据，分为中性语音文件和情感语音文件，且内容相同的语音分为同一组，具体为采用如下步骤进行分组：
A.提取具有相同内容的若干个情感色彩的语音文件作为训练集；
B.采用ASR工具得到每一语句的文本信息；
C.针对步骤B得到的文本信息，将文本相同但情感不同的语音文件与中性语音文件分为一组；
D.将多组文件分行构成训练矩阵；其中一组为一行。

3.根据权利要求2所述的基于wavenet的情感语音转换方法，其特征在于步骤S3所述的提取步骤S2分组后的语音文件中的声学特征基音频率，具体为采用如下步骤进行提取：
a.将步骤S2得到的训练矩阵分行；
b.以行为单位，将训练矩阵的数据输入vocoder解码器；
c.将步骤b得到的vocoder解码器输出的基音频率，将文本相同但情感不同的语音文件所对应的基因频率与中性语音文件所对应的基音频率分为一组，从而得到基音频率特征矩阵。

4.根据权利要求3所述的基于wavenet的情感语音转换方法，其特征在于步骤S4所述的对步骤S2分组后的语音文件进行预处理，从而得到每一组语音文件的梅尔谱特征，具体为采用如下步骤得到每一组语音文件的梅尔谱特征：
(1)对步骤S2得到的训练矩阵分行；
(2)以行为单位，对训练矩阵的每一行数据所对应的语音文件，以设定的采样频率进行采样，并做μ律十三折线压缩；
(3)对步骤(2)得到的压缩后的语音文件进行分帧处理；
(4)对步骤(3)得到的分帧后的语音文件进行加窗处理；
(5)对步骤(4)得到的加窗后的语音文件进行频谱分析，从而得到对应的频谱数据；
(6)对步骤(5)得到的...

【专利技术属性】
技术研发人员：白杨，陈明义，吴国彪，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人