当前位置: 首页 > 专利查询>中南大学专利>正文

基于wavenet的情感语音转换方法技术

技术编号:24858721 阅读:61 留言:0更新日期:2020-07-10 19:10
本发明专利技术公开了一种基于wavenet的情感语音转换方法,包括获取语音文件构成语料库;将语音数据分为中性语音文件和情感语音文件且内容相同的语音分为同一组;提取语音文件的声学特征基音频率;对语音文件进行预处理得到每一组语音文件的梅尔谱特征;针对每一组语音文件的梅尔谱特征进行动态规划特征点对齐;构建情感梅尔谱转换模型;构建wavenet语音合成模型;采用情感梅尔谱转换模型作为前向网络输入,利用wavenet语音合成模型作为后向网络,输出最终的情感语音文件。本发明专利技术方法的可靠性高、精确度好且效率较高。

【技术实现步骤摘要】
基于wavenet的情感语音转换方法
本专利技术属于语音数据处理领域,具体涉及一种基于wavenet的情感语音转换方法。
技术介绍
随着经济技术的发展和人工智能技术的发展,人们的娱乐生活也日益丰富。大众的生活离不开视音频技术,如何让机器同人类一样具备情感感知能力与表达能力是实现人机交互和谐的关键。近些年,语音处理技术有了显著的提升,但目前计算机只具备逻辑推理能力,若赋予计算机情感表达能力,能实现和谐的人机交互,省去了键盘、鼠标等与计算机沟通的间接工具。未来机器与人的交流不再局限于中性语音,而是可以利用语音声情并茂地和计算机交流。另外在影视艺术领域,若是能转换人物语音的情感也能大大增加作品水平,例如配音。所以对于语音情感的转换来说,不论对象是机器或是人都有很深刻的研究意义。现有的情感语音转换技术,一般采用如下几种方法:1.纯人工转换:根据中性语音,由专业配音演员带有情感地对原语音进行模仿再现;但是,其准确性也取决于人员的专业程度,还需要花费大量时间,效率较低;2.基于机器学习模型的回归算法进行平行训练的方法:通过对于的中性语音与情感语音的每一个语音声学特征进行平行训练达到转换的效果;该方法虽然精度高,但是训练效率极低;并且对于训练语料库的要求较高,需要大量的训练数据;此外,该方法通常采用维度较高的声学特征以保留原始语音的声学信息,维度越高训练时间越大;3.基于机器学习模型的回归算法进行非平行训练的方法:本方法在方法二的基础上,采取中性语音与情感语音可以在说话内容不相同的情况下作为训练样本输入转换模型进行训练;本方法训练时间快,但是输出精度低,而且由于训练时的目标参数范围过大,导致输出情感语音的质量较低。
技术实现思路
本专利技术的目的在于提供一种可靠性高、精确度好且效率较高的基于wavenet的情感语音转换方法。本专利技术提供的这种基于wavenet的情感语音转换方法,包括如下步骤:S1.获取语音文件,构成语料库;S2.将步骤S1获取的语料库中的语音数据,分为中性语音文件和情感语音文件,且说话内容相同的语音分为同一组;S3.提取步骤S2分组后的语音文件中的声学特征基音频率;S4.对步骤S2分组后的语音文件进行预处理,从而得到每一组语音文件的梅尔谱特征;S5.针对步骤S4得到的每一组语音文件的梅尔谱特征,进行动态规划特征点对齐,从而使得每一组语音文件中对应的最短路径的两点进行映射,并作为训练对;S6.构建情感梅尔谱转换模型;S7.构建wavenet语音合成模型;S8.采用步骤S6得到的情感梅尔谱转换模型作为前向网络输入,利用步骤S7构建的wavenet语音合成模型作为后向网络,输出最终的情感语音文件。步骤S2所述的将步骤S1获取的语料库中的语音数据,分为中性语音文件和情感语音文件,且内容相同的语音分为同一组,具体为采用如下步骤进行分组:A.提取具有相同内容的若干个情感色彩的语音文件作为训练集;B.采用ASR工具得到每一语句的文本信息;C.针对步骤B得到的文本信息,将文本相同但情感不同的语音文件与中性语音文件分为一组;D.将多组文件分行构成训练矩阵;其中一组为一行。步骤S3所述的提取步骤S2分组后的语音文件中的声学特征基音频率,具体为采用如下步骤进行提取:a.将步骤S2得到的训练矩阵分行;b.以行为单位,将训练矩阵的数据输入vocoder解码器;c.将步骤b得到的vocoder解码器输出的基音频率,将文本相同但情感不同的语音文件所对应的基因频率与中性语音文件所对应的基音频率分为一组,从而得到基音频率特征矩阵。步骤S4所述的对步骤S2分组后的语音文件进行预处理,从而得到每一组语音文件的梅尔谱特征,具体为采用如下步骤得到每一组语音文件的梅尔谱特征:(1)对步骤S2得到的训练矩阵分行;(2)以行为单位,对训练矩阵的每一行数据所对应的语音文件,以设定的采样频率进行采样,并做μ律十三折线压缩;(3)对步骤(2)得到的压缩后的语音文件进行分帧处理;(4)对步骤(3)得到的分帧后的语音文件进行加窗处理;(5)对步骤(4)得到的加窗后的语音文件进行频谱分析,从而得到对应的频谱数据;(6)对步骤(5)得到的频谱数据,进行梅尔滤波处理;(7)对步骤(6)经过梅尔滤波处理的频谱数据进行保存,从而得到每一组语音文件的梅尔谱特征。步骤S5所述的针对步骤S4得到的每一组语音文件的梅尔谱特征,进行动态规划特征点对齐,从而使得每一组语音文件中对应的最短路径的两点进行映射,并作为训练对,具体为采用如下步骤进行动态规划特征点对齐:1)设定中性语音梅尔谱序列为X,情感语音梅尔谱序列为Y;2)建立两个序列的欧式距离矩阵;3)寻找从矩阵最左上角的元素到矩阵最右下角的元素之间的最短距离;4)获取步骤3)所述的最短距离所对应的路径上的坐标,并记为平行对应点。步骤S6所述的构建情感梅尔谱转换模型,具体为将步骤S5获取的平行对应点作为输入数据,输入到CNN网络模型中进行训练,从而得到最终的情感梅尔谱转换模型。步骤S7所述的构建wavenet语音合成模型,具体为采用如下步骤进行构建:Ⅰ.采用如下算式作为因果预测公式:式中xi为基音频率特征i时间点的值;T为当前时间点;p(x)为当前时间点的预测概率;Ⅱ.采用扩展因果卷积模型:对于语音信号来说,由于语意有惯性字与字之间联系较大,所以当前的预测值很大程度上与之前时间点的输出有关。采用因果卷积可以很好的结合这一特性进行当前结点的预测,因果卷积当前时间点的结点输出建立在了当前结点的输入以及之前时间结点的输出基础上。传统因果卷积的接收域与网络层数的关系是:接收域的结点个数等于网络层数,每通过一层连接层,会将第一个结点的输出值给到第二个结点作为输入,达到最上层时得到预测值。而扩展卷积则是在传统因果卷积的基础上,不采取连续结点进行预测,而是跳跃性得将几个结点作为一组输出当前的预测值,扩展卷积的接收域与网络层数的关系是:接收域的结点个数等于以2为底,层数为次方的幂级数,所以每过一层接收域就将扩大两倍,在一定程度上更好的将当前时间结点的输出值与更多之前时间结点的输出值联系起来,达到更好的预测效果。Ⅲ.残差跳步连接:将每若干层的输出连接,并通过1x1的卷积核,再对输入做残差补偿处理;最后将若干个通道的1x1卷积核分解为若干个3x3卷积核;Ⅳ.采用如下算式作为条件输入模型:式中h为步骤S6得到的最终的情感梅尔谱特征;x为步骤S3得到的基音频率特征矩阵。步骤S8所述的采用步骤S6得到的情感梅尔谱转换模型作为前向网络输入,利用步骤S7构建的wavenet语音合成模型作为后向网络,输出最终的情感语音文件,具体为采用如下步骤输出最终的情感语音文件:ⅰ.输入中性语音;ⅱ.根据步骤S3得到本文档来自技高网
...

【技术保护点】
1.一种基于wavenet的情感语音转换方法,包括如下步骤:/nS1.获取语音文件,构成语料库;/nS2.将步骤S1获取的语料库中的语音数据,分为中性语音文件和情感语音文件,且内容相同的语音分为同一组;/nS3.提取步骤S2分组后的语音文件中的声学特征基音频率;/nS4.对步骤S2分组后的语音文件进行预处理,从而得到每一组语音文件的梅尔谱特征;/nS5.针对步骤S4得到的每一组语音文件的梅尔谱特征,进行动态规划特征点对齐,从而使得每一组语音文件中对应的最短路径的两点进行映射,并作为训练对;/nS6.构建情感梅尔谱转换模型;/nS7.构建wavenet语音合成模型;/nS8.采用步骤S6得到的情感梅尔谱转换模型作为前向网络输入,利用步骤S7构建的wavenet语音合成模型作为后向网络,输出最终的情感语音文件。/n

【技术特征摘要】
1.一种基于wavenet的情感语音转换方法,包括如下步骤:
S1.获取语音文件,构成语料库;
S2.将步骤S1获取的语料库中的语音数据,分为中性语音文件和情感语音文件,且内容相同的语音分为同一组;
S3.提取步骤S2分组后的语音文件中的声学特征基音频率;
S4.对步骤S2分组后的语音文件进行预处理,从而得到每一组语音文件的梅尔谱特征;
S5.针对步骤S4得到的每一组语音文件的梅尔谱特征,进行动态规划特征点对齐,从而使得每一组语音文件中对应的最短路径的两点进行映射,并作为训练对;
S6.构建情感梅尔谱转换模型;
S7.构建wavenet语音合成模型;
S8.采用步骤S6得到的情感梅尔谱转换模型作为前向网络输入,利用步骤S7构建的wavenet语音合成模型作为后向网络,输出最终的情感语音文件。


2.根据权利要求1所述的基于wavenet的情感语音转换方法,其特征在于步骤S2所述的将步骤S1获取的语料库中的语音数据,分为中性语音文件和情感语音文件,且内容相同的语音分为同一组,具体为采用如下步骤进行分组:
A.提取具有相同内容的若干个情感色彩的语音文件作为训练集;
B.采用ASR工具得到每一语句的文本信息;
C.针对步骤B得到的文本信息,将文本相同但情感不同的语音文件与中性语音文件分为一组;
D.将多组文件分行构成训练矩阵;其中一组为一行。


3.根据权利要求2所述的基于wavenet的情感语音转换方法,其特征在于步骤S3所述的提取步骤S2分组后的语音文件中的声学特征基音频率,具体为采用如下步骤进行提取:
a.将步骤S2得到的训练矩阵分行;
b.以行为单位,将训练矩阵的数据输入vocoder解码器;
c.将步骤b得到的vocoder解码器输出的基音频率,将文本相同但情感不同的语音文件所对应的基因频率与中性语音文件所对应的基音频率分为一组,从而得到基音频率特征矩阵。


4.根据权利要求3所述的基于wavenet的情感语音转换方法,其特征在于步骤S4所述的对步骤S2分组后的语音文件进行预处理,从而得到每一组语音文件的梅尔谱特征,具体为采用如下步骤得到每一组语音文件的梅尔谱特征:
(1)对步骤S2得到的训练矩阵分行;
(2)以行为单位,对训练矩阵的每一行数据所对应的语音文件,以设定的采样频率进行采样,并做μ律十三折线压缩;
(3)对步骤(2)得到的压缩后的语音文件进行分帧处理;
(4)对步骤(3)得到的分帧后的语音文件进行加窗处理;
(5)对步骤(4)得到的加窗后的语音文件进行频谱分析,从而得到对应的频谱数据;
(6)对步骤(5)得到的...

【专利技术属性】
技术研发人员:白杨陈明义吴国彪
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1