一种基于深度神经网络模型的情感合成方法技术

技术编号:14880892 阅读:62 留言:0更新日期:2017-03-24 03:33
本发明专利技术公开了一种基于深度神经网络模型的情感合成方法,包括步骤:获取第一发音人的中立声学特征数据和情感声学特征数据;利用深度神经网络模型建立第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型;获取第二发音人的中立语音数据,建立第二发音人的中立语音合成模型;利用深度神经网络模型将第二发音人的中立语音合成模型与情感转换模型串联,得到第二发音人的情感语音合成模型。本发明专利技术基于一个发音人的情感模型即可获得其他任何人的情感模型,利用一个发音人的中立和情感的转换关系模型即可实现,具有数据量少,构件情感模型速度快,成本低等优势。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,尤其涉及一种基于深度神经网络模型的情感合成方法
技术介绍
语音合成,又称文语转换(TexttoSpeech)技术,是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题是如何将文字信息转化为可听的声音信息。语音合成系统大多是建立在中立朗读方式的语音之上,为解决中立语音的单调无趣,在语音合成系统中引入的情感模型,使得语音合成具有情感特征,增强合成语音的人性化。在对语音合成系统的个性化要求下,语音合成系统会适应生成与发音人对应的声学模型,即需要录制大量的发音人的语音数据和对应该语音数据的文本标注数据进行模型训练,在加入情感模型后,又需要录音大量的发音人的带有不同情感的语音数据和对应该语音数据的文本标注数据进行情感模型的训练,但有多个不同的发音人时,数据量会非常庞大,使得开发时间较长,且研发费用过高。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于深度神经网络模型的情感合成方法,解决现有情感模型生成时数据量庞大使得开发时间较长且研发费用过高的问题,目的在于针对多个不同发音人,能够利用少量中立数据,快速构建对应的情感模型。为实现上述技术效果,本专利技术公开了一种基于深度神经网络模型的情感合成方法,包括步骤:获取第一发音人的中立声学特征数据和情感声学特征数据;利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型;获取第二发音人的中立语音数据,建立第二发音人的中立语音合成模型;以及利用深度神经网络模型将所述第二发音人的中立语音合成模型与所述情感转换模型串联,得到所述第二发音人的情感语音合成模型。所述基于深度神经网络模型的情感合成方法进一步的改进在于,通过以下方法获取第一发音人的中立声学特征数据和情感声学特征数据,包括步骤:提供第一发音人的一定数量的语句文本,所述语句文本包括文本内容一致的中立语句文本和情感语句文本;从所述中立语句文本中获取第一发音人的中立语音数据;从所述情感语句文本中获取第一发音人的情感语音数据;从所述中立语音数据中提取第一发音人的中立声学特征数据;从所述情感语音数据中提取第一发音人的情感声学特征数据。所述基于深度神经网络模型的情感合成方法进一步的改进在于,通过以下方法获取第一发音人的中立声学特征数据和情感声学特征数据,包括:获取第一发音人的中立语音数据和情感语音数据;利用所述第一发音人的中立语音数据进行深度神经网络模型训练,得到所述第一发音人的中立语音合成模型;利用所述第一发音人的情感语音数据进行深度神经网络模型训练,得到所述第一发音人的情感语音合成模型;提供一定数量的语句文本,将所述语句文本分别输入到所述第一发音人的中立语音合成模型和情感语音合成模型,获得对应的所述第一发音人的中立声学特征数据和情感声学特征数据。所述基于深度神经网络模型的情感合成方法进一步的改进在于,在获取第二发音人的中立语音数据后,通过以下方法建立所述第二发音人的中立语音合成模型,包括:利用第二发音人的中立语音数据,对第一发音人的中立语音合成模型进行重训练,得到第二发音人的中立语音合成模型。所述基于深度神经网络模型的情感合成方法进一步的改进在于,在获取第二发音人的中立语音数据后,通过以下方法建立所述第二发音人的中立语音合成模型,包括:利用第二发音人的中立语音数据进行深度神经网络模型训练,得到第二发音人的中立语音合成模型。所述基于深度神经网络模型的情感合成方法进一步的改进在于,通过以下方法利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型,包括:以第一发音人的中立声学特征数据作为深度神经网络模型的输入数据;以第一发音人的情感声学特征数据作为深度神经网络模型的输出数据;训练所述深度神经网络模型,得到第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型。所述基于深度神经网络模型的情感合成方法进一步的改进在于,通过以下方法训练所述深度神经网络模型,得到第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型,包括:利用深度神经网络模型中的神经网络构建回归模型,隐层使用S型生长曲线激励函数,输出层使用线性激励函数;以随机化网络参数作为初始参数,基于公式1的最小均方差准则进行模型训练;L(y,z)=||y-z||2(1)其中,y是情感声学特征数据,z是深度神经网络模型预测的情感声学特征参数,训练的目标是更新深度神经网络模型、使得L(y,z)最小。所述基于深度神经网络模型的情感合成方法进一步的改进在于,通过以下方法将所述第二发音人的中立语音合成模型与所述情感转换模型串联,得到所述第二发音人的情感语音合成模型,包括:在合成阶段,对待合成的文本,使用合成前端对文本分析,获取对应的文本特征,所述文本特征包括音素信息、韵律信息、0/1编码信息及当前帧在当前音素中相对的位置信息;将音素信息、韵律信息、0/1编码信息作为深度神经网络模型的输入,预测出音素时长信息;将音素信息、韵律信息、0/1编码信息及当前帧在当前音素中相对的位置信息作为深度神经网络模型的输入,预测出频谱信息、能量信息及基频信息;将预测出的所述频谱信息、所述能量信息及所述基频信息作为声学参数,对所述声学特征,通过公式2进行参数生成,以得到平滑的声学特征;其中,W为计算一阶差分和二阶差分的窗函数矩阵,C为待生成的声学特征,M为深度神经网络模型预测出的声学参数,U为从训练音库中统计得到的全局方差;使用声学特征C,通过声码器合成出情感语音合成模型。所述基于深度神经网络模型的情感合成方法进一步的改进在于,所述中立语音数据包括中立语音的声学特征序列和对应的文本数据信息,所述中立语音的声学特征序列包括频谱、能量、基频和时长。本专利技术由于采用了以上技术方案,使其具有以下有益效果:本专利技术情感合成方法是通过获取一个发音人的中立声学特征数据和情感声学特征数据,利用深度神经网络模型建立该发音人的中立和情感声学特征的转换关系,由此在输入其他发音人的少量中立语音数据的情况下,即可获得对应的情感模型;在获取发音人的中立声学特征数据和情感声学特征数据时,可利用发音人的中立和情感语音模型输出同一批语句的合成声学特征,利用该合成声学特征数据建立中立和情感声学特征的转换关系;也可通过录制文本内容一致的中立语句和情感语句获取发音人的中立语音数据和情感语音数据,再从中提取出中立和情感的合成声学特征,建立中立和情感声学特征的转换关系;采用本专利技术,基于一个发音人的情感模型即可获得其他任何人的情感模型,利用一个发音人的中立和情感的转换关系模型即可实现,具有数据量少,构件情感模型速度快,成本低等优势。附图说明图1为本专利技术一种基于深度神经网络模型的情感合成方法的操作流程图。图2为本专利技术一种基于深度神经网络模型的情感合成方法的第一种实施例的数据形成图。图3为本专利技术一种基于深度神经网络模型的情感合成方法的第二种实施例的数据形成图。图4为本专利技术一种基于深度神经网络模型的情感合成方法的高兴情感的合成流程图。图5为本专利技术一种基于深度神经网络模型的情感合成方法的第一发音人的中立语音合成模型的结构示意图。图6为本专利技术一种本文档来自技高网...
一种基于深度神经网络模型的情感合成方法

【技术保护点】
一种基于深度神经网络模型的情感合成方法,其特征在于,包括步骤:获取第一发音人的中立声学特征数据和情感声学特征数据;利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型;获取第二发音人的中立语音数据,建立第二发音人的中立语音合成模型;以及利用深度神经网络模型将所述第二发音人的中立语音合成模型与所述情感转换模型串联,得到所述第二发音人的情感语音合成模型。

【技术特征摘要】
1.一种基于深度神经网络模型的情感合成方法,其特征在于,包括步骤:获取第一发音人的中立声学特征数据和情感声学特征数据;利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型;获取第二发音人的中立语音数据,建立第二发音人的中立语音合成模型;以及利用深度神经网络模型将所述第二发音人的中立语音合成模型与所述情感转换模型串联,得到所述第二发音人的情感语音合成模型。2.如权利要求1所述的一种基于深度神经网络模型的情感合成方法,其特征在于,通过以下方法获取第一发音人的中立声学特征数据和情感声学特征数据,包括步骤:提供第一发音人的一定数量的语句文本,所述语句文本包括文本内容一致的中立语句文本和情感语句文本;从所述中立语句文本中获取第一发音人的中立语音数据;从所述情感语句文本中获取第一发音人的情感语音数据;从所述中立语音数据中提取第一发音人的中立声学特征数据;从所述情感语音数据中提取第一发音人的情感声学特征数据。3.如权利要求1所述的一种基于深度神经网络模型的情感合成方法,其特征在于,通过以下方法获取第一发音人的中立声学特征数据和情感声学特征数据,包括:获取第一发音人的中立语音数据和情感语音数据;利用所述第一发音人的中立语音数据进行深度神经网络模型训练,得到所述第一发音人的中立语音合成模型;利用所述第一发音人的情感语音数据进行深度神经网络模型训练,得到所述第一发音人的情感语音合成模型;提供一定数量的语句文本,将所述语句文本分别输入到所述第一发音人的中立语音合成模型和情感语音合成模型,获得对应的所述第一发音人的中立声学特征数据和情感声学特征数据。4.如权利要求3所述的一种基于深度神经网络模型的情感合成方法,其特征在于,在获取第二发音人的中立语音数据后,通过以下方法建立所述第二发音人的中立语音合成模型,包括:利用第二发音人的中立语音数据,对第一发音人的中立语音合成模型进行重训练,得到第二发音人的中立语音合成模型。5.如权利要求1所述的一种基于深度神经网络模型的情感合成方法,其特征在于,在获取第二发音人的中立语音数据后,通过以下方法建立所述第二发音人的中立语音合成模型,包括:利用第二发音人的中立语音数据进行深度神经网络模型训练,得到第二发音人的中立语音合成模型。6.如权利要求1~5中任一项所述的一种基于深度神经网络情感模型的合成方法,其特征在于,通过以下方法利用深度...

【专利技术属性】
技术研发人员:王鸣
申请(专利权)人:上海语知义信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1