一种基于深度神经网络模型的情感合成方法技术

技术编号：14880892 阅读：68 留言：0更新日期：2017-03-24 03:33

本发明专利技术公开了一种基于深度神经网络模型的情感合成方法，包括步骤：获取第一发音人的中立声学特征数据和情感声学特征数据；利用深度神经网络模型建立第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型；获取第二发音人的中立语音数据，建立第二发音人的中立语音合成模型；利用深度神经网络模型将第二发音人的中立语音合成模型与情感转换模型串联，得到第二发音人的情感语音合成模型。本发明专利技术基于一个发音人的情感模型即可获得其他任何人的情感模型，利用一个发音人的中立和情感的转换关系模型即可实现，具有数据量少，构件情感模型速度快，成本低等优势。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别领域，尤其涉及一种基于深度神经网络模型的情感合成方法。
技术介绍
语音合成，又称文语转换(TexttoSpeech)技术，是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题是如何将文字信息转化为可听的声音信息。语音合成系统大多是建立在中立朗读方式的语音之上，为解决中立语音的单调无趣，在语音合成系统中引入的情感模型，使得语音合成具有情感特征，增强合成语音的人性化。在对语音合成系统的个性化要求下，语音合成系统会适应生成与发音人对应的声学模型，即需要录制大量的发音人的语音数据和对应该语音数据的文本标注数据进行模型训练，在加入情感模型后，又需要录音大量的发音人的带有不同情感的语音数据和对应该语音数据的文本标注数据进行情感模型的训练，但有多个不同的发音人时，数据量会非常庞大，使得开发时间较长，且研发费用过高。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于深度神经网络模型的情感合成方法，解决现有情感模型生成时数据量庞大使得开发时间较长且研发费用过高的问题，目的在于针对多个不同发音人，能够利用少量中立数据，快速构建对应的情感模型。为实现上述技术效果，本专利技术公开了一种基于深度神经网络模型的情感合成方法，包括步骤：获取第一发音人的中立声学特征数据和情感声学特征数据；利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型；获取第二发音人的中立语音数据，建立第二发音人的中立语音合成模型；以及利用深度神经网...
一种基于深度神经网络模型的情感合成方法

【技术保护点】
一种基于深度神经网络模型的情感合成方法，其特征在于，包括步骤：获取第一发音人的中立声学特征数据和情感声学特征数据；利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型；获取第二发音人的中立语音数据，建立第二发音人的中立语音合成模型；以及利用深度神经网络模型将所述第二发音人的中立语音合成模型与所述情感转换模型串联，得到所述第二发音人的情感语音合成模型。

【技术特征摘要】
1.一种基于深度神经网络模型的情感合成方法，其特征在于，包括步骤：获取第一发音人的中立声学特征数据和情感声学特征数据；利用深度神经网络模型建立所述第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型；获取第二发音人的中立语音数据，建立第二发音人的中立语音合成模型；以及利用深度神经网络模型将所述第二发音人的中立语音合成模型与所述情感转换模型串联，得到所述第二发音人的情感语音合成模型。2.如权利要求1所述的一种基于深度神经网络模型的情感合成方法，其特征在于，通过以下方法获取第一发音人的中立声学特征数据和情感声学特征数据，包括步骤：提供第一发音人的一定数量的语句文本，所述语句文本包括文本内容一致的中立语句文本和情感语句文本；从所述中立语句文本中获取第一发音人的中立语音数据；从所述情感语句文本中获取第一发音人的情感语音数据；从所述中立语音数据中提取第一发音人的中立声学特征数据；从所述情感语音数据中提取第一发音人的情感声学特征数据。3.如权利要求1所述的一种基于深度神经网络模型的情感合成方法，其特征在于，通过以下方法获取第一发音人的中立声学特征数据和情感声学特征数据，包括：获取第一发音人的中立语音数据和情感语音数据；利用所述第一发音人的中立语音数据进行深度神经网络模型训练，得到所述第一发音人的中立语音合成模型；利用所述第一发音人的情感语音数据进行深度神经网络模型训练，得到所述第一发音人的情感语音合成模型；提供一定数量的语句文本，将所述语句文本分别输入到所述第一发音人的中立语音合成模型和情感语音合成模型，获得对应的所述第一发音人的中立声学特征数据和情感声学特征数据。4.如权利要求3所述的一种基于深度神经网络模型的情感合成方法，其特征在于，在获取第二发音人的中立语音数据后，通过以下方法建立所述第二发音人的中立语音合成模型，包括：利用第二发音人的中立语音数据，对第一发音人的中立语音合成模型进行重训练，得到第二发音人的中立语音合成模型。5.如权利要求1所述的一种基于深度神经网络模型的情感合成方法，其特征在于，在获取第二发音人的中立语音数据后，通过以下方法建立所述第二发音人的中立语音合成模型，包括：利用第二发音人的中立语音数据进行深度神经网络模型训练，得到第二发音人的中立语音合成模型。6.如权利要求1～5中任一项所述的一种基于深度神经网络情感模型的合成方法，其特征在于，通过以下方法利用深度...

【专利技术属性】
技术研发人员：王鸣，
申请(专利权)人：上海语知义信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人