用于语音合成系统的韵律与声学联合建模的方法及装置制造方法及图纸

技术编号：12074416 阅读：111 留言：0更新日期：2015-09-18 10:16

本发明专利技术提出一种用于语音合成系统的韵律与声学联合建模的方法及装置，其中，该方法包括：根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型；根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合；以及根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型。本发明专利技术实施例的用于语音合成系统的韵律与声学联合建模的方法及装置，提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式，通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然，进而可使合成语音更加流畅自然。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，特别涉及一种用于语音合成系统的韵律与声学联合建模的方法及装置。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。语音合成的目的是将文本转换为语音播放给用户，目标是达到真人文本播报的效果。在语音合成的过程中要用到两个模型，韵律模型和声学模型，这两个模型是通过对训练数据进行训练所建立的，目前这两个模型的训练过程是独立的，并且所建立的韵律模型是一种离散的韵律模型，该韵律模型所预测出的韵律特征是离散的。目前韵律模型和声学模型独立建模存在的问题是韵律模型预测出的韵律层级仅有几种停顿层级，所合成的语音在韵律停顿上带有明显的阶梯性，在韵律模型预测出的韵律停顿层级发生错误时，所合成的语音在韵律停顿上的阶梯性尤其明显，合成语音的自然流畅度上和真人播放存在较大差距，用户听到的语音不够流畅，用户体验不理想。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的第一个目的在于提出一种用于语音合成系统的韵律与声学联合建模的方法，该方法提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式，通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然，进而可使合成语音更加流畅自然。本专利技术的第二个目的在于提出一种用于语音合成系统的韵律与声学联合建模的装置。<...
用于语音合成系统的韵律与声学联合建模的方法及装置

【技术保护点】
一种用于语音合成系统的韵律与声学联合建模的方法，其特征在于，包括以下步骤：根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型，其中，所述第一文本特征集合用于训练所述连续韵律预测模型，所述第二文本特征集合用于训练声学预测模型，所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应；根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合；以及根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型，其中，所述声学参数集合与所述第二文本特征集合对应。

【技术特征摘要】
1.一种用于语音合成系统的韵律与声学联合建模的方法，其特征在于，包括以下步骤：
根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型，其中，所述第一文本特征集合用于训练所述连续韵律预测模型，所述第二文本特征集合用于训练声学预测模型，所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应；
根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合；以及
根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型，其中，所述声学参数集合与所述第二文本特征集合对应。
2.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法，其特征在于，所述根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型具体包括：
通过深度神经网络算法对所述第一文本特征集合、所述第二文本特征集合、所述第一韵律标注集合和所述第二韵律标注集合进行韵律训练，并根据训练结果建立所述连续韵律预测模型。
3.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法，其特征在于，在所述根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型之后，包括：
获得待处理的文本信息，并通过所述连续韵律预测模型生成所述文本信息的连续韵律特征信息；
将所述文本信息和所述连续韵律特征信息输入所述声学预测模型，所述声学预测模型根据所述文本信息和所述连续韵律特征信息生成所述文本信息的声学参数信息；以及
根据所述声学参数信息合成所述文本信息的语音。
4.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法，其特征在于，所述连续韵律特征集合中包括所述第二文本特征集合中的每个音子所属语法词的韵律停顿等级的概率，所述声学参数集合中包括不同概率的韵律停顿等级所对应的声学信息。
5.如权利要求4所述的用于语音合成系统的韵律与声学联合建模的方法，其特征在于，所述声学信息包括时长和基频。
6.如权利要求5所述的用于语音合成系统的韵律与声学联合建模的方法，所述根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型，具体包括：
通过深度神经网络算法对所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行训练，以获得语法词、韵律停顿等级的概率与声学信息的映射关...

【专利技术属性】
技术研发人员：康永国，付晓寅，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人