用于语音合成系统的韵律与声学联合建模的方法及装置制造方法及图纸

技术编号:12074416 阅读:101 留言:0更新日期:2015-09-18 10:16
本发明专利技术提出一种用于语音合成系统的韵律与声学联合建模的方法及装置,其中,该方法包括:根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型;根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合;以及根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型。本发明专利技术实施例的用于语音合成系统的韵律与声学联合建模的方法及装置,提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种用于语音合成系统的韵律与声学联合建模的方法及装置
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。语音合成的目的是将文本转换为语音播放给用户,目标是达到真人文本播报的效果。在语音合成的过程中要用到两个模型,韵律模型和声学模型,这两个模型是通过对训练数据进行训练所建立的,目前这两个模型的训练过程是独立的,并且所建立的韵律模型是一种离散的韵律模型,该韵律模型所预测出的韵律特征是离散的。目前韵律模型和声学模型独立建模存在的问题是韵律模型预测出的韵律层级仅有几种停顿层级,所合成的语音在韵律停顿上带有明显的阶梯性,在韵律模型预测出的韵律停顿层级发生错误时,所合成的语音在韵律停顿上的阶梯性尤其明显,合成语音的自然流畅度上和真人播放存在较大差距,用户听到的语音不够流畅,用户体验不理想。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种用于语音合成系统的韵律与声学联合建模的方法,该方法提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。本专利技术的第二个目的在于提出一种用于语音合成系统的韵律与声学联合建模的装置。<br>为实现上述目的,本专利技术第一方面实施例的用于语音合成系统的韵律与声学联合建模的方法,包括:根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,其中,所述第一文本特征集合用于训练所述连续韵律预测模型,所述第二文本特征集合用于训练声学预测模型,所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应;根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合;以及根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,其中,所述声学参数集合与所述第二文本特征集合对应。本专利技术实施例的用于语音合成系统的韵律与声学联合建模的方法,首先根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,然后根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合,以及根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型,由此,提供了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。为实现上述目的,本专利技术第二方面实施例的用于语音合成系统的韵律与声学联合建模的装置,包括:第一生成模块,用于根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,其中,所述第一文本特征集合用于训练所述连续韵律预测模型,所述第二文本特征集合用于训练声学预测模型,所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应;预测模块,用于根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合;以及第二生成模块,用于根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,其中,所述声学参数集合与所述第二文本特征集合对应。本专利技术实施例的用于语音合成系统的韵律与声学联合建模的装置,第一生成模块根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,然后预测模块根据第二文本特征集合通过连续韵律预测模型预测第二文本特征集合对应的连续韵律特征集合,以及第二生成模块根据第二文本特征集合、连续韵律特征集合和声学参数集合进行声学训练以生成声学预测模型,由此,提出了一种联合建立连续韵律预测模型和声学预测模型的建模方式,通过该方式所建立的模型可以让生成的声学参数在韵律表现上更加连续自然,进而可使合成语音更加流畅自然。附图说明图1是根据本专利技术一个实施例的用于语音合成系统的韵律与声学联合建模的方法的流程图。图2是根据本专利技术另一个实施例的用于语音合成系统的韵律与声学联合建模的方法的流程图。图3是联合建立连续韵律预测模型和声学预测模型的框架示意图。图4是包含连续韵律预测模型和声学预测模型的语音合成系统的框架示意图。图5是根据本专利技术一个实施例的用于语音合成系统的韵律与声学联合建模的装置的结构示意图。图6是根据本专利技术另一个实施例的用于语音合成系统的韵律与声学联合建模的装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的用于语音合成系统的韵律与声学联合建模的方法及装置。目前,语音合成系统中的韵律模型所预测出的韵律停顿层级是离散的,一旦韵律模型所预测出的韵律停顿层级发生错误,将对后续的声学模型预测声学参数产生重大影响,进而影响后续合成的语音,所合成的语音在韵律停顿上带有明显的阶梯性,合成语音不流畅自然。例如,合成文本为:如果路人递给它一个空瓶;对应的正确韵律为:如果#1路人#1递给#1它#2一个#1空瓶;假定韵律模型所预测的韵律预测结果为:如果#1路人#1递给#2它#1一个#1空瓶。其中,#1表示一个小停顿,#2表示一个大停顿。如果按照预测的韵律进行合成“递给”和“它”之间会有一个很大的停顿,且“它”和“一个”之间,会有一个小停顿,这样会造成该句合成效果不流畅自然。为了解决上述问题,本专利技术提出了一种用于语音合成系统的韵律与声学联合建模的方法。图1是根据本专利技术一个实施例的用于语音合成系统的韵律与声学联合建模的方法的流程图。如图1所示,该用于语音合成系统的韵律与声学联合建模的方法包括:S101,根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型。其中,第一文本特征集合用本文档来自技高网...
用于语音合成系统的韵律与声学联合建模的方法及装置

【技术保护点】
一种用于语音合成系统的韵律与声学联合建模的方法,其特征在于,包括以下步骤:根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,其中,所述第一文本特征集合用于训练所述连续韵律预测模型,所述第二文本特征集合用于训练声学预测模型,所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应;根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合;以及根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,其中,所述声学参数集合与所述第二文本特征集合对应。

【技术特征摘要】
1.一种用于语音合成系统的韵律与声学联合建模的方法,其特征在于,包括以下步骤:
根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,其中,所述第一文本特征集合用于训练所述连续韵律预测模型,所述第二文本特征集合用于训练声学预测模型,所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应;
根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合;以及
根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,其中,所述声学参数集合与所述第二文本特征集合对应。
2.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法,其特征在于,所述根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型具体包括:
通过深度神经网络算法对所述第一文本特征集合、所述第二文本特征集合、所述第一韵律标注集合和所述第二韵律标注集合进行韵律训练,并根据训练结果建立所述连续韵律预测模型。
3.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法,其特征在于,在所述根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型之后,包括:
获得待处理的文本信息,并通过所述连续韵律预测模型生成所述文本信息的连续韵律特征信息;
将所述文本信息和所述连续韵律特征信息输入所述声学预测模型,所述声学预测模型根据所述文本信息和所述连续韵律特征信息生成所述文本信息的声学参数信息;以及
根据所述声学参数信息合成所述文本信息的语音。
4.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法,其特征在于,所述连续韵律特征集合中包括所述第二文本特征集合中的每个音子所属语法词的韵律停顿等级的概率,所述声学参数集合中包括不同概率的韵律停顿等级所对应的声学信息。
5.如权利要求4所述的用于语音合成系统的韵律与声学联合建模的方法,其特征在于,所述声学信息包括时长和基频。
6.如权利要求5所述的用于语音合成系统的韵律与声学联合建模的方法,所述根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声 学预测模型,具体包括:
通过深度神经网络算法对所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行训练,以获得语法词、韵律停顿等级的概率与声学信息的映射关...

【专利技术属性】
技术研发人员:康永国付晓寅
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1