一种基于文本信息的波形拼接语音合成方法技术

技术编号:10552363 阅读:119 留言:0更新日期:2014-10-22 10:45
本发明专利技术一种基于文本信息的波形拼接语音合成方法,该方法包括:步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。

【技术实现步骤摘要】
【专利摘要】本专利技术,该方法包括:步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。【专利说明】
本专利技术属于智能信息处理领域,涉及一种基于文本信息的波形拼接系统。
技术介绍
语音作为人机交互的主要手段之一,语音合成主要目的是让计算机能够产生高清 晰度、高自然度的连续语音。语音合成主要有两种方式,早期的研究主要是采用参数语音合 成,最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计 声学建模方法的具休实现,对语音的声学参数进行隐马尔柯夫建模,并通过参数生成算法 来重构声学参数轨迹,最后调用语音合成器来产生语音波形。该方法的不足在于合成语音 的音质、自然度和清晰度都不够理想,与实际语音具有较大的差距。另一种方法是基于语料 库的语音拼接合成方法,该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接 合成语音。 但该方法虽能合成出较为接近原始语音的波形,但受限于语料库大小的制约,合 成语音的稳定性不够理想(音库过大,合成语音速度较慢,无法实时合成;音库过小,合成 语音不稳定),很大程度上影响的听感。并且现有的拼接合成系统,在计算代价时缺少考虑 文本信息对基元的影响,合成出的语音在韵律表现上也不是很好。
技术实现思路
(一)要解决的技术问题 为解决上述的一个或多个问题,本专利技术的目的是提供一种基于文本信息的波形拼 接语音合成方法。 (二)技术方案 为达成所述目的,本专利技术提供的实现 的步骤包括: 步骤S1 :通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据 提取的参数训练时长预测模型与权重预测模型; 步骤S2 :采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时 长对语料库中的基元进行初步预选,获得候选基元; 步骤S3 :对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标 代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价 和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语 音。 (三)有益效果 从上述技术方案可以看出,本专利技术基于文本特征的波形拼接语音合成方法具有以 下有益效果: (1)该方法结合待合成语音与原始语音的文本特征,在基元预选时用分层预选方 法,不仅能有效率的在保证候选基元接近目标基元的情况下,减少基元的个数,降低后期代 价计算的时间开销,提高了合成语音的效率,增强拼接合成的实时性;并且加入的时长预测 模型能保证选到的基元在时长上的连续性,提高了合成语音自然度; (2)目标代价的计算方法采用的是基于文本信息结合预测得到的权重信息得到的 代价,保证了代价最小的基元在韵律上与目标基元的一致性,拼接合成出高自然度,并提高 了合成语音的韵律表现; 该方法包括:对原始切分过的大音库进行参数提取(包括声学参数与文本参数)。 结合相应文本标注信息,对基元的时长信息进行建模,结合基元的上下文信息与基元所在 词的词性等信息,生成分层预选模型对基元进行预选。这种预选方法不仅可以达到在大语 料库的情况下缩短系统运行时间、增强系统合成语音的实时性和提高基元选取的准确率的 目的,而且保证了候选基元在时长上的连续性。在计算目标代价时,在训练阶段,用决策树 算法与线性回归算法结合文本特征与声学特征进行建模,预测出相关文本特征的权重信 息。在拼接合成语音时,输入相应的候选基元与目标基元的文本信息距离,结合决策树与线 性回归模型预测出的权重信息,就得到相对应候选基元的目标代价,再结合拼接代价的计 算,最后就能拼接合成出语音,本专利技术合成出较高音质的语音。 【专利附图】【附图说明】 图1为根据本专利技术基于文本信息的波形拼接语音合成方法流程图; 图2为本专利技术中训练时长预测模型一实施例的流程图; 图3为本专利技术中训练权重预测模型一实施例的流程图; 图4为根据本专利技术一实施例的分层预选流程图; 图5为根据本专利技术一实施例的基于文本特征的目标代价的计算。 【具体实施方式】 为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本专利技术进一步详细说明。 需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附 图中未绘示或描述的实现方式,为所属
中普通技术人员所知的形式。另外,虽然本 文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接 受的误差容限或设计约束内近似于相应的值。 本专利技术方法结合待合成语音与原始语音的文本特征,首先对音库中的基元进行分 层预选,提高了合成语音的效率,增强了合成语音的实时性,然后结合基于文本信息预测出 的权重信息,计算代价,挑选合适的基元,最后拼接合成出高自然度与高韵律表现的语音。 如图1示出本专利技术基于文本信息的的波形拼接语音合成方法流程图,该方法包括 以下步骤: 步骤S1 :通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据 提取的参数训练时长预测模型与权重预测模型;模型训练模块,根据训练文本与对应的音 频提取基元的文本参数与声学参数进行模型训练,获取分层预选中的时长预测模型与目标 代价计算时所需的权重预测模型; 如图2所示为本专利技术中训练时长预测模型一实施例的流程图;所述训练时长预测 模型包括以下步骤: 步骤S11 :对音库进行音段切分,切分为波形拼接所需的最小基本单元,以切分后 的基元为单位,按巾贞提取基频参数、梅尔倒谱参数与能量;在本专利技术一实施例中,谱参数是 提取的12阶梅尔倒谱系数。 步骤S12 :对所述原始音频对应文本进行文本分析,根据音段切分结果,提取所有 基兀对应的上下文文本特征信息与时长信息,并与提取的声学参数 对应; 步骤S13 :根据与声学参数一一对应的文本特征与时长信息,采用决策树训练时 长预测模型。 如图3所示为本专利技术中训练权重预测模型一实施例的流程图,所述训练权重预测 模型的包括以下步骤: 步骤S1A :对音库进行音段切分,切分为波形拼接系统所需的最小基本单元,并以 切分后的基元为单位,按帧提取基频参数、梅尔倒谱参数与能量;在本专利技术一实施例中,谱 参数是提取的12阶梅尔倒谱系数。 步骤S1B :对所述原始音频对应文本进行文本分析,根据音段切分结果,提取所有 基兀对应的上下文文本特征信息与时长信息,并与提取的声学参数 对应; 步骤S1C :根据提取的所有基元的文本特征与声学特征,按基元进行分类; 步骤S1D :对于每一类基元,计算所有任意两个基元对应的文本特征参数与声学 参数之间的距离,存储所有距离信息作为训练样本;本文档来自技高网
...

【技术保护点】
一种基于文本信息的波形拼接语音合成方法,其特征在于,该方法包括:步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练权重预测模型与时长预测模型;步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。

【技术特征摘要】

【专利技术属性】
技术研发人员:陶建华刘善峰
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1