语音合成方法及装置制造方法及图纸

技术编号:14483224 阅读:128 留言:0更新日期:2017-01-26 02:36
本发明专利技术公开了一种语音合成方法及装置,属于语音合成技术领域。所述方法包括:获取测试语音信息;从测试语音信息中提取具有第一标注类型的测试语音片段;根据具有第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段,计算得到平均差异矩阵;根据平均差异矩阵,生成具有目标拼接权值的拼接代价模型;通过具有目标拼接权值的拼接代价模型进行语音合成,得到合成的语音信息。本发明专利技术通过根据平均差异矩阵生成具有目标拼接权值的拼接代价模型,避免了需要多次手工调整拼接代价模型中的权值,且最终得到的权值仍然不够准确的情况,从而达到了减少手工调整次数,直接通过平均差异矩阵计算出较为精准的目标拼接权值的效果。

【技术实现步骤摘要】

本专利技术实施例涉及语音合成
,特别涉及一种语音合成方法及装置
技术介绍
语音合成技术,又称文语转换(TexttoSpeech)技术,用于将文字信息转化为语音信息。目前使用较为广泛的语音合成技术是基于波形拼接的语音合成技术。基于波形拼接的语音合成技术的核心思想是:预先构建一个语料库,该语料库中包含各种语音片段;对于输入的文本信息,从语料库中选择合适的多个语音片段拼接得到最终的语音信息。具体来讲,对于已知的一个文本信息W=(w1,w2,…,wn),wi为文本基元,采用目标代价和拼接代价从语料库中选择出总代价最小的目标语音片段序列V=(v1,v2,…,vn)进行语音合成,vi为语音片段。其中,目标代价用于表征文本基元wi对应的预测声学特征与语料库中的候选语音片段的声学特征之间的相似性,目标代价越小,两者越相似;拼接代价用于表征两个相邻候选语音片段在拼接后的连续性,拼接代价越小,拼接后的语音连续性效果越好。比如,对于已知的一个文本信息“早安中国”,文本基元“早安”在语料库中对应3个候选语音片段a,文本基元“中国”在语料库中对应2个候选语音片段b,共存在6组候选拼接方案;目标代价用于表征文本基元“早安”对应的预测声学特征与候选语音片段a之间的相似性,以及用于文本基元“中国”对应的预测声学特征与候选语音片段b之间的相似性;而拼接代价用于表征候选语音片段a与候选语音片段b之间的连续性;对于6种候选拼接方案,计算出每种候选拼接方案各自的目标代价和拼接代价,选择出总代价最小的一种候选拼接方案作为最终的拼接方案,合成得到最终的语音信息。完整的拼接代价模型由算法模型和权值两部分组成,为了获得较好的连续性效果,这些权值是根据设计者的经验和试错进行手工调整的。具体来讲,在通过具有初始权值的拼接代价模型为输入的文字信息进行语音合成后,需要人工测听语音信息的连续性效果,如果获得不满意的连续性效果,则需要手工调整拼接代价模型中的这些权值;通过使用具有调整后权值的拼接代价模型,将输入的文字信息再次进行语音合成,再一次对合成的语音信息重复上述过程,直至获得满意的连续性效果。每次手工调整这些权值后,都需要重新进行语音合成并对合成的语音信息的连续性效果进行人工测听,而每次调整后的连续性效果不一定比上一次的连续性结果更优,通常需要很多次的人工测听和手工调整操作才能获得较优的权值和满意的连续性效果。即便如此,最终得到的权值仍然不够准确。
技术实现思路
为了解决需要很多次的人工测听和手工调整操作才能获得较优的权值和满意的连续性效果的问题,本专利技术实施例提供了一种语音合成方法及装置。所述技术方案如下:第一方面,提供了一种模型生成方法,所述方法包括:获取测试语音信息,所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息;从所述测试语音信息中提取具有第一标注类型的测试语音片段,所述第一标注类型用于标注所述测试语音片段的语音连续性优于预设条件;根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段,计算得到平均差异矩阵;每个所述平均差异矩阵与一类拼接组合关系对应,每个所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异;根据所述平均差异矩阵,生成具有目标拼接权值的拼接代价模型,每个所述拼接代价模型与一类所述拼接组合关系对应。第二方面,提供了一种语音合成方法,采用如第一方面所述的模型生成方法所生成的所述拼接代价模型,所述方法包括:对输入的文本信息进行拆分,得到文本基元序列(w1,w2,…,wn),wi为第i个文本基元,1≤i≤n;根据预设声学模型,得到与每个文本基元wi对应的预测声学特征;对于每个所述文本基元wi,从语料库中选择出若干个候选语音片段;根据目标代价模型计算每个所述文本基元wi与对应的候选语音片段之间的目标代价;根据所述拼接代价模型计算相邻的所述候选语音片段之间的拼接代价;选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v1,v2,…,vn)进行语音合成,得到与输入的所述文本信息对应的所述语音信息。第三方面,提供了一种模型生成装置,所述装置包括:获取模块,用于获取测试语音信息,所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息;提取模块,用于从所述测试语音信息中提取具有第一标注类型的测试语音片段,所述第一标注类型用于标注所述测试语音片段的语音连续性优于预设条件;第一计算模块,用于根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段,计算得到平均差异矩阵;每个所述平均差异矩阵与一类拼接组合关系对应,每个所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异;生成模块,用于根据所述平均差异矩阵,生成具有目标拼接权值的拼接代价模型,每个所述拼接代价模型与一类所述拼接组合关系对应。第四方面,提供了一种语音合成装置,采用如第三方面所述的模型生成装置所生成的所述拼接代价模型,所述装置包括:拆分模块,用于对输入的文本信息进行拆分,得到文本基元序列(w1,w2,…,wn),wi为第i个文本基元,1≤i≤n;得到模块,用于根据预设声学模型,得到与每个文本基元wi对应的预测声学特征;选择模块,用于对于每个所述文本基元wi,从语料库中选择出若干个候选语音片段;第二计算模块,用于根据目标代价模型计算每个所述文本基元wi与对应的候选语音片段之间的目标代价;根据所述拼接代价模型计算相邻的所述候选语音片段之间的拼接代价;合成模块,用于选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v1,v2,…,vn)进行语音合成,得到与输入的所述文本信息对应的所述语音信息。本专利技术实施例提供的技术方案至少具有如下有益效果:通过根据具有第一标注类型的多个测试语音片段在拼接前所对应的相邻候选语音片段,计算得到平均差异矩阵,根据平均差异矩阵生成具有目标拼接权值的拼接代价模型;由于每个平均差异矩阵与一类拼接组合关系对应,用于表征属于同一类拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异,使得根据平均差异矩阵生成出的每个拼接代价模型与一类拼接组合关系对应,且每个拼接代价模型具有精准的权值;避免了需要多次手工调整拼接代价模型中的权值,且最终得到的权值仍然不够准确的情况,从而达到了减少手工调整次数,直接通过平均差异矩阵计算出较为精准的权值的效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1A是一种基于波形拼接的语音合成方法的原理示意图;图1B是本专利技术另一个实施例提供的语音合成方法的原理示意图;图2是本专利技术一个实施例提供的语音合成方法的方法流程图;图3是本专利技术另一个实施例提供的语音合成方法的方法流程图;图4A是本专利技术另一个实施例提供的语音合成方法的方法流程图;图4B是本专利技术另一个实施例提供的语音合成方法的方法流程图;图5是本专利技术另一个实施例提供的语音合成方法的原理示意图;图6是本专利技术另一本文档来自技高网
...
语音合成方法及装置

【技术保护点】
一种模型生成方法,其特征在于,所述方法包括:获取测试语音信息,所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息;从所述测试语音信息中提取具有第一标注类型的测试语音片段,所述第一标注类型用于标注所述测试语音片段的语音连续性优于预设条件;根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段,计算得到平均差异矩阵;每个所述平均差异矩阵与一类拼接组合关系对应,每个所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异;根据所述平均差异矩阵,生成具有目标拼接权值的拼接代价模型,每个所述拼接代价模型与一类所述拼接组合关系对应。

【技术特征摘要】
1.一种模型生成方法,其特征在于,所述方法包括:获取测试语音信息,所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息;从所述测试语音信息中提取具有第一标注类型的测试语音片段,所述第一标注类型用于标注所述测试语音片段的语音连续性优于预设条件;根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段,计算得到平均差异矩阵;每个所述平均差异矩阵与一类拼接组合关系对应,每个所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异;根据所述平均差异矩阵,生成具有目标拼接权值的拼接代价模型,每个所述拼接代价模型与一类所述拼接组合关系对应。2.根据权利要求1所述的方法,其特征在于,所述根据所述平均差异矩阵,生成具有目标拼接权值的拼接代价模型,包括:对于每个所述平均差异矩阵Fab,对所述平均差异矩阵Fab进行奇异值分解Fab=U∑V,得到第一分解矩阵U和第二分解矩阵V;将所述第一分解矩阵U的正交矩阵生成为第一权值wn,将所述第二分解矩阵V的正交矩阵生成为第二权值wt;生成具有所述第一权值wn和所述第二权值wt的所述拼接代价模型;其中,ab代表由a类型的语音片段在前且b类型的语音片段在后的拼接组合关系。3.根据权利要求2所述的方法,其特征在于,所述生成具有所述第一权值wn和所述第二权值wt的所述拼接代价模型,包括:生成所述拼接代价模型如下:CC=Σt=1Twt·(Σn=1Nwn·|Δf|)]]>其中,CC为拼接代价,所述拼接代价用于表征两个相邻候选语音片段之间的连续性,T为两个相邻候选语音片段的重叠帧的帧数,wt为两个相邻候选语音片段的第t个所述重叠帧的所述声学特征对应的所述第二权值,N为每个所述候选语音片段包含的所述声学特征的个数,wn为两个相邻候选语音片段的第n个所述声学特征对应的所述第一权值,|Δf|为两个相邻候选语音片段的第n个所述声学特征的声学距离测度。4.根据权利要求1至3任一所述的方法,其特征在于,所述根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段,计算得到平均差异矩阵,包括:对于每个具有所述第一标注类型的所述测试语音片段,根据所述测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵;根据所述相邻候选语音片段的拼接组合关系对所述拼接差异矩阵进行分类,得到与每一种拼接组合关系所对应的拼接差异矩阵集合,所述拼接差异矩阵集合包括属于同一种拼接组合关系的若干个所述拼接差异矩阵;对每个所述拼接差异矩阵集合中的所述拼接差异矩阵计算均值,得到与每一种所述拼接组合关系所对应的所述平均差异矩阵。5.根据权利要求4所述的方法,其特征在于,所述对于每个具有所述第一标注类型的测试语音片段,根据所述测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵,包括:对于每个具有所述第一标注类型的测试语音片段,获取所述测试语音片段在拼接前所对应的候选语音片段a和候选语音片段b;获取所述候选语音片段a的重叠帧对应的第一组声学特征和所述候选语音片段b的重叠帧对应的第二组声学特征,所述第一组声学特征包含n个所述声学特征,所述第二组声学特征包含n个所述声学特征;根据所述第一组声学特征和所述第二组声学特征,按照如下公式计算得到所述拼接差异矩阵F;F=|fa,t0n=1-fb,t0-T+1n=1||fa,t0+1n=1-fb,t0-T+2n=1|...|fa,t0n=2-fb,t0-T+1n=2|............|fa,t0+T-1n=N-fb,t0n=N|]]>其中,F为所述候选语音片段a和所述候选语音片段b对应的所述拼接差异矩阵,所述拼接差异矩阵中的第n行第t列表示所述候选语音片段a中的第t个所述重叠帧的第n个所述声学特征与所述候选语音片段b中的第t-T+1个所述重叠帧的第n个所述声学特征的声学距离测度,fa,t是与所述候选语音片段a的第t个所述重叠帧对应的第n个所述声学特征,fb,t-T+1是与所述候选语音片段b的第t-T+1个所述重叠帧对应的第n个所述声学特征。6.根据权利要求1至3任一所述的方法,其特征在于,所述从所述测试语音信息中提取具有第一标注类型的测试语音片段,包括:获取所述测试语音信息中至少一个测试语音片段的标注类型,每个所述测试语音片段的标注类型为所述第一标注类型或第二标注类型,所述第一标注类型所对应的语音连续性优于所述第二标注类型所对应的语音连续性;提取出具有所述第一标注类型的所述测试语音片段。7.根据权利要求1至3任一所述的方法,其特征在于,所述获取测试语音信息,包括:对测试用的文本信息进行拆分,得到文本基元序列(w1,w2,…,wn),wi为第i个文本基元,1≤i≤n;根据预设声学模型,得到与每个文本基元wi对应的预测声学特征;对于每个所述文本基元wi,从语料库中选择出目标代价最小的语音片段vi,所述目标代价用于表征所述文本基元wi对应的预测声学特征与所述语料库中的候选语音片段的声学特征之间的相似性;根据选择出的所述语音片段vi所组成的测试语音片段序列(v1,v2,…,vn)进行语音合成,得到与测试用的所述文本信息对应的所述测试语音信息。8.一种语音合成方法,其特征在于,采用如权利要求1至7任一所述的模型生成方法所生成的所述拼接代价模型,所述方法包括:对输入的文本信息进行拆分,得到文本基元序列(w1,w2,…,wn),wi为第i个文本基元,1≤i≤n;根据预设声学模型,得到与每个文本基元wi对应的预测声学特征;对于每个所述文本基元wi,从语料库中选择出若干个候选语音片段;根据目标代价模型计算每个所述文本基元wi与对应的候选语音片段之间的目标代价;根据所述拼接代价模型计算相邻的所述候选语音片段之间的拼接代价;选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v1,v2,…,vn)进行语音合成,得到与输入的所述文本信息对应的所述语音信息。9.一种模型生成装置,其特征在于,所述装置包括:获取模块,用于获取测试语音信息,所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息;提取模...

【专利技术属性】
技术研发人员:袁豪磊吴富章钱柄桦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1