语音合成方法及装置制造方法及图纸

技术编号：14483224 阅读：131 留言：0更新日期：2017-01-26 02:36

本发明专利技术公开了一种语音合成方法及装置，属于语音合成技术领域。所述方法包括：获取测试语音信息；从测试语音信息中提取具有第一标注类型的测试语音片段；根据具有第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；根据平均差异矩阵，生成具有目标拼接权值的拼接代价模型；通过具有目标拼接权值的拼接代价模型进行语音合成，得到合成的语音信息。本发明专利技术通过根据平均差异矩阵生成具有目标拼接权值的拼接代价模型，避免了需要多次手工调整拼接代价模型中的权值，且最终得到的权值仍然不够准确的情况，从而达到了减少手工调整次数，直接通过平均差异矩阵计算出较为精准的目标拼接权值的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及语音合成
，特别涉及一种语音合成方法及装置。
技术介绍
语音合成技术，又称文语转换(TexttoSpeech)技术，用于将文字信息转化为语音信息。目前使用较为广泛的语音合成技术是基于波形拼接的语音合成技术。基于波形拼接的语音合成技术的核心思想是：预先构建一个语料库，该语料库中包含各种语音片段；对于输入的文本信息，从语料库中选择合适的多个语音片段拼接得到最终的语音信息。具体来讲，对于已知的一个文本信息W＝(w1，w2，…，wn)，wi为文本基元，采用目标代价和拼接代价从语料库中选择出总代价最小的目标语音片段序列V＝(v1，v2，…，vn)进行语音合成，vi为语音片段。其中，目标代价用于表征文本基元wi对应的预测声学特征与语料库中的候选语音片段的声学特征之间的相似性，目标代价越小，两者越相似；拼接代价用于表征两个相邻候选语音片段在拼接后的连续性，拼接代价越小，拼接后的语音连续性效果越好。比如，对于已知的一个文本信息“早安中国”，文本基元“早安”在语料库中对应3个候选语音片段a，文本基元“中国”在语料库中对应2个候选语音片段b，共存在6组候选拼接方案；目标代价用于表征文本基元“早安”对应的预测声学特征与候选语音片段a之间的相似性，以及用于文本基元“中国”对应的预测声学特征与候选语音片段b之间的相似性；而拼接代价用于表征候选语音片段a与候选语音片段b之间的连续性；对于6种候选拼接方案，计算出每种候选拼接方案各自的目标代价和拼接代价，选择出总代价最小的一种候选拼接方案作为最终的拼接方案，合成得到最终的语音信息。完整的拼接代价模型由算法模型...
语音合成方法及装置

【技术保护点】
一种模型生成方法，其特征在于，所述方法包括：获取测试语音信息，所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息；从所述测试语音信息中提取具有第一标注类型的测试语音片段，所述第一标注类型用于标注所述测试语音片段的语音连续性优于预设条件；根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；每个所述平均差异矩阵与一类拼接组合关系对应，每个所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异；根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，每个所述拼接代价模型与一类所述拼接组合关系对应。

【技术特征摘要】
1.一种模型生成方法，其特征在于，所述方法包括：获取测试语音信息，所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息；从所述测试语音信息中提取具有第一标注类型的测试语音片段，所述第一标注类型用于标注所述测试语音片段的语音连续性优于预设条件；根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵；每个所述平均差异矩阵与一类拼接组合关系对应，每个所述平均差异矩阵用于表征属于同一类所述拼接组合关系的多组相邻候选语音片段在声学特征上的平均差异；根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，每个所述拼接代价模型与一类所述拼接组合关系对应。2.根据权利要求1所述的方法，其特征在于，所述根据所述平均差异矩阵，生成具有目标拼接权值的拼接代价模型，包括：对于每个所述平均差异矩阵Fab，对所述平均差异矩阵Fab进行奇异值分解Fab＝U∑V，得到第一分解矩阵U和第二分解矩阵V；将所述第一分解矩阵U的正交矩阵生成为第一权值wn，将所述第二分解矩阵V的正交矩阵生成为第二权值wt；生成具有所述第一权值wn和所述第二权值wt的所述拼接代价模型；其中，ab代表由a类型的语音片段在前且b类型的语音片段在后的拼接组合关系。3.根据权利要求2所述的方法，其特征在于，所述生成具有所述第一权值wn和所述第二权值wt的所述拼接代价模型，包括：生成所述拼接代价模型如下：CC=Σt=1Twt·(Σn=1Nwn·|Δf|)]]>其中，CC为拼接代价，所述拼接代价用于表征两个相邻候选语音片段之间的连续性，T为两个相邻候选语音片段的重叠帧的帧数，wt为两个相邻候选语音片段的第t个所述重叠帧的所述声学特征对应的所述第二权值，N为每个所述候选语音片段包含的所述声学特征的个数，wn为两个相邻候选语音片段的第n个所述声学特征对应的所述第一权值，|Δf|为两个相邻候选语音片段的第n个所述声学特征的声学距离测度。4.根据权利要求1至3任一所述的方法，其特征在于，所述根据具有所述第一标注类型的测试语音片段在拼接前所对应的相邻候选语音片段，计算得到平均差异矩阵，包括：对于每个具有所述第一标注类型的所述测试语音片段，根据所述测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵；根据所述相邻候选语音片段的拼接组合关系对所述拼接差异矩阵进行分类，得到与每一种拼接组合关系所对应的拼接差异矩阵集合，所述拼接差异矩阵集合包括属于同一种拼接组合关系的若干个所述拼接差异矩阵；对每个所述拼接差异矩阵集合中的所述拼接差异矩阵计算均值，得到与每一种所述拼接组合关系所对应的所述平均差异矩阵。5.根据权利要求4所述的方法，其特征在于，所述对于每个具有所述第一标注类型的测试语音片段，根据所述测试语音片段在拼接前所对应的相邻候选语音片段计算得到拼接差异矩阵，包括：对于每个具有所述第一标注类型的测试语音片段，获取所述测试语音片段在拼接前所对应的候选语音片段a和候选语音片段b；获取所述候选语音片段a的重叠帧对应的第一组声学特征和所述候选语音片段b的重叠帧对应的第二组声学特征，所述第一组声学特征包含n个所述声学特征，所述第二组声学特征包含n个所述声学特征；根据所述第一组声学特征和所述第二组声学特征，按照如下公式计算得到所述拼接差异矩阵F；F=|fa,t0n=1-fb,t0-T+1n=1||fa,t0+1n=1-fb,t0-T+2n=1|...|fa,t0n=2-fb,t0-T+1n=2|............|fa,t0+T-1n=N-fb,t0n=N|]]>其中，F为所述候选语音片段a和所述候选语音片段b对应的所述拼接差异矩阵，所述拼接差异矩阵中的第n行第t列表示所述候选语音片段a中的第t个所述重叠帧的第n个所述声学特征与所述候选语音片段b中的第t-T+1个所述重叠帧的第n个所述声学特征的声学距离测度，fa,t是与所述候选语音片段a的第t个所述重叠帧对应的第n个所述声学特征，fb,t-T+1是与所述候选语音片段b的第t-T+1个所述重叠帧对应的第n个所述声学特征。6.根据权利要求1至3任一所述的方法，其特征在于，所述从所述测试语音信息中提取具有第一标注类型的测试语音片段，包括：获取所述测试语音信息中至少一个测试语音片段的标注类型，每个所述测试语音片段的标注类型为所述第一标注类型或第二标注类型，所述第一标注类型所对应的语音连续性优于所述第二标注类型所对应的语音连续性；提取出具有所述第一标注类型的所述测试语音片段。7.根据权利要求1至3任一所述的方法，其特征在于，所述获取测试语音信息，包括：对测试用的文本信息进行拆分，得到文本基元序列(w1，w2，…，wn)，wi为第i个文本基元，1≤i≤n；根据预设声学模型，得到与每个文本基元wi对应的预测声学特征；对于每个所述文本基元wi，从语料库中选择出目标代价最小的语音片段vi，所述目标代价用于表征所述文本基元wi对应的预测声学特征与所述语料库中的候选语音片段的声学特征之间的相似性；根据选择出的所述语音片段vi所组成的测试语音片段序列(v1，v2，…，vn)进行语音合成，得到与测试用的所述文本信息对应的所述测试语音信息。8.一种语音合成方法，其特征在于，采用如权利要求1至7任一所述的模型生成方法所生成的所述拼接代价模型，所述方法包括：对输入的文本信息进行拆分，得到文本基元序列(w1，w2，…，wn)，wi为第i个文本基元，1≤i≤n；根据预设声学模型，得到与每个文本基元wi对应的预测声学特征；对于每个所述文本基元wi，从语料库中选择出若干个候选语音片段；根据目标代价模型计算每个所述文本基元wi与对应的候选语音片段之间的目标代价；根据所述拼接代价模型计算相邻的所述候选语音片段之间的拼接代价；选择出所述目标代价和所述拼接代价所对应的总代价最小的一组目标语音片段序列(v1，v2，…，vn)进行语音合成，得到与输入的所述文本信息对应的所述语音信息。9.一种模型生成装置，其特征在于，所述装置包括：获取模块，用于获取测试语音信息，所述测试语音信息是将目标代价最小的语音片段进行拼接所得到的语音信息；提取模...

【专利技术属性】
技术研发人员：袁豪磊，吴富章，钱柄桦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人