语音合成方法及装置制造方法及图纸

技术编号:31371574 阅读:21 留言:0更新日期:2021-12-15 10:11
本申请适用于终端人工智能技术领域,提供了一种语音合成方法及装置,所述方法包括:获取身份编码,所述身份编码用于指示进行语音转换的第三方的身份;确定待转换文本对应的各个音素的音素时长,其中,至少一个所述音素的音素时长是根据所述身份编码确定的;根据各个所述音素的音素时长,对所述待转换文本进行转换,得到语音数据,使得语音数据中可以包括指示第三方身份的数字签名,也即是由身份编码确定的音素时长,可以通过该音素时长确定身份编码,从而确定第三方公司的身份,解决了无法确定合成语音数据的第三方的身份的问题,并且在二次转录的情况下也能够根据语音数据确定第三方身份,因而提高了数字签名的稳定性。因而提高了数字签名的稳定性。因而提高了数字签名的稳定性。

【技术实现步骤摘要】
语音合成方法及装置


[0001]本申请属于终端人工智能
,尤其涉及一种语音合成方法及装置。

技术介绍

[0002]随着终端设备的不断发展,终端设备可以合成语音数据,并在合成的语音数据中添加数字签名,从而可以确定合成语音数据的第三方的身份。
[0003]相关技术中,第三方可以采用语音合成技术合成语音数据,并在合成语音数据的过程中,向语音数据中添加表示第三方身份的数字签名,以便可以根据该数字签名确定合成语音数据的第三方的身份。
[0004]但是,当无法获取语音数据的源文件时,则无法获取语音数据中的数字签名,也无法确定合成语音数据的第三方身份。

技术实现思路

[0005]本申请实施例提供了一种语音合成方法及装置,可以解决无法确定合成语音数据的第三方身份的问题。
[0006]第一方面,本申请实施例提供了一种语音合成方法,包括:
[0007]获取身份编码,所述身份编码用于指示进行语音转换的第三方的身份;
[0008]确定待转换文本对应的各个音素的音素时长,其中,至少一个所述音素的音素时长是根据所述身份编码确定的;
[0009]根据各个所述音素的音素时长,对所述待转换文本进行转换,得到语音数据。
[0010]在第一方面的第一种可能的实现方式中,所述获取身份编码,包括:
[0011]基于预先设置的配置信息,获取所述第三方的身份签名;
[0012]从预先设置的身份签名与身份编码之间的对应关系中,查找与所述身份签名相对应的身份编码。
[0013]在第一方面的第二种可能的实现方式中,所述确定待转换文本对应的各个音素的音素时长,包括:
[0014]将所述待转换文本输入预先设置的时长模型,得到每个所述音素的初始时长;
[0015]从所述待转换文本对应的各个音素中选取至少一个目标音素;
[0016]根据所述身份编码确定每个所述目标音素的时长增量;
[0017]根据每个所述目标音素的初始时长和时长增量,确定每个所述目标音素的音素时长;
[0018]对于所述待转换文本对应的各个所述音素中除所述目标音素之外的每个音素,将所述音素的初始时长确定为所述音素的音素时长。
[0019]基于第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,每个所述目标音素的时长增量是相同的。
[0020]基于第一方面的第二种可能的实现方式,在第一方面的第四种可能的实现方式
中,所述根据所述身份编码确定每个所述目标音素的时长增量,包括:
[0021]根据所述身份编码和预先设置的增量因子确定每个所述目标音素的时长增量。
[0022]在第一方面的第五种可能的实现方式中,所述方法还包括:
[0023]获取标准语音数据和异常语音数据;
[0024]分别提取所述标准语音数据和所述异常语音数据中的各个音素;
[0025]对于所述异常语音数据中的每个音素,将所述音素与所述标准语音数据中相匹配的音素进行比较,得到所述音素对应的时长差值;
[0026]根据各个所述时长差值,确定身份签名。
[0027]基于第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述根据各个所述时长差值,确定身份签名,包括:
[0028]根据每个所述时长差值和预先设置的增量因子,确定与所述异常语音数据对应的身份编码;
[0029]根据与所述异常语音数据对应的身份编码、以及预先设置的身份签名与身份编码之间的对应关系,确定所述身份签名。
[0030]基于第一方面的第五种或第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述分别提取所述标准语音数据和所述异常语音数据中的各个音素,包括:
[0031]在所述异常语音数据为完整语音数据的情况下,分别提取所述标准语音数据和所述异常语音数据中的各个音素。
[0032]第二方面,本申请实施例提供了一种语音合成装置,包括:
[0033]第一获取模块,用于获取身份编码,所述身份编码用于指示进行语音转换的第三方的身份;
[0034]第一确定模块,用于确定待转换文本对应的各个音素的音素时长,其中,至少一个所述音素的音素时长是根据所述身份编码确定的;
[0035]转换模块,用于根据各个所述音素的音素时长,对所述待转换文本进行转换,得到语音数据。
[0036]在第二方面的第一种可能的实现方式中,所述第一获取模块,具体用于基于预先设置的配置信息,获取所述第三方的身份签名;从预先设置的身份签名与身份编码之间的对应关系中,查找与所述身份签名相对应的身份编码。
[0037]在第二方面的第二种可能的实现方式中,所述第一确定模块,具体用于将所述待转换文本输入预先设置的时长模型,得到每个所述音素的初始时长;从所述待转换文本对应的各个音素中选取至少一个目标音素;根据所述身份编码确定每个所述目标音素的时长增量;根据每个所述目标音素的初始时长和时长增量,确定每个所述目标音素的音素时长;对于所述待转换文本对应的各个所述音素中除所述目标音素之外的每个音素,将所述音素的初始时长确定为所述音素的音素时长。
[0038]基于第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,每个所述目标音素的时长增量是相同的。
[0039]基于第二方面的第二种可能的实现方式,在第二方面的第四种可能的实现方式中,所述第一确定模块,还具体用于根据所述身份编码和预先设置的增量因子确定每个所述目标音素的时长增量。
[0040]在第二方面的第五种可能的实现方式中,所述装置还包括:
[0041]第二获取模块,用于获取标准语音数据和异常语音数据;
[0042]提取模块,用于分别提取所述标准语音数据和所述异常语音数据中的各个音素;
[0043]比较模块,用于对于所述异常语音数据中的每个音素,将所述音素与所述标准语音数据中相匹配的音素进行比较,得到所述音素对应的时长差值;
[0044]第二确定模块,用于根据各个所述时长差值,确定身份签名。
[0045]基于第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述第二确定模块,具体用于根据每个所述时长差值和预先设置的增量因子,确定与所述异常语音数据对应的身份编码;根据与所述异常语音数据对应的身份编码、以及预先设置的身份签名与身份编码之间的对应关系,确定所述身份签名。
[0046]基于第二方面的第五种或第六种可能的实现方式,在第二方面的第七种可能的实现方式中,所述提取模块,具体用于在所述异常语音数据为完整语音数据的情况下,分别提取所述标准语音数据和所述异常语音数据中的各个音素。
[0047]第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的语音合成方法。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取身份编码,所述身份编码用于指示进行语音转换的第三方的身份;确定待转换文本对应的各个音素的音素时长,其中,至少一个所述音素的音素时长是根据所述身份编码确定的;根据各个所述音素的音素时长,对所述待转换文本进行转换,得到语音数据。2.如权利要求1所述的语音合成方法,其特征在于,所述获取身份编码,包括:基于预先设置的配置信息,获取所述第三方的身份签名;从预先设置的身份签名与身份编码之间的对应关系中,查找与所述身份签名相对应的身份编码。3.如权利要求1所述的语音合成方法,其特征在于,所述确定待转换文本对应的各个音素的音素时长,包括:将所述待转换文本输入预先设置的时长模型,得到每个所述音素的初始时长;从所述待转换文本对应的各个音素中选取至少一个目标音素;根据所述身份编码确定每个所述目标音素的时长增量;根据每个所述目标音素的初始时长和时长增量,确定每个所述目标音素的音素时长;对于所述待转换文本对应的各个所述音素中除所述目标音素之外的每个音素,将所述音素的初始时长确定为所述音素的音素时长。4.如权利要求3所述的语音合成方法,其特征在于,每个所述目标音素的时长增量是相同的。5.如权利要求3所述的语音合成方法,其特征在于,所述根据所述身份编码确定每个所述目标音素的时长增量,包括:根据所述身份编码和预先设置的增量因子确定每个所述目标音素的时长增量。6.如权利要求1所述的语音合成方法,其特征在于,所述方法还包括:获取标准语音数据和异常语音数据;分别提取所述标准语音数据和所述异常语音数据...

【专利技术属性】
技术研发人员:别凡虎
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1