一种语音音色转换方法、装置及计算机可读存储介质制造方法及图纸

技术编号:36294467 阅读:17 留言:0更新日期:2023-01-13 10:08
本申请涉及语音处理领域,尤其涉及一种语音音色转换方法、装置及计算机可读存储介质。该方法包括:获取第一音频对应的第一频谱。从音色库提取第一音色特征参量,其中,所述音色库中包括多个预置的音色特征参量。通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱。根据所述第二频谱确定出所述第一音色特征参量对应的第一音色的第二音频。采用本申请提供的方法,可实现语音音色的实时转换,提高语音音色转换的效率。率。率。

【技术实现步骤摘要】
一种语音音色转换方法、装置及计算机可读存储介质


[0001]本专利技术涉及语音处理领域,尤其涉及一种语音音色转换方法、装置及计算机可读存储介质。

技术介绍

[0002]随着科学技术的迅速发展,语音音色转换技术也得到了飞速发展。语音音色转换是指在保持语言内容不变的情况下,将语音的原始说话人的音色转换为目标说话人的音色。语音音色转换在视频变声、视频配音、人机交互等领域发挥着重要作用。
[0003]然而,现有的语音音色转换方案中,需要用户录制的较长时间的语音语料并且保证朗读内容的准确性,才能通过训练神经网络语音合成系统中的语音合成模型,获得自己专属定制音色,这导致用户需要花费较多时间来提供语音语料,从而用户体验较差。因此,如何快速便捷的实现语音音色实时转换成已经为亟待解决的技术问题之一。

技术实现思路

[0004]本申请实施例所要解决的技术问题在于现有的语音音色转换方案中,需要用户提供大量的语音语料并且还要保证语音内容的准确性,这导致用户花费时间较多,体验较差。
[0005]第一方面,本申请实施例提供了一种语音音色转换方法。该方法包括:获取第一音频对应的第一频谱。从音色库提取第一音色特征参量,其中,所述音色库中包括多个预置的音色特征参量。通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱。根据所述第二频谱确定出所述第一音色特征参量对应的第一音色的第二音频。
[0006]在本申请实施例中,从音色库中直接提取第一音色特征参量,并通过预设的音色转换模型实现将第一音频转换为第一音色特征参量对应的第一音色的第二音频。因此,本申请实施例提供的语音音色转换方法,从音色库中直接提取目标音色特征参量,不需要用户花费大量时间提供精准的语音语料来提取用户的音色特征,进而实现音色转换,从而节约时间,调高语音音色转换效率,提升用户体验。
[0007]结合第一方面,在一种可行的实现方式中,所述第一频谱包括N个第一子频谱,所述第二频谱包括N

1个第二子频谱,其中,N为大于或者等于2的正整数。所述通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱,包括:对所述N个第一子频谱i和第一子频谱j进行一下频谱合成操作:根据所述第一子频谱i和所述第一子频谱j确定出第一中间频谱k。通过预设的音色转换模型来根据所述第一音色特征参量和所述第一子中间频谱k确定出一个第二子频谱。根据对所述N个第一子频谱中各相邻的两个第一子频谱执行所述频谱合成操作的结果确定出所述N

1个第二子频谱。
[0008]结合第一方面,在一种可行的实现方式中,所述根据所述第一子频谱i和所述第一子频谱j确定出第一中间频谱k,包括:根据预设的第一截取偏移量对所述第一子频谱i进行频谱截取以得到第一子中间频谱k1。根据所述预设的第二截取偏移量对所述第一子频谱j
进行频谱截取以得到第一子中间频谱k2。对所述第一子中间频谱k1和所述第一子中间频谱k2进行频谱合并以得到第一中间频谱k。
[0009]结合第一方面,在一种可行的实现方式中,所述根据预设的第一截取偏移量对所述第一子频谱i进行截取以得到第一子中间频谱k1,包括:获取所述第一子频谱i的终止时刻和第一中心时刻。根据所述第一中心时刻和所述预设的第一截取偏移量确定出第一中间时刻t1,其中,所述第一中间时刻t1在所述第一中心时刻之前且所述第一中心时刻与所述第一中间时刻t1的差值为所述第一截取偏移量。根据所述第一中间时刻t1和所述终止时刻在所述第一子频谱i中确定出所述第一子中间频谱k1。
[0010]结合第一方面,在一种可行的实现方式中,所述根据预设的第二截取偏移量对所述第一子频谱j进行截取以得到第一子中间频谱k2,包括:获取所述第一子频谱j的起始时刻和第二中心时刻。根据所述第二中心时刻和所述预设的第二截取偏移量确定出第一中间时刻t2,其中,所述第一中间时刻t2在所述第二中心时刻之后且所述第一中间时刻t2与所述第二中心时刻的差值为所述第二截取偏移量。根据所述起始时刻和所说第一中间时刻t2在所述第一子频谱j中确定出所述第一子中间频谱k2。
[0011]结合第一方面,在一种可行的实现方式中,所述根据所述第二频谱确定出所述第一音色特征参量对应的第一音色的第二音频,包括:对所述N

1个第二子频谱中任一第二子频谱m执行以下音频片段还原操作:通过预设的声码器模型对所述第二子频谱m进行处理以得到对应的中间音频片段。根据预设的第三截取偏移量对所述中间音频片段进行音频截取以得到目标音频片段。根据对所述N

1个第二子频谱中各第二子频谱执行所述音频片段还原操作得到的N

1个目标音频片段确定出所述第一音色特征参量对应的第一音色的第二音频。
[0012]结合第一方面,在一种可行的实现方式中,所述根据预设的第三截取偏移量对所述中间音频片段进行截取以得到目标音频片段,包括:获取所述中间音频片段的起始时刻和终止时刻。根据所述预设的第三截取偏移量确定出第一时刻和第二时刻,其中,所述第一时刻与所述起始时刻的差值为所述第三截取偏移量,所述终止时刻与所述第二时刻的差值为所述第三截取偏移量。根据所述第一时刻和所述第二时刻在所述中间音频片段中确定出所述目标音频片段。
[0013]结合第一方面,在一种可行的实现方式中,所述方法还包括:获取第三音频对应的第三频谱。通过预设的音色特征模型来根据所述第三频谱获取第三音频对应的音色特征参量,并将所述第三音频对应的音色特征参量保存至所述音色库。
[0014]结合第一方面,在一种可行的实现方式中,所述获取第一音频给的第一频谱,包括:获取第一音频,并对所述第一音频进行音频分段以得到N个源音频片段。获取所述N个源音频片段对应的N个第一子频谱,并将所述N个第一子频谱确定为所述第一频谱。
[0015]结合第一方面,在一种可行的实现方式中,所述获取第一音频,包括:获取文本信息。根据所述文本信息转换得到所述第一音频。
[0016]第二方面,本申请实施例提供了一种语音音色转换装置。该装置包括:获取单元,用于获取第一音频对应的第一频谱。提取单元,用于从音色库提取第一音色特征参量,其中,所述音色库中包括多个预置的音色特征参量。处理单元,用于通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱。处理单元,用于根据所述
第二频谱确定出所述第一音色特征参量对应的第一音色的第二音频。
[0017]结合第二方面,在一种可行的实现方式中,所述第一频谱包括N个第一子频谱,所述第二频谱包括N

1个第二子频谱,其中,N为大于或者等于2的正整数。处理单元,用于对所述N个第一子频谱中任意两个相邻的第一子频谱i和第一子频谱j进行以下频谱合成操作,具体操作内容:处理单元,用于根据所述第一子频谱i和所述第一子频谱j确定出第一中间频谱k。处理单元,用于通过预设的音色转换模型来根据所述第一音色特征参量和所述第一中间频谱k确定出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音音色转换方法,其特征在于,包括:获取第一音频对应的第一频谱;从音色库提取第一音色特征参量,其中,所述音色库中包括多个预置的音色特征参量;通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱;根据所述第二频谱确定出所述第一音色特征参量对应的第一音色的第二音频。2.根据权利要求1所述的方法,其特征在于,所述第一频谱包括N个第一子频谱,所述第二频谱包括N

1个第二子频谱,其中,N为大于或者等于2的正整数;所述通过预设的音色转换模型来根据所述第一频谱和所述第一音色特征参量确定出第二频谱,包括:对所述N个第一子频谱中任意两个相邻的第一子频谱i和第一子频谱j进行以下频谱合成操作:根据所述第一子频谱i和所述第一子频谱j确定出第一中间频谱k;通过预设的音色转换模型来根据所述第一音色特征参量和所述第一中间频谱k确定出一个第二子频谱;根据对所述N个第一子频谱中各相邻的两个第一子频谱执行所述频谱合成操作的结果确定出所述N

1个第二子频谱。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一子频谱i和所述第一子频谱j确定出第一中间频谱k,包括:根据预设的第一截取偏移量对所述第一子频谱i进行频谱截取以得到第一子中间频谱k1;根据所述预设的第二截取偏移量对所述第一子频谱j进行频谱截取以得到第一子中间频谱k2;对所述第一子中间频谱k1和所述第一子中间频谱k2进行频谱合并以得到第一中间频谱k。4.根据权利要求3所述的方法,其特征在于,所述根据预设的第一截取偏移量对所述第一子频谱i进行截取以得到第一子中间频谱k1,包括:获取所述第一子频谱i的终止时刻和第一中心时刻;根据所述第一中心时刻和所述预设的第一截取偏移量确定出第一中间时刻t1,其中,所述第一中间时刻t1在所述第一中心时刻之前且所述第一中心时刻与所述第一中间时刻t1的差值为所述第一截取偏移量;根据所述第一中间时刻t1和所述终止时刻从所述第一子频谱i中截取出所述第一子中间频谱k1。5.根据权利要求3或4所述的方法,其特征在于,所述根据所述预设的第二截取偏移量对所述第一子频谱j进行截取以得到第一子中间频谱k2,包括:获取所述第一子频谱j的起始时刻和第二中心时刻;根据...

【专利技术属性】
技术研发人员:詹维典林昊徐伟王启腾梁万山纳颖泉
申请(专利权)人:招联消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1