语音音色转换方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32830589 阅读:22 留言:0更新日期:2022-03-26 20:42
本申请涉及一种语音音色转换方法、装置、计算机设备和存储介质。所述方法包括:获取原始角色的源语音和目标角色的角色语音;确定与源语音对应的源语音内容和源语音音色,以及确定与角色语音对应的目标语音音色;过滤源语音音色中的语音特性信息,得到源基础音色;对源语音内容和源基础音色进行第一拼接处理,得到第一拼接信息,并对第一拼接信息进行编码,得到对应的编码向量序列;对编码向量序列和目标语音音色进行第二拼接处理,得到第二拼接信息,并对第二拼接信息进行解码,以将原始角色输出的源语音转换为目标角色输出的目标语音。本方法能够输出与目标音色相似度高的目标语音,达到了增强语音音色转换的效果。达到了增强语音音色转换的效果。达到了增强语音音色转换的效果。

【技术实现步骤摘要】
语音音色转换方法、装置、计算机设备和存储介质


[0001]本申请涉及语音处理
,特别是涉及一种语音音色转换方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着语音处理技术的发展,个性化的语音转换技术对于人机语音交互具有重要意义。用户通过使用语音转换设备,可将原始角色的音色转变为个性化的影视、动漫角色的音色,而原始角色的说话内容不发生改变。
[0003]目前,对原始角色的音色进行个性化转换时,仍然存在着输出音色的转换音质差、与目标音色的相似度不高的问题。因此,如何高效地进行语音音色转换,提高语音音色转换效果,是本公开需要解决的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种提高语音音色转换效果的语音音色转换方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种语音音色转换方法。所述方法包括:
[0006]获取原始角色的源语音和目标角色的角色语音;
[0007]确定与所述源语音对应的源语音内容和源语音音色,以及确定与所述角色语音对应的目标语音音色;
[0008]过滤所述源语音音色中的语音特性信息,得到源基础音色;
[0009]对所述源语音内容和所述源基础音色进行第一拼接处理,得到第一拼接信息,并对所述第一拼接信息进行编码,得到对应的编码向量序列;
[0010]对所述编码向量序列和所述目标语音音色进行第二拼接处理,得到第二拼接信息,并对所述第二拼接信息进行解码,以将所述原始角色输出的源语音转换为所述目标角色输出的目标语音。
[0011]在其中一个实施例中,所述确定与所述源语音对应的源语音内容和源语音音色,包括:对所述源语音进行特征提取处理,得到声学特征和源语音音色;确定所述声学特征中包括的音素类别;确定每个音素各自对应的音素后验概率;根据所述音素类别和音素后验概率,得到所述源语音对应的源语音内容。
[0012]在其中一个实施例中,确定与所述角色语音对应的目标语音音色,包括:对所述角色语音进行特征提取处理,得到角色语音音色;通过对所述角色语音音色的特征矩阵进行对数转换,得到所述角色语音音色对应的目标语音音色。
[0013]在其中一个实施例中,所述过滤所述源语音音色中的语音特性信息,得到源基础音色,包括:确定所述源语音的声学特征中的语音特征点,并确定所述源语音音色中与所述语音特征点对应的语音特性信息;所述语音特征点表征源语音的口音特征;根据所述语音特性信息,对所述源语音音色进行归一化处理,得到所述源语音对应的源基础音色。
[0014]在其中一个实施例中,所述语音音色转换方法由语音音色转换模型执行,所述语音音色转换模型包括编码网络,所述对所述第一拼接信息进行编码,得到对应的编码向量序列,包括:通过所述语音音色转换模型中的编码网络,对所述第一拼接信息中的源语音内容进行编码,得到第一源编码向量;通过所述语音音色转换模型中的编码网络,对所述第一拼接信息中的源基础音色进行编码,得到第二源编码向量;根据所述第一源编码向量和所述第二源编码向量、以及所述源语音内容和所述源基础音色在所述第一拼接信息中的位置信息,得到所述源语音对应的编码向量序列。
[0015]在其中一个实施例中,所述对所述编码向量序列和所述目标语音音色进行第二拼接处理,得到第二拼接信息,包括:通过所述语音音色转换模型中的编码网络,对所述目标语音音色进行编码,得到所述目标语音音色对应的第二目标编码向量;通过所述目标语音音色对应的第二目标编码向量,对所述编码向量序列中的第二源编码向量进行替换,得到所述角色语音对应的第二拼接信息。
[0016]在其中一个实施例中,所述目标角色的角色语音条数为小于或等于预设数量阈值。
[0017]在其中一个实施例中,所述语音音色转换方法由语音音色转换模型执行,所述语音音色转换模型的训练步骤,包括:获取第一样本语音集合和第二样本语音集合;所述第一样本语音集合中包括有多条第一样本语音,所述第二样本语音集合包括有每个样本角色各自对应的至少一条第二样本语音、以及每个所述第二样本语音各自对应的样本标签;通过所述语音音色模型中的内容提取结构,确定所述第一样本语音中的每个音素各自对应的音素后验概率,并通过所述音素后验概率对所述内容提取结构进行训练,得到训练好的内容提取结构;确定所述第二样本语音的样本语音音色;通过训练好的所述内容提取结构,确定所述第二样本语音中的每个音素各自对应的音素后验概率;通过所述语音音色模型中的音色提取结构,对所述第二样本语音中的每个音素后验概率、第二样本语音音色进行编解码处理,得到预测语音音色;通过所述预测语音音色和所述样本标签,对所述音色提取结构进行训练,得到训练好的音色提取结构,综合训练好的所述内容提取结构和所述音色提取结构,得到语音音色模型。
[0018]第二方面,本申请还提供了一种语音音色转换装置。所述装置包括:
[0019]语音获取模块,用于获取原始角色的源语音和目标角色的角色语音;
[0020]语音处理模块,用于确定与所述源语音对应的源语音内容和源语音音色,以及确定与所述角色语音对应的目标语音音色;过滤所述源语音音色中的语音特性信息,得到源基础音色;
[0021]第一拼接模块,用于对所述源语音内容和所述源基础音色进行第一拼接处理,得到第一拼接信息,并对所述第一拼接信息进行编码,得到对应的编码向量序列;
[0022]第二拼接模块,用于对所述编码向量序列和所述目标语音音色进行第二拼接处理,得到第二拼接信息,并对所述第二拼接信息进行解码,以将所述原始角色输出的源语音转换为所述目标角色输出的目标语音。
[0023]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0024]获取原始角色的源语音和目标角色的角色语音;
[0025]确定与所述源语音对应的源语音内容和源语音音色,以及确定与所述角色语音对应的目标语音音色;
[0026]过滤所述源语音音色中的语音特性信息,得到源基础音色;
[0027]对所述源语音内容和所述源基础音色进行第一拼接处理,得到第一拼接信息,并对所述第一拼接信息进行编码,得到对应的编码向量序列;
[0028]对所述编码向量序列和所述目标语音音色进行第二拼接处理,得到第二拼接信息,并对所述第二拼接信息进行解码,以将所述原始角色输出的源语音转换为所述目标角色输出的目标语音。
[0029]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0030]获取原始角色的源语音和目标角色的角色语音;
[0031]确定与所述源语音对应的源语音内容和源语音音色,以及确定与所述角色语音对应的目标语音音色;
[0032]过滤所述源语音音色中的语音特性信息,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音音色转换方法,其特征在于,所述方法包括:获取原始角色的源语音和目标角色的角色语音;确定与所述源语音对应的源语音内容和源语音音色,以及确定与所述角色语音对应的目标语音音色;过滤所述源语音音色中的语音特性信息,得到源基础音色;对所述源语音内容和所述源基础音色进行第一拼接处理,得到第一拼接信息,并对所述第一拼接信息进行编码,得到对应的编码向量序列;对所述编码向量序列和所述目标语音音色进行第二拼接处理,得到第二拼接信息,并对所述第二拼接信息进行解码,以将所述原始角色输出的源语音转换为所述目标角色输出的目标语音。2.根据权利要求1所述的方法,其特征在于,所述确定与所述源语音对应的源语音内容和源语音音色,包括:对所述源语音进行特征提取处理,得到声学特征和源语音音色;确定所述声学特征中包括的音素类别;确定每个音素各自对应的音素后验概率;根据所述音素类别和音素后验概率,得到所述源语音对应的源语音内容。3.根据权利要求1所述的方法,其特征在于,所述过滤所述源语音音色中的语音特性信息,得到源基础音色,包括:确定所述源语音的声学特征中的语音特征点,并确定所述源语音音色中与所述语音特征点对应的语音特性信息;所述语音特征点表征源语音的口音特征;根据所述语音特性信息,对所述源语音音色进行归一化处理,得到所述源语音对应的源基础音色。4.根据权利要求1所述的方法,其特征在于,所述语音音色转换方法由语音音色转换模型执行,所述语音音色转换模型包括编码网络,所述对所述第一拼接信息进行编码,得到对应的编码向量序列,包括:通过所述语音音色转换模型中的编码网络,对所述第一拼接信息中的源语音内容进行编码,得到第一源编码向量;通过所述语音音色转换模型中的编码网络,对所述第一拼接信息中的源基础音色进行编码,得到第二源编码向量;根据所述第一源编码向量和所述第二源编码向量、以及所述源语音内容和所述源基础音色在所述第一拼接信息中的位置信息,得到所述源语音对应的编码向量序列。5.根据权利要求4所述的方法,其特征在于,所述对所述编码向量序列和所述目标语音音色进行第二拼接处理,得到第二拼接信息,包括:通过所述语音音色转换模型中的编码网络,对所述目标语音音色进行编码,得到所述目标语音音色对应的第二目标编码向量;通过所述目标语音音色对应的第二目标编码向量,对所述编码向量序列中的第二源编码向量进行替换,得到所述角色语音对应的第二拼接信息。6....

【专利技术属性】
技术研发人员:崔洋洋余俊澎
申请(专利权)人:游密科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1