语音模型的处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37514948 阅读:9 留言:0更新日期:2023-05-12 15:36
本申请实施例公开了一种语音模型的处理方法、装置、计算机设备及存储介质,通过非平行语音转换模型基于多个预设样本对生成转换语音后,采用指定音色语音和转换语音对预设平行语音转换模型进行预训练,从而得到一个通用的基础平行语音转换模型,后续可以根据不同用户输入的用户语音对基础平行语音转换模型进行微调,即可得到该用户语音对应的目标平行语音转换模型,以对输入的待合成语音的目标文本生成与用户语音的音色相同的合成语音,从而实现声音克隆。本申请实施例能够简化声音模型的训练步骤,提高语音克隆的效率,并且,对平行语音转换模型进行预训练,可以有效提高平行语音转换模型的鲁棒性,提高合成语音的音质及发音准确性。确性。确性。

【技术实现步骤摘要】
语音模型的处理方法、装置、计算机设备及存储介质


[0001]本申请实施例涉及信息处理
,尤其涉及一种语音模型的处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]声音克隆技术,是指机器从用户提供的语音中提取音色信息,并使用用户音色合成语音的技术。声音克隆是语音合成技术的延伸,传统的语音合成是在固定的说话人上实现文本到语音的转换,而声音克隆则对说话人音色做了进一步指定。目前,声音克隆已有不少实践场景,如语音导航、有声小说等应用中,用户可以通过上传语音来定制自己的语音包,用自己的声音导航或朗读小说,以提升使用应用程序的趣味性。
[0003]目前,用户在使用声音克隆技术进行个性化定制时,通常需要提供一段自身的语音以及语音对应的文本,才能够实现声音克隆。用户在进行录制时获取与朗读内容一致的录制声音的获取比较困难,用户提供的录制语音与该语音的朗读内容可能会存在不一致的情况,这就导致在进行声音模型训练前,需要进行清洗矫正操作。因此,导致声音模型训练的耗时长,声音克隆的效率低。

技术实现思路

[0004]本申请实施例提供一种语音模型的处理方法、装置、计算机设备及存储介质,通过非平行语音转换模型基于多个预设样本对生成转换语音,采用指定音色语音和转换语音对预设平行语音转换模型进行预训练,得到一个通用的基础平行语音转换模型,后续根据不同用户的语音对基础平行语音转换模型进行微调,即可得到用户对应的目标平行语音转换模型,能够简化声音模型的训练步骤,提高语音克隆的效率,并且,对平行语音转换模型进行预训练,可以有效提高平行语音转换模型的鲁棒性,提高合成语音的音质及发音准确性。
[0005]本申请实施例提供了一种语音模型的处理方法,该语音模型的处理方法包括:
[0006]获取多个预设样本对,其中,每一预设样本对包括一参考音色语音样本、以及一指定音色语音样本,所述指定音色语音样本的音色信息与所述参考音色语音样本的音色信息不相同;
[0007]通过非平行语音转换模型基于预设样本对的参考音色语音样本,将所述指定音色语音样本转换为参考音色下的转换语音,所述参考音色下的转换语音的文本信息与所述指定音色语音样本的文本信息一致;
[0008]获取所述指定音色语音样本的指定音色语音学特征、以及对应的参考音色下的转换语音的参考音色语音学特征;
[0009]基于所述指定音色语音学特征、所述参考音色语音学特征以及参考音色信息,对预设平行语音转换模型进行训练,得到基础平行语音转换模型,其中,所述参考音色信息为所述参考音色语音样本的音色信息;
[0010]获取目标用户的用户语音,将所述用户语音和预设音色信息输入所述非平行语音
转换模型中,生成指定音色下的语音样本,其中,所述指定音色下的语音样本的文本信息音色信息与所述用户语音的文本信息一致;
[0011]基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练,得到所述目标用户对应的目标平行语音转换模型。
[0012]相应的,本申请实施例还提供了一种语音模型的处理装置,该语音模型的处理装置包括:
[0013]第一获取单元,用于获取多个预设样本对,其中,每一预设样本对包括一参考音色语音样本、以及一指定音色语音样本,所述指定音色语音样本的音色信息与所述参考音色语音样本的音色信息不相同;
[0014]转换单元,用于通过非平行语音转换模型基于预设样本对的参考音色语音样本,将所述指定音色语音样本转换为参考音色下的转换语音,所述参考音色下的转换语音的文本信息与所述指定音色语音样本的文本信息一致;
[0015]第二获取单元,用于获取所述指定音色语音样本的指定音色语音学特征、以及对应的参考音色下的转换语音的参考音色语音学特征;
[0016]第一训练单元,用于基于所述指定音色语音学特征、所述参考音色语音学特征以及参考音色信息,对预设平行语音转换模型进行训练,得到基础平行语音转换模型,其中,所述参考音色信息为所述参考音色语音样本的音色信息;
[0017]第三获取单元,用于获取目标用户的用户语音,将所述用户语音和预设音色信息输入所述非平行语音转换模型中,生成指定音色下的语音样本,其中,所述指定音色下的语音样本的文本信息音色信息与所述用户语音的文本信息一致;
[0018]第二训练单元,用于基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练,得到所述目标用户对应的目标平行语音转换模型。
[0019]相应的,本申请实施例还提供一种计算机设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现语音模型的处理方法任一项的步骤。
[0020]相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现语音模型的处理方法任一项的步骤。
[0021]本申请实施例提供一种语音模型的处理方法、装置、计算机设备及存储介质,通过非平行语音转换模型基于多个预设样本对生成转换语音后,采用指定音色语音和转换语音对预设平行语音转换模型进行预训练,从而得到一个通用的基础平行语音转换模型,后续可以根据不同用户输入的用户语音对基础平行语音转换模型进行微调,即可得到该用户语音对应的目标平行语音转换模型,以对输入的待合成语音的目标文本生成与用户语音的音色相同的合成语音,从而实现声音克隆。本申请实施例能够简化声音模型的训练步骤,提高语音克隆的效率,并且,对平行语音转换模型进行预训练,可以有效提高平行语音转换模型的鲁棒性,提高合成语音的音质及发音准确性。
附图说明
[0022]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为本申请实施例提供的语音模型的处理系统的场景示意图。
[0024]图2为本申请实施例提供的语音模型的处理方法的一种流程示意图。
[0025]图3为本申请实施例提供的非平行语音转换模型的训练示意图。
[0026]图4为本申请实施例提供的非平行语音转换模型的使用示意图。
[0027]图5为本申请实施例提供的预设平行语音转换模型的预训练示意图。
[0028]图6为本申请实施例提供的非平行语音转换模型的应用示意图。
[0029]图7为本申请实施例提供的基础平行语音转换模型的训练示意图。
[0030]图8为本申请实施例提供的预设语音合成模型的训练示意图。
[0031]图9为本申请实施例提供的语音模型的处理方法的应用场景示意图。
[0032]图10为本申请实施例提供的语音模型的处理装置的结构示意图。
[0033]图11为本申请实施例提供的计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音模型的处理方法,其特征在于,包括:获取多个预设样本对,其中,每一预设样本对包括一参考音色语音样本、以及一指定音色语音样本,所述指定音色语音样本的音色信息与所述参考音色语音样本的音色信息不相同;通过非平行语音转换模型基于预设样本对的参考音色语音样本,将所述指定音色语音样本转换为参考音色下的转换语音,所述参考音色下的转换语音的文本信息与所述指定音色语音样本的文本信息一致;获取所述指定音色语音样本的指定音色语音学特征、以及对应的参考音色下的转换语音的参考音色语音学特征;基于所述指定音色语音学特征、所述参考音色语音学特征以及参考音色信息,对预设平行语音转换模型进行训练,得到基础平行语音转换模型,其中,所述参考音色信息为所述参考音色语音样本的音色信息;获取目标用户的用户语音,将所述用户语音和预设音色信息输入所述非平行语音转换模型中,生成指定音色下的语音样本,其中,所述指定音色下的语音样本的文本信息音色信息与所述用户语音的文本信息一致;基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练,得到所述目标用户对应的目标平行语音转换模型。2.根据权利要求1所述的语音模型的处理方法,其特征在于,在基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练,得到所述目标用户对应的目标平行语音转换模型之前,还包括:获取所述目标用户的用户语音对应的用户音色信息;基于所述用户音色信息从预设语音库中多个预设音色语音中筛选出目标音色语音,将所述目标音色语音的音色信息作为指定音色信息,其中,所述目标音色语音为音色信息与所述用户音色信息相似度最高的预设音色语音。3.根据权利要求2所述的语音模型的处理方法,其特征在于,所述基于所述用户音色信息从预设语音库中多个预设音色语音中筛选出目标音色语音,将所述目标音色语音的音色信息作为指定音色信息,包括:通过说话人识别模型基于所述用户音色信息从所述预设语音库中多个预设音色语音中筛选出目标音色语音,将所述目标音色语音的音色信息作为指定音色信息。4.根据权利要求1所述的语音模型的处理方法,其特征在于,在基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练,得到所述目标用户对应的目标平行语音转换模型之前,还包括:通过第一特征提取模块对所述用户语音进行特征提取处理,得到用户语音学特征;通过第二特征提取模块对所述指定音色下的语音样本进行特征提取处理,得到指定音色语音学特征。5.根据权利要求4所述的语音模型的处理方法,其特征在于,所述基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练,得到所述目标用户对应的目标平行语音转换模型,包括:基于所述用户语音学特征、所述指定音色语音学特征以及指定音色信息对所述基础平
行语音转换模型进行训练,得到所述目标用户对应的目标平行语音转换模型。6.根据权利要求1所述的语音模型的处理方法,其特征在于,在获取多个预设样本对之前,还包括:从预设语音库中的多个预设语音样...

【专利技术属性】
技术研发人员:詹皓粤张旸林悦
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1