语音模型的处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：37514948 阅读：19 留言：0更新日期：2023-05-12 15:36

本申请实施例公开了一种语音模型的处理方法、装置、计算机设备及存储介质，通过非平行语音转换模型基于多个预设样本对生成转换语音后，采用指定音色语音和转换语音对预设平行语音转换模型进行预训练，从而得到一个通用的基础平行语音转换模型，后续可以根据不同用户输入的用户语音对基础平行语音转换模型进行微调，即可得到该用户语音对应的目标平行语音转换模型，以对输入的待合成语音的目标文本生成与用户语音的音色相同的合成语音，从而实现声音克隆。本申请实施例能够简化声音模型的训练步骤，提高语音克隆的效率，并且，对平行语音转换模型进行预训练，可以有效提高平行语音转换模型的鲁棒性，提高合成语音的音质及发音准确性。确性。确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音模型的处理方法、装置、计算机设备及存储介质

[0001]本申请实施例涉及信息处理
，尤其涉及一种语音模型的处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]声音克隆技术，是指机器从用户提供的语音中提取音色信息，并使用用户音色合成语音的技术。声音克隆是语音合成技术的延伸，传统的语音合成是在固定的说话人上实现文本到语音的转换，而声音克隆则对说话人音色做了进一步指定。目前，声音克隆已有不少实践场景，如语音导航、有声小说等应用中，用户可以通过上传语音来定制自己的语音包，用自己的声音导航或朗读小说，以提升使用应用程序的趣味性。
[0003]目前，用户在使用声音克隆技术进行个性化定制时，通常需要提供一段自身的语音以及语音对应的文本，才能够实现声音克隆。用户在进行录制时获取与朗读内容一致的录制声音的获取比较困难，用户提供的录制语音与该语音的朗读内容可能会存在不一致的情况，这就导致在进行声音模型训练前，需要进行清洗矫正操作。因此，导致声音模型训练的耗时长，声音克隆的效率低。

技术实现思路

[0004]本申请实施例提供一种语音模型的处理方法、装置、计算机设备及存储介质，通过非平行语音转换模型基于多个预设样本对生成转换语音，采用指定音色语音和转换语音对预设平行语音转换模型进行预训练，得到一个通用的基础平行语音转换模型，后续根据不同用户的语音对基础平行语音转换模型进行微调，即可得到用户对应的目标平行语音转换模型，能够简化声音模型的训练步骤，提高语音克隆的效率，并且，对平行语音转换模型进行预训练...

【技术保护点】

【技术特征摘要】
1.一种语音模型的处理方法，其特征在于，包括：获取多个预设样本对，其中，每一预设样本对包括一参考音色语音样本、以及一指定音色语音样本，所述指定音色语音样本的音色信息与所述参考音色语音样本的音色信息不相同；通过非平行语音转换模型基于预设样本对的参考音色语音样本，将所述指定音色语音样本转换为参考音色下的转换语音，所述参考音色下的转换语音的文本信息与所述指定音色语音样本的文本信息一致；获取所述指定音色语音样本的指定音色语音学特征、以及对应的参考音色下的转换语音的参考音色语音学特征；基于所述指定音色语音学特征、所述参考音色语音学特征以及参考音色信息，对预设平行语音转换模型进行训练，得到基础平行语音转换模型，其中，所述参考音色信息为所述参考音色语音样本的音色信息；获取目标用户的用户语音，将所述用户语音和预设音色信息输入所述非平行语音转换模型中，生成指定音色下的语音样本，其中，所述指定音色下的语音样本的文本信息音色信息与所述用户语音的文本信息一致；基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练，得到所述目标用户对应的目标平行语音转换模型。2.根据权利要求1所述的语音模型的处理方法，其特征在于，在基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练，得到所述目标用户对应的目标平行语音转换模型之前，还包括：获取所述目标用户的用户语音对应的用户音色信息；基于所述用户音色信息从预设语音库中多个预设音色语音中筛选出目标音色语音，将所述目标音色语音的音色信息作为指定音色信息，其中，所述目标音色语音为音色信息与所述用户音色信息相似度最高的预设音色语音。3.根据权利要求2所述的语音模型的处理方法，其特征在于，所述基于所述用户音色信息从预设语音库中多个预设音色语音中筛选出目标音色语音，将所述目标音色语音的音色信息作为指定音色信息，包括：通过说话人识别模型基于所述用户音色信息从所述预设语音库中多个预设音色语音中筛选出目标音色语音，将所述目标音色语音的音色信息作为指定音色信息。4.根据权利要求1所述的语音模型的处理方法，其特征在于，在基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练，得到所述目标用户对应的目标平行语音转换模型之前，还包括：通过第一特征提取模块对所述用户语音进行特征提取处理，得到用户语音学特征；通过第二特征提取模块对所述指定音色下的语音样本进行特征提取处理，得到指定音色语音学特征。5.根据权利要求4所述的语音模型的处理方法，其特征在于，所述基于所述用户语音、所述指定音色下的语音样本以及指定音色信息对所述基础平行语音转换模型进行训练，得到所述目标用户对应的目标平行语音转换模型，包括：基于所述用户语音学特征、所述指定音色语音学特征以及指定音色信息对所述基础平
行语音转换模型进行训练，得到所述目标用户对应的目标平行语音转换模型。6.根据权利要求1所述的语音模型的处理方法，其特征在于，在获取多个预设样本对之前，还包括：从预设语音库中的多个预设语音样...

【专利技术属性】
技术研发人员：詹皓粤，张旸，林悦，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人