【技术实现步骤摘要】
一种基于小样本的音色转换模型训练方法及系统
[0001]本专利技术属于音频处理
,具体涉及一种基于小样本的音色转换模型训练方法及系统
。
技术介绍
[0002]随着人工智能和音频处理技术的不断发展,音色转换成为音频处理领域的重要任务之一,也是当前人工智能领域的一大热点
。
音色转换主要是通过深度学习算法训练出一个目标音色的转换模型,在输入任意源音频的声音之后,通过模型转换,在保留源音频的节奏
、
语气
、
情感等特征的前提下,实现目标音色的精准迁移
。
但音色转换技术通常依赖于大量的数据集进行模型训练,才能保证模型的准确性和泛化能力
。
然而,大量数据的采集过程繁琐耗时,并且需要大量的人力和资源
。
另外,对于一些特殊的语音样本,由于难以获取足够数量的数据而导致训练模型的困难
。
技术实现思路
[0003]本专利技术的目的是提供一种基于小样本的音色转换模型训练方法及系统,它能够有效解决小样本数据集的音色转换模型训练问题,保证模型效果
。
[0004]本专利技术的技术方案如下:一种基于小样本的音色转换模型训练方法,包括如下步骤:
[0005]步骤1:采集用户少量的语音数据;
[0006]步骤2:训练语音克隆模型;
[0007]步骤3:合成大量语音数据;
[0008]步骤4:训练音色转换模型;
[0009]步骤5:得到音色转换模型,进 ...
【技术保护点】
【技术特征摘要】
1.
一种基于小样本的音色转换模型训练方法,其特征在于,包括如下步骤:步骤1:采集用户少量的语音数据;步骤2:训练语音克隆模型;步骤3:合成大量语音数据;步骤4:训练音色转换模型;步骤5:得到音色转换模型,进行音色转换
。2.
如权利要求1所述的一种基于小样本的音色转换模型训练方法,其特征在于:所述的步骤1从用户处采集少量的语音数据,作为小样本数据集的基础;所述的用户语音数据可以是用户的语音录音或其他授权获取的语音数据
。3.
如权利要求1所述的一种基于小样本的音色转换模型训练方法,其特征在于:所述的步骤2基于步骤1中采集的少量语音数据,训练出一个该音色的语音克隆模型,所述的语音克隆模型采用的是
Fastpitch
声学模型
。4.
如权利要求3所述的一种基于小样本的音色转换模型训练方法,其特征在于,所述的具体过程如下:步骤
21
:选取一个已经达到合成效果的
1000
个
epoch
的
Fastpitch
模型作为基础模型;步骤
22
:使用步骤1中采集的语音数据,在步骤
21
中基础模型的基础上进行
finetune。5.
如权利要求1所述的一种基于小样本的音色转换模型训练方法,其特征在于:所述的步骤3通过步骤2中语音克隆模型合成出与用户音色相近的大量语音数据,合成时,首先输入文本,将文本转换为音素序列,然后通过训练好的语音克隆模型推理得到梅尔特征,再通过
HiFi
‑
GAN
声码器模型,将梅尔特征转换为语音
。6.
如权利要求1所述的一种基于小样本的音色转换模型训练方法,其特征在于:所述的步骤4将步骤3中合成的大量语音数据与步骤1中采集的小样本语音数据放到同一个数据集中,构成完整的音色转换模型训练数据集,使用该数据集训练
so
‑
vits
‑
svc
音色转换模型,首先对语音数据进行预处理,重采样...
【专利技术属性】
技术研发人员:郗文,司玉景,李全忠,蒲瑶,何国涛,
申请(专利权)人:普强时代珠海横琴信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。