一种基于小样本的音色转换模型训练方法及系统技术方案

技术编号:39644861 阅读:15 留言:0更新日期:2023-12-09 11:12
本发明专利技术属于音频处理技术领域,具体涉及一种基于小样本的音色转换模型训练方法及系统

【技术实现步骤摘要】
一种基于小样本的音色转换模型训练方法及系统


[0001]本专利技术属于音频处理
,具体涉及一种基于小样本的音色转换模型训练方法及系统


技术介绍

[0002]随着人工智能和音频处理技术的不断发展,音色转换成为音频处理领域的重要任务之一,也是当前人工智能领域的一大热点

音色转换主要是通过深度学习算法训练出一个目标音色的转换模型,在输入任意源音频的声音之后,通过模型转换,在保留源音频的节奏

语气

情感等特征的前提下,实现目标音色的精准迁移

但音色转换技术通常依赖于大量的数据集进行模型训练,才能保证模型的准确性和泛化能力

然而,大量数据的采集过程繁琐耗时,并且需要大量的人力和资源

另外,对于一些特殊的语音样本,由于难以获取足够数量的数据而导致训练模型的困难


技术实现思路

[0003]本专利技术的目的是提供一种基于小样本的音色转换模型训练方法及系统,它能够有效解决小样本数据集的音色转换模型训练问题,保证模型效果

[0004]本专利技术的技术方案如下:一种基于小样本的音色转换模型训练方法,包括如下步骤:
[0005]步骤1:采集用户少量的语音数据;
[0006]步骤2:训练语音克隆模型;
[0007]步骤3:合成大量语音数据;
[0008]步骤4:训练音色转换模型;
[0009]步骤5:得到音色转换模型,进行音色转换

[0010]所述的步骤1从用户处采集少量的语音数据,作为小样本数据集的基础;所述的用户语音数据可以是用户的语音录音或其他授权获取的语音数据

[0011]所述的步骤2基于步骤1中采集的少量语音数据,训练出一个该音色的语音克隆模型,所述的语音克隆模型采用的是
Fastpitch
声学模型框架

[0012]所述的具体过程如下:
[0013]步骤
21
:选取一个已经达到较好合成效果的
1000

epoch

Fastpitch
模型作为基础模型;
[0014]步骤
22
:使用步骤1中采集的语音数据,在步骤
21
中基础模型的基础上进行
finetune。
[0015]所述的步骤3通过步骤2中语音克隆模型合成出与用户音色相近的大量语音数据,合成时,首先输入文本,将文本转换为音素序列,然后通过训练好的语音克隆模型推理得到梅尔特征,再通过
HiFi

GAN
声码器模型,将梅尔特征转换为语音

[0016]所述的步骤4将步骤3中合成的大量语音数据与步骤1中采集的小样本语音数据放
到同一个数据集中,构成完整的音色转换模型训练数据集,使用该数据集训练
so

vits

svc
音色转换模型,首先对语音数据进行预处理,重采样至
44100Hz
单声道,划分出训练集和验证集,生成语音对应的基频数据以及模型权重数据;之后进行模型训练,通过多次迭代获得更好的效果

[0017]一种基于小样本的音色转换模型训练系统,包括语音数据采集模块,语音克隆模块,语音数据合成模块和音色转换模块

[0018]所述的语音数据采集模块,从用户处采集少量的语音数据,例如十分钟的语音数据,作为小样本数据集的基础,所述的用户语音数据可以是用户的语音录音或其他授权获取的语音数据

[0019]所述的语音克隆模块基于语音数据采集模块中采集的少量语音数据进行训练,所述的语音克隆模块采用的是
Fastpitch
声学模型框架,通过选取一个已经达到较好合成效果的
1000

epoch

Fastpitch
模型作为基础模型,使用语音数据采集模块中采集的少量语音数据,在基础模型的基础上进行
finetune。
[0020]所述的语音数据合成模块合成出与用户音色极为相近的大量语音数据,例如时长三个小时的语音数据,首先输入文本,将文本转换为音素序列,然后通过训练好的语音克隆模块推理得到梅尔特征,再通过
HiFi

GAN
声码器模型,将梅尔特征转换为语音;所述的音色转换模块将语音合成模块中合成的大量语音数据与语音数据采集模块中采集的少量语音数据放到同一个数据集中,构成完整的音色转换模的训练数据集,使用该数据集训练
so

vits

svc
音色转换模块,首先对语音数据进行预处理,重采样至
44100Hz
单声道,划分出训练集和验证集,生成语音对应的基频数据以及模型权重数据;之后进行模型训练,通过多次迭代获得更好的效果

[0021]本专利技术的有益效果在于:采用语音克隆技术合成大量的训练数据,从而解决传统方法中数据稀缺的问题:
[0022](1)
节约数据采集成本:仅需从用户处采集少量的语音数据,通过语音克隆合成技术生成大量数据,降低了数据采集的成本;
[0023](2)
解决数据稀缺问题:本专利技术的方法可以解决在特殊情况下难以获取足够数量样本数据的问题,为音色转换模型的训练提供了一种新的途径;
[0024](3)
高效训练:通过充分利用合成的大量数据,提高了模型的训练效率;
[0025](4)
高质量转换:通过使用大量数据进行训练,提高了模型的音色转换效果,获得更高质量的转换结果;
[0026](5)
提升用户体验:仅需用户录制少量的语音数据,就可以达到很好的音色转换效果

对用户而言,这种方法既方便又省时,体验感更佳

附图说明
[0027]图1为本专利技术所提供的一种基于小样本的音色转换模型训练方法的流程图

具体实施方式
[0028]下面结合附图及具体实施例对本专利技术作进一步详细说明

[0029]本专利技术提供一种基于小样本的音色转换模型训练方法,通过语音克隆方法引入少
量的用户语音数据生成大量数据,训练出用户音色的语音合成模型,合成出与用户音色极为相近的语音数据,作为音色转换模型训练数据集的扩充,以解决传统方法中数据稀缺的问题,实现在小样本数据集上高效训练音色转换模型,节约成本,并提高模型的音色转换效果

[0030]如图1所示,一种基于小样本的音色转换模型训练方法,包括如下步骤:
[0031]步骤1:采集用户少量的语音数据
[0032]从用户处采集少量的语音数据,所述的少量的语音数据为分钟量级的数据,例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于小样本的音色转换模型训练方法,其特征在于,包括如下步骤:步骤1:采集用户少量的语音数据;步骤2:训练语音克隆模型;步骤3:合成大量语音数据;步骤4:训练音色转换模型;步骤5:得到音色转换模型,进行音色转换
。2.
如权利要求1所述的一种基于小样本的音色转换模型训练方法,其特征在于:所述的步骤1从用户处采集少量的语音数据,作为小样本数据集的基础;所述的用户语音数据可以是用户的语音录音或其他授权获取的语音数据
。3.
如权利要求1所述的一种基于小样本的音色转换模型训练方法,其特征在于:所述的步骤2基于步骤1中采集的少量语音数据,训练出一个该音色的语音克隆模型,所述的语音克隆模型采用的是
Fastpitch
声学模型
。4.
如权利要求3所述的一种基于小样本的音色转换模型训练方法,其特征在于,所述的具体过程如下:步骤
21
:选取一个已经达到合成效果的
1000

epoch

Fastpitch
模型作为基础模型;步骤
22
:使用步骤1中采集的语音数据,在步骤
21
中基础模型的基础上进行
finetune。5.
如权利要求1所述的一种基于小样本的音色转换模型训练方法,其特征在于:所述的步骤3通过步骤2中语音克隆模型合成出与用户音色相近的大量语音数据,合成时,首先输入文本,将文本转换为音素序列,然后通过训练好的语音克隆模型推理得到梅尔特征,再通过
HiFi

GAN
声码器模型,将梅尔特征转换为语音
。6.
如权利要求1所述的一种基于小样本的音色转换模型训练方法,其特征在于:所述的步骤4将步骤3中合成的大量语音数据与步骤1中采集的小样本语音数据放到同一个数据集中,构成完整的音色转换模型训练数据集,使用该数据集训练
so

vits

svc
音色转换模型,首先对语音数据进行预处理,重采样...

【专利技术属性】
技术研发人员:郗文司玉景李全忠蒲瑶何国涛
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1