本发明专利技术公开了一种流式的小样本数据音色转换方法、系统,属于语音合成技术领域。包括:收集不同说话人的音频数据样本;利用音频数据样本对基于声纹模型的音色转换网络进行预训练,所述的音色转换网络分别提取音频的语义特征和含音色信息的声纹特征,两者以相互独立的方式输入到声学模型中,将声纹特征中的音色信息逐步迁移至语义特征中,生成梅尔频谱图;采用目标说话人的音频数据微调音色转换网络,在所述的微调过程中,仅训练音色编码器参数,其余参数冻结;利用微调后的音色转换网络对音频进行目标说话人音色转换。本发明专利技术可以实现小样本数据音色转换,以微调方式降低过拟合程度,但不会降低生成音频的质量。但不会降低生成音频的质量。但不会降低生成音频的质量。
【技术实现步骤摘要】
一种流式的小样本数据音色转换方法、系统
[0001]本专利技术属于语音合成
,尤其涉及一种流式的小样本数据音色转换方法、系统。
技术介绍
[0002]音色转换(Voice Conversion)的任务是输入一段声音,输出另外一段声音,一般我们希望保留声音的内容,但音色要变换成另一个人的音色,就像变声器一样。音色转换基于可以转换音色的特性可以满足各种场景下的变声。例如在多媒体领域的电影配音中,工作人员要给不同的角色反复配音,这样会产生巨大的工作量。可以用音色转换技术减少配音的工作量,节省时间和成本。同时声音转化还可以进行声音的伪装,在公安系统中有时发布信息为了保护说话人的隐私,可以使用音色转换技术对说话人的声音进行改变后再发布。总的来说音色转换技术是对语音的处理和合成的延伸和发展,在语音
有着极其重要的地位。
[0003]音色转换在自监督的领域有很多的研究。例如soft
‑
vc方法包含内容提取、声学模型、声码器三个部分,其中内容提取主要是从音频中提取特征,声学模型将提取的特征合成梅尔频谱图,声码器将梅尔频谱图生成音频。训练采用自监督的方式进行训练。
[0004]传统的音色转换方法为了训练一个好的声学模型通常需要目标说话人的长时间的音频数据,当数据变量变少时很难保障有同样好的效果,同时音色转换的实时性有待提高。
技术实现思路
[0005]为了解决现有的音色转换方法在少量音频数据下容易过拟合、以及难以实时生成目标音色音频的问题,本专利技术提出了一种流式的小样本数据音色转换方法、系统。
[0006]为了实现上述目的,本专利技术采用的技术方案如下:
[0007]第一方面,本专利技术提供了一种流式的小样本数据音色转换方法,包括:
[0008]收集不同说话人的音频数据样本;
[0009]利用音频数据样本对基于声纹模型的音色转换网络进行预训练,所述的音色转换网络分别提取音频的语义特征和含音色信息的声纹特征,两者以相互独立的方式输入到声学模型中,将声纹特征中的音色信息逐步迁移至语义特征中,生成梅尔频谱图;
[0010]采用目标说话人的音频数据微调音色转换网络,在所述的微调过程中,仅训练音色编码器参数,其余参数冻结;
[0011]利用微调后的音色转换网络对音频进行目标说话人音色转换。
[0012]进一步地,所述的音色转换网络除声纹模型外,还包括预训练声纹特征提取器、音色编码器、语义特征编码器、自适应池化层;通过预训练声纹特征提取器提取音频的声纹相关特征,再经音色编码器编码为含音色信息的维度为N*Dim的声纹特征,Dim表示声纹特征中每一行的特征长度;同时,通过语义特征编码器提取音频的语义特征,再经自适应池化层
将语义特征转换为与输入音频的梅尔频谱图相同的尺寸。
[0013]进一步地,所述的预训练声纹特征提取器采用声纹识别模型的特征提取部分。
[0014]进一步地,所述的声纹模型包含N个下采样块和N个上采样块,在下采样块中依次对输入的语义特征进行编码,在上采样块中,将声纹特征中的音色信息逐步迁移至下采样后的语义特征中。
[0015]进一步地,所述的下采样块包括第一卷积、下采样层、激活函数、第二卷积、激活函数;第一个下采样块的输入为待转换音频的梅尔频谱图,前一个下采样块的输出特征图作为后一个下采样块的输入特征图,每一个下采样块仅对输入特征的第一维度进行下采样,时间维度保持不变。
[0016]进一步地,所述的上采样块包括第三卷积、instancenorm层、上采样层、融合层、激活函数、第四卷积、激活函数;第一个上采样块的输入特征图为最后一个下采样块的输出特征图,前一个上采样块的输出特征图作为后一个上采样块的输入特征图;
[0017]第i个上采样块的计算过程为:接收输入特征图x
i
和含音色信息的声纹特征y
i
,其中y
i
为声纹特征的第i行;特征图x
i
分别经过第三卷积、instancenorm层、上采样层处理后,去除输入特征图的均值和方差,记结果为x
i
’
;声纹特征y
i
一分为二,表示为均值v和方差u,通过融合层将均值V和方差u插入到特征图x
i
’
中,得到新的特征图x
i”=u*x
i
’
+v,实现音色信息与x
i
’
的结合;之后再依次经过激活函数、第四卷积、激活函数得到第i个上采样块的输出特征图x
i+1
。
[0018]进一步地,所述的音色编码器采用一维卷积残差网络。
[0019]第二方面,本专利技术提供了一种流式的小样本数据音色转换系统,包括:
[0020]音频获取模块,其用于收集不同说话人的音频数据样本;
[0021]预训练模块,其用于利用音频数据样本对基于声纹模型的音色转换网络进行预训练,所述的音色转换网络分别提取音频的语义特征和含音色信息的声纹特征,两者以相互独立的方式输入到声学模型中,将声纹特征中的音色信息逐步迁移至语义特征中,生成梅尔频谱图;
[0022]微调模块,其用于采用目标说话人的音频数据微调音色转换网络,在所述的微调过程中,仅训练音色编码器参数,其余参数冻结;
[0023]音色转换模块,其用于利用微调后的音色转换网络对音频进行目标说话人音色转换,将声纹模型生成的梅尔频谱图经声码器转化成音频。
[0024]第三方面,本专利技术提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的流式的小样本数据音色转换方法。
[0025]第四方面,本专利技术提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,用于实现上述的流式的小样本数据音色转换方法。
[0026]本专利技术具有的有益效果是:
[0027](1)本专利技术引入声纹识别模型,使得训练数据不仅局限于单人音频数据,使得音色转换模型能够在大量的音频数据上进行预训练,增强了模型音频转换的泛化性;在训练过程中,在使用大量数据预训练后再在目标说话人的小数据集上微调即可。
[0028](2)本专利技术将特征抽取得到的语义信息和音色信息以相互独立的方式输入到声学模型中去生成梅尔频谱图,在微调过程中冻结声学模型,仅训练用于将声学识别模型提取的特征部分进行编码的音色编码器,减少了模型训练的参数,进一步降低微调过程中的过拟合程度,且不会降低生成音频的质量。
[0029](3)本专利技术构建的音色转换模型全部采用卷积的结构,让模型在推理生成转换的音频时速度更快,并且可通过设计模型参数使其具有更小的感受野,基于卷积的平移不变性,通过将待转换的音频切片即可实现流式的生成音频。
附图说明
[0030]图1是本专利技术实施例示出的一种流式的小样本数据音色转本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种流式的小样本数据音色转换方法,其特征在于,包括:收集不同说话人的音频数据样本;利用音频数据样本对基于声纹模型的音色转换网络进行预训练,所述的音色转换网络分别提取音频的语义特征和含音色信息的声纹特征,两者以相互独立的方式输入到声学模型中,将声纹特征中的音色信息逐步迁移至语义特征中,生成梅尔频谱图;采用目标说话人的音频数据微调音色转换网络,在所述的微调过程中,仅训练音色编码器参数,其余参数冻结;利用微调后的音色转换网络对音频进行目标说话人音色转换。2.根据权利要求1所述的一种流式的小样本数据音色转换方法,其特征在于,所述的音色转换网络除声纹模型外,还包括预训练声纹特征提取器、音色编码器、语义特征编码器、自适应池化层;通过预训练声纹特征提取器提取音频的声纹相关特征,再经音色编码器编码为含音色信息的维度为N*Dim的声纹特征;同时,通过语义特征编码器提取音频的语义特征,再经自适应池化层将语义特征转换为与输入音频的梅尔频谱图相同的尺寸。3.根据权利要求2所述的一种流式的小样本数据音色转换方法,其特征在于,所述的预训练声纹特征提取器采用声纹识别模型的特征提取部分。4.根据权利要求1或2所述的一种流式的小样本数据音色转换方法,其特征在于,所述的声纹模型包含N个下采样块和N个上采样块,在下采样块中依次对输入的语义特征进行编码,在上采样块中,将声纹特征中的音色信息逐步迁移至下采样后的语义特征中。5.根据权利要求4所述的一种流式的小样本数据音色转换方法,其特征在于,所述的下采样块包括第一卷积、下采样层、激活函数、第二卷积、激活函数;第一个下采样块的输入为待转换音频的梅尔频谱图,前一个下采样块的输出特征图作为后一个下采样块的输入特征图,每一个下采样块仅对输入特征的第一维度进行下采样,时间维度保持不变。6.根据权利要求4所述的一种流式的小样本数据音色转换方法,其特征在于,所述的上采样块包括第三卷积、instancenorm层、上采样层、融合层、激活函数、第四卷积、激活函数;第一个上采样块的输入特征图为最后一个下采样块的输出特征图,前一个上采样块的输出特征图作为后一个上采样块的输入特征图;第i个上采样块的计算过程为:接收输入特征图x
【专利技术属性】
技术研发人员:张涛,姜兴华,黄灏,
申请(专利权)人:杭州一知智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。